您可能已经听说过最近的存储中断,影响了美国东部地区在3月16日的一些情况。 停电的根本原因分析在这里张贴。
客户影响:在美国东部地区使用Storage的客户的一小部分可能在单个存储量表单元访问其存储帐户时遇到错误和超时
您可能会问:“什么是单个存储量表单元”。 那么,你可以把它看成一个单一的存储集群,或是一个SAN,或者你想要考虑它。 我不认为Azure发布其精确的基础架构,但是您可以假设幕后使用的是扩展文件服务器来进行后端存储。
所以问题是,如何以最短的停机时间在这种停电中幸存下来?如果你进一步阅读根本原因分析,你会遇到这个小块。
在可用性集中使用托管磁盘的虚拟机将在此事件期间保持可用性。
什么是托管磁盘你问?那么就在2月8日,科里·桑德斯(Corey Sanders)宣布管理磁盘阵列。 您可以在这里阅读有关托管磁盘的所有信息。 https://azure.microsoft.com/en-us/services/managed-disks/
托管磁盘有助于中断这一原因是通过利用可用性集合与托管磁盘组合,您可以确保可用性集中的每个实例都连接到不同的“存储量表单元”。 因此,在这种特殊情况下,只有一个集群节点将失败,剩下的节点才能接管工作负载。
在托管磁盘可用之前(任何部署在2/8/2016之前),没有办法确保连接到您的服务器的存储位于不同的存储容量单位上。 当然,您可以为每个实例使用不同的存储帐户,但实际上并不能保证这些存储帐户在不同的存储量表单元上配置存储。
因此,当可用性集确保您的实例驻留在不同的故障域和更新域中以确保实例本身的可用性时,附加到每个实例的额外存储确实代表了单点故障。 虽然存储本身具有高度的灵活性,但可以使用三个数据副本和地理冗余选项,在这种情况下,电源故障,整个存储量表单元与连接的所有服务器一起下降。
这么长的故事简短…尽快迁移到托管磁盘,以帮助最小化停机时间
如果您真的想减少停机时间,那么您应该考虑跨云提供商的混合云部署或云计算的一体机。