Azure Outage Post-Mortem第1部分 - SIOS SANless clusters

Date: 11月 6, 2018

Azure Outage Post-Mortem

关于上周发生的Azure Outage，第一次官方Post-Mortems开始出现在微软上面。第一个Azure Outage Post-Mortem专门解决Azure DevOps中断问题（以前称为Visual Studio Team Service或VSTS）。它为我们提供了一些关于中断的广度和深度的额外见解。它证实了停电的原因。它还让我们深入了解了微软在快速恢复在线状态时所面临的挑战。此外，它暗示了微软可能会考虑在未来更好地处理这种情况的一些特性/功能。正如我在上一篇文章中提到的，Azure中推出的新可用区等功能可能会最大限度地减少此次中断的影响。在验尸中，微软确认了我之前所说的内容。

我们正在努力改进处理数据中心故障的主要解决方案是可用区，我们正在探索异步复制的可行性。

其他预防措施

在可用区域跨越更多区域推出唯一的灾难恢复选项之前，您需要跨区域，混合云甚至跨云异步复制。目前可用的基于软件的#SANless群集解决方案将实现此类配置。提供非常强大的RTO和RPO，即使在复制很远的距离时也是如此。借助SaaS / PaaS解决方案，您可以依靠云服务提供商（CSP）来实施具有铁的HA / DR解决方案。在这种情况下，似乎有一个非常重要的缺陷暴露。我们只能希望它能引导所有CSP仔细研究他们的SaaS / PaaS产品。以及解决可能存在的任何HA / DR差距。在此之前，消费者有责任了解风险。他们需要尽其所能来降低延长中断的风险，或者只是在风险得到解决之前选择不使用PaaS / SaaS。

RTO还是RPO？

验尸确实是问题的根源……你更重视什么，RTO或RPO？

我从根本上不想为客户决定是否接受数据丢失。我有客户告诉我他们会花费数据丢失来让一个大型团队再次快速生产，其他客户告诉我他们不希望任何数据丢失，并且等待恢复时间不长。

CSP不可能为客户做出决定。CSP不希望丢失客户数据，除非原始数据完全丢失且无法恢复。在这种情况下，近乎实时的异步副本与您在意外故障中获得的RPO一样好。然而，这次停电是否真的出乎意料而且没有任何警告？现代卫星图像和天气预报的改进给予了公平的警告，该地区将发生重大的天气相关事件。当我写这篇文章时，飓风佛罗伦萨正在美国东南部。如果数据中心位于路径中，请采取主动措施将工作负载移出受影响的区域。主动灾难恢复与反应式灾难恢复的好处很多。没有数据丢失，有足够的时间来解决意外问题。它还包括管理人力资源，使员工可以担心照顾家人，而不是工作。同样，制定主动的灾难恢复将是CSP代表其所有客户做出的艰难决定。跨地区的计划迁移将导致一定程度的停机。这个决定必须由客户掌握。从Azure Outage Post-Mortem中吸取教训，教育您的客户。

Slide 2.png — 飓风佛罗伦萨卫星图像取自新的GOES-16卫星，由Tropical Tidbits提供

得到保护

那么您可以做些什么来保护您的业务关键应用程序和数据？让我们从Azure Outage Post-Mortem中汲取一些教训。采用基于软件的#SANless集群解决方案的跨区域，跨云或混合云模型将大大有助于解决您的HA / DR问题。此外，它还为基于云的IaaS部署提供了出色的RTO和RPO。除应用程序特定解决方案外，还有其他选项。基于软件的块级卷复制解决方案（如SIOS DataKeeper和SIOS Protection Suite）可复制所有数据，并为Linux和Windows平台提供数据保护解决方案。我的大儿子刚刚在罗格斯大学开始他的气象学本科学位。想象一下，人工智能（AI）和机器学习（ML）处理来自NOAA的天气相关数据的那一天。他们可以在暴风雨袭击前两天触发计划的灾难恢复迁移？我想我刚刚为他的硕士论文找到了一个完美的主题。或者更好的是，让他和他在WeatherWatcher LLC的聪明的朋友获得资金，为一家技术创业公司应用AI和ML来安排相关数据以控制主动灾难恢复事件。我认为我们正处于IT分析解决方案的尖端。我们可以应用先进的机器学习技术来减少确保关键应用程序服务交付的时间和精力。 SIOS iQ是该领域领先的解决方案之一。压扁舱口并做好准备。飓风季刚刚开始，我们已经开始疯狂骑行了。如果您想在Twitter @daveberm上讨论您的HA / DR策略，请与我联系。