蔚蓝的停电验尸 Archives - SIOS SANless clusters

结束Azure Outage Post-Mortem第3部分

我以前的博客帖子，Azure Outage Post-Mortem – 第1部分和Azure Outage Post-Mortem第2部分，基于来自博客帖子和Twitter的有限信息做出了一些假设。我刚刚参加了Ignite的一次会议，它更明确地说明了实际发生的事情。明天某个时候你应该能够自己查看会话。BRK3075 – 为意外做准备：解决Azure中断官方根本原因分析即将发布。与此同时，这里有一些从会话中收集到的信息。

原因

从死后的蔚蓝停电中，停电不是由先前报道的雷击引起的。相反，由于风暴的性质，电风暴下陷和膨胀。结果，它锁定了第一个数据中心的^冷水机组。在第一次停电期间，他们能够快速恢复冷却器，没有明显的影响。此后不久，第二个数据中心发生了第二次中断，无法正常恢复。这开始了一系列不幸的事件。

第二次停电

在此次停电期间，微软表示“工程师没有正确分类警报 – 冷水机组恢复没有优先考虑”。此时触发了大量警报。不幸的是，冷冻机处于脱机状态并没有得到应有的优先权。关于为何发生这种情况的RCA仍在调查中。微软声称当然有多余的冷却系统。但是，冷却系统未设置为自动故障转移。最近安装的新设备尚未经过全面测试。所以它被设置为手动模式，直到测试完成。45分钟后，环境冷却失败，硬件停机，空气处理人员关闭，因为他们认为发生火灾。工作人员因虚假火警而被疏散。在此期间，数据中心的温度在升高。某些硬件没有正常关闭，导致某些存储和网络损坏。手动重置冷却器并打开空气处理器后，温度开始恢复正常。他们花了大约3小时29分钟才能全面了解数据中心的状态。最大的问题是存储损坏。微软最关心的是数据保护。Microsoft将努力恢复数据以确保不会丢失数据。这当然需要一些时间，这延长了停机的总长度。好消息是没有客户数据丢失。坏消息是，事情似乎需要24-48小时才能恢复正常。这是基于我在Twitter上从抱怨长时间停机的客户那里读到的内容。

假设

每个人都预计这次中断会影响在中南部地区的客户。但他们没想到的是，停电会对该地区产生影响。在会话中，Microsoft讨论了中断的一些扩展范围。

Azure服务管理器（ASM）

这可以控制Azure“Classic”资源，AKA，ARM之前的资源。任何依赖ASM的人都可能受到影响。我不清楚为什么会这样。南中部地区似乎拥有该服务的一些重要组成部分，而这些部分无法使用。

Visual Studio团队服务（VSTS）

同样，似乎许多支持此服务的资源都在中南部地区托管。Azure DevOps此博客文章的工程总监Buck Hodges（@tfsbuck）详细介绍了这次中断。

POSTMORTEM：VSTS 2018年9月4日

Azure Active Directory（AAD）

当中南部地区失败时，AAD按照预期的方式行事，并开始将身份验证请求指向其他地区。随着东海岸开始醒来并上线，身份验证流量开始增加。现在通常AAD会通过自动缩放来处理流量的增加。但是自动缩放依赖于ASM，当然它是离线的。如果没有自动缩放功能，AAD无法处理身份验证请求的增加。令人恼火的情况是Office客户端中的一个错误，这使得它们具有非常积极的重试逻辑，并且没有退避逻辑。这种额外的身份验证流量最终使AAD陷入困境。他们没有时间在Ignite会议期间进一步讨论这个问题。他们将介绍的一个功能是让用户能够在将来手动故障转移存储帐户。因此，如果恢复时间目标（RTO）比（RPO）更重要，则用户将能够在备用数据中心恢复其异步复制的地理冗余存储，如果Microsoft未来再次遭遇延长中断的话。

你现在能做什么

在此之前，您将不得不依赖其他复制解决方案，例如SIOS DataKeeper Azure Sit e Recovery。或者是特定于应用程序的复制解决方案，它能够跨区域复制数据，并能够在您的控件中实施灾难恢复计划。了解有关我们的蔚蓝停电事件的更多信息，经Clusteringformeremortals.com许可转载