Azure Outage Post Mortem第3部分

Date: 8 11 月, 2018

標籤: 蔚藍的停電驗屍

結束Azure Outage Post-Mortem第3部分

我以前的博客帖子，Azure Outage Post-Mortem – 第1部分和Azure Outage Post-Mortem第2部分，基於來自博客帖子和Twitter的有限信息做出了一些假設。我剛剛參加了Ignite的一次會議，它更明確地說明了實際發生的事情。明天某個時候你應該能夠自己查看會話。BRK3075 – 為意外做準備：解決Azure中斷官方根本原因分析即將發布。與此同時，這裡有一些從會話中收集到的信息。

原因

從死後的蔚藍停電中，停電不是由先前報導的雷擊引起的。相反，由於風暴的性質，電風暴下陷和膨脹。結果，它鎖定了第一個數據中心的^冷水機組。在第一次停電期間，他們能夠快速恢復冷卻器，沒有明顯的影響。此後不久，第二個數據中心發生了第二次中斷，無法正常恢復。這開始了一系列不幸的事件。

第二次停電

在此次停電期間，微軟表示“工程師沒有正確分類警報 – 冷水機組恢復沒有優先考慮”。此時觸發了大量警報。不幸的是，冷凍機處於脫機狀態並沒有得到應有的優先權。關於為何發生這種情況的RCA仍在調查中。微軟聲稱當然有多餘的冷卻系統。但是，冷卻系統未設置為自動故障轉移。最近安裝的新設備尚未經過全面測試。所以它被設置為手動模式，直到測試完成。45分鐘後，環境冷卻失敗，硬件停機，空氣處理人員關閉，因為他們認為發生火災。工作人員因虛假火警而被疏散。在此期間，數據中心的溫度在升高。某些硬件沒有正常關閉，導致某些存儲和網絡損壞。手動重置冷卻器並打開空氣處理器後，溫度開始恢復正常。他們花了大約3小時29分鐘才能全面了解數據中心的狀態。最大的問題是存儲損壞。微軟最關心的是數據保護。Microsoft將努力恢復數據以確保不會丟失數據。這當然需要一些時間，這延長了停機的總長度。好消息是沒有客戶數據丟失。壞消息是，事情似乎需要24-48小時才能恢復正常。這是基於我在Twitter上從抱怨長時間停機的客戶那裡讀到的內容。

假設

每個人都預計這次中斷會影響在中南部地區的客戶。但他們沒想到的是，停電會對該地區產生影響。在會話中，Microsoft討論了中斷的一些擴展範圍。

Azure服務管理器（ASM）

這可以控制Azure“Classic”資源，AKA，ARM之前的資源。任何依賴ASM的人都可能受到影響。我不清楚為什麼會這樣。南中部地區似乎擁有該服務的一些重要組成部分，而這些組成部分無法使用。

Visual Studio團隊服務（VSTS）

同樣，似乎許多支持此服務的資源都在中南部地區託管。Azure DevOps此博客文章的工程總監Buck Hodges（@tfsbuck）詳細介紹了這次中斷。

POSTMORTEM：VSTS 2018年9月4日

Azure Active Directory（AAD）

當中南部地區失敗時，AAD按照預期的方式行事，並開始將身份驗證請求指向其他地區。隨著東海岸開始醒來並上線，身份驗證流量開始增加。現在通常AAD會通過自動縮放來處理流量的增加。但是自動縮放依賴於ASM，當然它是離線的。如果沒有自動縮放功能，AAD無法處理身份驗證請求的增加。令人惱火的情況是Office客戶端中的一個錯誤，這使得它們具有非常積極的重試邏輯，並且沒有退避邏輯。這種額外的身份驗證流量最終使AAD陷入困境。他們沒有時間在Ignite會議期間進一步討論這個問題。他們將介紹的一個功能是讓用戶能夠在將來手動故障轉移存儲帳戶。因此，如果恢復時間目標（RTO）比（RPO）更重要，則用戶將能夠在備用數據中心恢復其異步複製的地理冗餘存儲，如果Microsoft未來再次遭遇延長中斷的話。

你現在能做什麼

在此之前，您將不得不依賴其他復制解決方案，例如SIOS DataKeeper Azure Sit e Recovery。或者是特定於應用程序的複制解決方案，它能夠跨區域複製數據，並能夠在您的控件中實施災難恢復計劃。了解有關我們的蔚藍停電事件的更多信息，經Clusteringformeremortals.com許可轉載