Azure Outage Post-Mortem第1部分

Date: 6 11 月, 2018

Azure Outage Post-Mortem

關於上週發生的Azure Outage，第一次官方Post-Mortems開始出現在微軟上面。第一個Azure Outage Post-Mortem專門解決Azure DevOps中斷問題（以前稱為Visual Studio Team Service或VSTS）。它為我們提供了一些關於中斷的廣度和深度的額外見解。它證實了停電的原因。它還讓我們深入了解了微軟在快速恢復在線狀態時所面臨的挑戰。此外，它暗示了微軟可能會考慮在未來更好地處理這種情況的一些特性/功能。正如我在上一篇文章中提到的，Azure中推出的新可用區等功能可能會最大限度地減少此次中斷的影響。在驗屍中，微軟確認了我之前所說的內容。

我們正在努力改進處理數據中心故障的主要解決方案是可用區，我們正在探索異步複製的可行性。

其他預防措施

在可用區域跨越更多區域推出唯一的災難恢復選項之前，您需要跨區域，混合雲甚至跨雲異步複製。目前可用的基於軟件的#SANless群集解決方案將實現此類配置。提供非常強大的RTO和RPO，即使在復制很遠的距離時也是如此。借助SaaS / PaaS解決方案，您可以依靠雲服務提供商（CSP）來實施具有鐵的HA / DR解決方案。在這種情況下，似乎有一個非常重要的缺陷暴露。我們只能希望它能引導所有CSP仔細研究他們的SaaS / PaaS產品。以及解決可能存在的任何HA / DR差距。在此之前，消費者有責任了解風險。他們需要盡其所能來降低延長中斷的風險，或者只是在風險得到解決之前選擇不使用PaaS / SaaS。

RTO還是RPO？

驗屍確實是問題的根源……你更重視什麼，RTO或RPO？

我從根本上不想為客戶決定是否接受數據丟失。我有客戶告訴我他們會花費數據丟失來讓一個大型團隊再次快速生產，其他客戶告訴我他們不希望任何數據丟失，並且等待恢復時間不長。

CSP不可能為客戶做出決定。CSP不希望丟失客戶數據，除非原始數據完全丟失且無法恢復。在這種情況下，近乎實時的異步副本與您在意外故障中獲得的RPO一樣好。然而，這次停電是否真的出乎意料而且沒有任何警告？現代衛星圖像和天氣預報的改進給予了公平的警告，該地區將發生重大的天氣相關事件。當我寫這篇文章時，颶風佛羅倫薩正在美國東南部。如果數據中心位於路徑中，請採取主動措施將工作負載移出受影響的區域。主動災難恢復與反應式災難恢復的好處很多。沒有數據丟失，有足夠的時間來解決意外問題。它還包括管理人力資源，使員工可以擔心照顧家人，而不是工作。同樣，制定主動的災難恢復將是CSP代表其所有客戶做出的艱難決定。跨地區的計劃遷移將導致一定程度的停機。這個決定必須由客戶掌握。從Azure Outage Post-Mortem中吸取教訓，教育您的客戶。

Slide 2.png — 颶風佛羅倫薩衛星圖像取自新的GOES-16衛星，由Tropical Tidbits提供

得到保護

那麼您可以做些什麼來保護您的業務關鍵應用程序和數據？讓我們從Azure Outage Post-Mortem中汲取一些教訓。採用基於軟件的#SANless集群解決方案的跨區域，跨雲或混合雲模型將大大有助於解決您的HA / DR問題。此外，它還為基於雲的IaaS部署提供了出色的RTO和RPO。除應用程序特定解決方案外，還有其他選項。基於軟件的塊級卷複製解決方案（如SIOS DataKeeper和SIOS Protection Suite）可複制所有數據，並為Linux和Windows平台提供數據保護解決方案。我的大兒子剛剛在羅格斯大學開始他的氣象學本科學位。想像一下，人工智能（AI）和機器學習（ML）處理來自NOAA的天氣相關數據的那一天。他們可以在暴風雨襲擊前兩天觸發計劃的災難恢復遷移？我想我剛剛為他的碩士論文找到了一個完美的主題。或者更好的是，讓他和他在WeatherWatcher LLC的聰明的朋友獲得資金，為一家技術創業公司應用AI和ML來安排相關數據以控制主動災難恢復事件。我認為我們正處於IT分析解決方案的尖端。我們可以應用先進的機器學習技術來減少確保關鍵應用程序服務交付的時間和精力。 SIOS iQ是該領域領先的解決方案之一。壓扁艙口並做好準備。颶風季剛剛開始，我們已經開始瘋狂騎行了。如果您想在Twitter @daveberm上討論您的HA / DR策略，請與我聯繫。