閃電從不打擊兩次:倖存Azure雲中斷
昨天早上我打開了我的Twitter訂閱源,發現很多人都受到了Azure Cloud中斷的影響。幾乎每個關於中斷的資源頁面都不可用。幸運的是,@ AzureSupport繼續通過Twitter提供更新。來自@AzureSupport的原始更新於美國東部時間上午7:12發布。回顧Twitter推文,似乎問題最初是在此之前的一兩個小時開始的。 很明顯,這次中斷的傳播影響比最初報導的美國中南部地區更廣泛。似乎依賴Azure Active Directory的服務也可能受到影響,並且嘗試配置新訂閱的客戶遇到了問題。 24小時後問題還沒有完全解決,根據今天上午的最新更新…那麼你可以做些什麼來減少這種蔚藍雲停電的影響?沒有人可以責怪微軟發生雷擊等自然災害。但是在一天結束的時候,如果您唯一的災難恢復計劃是打電話,發推特並通過電子郵件發送電子郵件直到問題得到解決,那麼您剛剛收到了一個粗魯的覺醒。在您的災難恢復計劃中,您需要確保涵蓋所有基礎。
是時候探索一些替代品?
雖然灰塵仍在準確定位受影響的內容以及客戶可以採取哪些措施來最大限度地減少停機時間,但這裡有一些我最初的想法。
可用性集(故障域/更新域)
在這種情況下,即使您構建了故障轉移群集,或利用Azure負載均衡器和可用性集,您仍然會因為整個區域脫機而運氣不佳。雖然仍建議使用可用性集,尤其是計劃停機時間,但在這種情況下,您仍然可以脫機。
可用區域
它尚未在美國中南部地區推出。然而,似乎在Azure中推出可用區的概念可以最大限度地減少中斷的影響。假設雷擊僅影響一個數據中心,則另一個可用區中的另一個數據中心應保持運行。但是,Azure Active Directory(AAD)等其他非區域性服務的中斷似乎影響了多個區域。我不認為可用區會完全孤立你。
全局負載均衡器,跨區域故障轉移群集等
無論您是構建跨區域的SANLess集群,還是使用全局負載均衡器將負載分散到多個區域,您都可以最大限度地減少美國中南部停電的影響。但是你可能仍然容易受到AAD中斷的影響。
混合雲,跨雲
雲端故障情況下的保證彈性是製定DR計劃,其中包括將數據實時復製到主雲提供商以外的目標,以及製定應用程序以在其他位置快速聯機應用程序的計劃。這兩個地點應該完全獨立。它不應該依賴主要位置的服務,例如AAD。DR位置可以是另一個雲提供商。在這種情況下,AWS或Google Cloud Platform似乎是合乎邏輯的替代方案,或者它可能是您自己的數據中心。但這種方式首先打敗了在雲中運行的目的。
軟件作為服務
雖然Azure作為服務(如Azure Active Directory(ADD),Azure SQL數據庫(Database-as-Service)或任何云提供商提供的眾多SaaS產品之一)看起來很誘人,但您確實需要針對最糟糕的情況進行規劃。您可能幾乎無法控制,因為您信任單個供應商的業務關鍵型應用程序。請記住,它包括DR選項,包括當前云服務提供商之外的恢復。除了在實施任何SaaS服務之前調查您的DR選項之外,我在這裡沒有任何智慧的話。如果無法在雲之外進行恢復,那麼在註冊該服務之前,請仔細考慮。告知業務所有者,如果雲服務處於脫機狀態,除了電話和投訴之外,您可能無法做任何事情。
未來的趨勢
我想在不久的將來,您將開始越來越多地了解跨雲可用性。 此外,還有人們如何利用SIOS DataKeeper等解決方案構建跨雲提供商的強大HA和DR策略。真正跨雲或混合雲模型是真正將自己與最可能的雲中斷隔離開來的唯一方法。如果您受到這次最新停電的影響,我很樂意聽取您的意見。告訴我發生了什麼事,你垮了多久,以及你做了什麼來恢復。您打算如何做,以便將來您的體驗更好?閱讀更多文章,例如如何生存Azure雲中斷?經Clusteringformeremortals.com許可轉載