檔案

主要的雲中斷影響谷歌計算引擎 – 您準備好了嗎？

谷歌首次在2019年6月2日太平洋時間12:25報導了一個“問題”。現在在任何類型的災難中都很常見，有關此次停機的報告首次出現在社交媒體上。社交媒體現在似乎是在災難早期獲取任何類型信息的最可靠的地方。

Twitter正在迅速成為從革命，自然災害到雲中斷的第一個信息來源。[/ caption]

許多依賴Google Compute Engine的服務都受到了影響。我家裡有三個十幾歲的孩子。當所有三個孩子從他們的洞穴（又稱臥室）出現時，他們的臉上出現了擔憂的表情。Snapchat，Youtube和Discord都離線了！他們一定認為這肯定是天啟的第一個跡象。我向他們保證，這不是新黑暗時代的開始。相反，他們應該去外面做一些碼頭工作。這讓他們害怕回到現實狀態，他們很快就趕緊跑去找別的東西來佔用他們的時間。除了開玩笑之外，有許多服務被報告為關閉或僅在某些地區可用。塵埃仍然在停電的原因，廣度和範圍。但肯定的是，中斷在規模和範圍上都非常重要，影響了許多客戶和服務，包括Gmail和其他G-Suite服務，Vimeo等。

許多服務都受到此次停機，Gmail，YouTube和SnapChat的影響，僅舉幾例。[/ caption]

在我們等待最新谷歌計算引擎停機的官方根本原因分析時，谷歌報告稱“美國東部的高水平網絡擁堵”導致停機。我們將不得不等待他們確定導致網絡問題的原因。是人為錯誤，網絡攻擊，硬件故障還是其他什麼？

您是否為此云中斷做好了準備？

我在上一次重大雲停運期間寫道。如果您在雲中運行業務關鍵型工作負載，無論云服務提供商如何，您都有責任為不可避免的中斷做好計劃。2018年9月4日的多天Azure停電與次級HVAC系統在與電風暴相關的電湧期間啟動失敗有關。雖然故障只發生在一個數據中心內，但是中斷暴露了多個依賴於這個數據中心的服務。這使得數據中心本身成為單點故障。

有一個健全的災難恢復計劃

利用雲的基礎架構，通過在可用區，區域甚至雲服務提供商之間不斷複製關鍵數據來最大限度地降低風險。除了數據保護之外，制定快速恢復關鍵業務應用程序的程序是任何災難恢復計劃的重要組成部分。有各種複制和恢復選項可用。這包括雲供應商自己提供的服務，如Azure Site Recovery，SQL Server Always On Availability Groups等特定於應用程序的解決方案，以及SIOS DataKeeper等第三方解決方案，可保護在Windows和Linux上運行的各種應用程序。擁有完全依賴於單個雲提供商的災難恢復策略會使您容易受到可能影響單個雲中多個區域的情況的影響。多數據中心或多地區災難不太可能發生。但是，正如我們在去年秋天看到的最近這次中斷和Azure中斷一樣，即使單個數據中心本地出現故障，影響也可以在多個數據中心甚至雲中的區域內實現。要最大限度地降低風險，請考慮災難恢復站點位於主雲平台之外的多雲或混合雲方案。雲與您自己的數據中心一樣容易中斷。你必須採取措施為災難做準備。我建議您首先查看最關鍵的業務應用程序。如果他們離線並且管理它們的雲門戶甚至不可用，你會怎麼做？你能恢復嗎？你會滿足你的RTO和RPO目標嗎？如果沒有，也許是時候重新評估您的災難恢復策略了。

“由於沒準備好，你準備失敗。” – 本傑明富蘭克林

在重大雲中斷中管理實時恢復

災難發生，突然停工成為現實。但是，所有客戶都可以做的事情是在幾乎任何云中斷中存活下來。東西發生了。失敗 – 無論大小 – 都是不可避免的。不可避免的是延長的停機時間。考慮美國中南部地區的微軟Azure雲遭遇災難性失敗的那一天。一場嚴重的雷暴導致了一連串的問題，最終導致整個數據中心崩潰。在一些人稱之為“天空中的Azure雲天”中，大多數客戶都處於離線狀態，不僅僅是幾秒鐘或幾分鐘，而是一整天。有些人離線超過兩天。雖然微軟已經解決了導致停電的許多問題，但IT專業人員將長期記住這一事件。這是壞消息。好消息是：Azure客戶可以做的事情幾乎可以在任何中斷中存活。它可能來自單個服務器，無法使整個數據中心脫機。實際上，實現強大的高可用性和/或災難恢復規定的Azure客戶，無論是實時數據複製還是快速自動故障轉移，都可以避免數據丟失，並且每當發生災難時都很少或沒有停機時間。另請參閱：Nutanix認為企業雲贏得了雲計算競賽

管理雲中斷

本文介紹了在混合和純Azure雲配置中提供災難恢復（DR）和高可用性（HA）保護的四個選項。其中兩個選項特定於Microsoft SQL Server數據庫，這是Azure雲中的一個流行應用程序;另外兩個選項是與應用程序無關的。這四個選項也可用於各種組合，在表格中進行了比較，包括：

Azure站點恢復（ASR）服務
具有存儲空間直接的SQL Server故障轉移群集實例
SQL Server始終在可用性組
第三方故障轉移群集軟件

RTO和RPO 101

在描述這四個選項之前，有必要對用於評估DR和HA規定的有效性的兩個指標有一個基本的了解：恢復時間目標和恢復點目標。熟悉RTO和RPO的人可以跳過本節。RTO是中斷的最大可容忍持續時間。在線事務處理應用程序通常具有最低的RTO，而關鍵任務應用程序通常具有僅幾秒的RTO。RPO是可以容忍數據丟失的最長期限。如果不能容忍數據丟失，則RPO為零。RTO通常會確定所需的HA和/或DR保護的類型。低恢復時間通常需要強大的HA規定來防止日常系統和軟件故障，而較長的RTO可以滿足基本DR規定，旨在防範更廣泛但更不頻繁的災難。與HA和DR規定一起使用的數據複製可能需要在RTO和RPO之間進行潛在的權衡。在低延遲LAN環境中，複製可以是同步的，可以同時更新主數據集和輔助數據集。這使得完全恢復能夠自動且實時地發生，從而可以滿足最苛刻的恢復時間和恢復點目標（分別為幾秒和零），無需權衡。相反，在整個WAN中，強制主要服務器等待輔助服務器確認每個事務的更新完成將對性能產生負面影響。因此，WAN中的數據複製通常是異步的。這可以在容納RTO和RPO之間進行權衡，這通常會導致恢復時間的增加。原因如下：為了滿足零RPO，需要手動過程以確保在故障轉移發生之前所有數據（例如來自事務日誌）已在輔助設備上完全複製這種額外的工作會延長恢復時間，這就是為什麼這樣的配置通常用於DR而不是HA。

Azure站點恢復（ASR）服務

ASR是Azure的DR-as-a-service（DRaaS）產品。ASR將物理機和虛擬機複製到其他Azure站點，可能在其他區域，或從本地實例複製到Azure雲。該服務可以從系統和站點中斷中快速恢復，並通過消除滾動軟件升級期間的停機時間來促進計劃內維護。與所有DRaaS產品一樣，ASR有一些限制，最嚴重的是無法自動檢測和故障轉移導致應用程序級停機的許多故障。當然，這就是為什麼該服務被定性為DR而不是HA的原因。使用ASR，恢復時間通常為3-4分鐘，當然，這取決於管理員能夠以多快的速度手動檢測和響應問題。如上所述，跨WAN的異步數據複製的需求可以進一步增加RPO為零的應用程序的恢復時間。

具有存儲空間直接的SQL Server故障轉移群集實例

SQL Server提供了兩個自己的HA / DR選項：故障轉移群集實例（此處討論）和Always On Availability Groups（下面討論）。FCI提供兩個優點：該功能可以在較便宜的SQL Server標準版中使用，並且它不依賴於像傳統HA集群那樣的共享存儲。後一個優勢很重要，因為雲中的共享存儲根本不可用 – 來自Microsoft或任何其他雲服務提供商。Azure雲存儲的一個流行選擇是Storage Spaces Direct（S2D），它支持廣泛的應用程序，它對SQL Server的支持保護整個實例而不僅僅是數據庫。S2D的一個主要缺點是服務器必須位於單個數據中心內，這使得該選項適用於某些HA需求，但不適用於DR。對於多站點HA和DR保護，需要通過日誌傳送或第三方故障轉移群集解決方案提供必需的數據複製。

SQL Server始終在可用性組

雖然Always On Availability Groups是SQL Server為HA和DR提供的最強大的產品，但它需要許可更昂貴的Enterprise Edition。此選項可以提供5-10秒的恢復時間和幾秒或更短的恢復點。它還提供可讀的輔助數據庫，用於查詢數據庫（具有適當的許可），並且不對數據庫的大小或輔助實例的數量進行限制。提供HA和DR保護的Always On Availability Groups配置包括三個節點的安排，在單個可用性集或區域中有兩個節點，第三個在單獨的Azure區域中。一個值得注意的限制是只複製數據庫，而不是整個SQL實例，必須通過其他方式進行保護。除了對某些數據庫應用程序成本過高之外，這種方法還有另一個缺點。特定於應用程序需要IT部門為所有其他應用程序實施其他HA和DR規定。使用多個HA / DR解決方案可能會大大增加複雜性和成本（用於許可，培訓，實施和持續運營），這也是組織越來越傾向於使用與應用程序無關的第三方解決方案的另一個原因。

第三方故障轉移群集軟件

憑藉其與應用程序無關且與平台無關的設計，故障轉移群集軟件能夠為私有，公共和混合雲環境中的幾乎所有應用程序提供完整的HA和DR解決方案。這包括Windows和Linux。與應用程序無關，無需為不同的應用程序提供不同的HA / DR規定。與平台無關，可以利用Azure雲中的各種功能和服務，包括故障域，可用性集和區域，區域對和Azure站點恢復。作為完整的解決方案，該軟件至少包括實時數據複製，能夠檢測應用程序級故障的連續監視，以及用於故障轉移和故障恢復的可配置策略。大多數解決方案還提供各種增值功能，使故障轉移群集能夠在幾乎沒有數據丟失的情況下提供低於20秒的恢復時間，從而滿足幾乎所有HA / DR需求。

讓它真實

無論是單獨運行還是一致運行，所有這四個選項都可以發揮作用，使DR和HA保護的連續性對於各種企業應用程序更有效和更實惠。這包括那些能夠容忍一些數據丟失和延長的停機時間的系統，以及那些需要實時恢復以實現5到9個正常運行時間且數據丟失很少或沒有數據丟失的系統。為了在現實世界中實現下一次雲中斷，請確保您選擇的任何DR和/或HA規定配置為至少兩個節點分佈在兩個站點上。還要確保了解條款滿足每個應用程序的恢復時間和恢復點目標的程度。以及可能存在的任何限制，包括檢測所有可能的故障所需的手動過程，以及確保應用程序連續性和數據完整性的方式觸發故障轉移。

關於Jonathan Meltzer

Jonathan Meltzer是SIOS Technology的產品管理總監。他在軟件和SaaS產品的產品管理和營銷方面擁有20多年的經驗，可幫助客戶管理，轉換和優化其人力資本和IT資源。從RTinsights轉載