檔案

在重大雲中斷中管理實時恢復

災難發生，突然停工成為現實。但是，所有客戶都可以做的事情是在幾乎任何云中斷中存活下來。東西發生了。失敗 – 無論大小 – 都是不可避免的。不可避免的是延長的停機時間。考慮美國中南部地區的微軟Azure雲遭遇災難性失敗的那一天。一場嚴重的雷暴導致了一連串的問題，最終導致整個數據中心崩潰。在一些人稱之為“天空中的Azure雲天”中，大多數客戶都處於離線狀態，不僅僅是幾秒鐘或幾分鐘，而是一整天。有些人離線超過兩天。雖然微軟已經解決了導致停電的許多問題，但IT專業人員將長期記住這一事件。這是壞消息。好消息是：Azure客戶可以做的事情幾乎可以在任何中斷中存活。它可能來自單個服務器，無法使整個數據中心脫機。實際上，實現強大的高可用性和/或災難恢復規定的Azure客戶，無論是實時數據複製還是快速自動故障轉移，都可以避免數據丟失，並且每當發生災難時都很少或沒有停機時間。另請參閱：Nutanix認為企業雲贏得了雲計算競賽

管理雲中斷

本文介紹了在混合和純Azure雲配置中提供災難恢復（DR）和高可用性（HA）保護的四個選項。其中兩個選項特定於Microsoft SQL Server數據庫，這是Azure雲中的一個流行應用程序;另外兩個選項是與應用程序無關的。這四個選項也可用於各種組合，在表格中進行了比較，包括：

Azure站點恢復（ASR）服務
具有存儲空間直接的SQL Server故障轉移群集實例
SQL Server始終在可用性組
第三方故障轉移群集軟件

RTO和RPO 101

在描述這四個選項之前，有必要對用於評估DR和HA規定的有效性的兩個指標有一個基本的了解：恢復時間目標和恢復點目標。熟悉RTO和RPO的人可以跳過本節。RTO是中斷的最大可容忍持續時間。在線事務處理應用程序通常具有最低的RTO，而關鍵任務應用程序通常具有僅幾秒的RTO。RPO是可以容忍數據丟失的最長期限。如果不能容忍數據丟失，則RPO為零。RTO通常會確定所需的HA和/或DR保護的類型。低恢復時間通常需要強大的HA規定來防止日常系統和軟件故障，而較長的RTO可以滿足基本DR規定，旨在防範更廣泛但更不頻繁的災難。與HA和DR規定一起使用的數據複製可能需要在RTO和RPO之間進行潛在的權衡。在低延遲LAN環境中，複製可以是同步的，可以同時更新主數據集和輔助數據集。這使得完全恢復能夠自動且實時地發生，從而可以滿足最苛刻的恢復時間和恢復點目標（分別為幾秒和零），無需權衡。相反，在整個WAN中，強制主要服務器等待輔助服務器確認每個事務的更新完成將對性能產生負面影響。因此，WAN中的數據複製通常是異步的。這可以在容納RTO和RPO之間進行權衡，這通常會導致恢復時間的增加。原因如下：為了滿足零RPO，需要手動過程以確保在故障轉移發生之前所有數據（例如來自事務日誌）已在輔助設備上完全複製這種額外的工作會延長恢復時間，這就是為什麼這樣的配置通常用於DR而不是HA。

Azure站點恢復（ASR）服務

ASR是Azure的DR-as-a-service（DRaaS）產品。ASR將物理機和虛擬機複製到其他Azure站點，可能在其他區域，或從本地實例複製到Azure雲。該服務可以從系統和站點中斷中快速恢復，並通過消除滾動軟件升級期間的停機時間來促進計劃內維護。與所有DRaaS產品一樣，ASR有一些限制，最嚴重的是無法自動檢測和故障轉移導致應用程序級停機的許多故障。當然，這就是為什麼該服務被定性為DR而不是HA的原因。使用ASR，恢復時間通常為3-4分鐘，當然，這取決於管理員能夠以多快的速度手動檢測和響應問題。如上所述，跨WAN的異步數據複製的需求可以進一步增加RPO為零的應用程序的恢復時間。

具有存儲空間直接的SQL Server故障轉移群集實例

SQL Server提供了兩個自己的HA / DR選項：故障轉移群集實例（此處討論）和Always On Availability Groups（下面討論）。FCI提供兩個優點：該功能可以在較便宜的SQL Server標準版中使用，並且它不依賴於像傳統HA集群那樣的共享存儲。後一個優勢很重要，因為雲中的共享存儲根本不可用 – 來自Microsoft或任何其他雲服務提供商。Azure雲存儲的一個流行選擇是Storage Spaces Direct（S2D），它支持廣泛的應用程序，它對SQL Server的支持保護整個實例而不僅僅是數據庫。S2D的一個主要缺點是服務器必須位於單個數據中心內，這使得該選項適用於某些HA需求，但不適用於DR。對於多站點HA和DR保護，需要通過日誌傳送或第三方故障轉移群集解決方案提供必需的數據複製。

SQL Server始終在可用性組

雖然Always On Availability Groups是SQL Server為HA和DR提供的最強大的產品，但它需要許可更昂貴的Enterprise Edition。此選項可以提供5-10秒的恢復時間和幾秒或更短的恢復點。它還提供可讀的輔助數據庫，用於查詢數據庫（具有適當的許可），並且不對數據庫的大小或輔助實例的數量進行限制。提供HA和DR保護的Always On Availability Groups配置包括三個節點的安排，在單個可用性集或區域中有兩個節點，第三個在單獨的Azure區域中。一個值得注意的限制是只複製數據庫，而不是整個SQL實例，必須通過其他方式進行保護。除了對某些數據庫應用程序成本過高之外，這種方法還有另一個缺點。特定於應用程序需要IT部門為所有其他應用程序實施其他HA和DR規定。使用多個HA / DR解決方案可能會大大增加複雜性和成本（用於許可，培訓，實施和持續運營），這也是組織越來越傾向於使用與應用程序無關的第三方解決方案的另一個原因。

第三方故障轉移群集軟件

憑藉其與應用程序無關且與平台無關的設計，故障轉移群集軟件能夠為私有，公共和混合雲環境中的幾乎所有應用程序提供完整的HA和DR解決方案。這包括Windows和Linux。與應用程序無關，無需為不同的應用程序提供不同的HA / DR規定。與平台無關，可以利用Azure雲中的各種功能和服務，包括故障域，可用性集和區域，區域對和Azure站點恢復。作為完整的解決方案，該軟件至少包括實時數據複製，能夠檢測應用程序級故障的連續監視，以及用於故障轉移和故障恢復的可配置策略。大多數解決方案還提供各種增值功能，使故障轉移群集能夠在幾乎沒有數據丟失的情況下提供低於20秒的恢復時間，從而滿足幾乎所有HA / DR需求。

讓它真實

無論是單獨運行還是一致運行，所有這四個選項都可以發揮作用，使DR和HA保護的連續性對於各種企業應用程序更有效和更實惠。這包括那些能夠容忍一些數據丟失和延長的停機時間的系統，以及那些需要實時恢復以實現5到9個正常運行時間且數據丟失很少或沒有數據丟失的系統。為了在現實世界中實現下一次雲中斷，請確保您選擇的任何DR和/或HA規定配置為至少兩個節點分佈在兩個站點上。還要確保了解條款滿足每個應用程序的恢復時間和恢復點目標的程度。以及可能存在的任何限制，包括檢測所有可能的故障所需的手動過程，以及確保應用程序連續性和數據完整性的方式觸發故障轉移。

關於Jonathan Meltzer

Jonathan Meltzer是SIOS Technology的產品管理總監。他在軟件和SaaS產品的產品管理和營銷方面擁有20多年的經驗，可幫助客戶管理，轉換和優化其人力資本和IT資源。從RTinsights轉載