Date: 8 11 月, 2021
災難恢復基礎知識
災難恢復概述
災難恢復是指在站點範圍甚至區域性故障的情況下快速恢復/修復系統並將損壞降至最低的能力。 災難恢復是業務連續性管理的關鍵部分,擁有強大的災難恢復協議將有助於防止不必要的數據丟失和與系統停機相關的費用。
什麼構成了災難恢復的“災難”部分? 這可以指地震、洪水等自然災害,也可以指範圍廣泛的事件,例如“火災”、“恐怖主義”、“未經授權的入侵”、“大規模黑客攻擊”和“長期大規模- 大規模停電。”如果 IT 系統發生故障,任何有可能對 IT 系統造成災難性損壞的事物。
系統故障的真正影響
除了與系統故障相關的潛在物理損壞和數據丟失之外,缺乏災難恢復計劃可能會給企業帶來無法挽回的收入損失。 對於系統停機的每一分鐘,這意味著失去銷售和機會、潛在的負面客戶體驗、商業聲譽受損以及緊急 IT 維修的高昂費用。
災難恢復的重要性
對於提供關鍵任務服務的公司而言,構建可以處理意外系統停機的業務連續性系統至關重要。 如果能夠首先防止故障,並在發生本地故障甚至站點範圍或區域性災難時快速恢復,將有助於保護數據、與客戶保持融洽關係,並節省時間和潛在的毀滅性經濟損失。
重要的是要認識到災難性的系統故障是會發生的事情,而不是可能發生的事情,因此制定適當的災難恢復計劃將保護您的業務。
災難恢復挑戰
雖然災難恢復協議是必不可少的,但它的設置和實施並非沒有挑戰。 以下是正確實施災難恢復的一些常見障礙:挑戰 1:地理分離。
災難保護的本質是將系統和數據保存在與主數據中心或云實例在地理上分開的位置,以便在發生災難或云中斷時,輔助系統可以上線並繼續運行。
挑戰 2:網絡帶寬要求將數據複製到異地位置以進行災難恢復可能意味著增加網絡帶寬要求和延遲問題。
挑戰三:數據量持續增加災難恢復站點上的存儲容量要求會隨著時間的推移而增加。 適當的災難恢復計劃需要建立“保護優先級”,以明確應保護哪些數據並優化可用存儲資源。
挑戰 4:恢復時的恢復程序如果系統因災難而宕機,則需要進行服務恢復。 通常,公司發現他們的數據分散在多個位置,並且沒有標準化的程序和恢復,從而導致大量的時間和費用損失。 制定清晰、標準化的修復程序將消除這種頭痛,並允許在最重要的時候快速採取行動。
數據備份與可用性保護
傳統上,數據備份 – 本質上是複制數據和應用程序並將其移動到異地位置的過程 – 已執行的目的是在 IT 設備故障/故障的情況下保護數據,並按照法規進行記錄保存/存檔HIPAA(醫療信息可移植性責任法案)等要求。 要恢復運行,需要更換或修復受事件影響的任何服務器、存儲和其他硬件以及網絡。 必須配置服務器,必須恢復應用程序、重新聯機並連接到恢復的數據。 這些步驟可以幾個月。
如果沒有適當的可用性保護流程,僅使用備份的恢復操作可能是一個耗時且昂貴的過程。 可用性流程使全面運行的系統準備好在發生災難時接管,從而在幾分鐘內恢復服務。
以下是有效的災難恢復計劃很重要的其他一些常見原因:
災難恢復指標
災難恢復的主要指標是“RPO”和“RTO”。
RPO(恢復點目標) RPO 表示從災難發生時到過去什麼時間保證數據恢復的時間點。
如果“RPO = < 5 分鐘”以“RPO = 0(零數據丟失)”為目標時,就需要故障轉移集群等可用性保護機制。
RTO(恢復時間目標) RTO 是一個指數,它顯示您的企業從最初的停機時間到恢復運營所允許的時間。 “RTO = 1 個月或更長時間”,您也許可以通過僅進行遠程備份和保護替代設備來處理數據恢復。 但是,如果您的“RTO = 一分鐘內”,則需要故障轉移群集。
選擇災難恢復方法
在為您的企業確定正確的災難恢復方法時,請考慮以下重要因素:
- 業務流程的關鍵性和對影響的容忍度
- 要保護的數據類型和容量
- 恢復要求——您的 RPO 和 RTO
- 預算
關注業務影響
在IT部門牽頭制定IT系統容災措施的同時,企業主必須考慮系統中斷的影響和程度對每次系統停止對業務的影響”,以確保對業務的不利影響最小。
受保護的數據類型(數據完整性)
對受保護數據的類型和重要性進行分類很重要。 對於不需要非常精確一致性的數據(例如文件服務器),簡單的主存儲備份可能就足夠了。
另一方面,諸如 SQL Server、Oracle 和 SAP 等 ERP 系統和數據庫具有多個服務和部件,它們需要位於特定服務器上,按特定順序啟動,並根據各種特定於應用程序的最佳實踐進行管理。 . 它們通常需要高可用性保護和應用程序感知集群解決方案來協調故障轉移。
—————————————————————————————————————————
關鍵災難恢復術語
遠程備份——本質上是將應用程序和數據的副本保存在地理上分離的遠程位置。
同步存儲鏡像保持本地和遠程存儲副本同步以進行 DR 保護。 在這種方法中,數據被寫入本地存儲並立即復製到遠程存儲。 在將數據寫入遠程位置的過程完成之前,不會“提交”本地存儲。 此過程使兩個位置保持相同,從而消除了在事件發生時傳輸中的數據無法寫入遠程位置時可能導致的差異。 主站點和備份站點之間的數據完整性得到保證。
異步存儲鏡像。
此方法將數據寫入本地存儲,然後將其複製到遠程位置。 當地理分離導致延遲時,它可以實現更高的網絡利用效率並減少帶寬爭用。
“冷備”與“熱備”
冷備用在發生災難時保持數據副本或輔助系統脫機的過程。 如果主系統出現故障,則必須手動啟動系統和軟件(在某些情況下已配置),並且必須在操作繼續之前恢復數據。
熱備這是一個保持輔助系統正常運行並在主系統停機時切換到它們的過程。
災難恢復方法成本比較
RPO 和 RTO 越小,停機時間越短,但成本也會相應增加。
考慮到每種類型數據的成本和資產價值,有必要找到需要何種保護級別的最佳方法。 內部實施和服務外包之間的平衡將影響成本。
要了解有關高可用性和災難恢復解決方案的更多信息,請訪問SIOS,點擊這裡.