Date: 3 7 月, 2023
為什麼 SIOS HANA 多目標自動化比您想像的更重要
Larry(化名)是一位 SIOS 客戶,過去曾部署過用於高可用性和災難恢復 (HA/DR) 的複制解決方案。當他啟動 PoC 來測試 Linux 的雙節點複製解決方案時,使用SIOS 生命守護者和DataKeeper複製一樣,他的首要任務是保護數據完整性。Larry 的 PoC 測試清單包括標準項目,其中包括:數據庫啟動/停止、將數據庫遷移到備份節點、維護活動和服務器故障轉移等等。Larry 堅信該解決方案能夠實現快速服務器切換(即優雅的遷移)和快速故障轉移(即突然強制遷移)應用程序、數據庫、存儲和服務從一台服務器到另一台服務器的遷移。但是,他更加強烈和熱情地認為此類活動不應導致數據丟失。
通過避免腦裂來保護數據完整性
除了這些標準測試之外,拉里還添加了特定測試來試圖強制“裂腦“ 設想。腦裂是指當集群成員無法相互通信,但處於運行和可操作狀態,並隨後同時獲得公共資源的所有權時,就會發生這種情況。實際上,兩名公交車司機正在爭奪方向盤。由於其破壞性,腦裂可能會導致數據丟失或數據損壞,最好通過使用一種機制來確定哪個節點應保持活動狀態(驅動總線)以及哪個節點應停止寫入磁盤來避免。
雖然在部署使用仲裁和仲裁加見證功能的集群中,裂腦場景相對不常見,但隨著每個節點添加到集群配置,解決裂腦問題的難度呈指數級增加。在具有三個或更多節點的多目標配置中,集群軟件不僅必須協調故障轉移到正確的節點,還必須自動將復制從新的主節點切換到第三節點,以維持災難恢復保護,同時確保在不同節點之間進行正確仲裁。節點。在其他集群解決方案中,必須手動編寫這些複雜的操作腳本,並在發生故障轉移時手動更新以恢復正常操作,並且當發生腦裂時,只會變得更加困難。
由於 SIOS LifeKeeper 的功能和改進以及SAP HANA 應用程序恢復套件(方舟),拉里很難引入裂腦場景。然而,當他最終設計出一款產品時,他因了解 SIOS 產品用於保護數據的邏輯而受益匪淺。Larry 認識到 SIOS 集群軟件提供的數據保護設計的高度複雜性。他選擇了 SIOS LifeKeeper。
SIOS HANA 多目標自動化差異
像 Larry 這樣的場景只是 SIOS 的 HANA 多目標自動化比您想像的更重要的九個原因之一。以下是全部九個:
- 增強保護
SIOS 的解決方案簡化了多目標場景中 HANA 數據庫資源的保護。基於嚮導的選項可快速檢測當前配置並將信息精確添加到 LifeKeeper 配置中。錯誤檢測既簡潔又信息豐富,可以幫助用戶解決任何問題並隨後節省時間。 - 簡化管理
Natalie(化名)負責 HANA 多節點配置。當服務器出現故障或需要維護時,Natalie 利用不同的腳本和工具來執行所需的操作。然而,這是不可擴展的。遷移到 SIOS LifeKeeper 後,Natalie 和團隊有一個簡單的 UI 來執行所有核心任務,例如停止和重新啟動 HANA 和 HANA 系統複製。此外,如果發生災難,團隊可以使用單一、簡化的 SIOS UI,而無需搜索最新的運行手冊、查找正確腳本的副本或在凌晨 2 點致電 Natalie。。 - 簡化監控
SIOS UI 中直觀的狀態報告為團隊提供了一種快速的方法來確定複製地位。與使用監控板和自製腳本的集合相比,使用單一工具可以簡化管理並節省時間。 - 自動恢復
某些 HANA HSR 解決方案能夠在這兩個節點之間執行 HANA 複製的故障轉移。然而,管理員通常必須在系統故障轉移後重新註冊複製。如果有三個或更多節點,管理員是否了解如何更新第三個或第四個節點上的註冊?他們會記得正確使用同步和異步嗎?SIOS 解決方案能夠處理三個甚至四個節點的多目標複製,並在出現故障後無縫地自動註冊目標節點。 - 靈活性和可擴展性
通過兩個、三個或四個節點組合來保護 HANA 集群的能力意味著客戶可以靈活地提高可用性和災難恢復級別。具有法定人數的兩個節點客戶能夠提供針對災難的可用性保護,並利用具有握手功能的 HANA 接管,以接近零停機時間處理維護活動。部署三個節點的客戶可以通過在不同的數據中心或區域中部署具有異步複製功能的第三個節點來獲得額外的災難恢復功能。為了獲得更多好處,三節點客戶可以部署具有存儲仲裁的第四個節點,以啟用高可用性和災難恢復如果整個數據中心丟失。 - 數據保護
讓我們回到拉里的問題。他在主節點 A 上運行 HANA,並向節點 B 和 C 進行多目標複製。當您的手動工作以災難告終時會發生什麼?哪個節點是主節點?當節點 A 崩潰時,一切是否同步?如何避免出現錯誤的節點?除了在多目標 HSR 配置中添加對三個或更多節點的支持之外,新的 HANA ARK 還包括額外的管理工具,可以在發生災難或不幸的腦裂事件時提供幫助。HANA_DATA_OUT_OF_SYNC_<tag> 標誌可防止用戶意外在錯誤的系統上恢復數據庫。HANA_LAST_OWNER_<tag> 標誌可幫助管理員了解在備用節點不同步的情況下何時對主系統執行了操作。該標誌告訴管理員該節點是最後一個所有者,並且應該在其中恢復複製。當備用數據庫之間的所有通信暫時丟失然後恢復時,HANA_DATA_CONSISTENCY_UNKNOWN_<tag> 幫助 SIOS 自動解決並恢復複製。當與最佳實踐、仲裁部署和適當的調整結合使用時,這些工具可以讓像 Larry 這樣的管理員避免腦裂,並在發生腦裂時安全地恢復。
- 報告、性能和災難恢復
當然,多目標的真正好處在於額外的節點以及這些節點解鎖的功能。在同一數據中心使用三個節點可以通過 logreplay_readaccess 參數釋放更多報告的潛力,同時仍然在災難恢復站點維護一個節點。此外,SIOS 對不同複製模式的支持使用戶可以選擇擁有同步節點和異步節點,以便跨數據中心(或區域)獲得更好的性能。 - 持續測試
您的團隊多久測試一次自製腳本?您的運行手冊中有關配置、管理和凌晨 2 點場景的審核頻率如何。HANA 多目標解決方案不僅經過 SIOS 工程師、QA 和客戶體驗專家的持續測試,而且還在每個版本和更新中針對 HANA 故障轉移和恢復流程持續進行測試和驗證。 - 廣泛的文檔
不久前,我們的團隊與一位客戶合作進行集群管理。雖然他的前任對他們的環境非常了解,但員工晉升和重組讓許多 IT 人員負責他們知之甚少的系統。當被問及其配置的操作手冊和文檔時,客戶無法從以前的團隊或以前的管理員那裡找到詳細信息。除了堅如磐石的自動化、管理、監控、恢復和數據保護之外,SIOS 多目標解決方案還包括有關由 LifeKeeper 控制的 HANA 多目標系統的實施、操作和管理的詳細且易於使用的文檔。
利用 SIOS 的整體解決方案意味著客戶可以受益於一致、及時的監控和檢測、快速、可靠和高效的恢復,以及保證高可用性和災難恢復保護的全自動解決方案。聯繫我們有關 SAP HANA 多目標自動化的更多信息。
-Cassius Rhue,客戶體驗副總裁
經許可轉載安全操作系統