如何通過集群實現高可用性
如何通過集群實現高可用性
什麼是高可用性?
高可用性(HA) 是技術系統的一個組成部分,可消除單點故障以確保長時間的連續運行或正常運行。 高可用性集群是支持需要最少停機時間和持續可用性的關鍵業務應用程序的服務器組。
所有組織都使用各種關鍵業務數據庫和應用程序,例如數據倉庫、電子商務應用程序、客戶關係管理系統 (CRM)、財務系統、供應鏈管理和商業智能係統。 當系統、數據庫或應用程序出現故障時,這些組織需要高可用性保護來保持系統正常運行,並將收入損失、員工效率低下和客戶不滿的風險降至最低。
高可用集群包含五個設計原則:
- 當活動組件出現故障時,它們會自動故障轉移到冗餘系統以進行操作。 這消除了單點故障。
- 無論原因如何,它們都可以在發生應用程序級故障時自動檢測它們。
- 它們確保在系統故障期間不會丟失大量數據。
- 它們會自動快速地故障轉移到冗餘組件,以最大限度地減少停機時間。
- 它們提供手動故障轉移和故障恢復的能力,以最大限度地減少計劃維護期間的停機時間。
TechTarget 將 HA 定義為“一個系統或組件,可以持續運行很長時間。 可以相對於“100% 運行”或“永不失敗”來衡量可用性。一個廣泛持有但難以實現的系統或產品可用性標準被稱為‘五個 9’ (99.999%) 的可用性。”但是讓我們用簡單的術語定義高可用性:
高可用性可確保您的系統、數據庫和應用程序在需要時運行。
“何時”考慮了應用程序必須啟動和運行的時間百分比。 “根據需要”考慮了系統、數據庫和/或應用程序的正常運行,不會丟失數據。
根據系統和/或應用程序,高可用性會有所不同。 例如,對於關鍵任務應用程序,例如您的電子商務系統,四個 9 (99.99%) 的可用性被視為行業標準。 憑藉 99.99% 的可用性,您預計每年的停機時間不會超過 52.60 分鐘或每天的停機時間不超過 8.64 秒。 但是,對於非關鍵應用程序和系統,例如單個桌面故障,高可用性可能是兩個 9 (99%),這相當於每年 8.77 小時的停機時間或每天 1.44 分鐘的停機時間。 在衡量可接受的停機時間時,重要的是要考慮:
- 計劃外停機(例如,硬件或軟件故障)
- 日常硬件和軟件維護所需的計劃停機時間
- 數據庫和應用程序級別的正常運行時間
您對高可用性的選擇取決於許多因素,包括應用程序對業務的重要性、客戶是否受到影響、應用程序運行的頻率、受影響的用戶數量、數據庫或應用程序必須以多快的速度故障轉移到冗餘系統,以及可以容忍的數據丟失量。
高可用性指標:RTO 和 RPO
通常用於評估 HA(以及災難恢復 (DR))的兩個指標是恢復時間目標 (RTO) 和恢復點目標 (RPO)。
- RTO 是任何中斷的最大可容忍持續時間。 在線事務處理應用程序通常具有最低的 RTO,而那些關鍵任務的 RTO 通常只有幾秒鐘。
- RPO 是發生故障時可以容忍的最大數據丟失量。 對於 HA,RPO 通常為零,以指定在所有故障情況下都應為零數據丟失。
但是,您可以實現哪些 RTO 和 RPO 來支持高可用性與災難恢復. 有了 HA,數據複製可以是同步的,因為您的冗餘組件位於您的 LAN 環境中。 活動和備用數據庫可以同時更新,從而實現完全、自動、實時的恢復,可以滿足最苛刻的 RTO 和 RPO。 因此,您的備用實例是“熱的”並且與您的活動實例同步,因此它可以在發生故障時立即接管。
但是,要在發生災難時恢復系統、軟件和數據,需要在廣域網 (WAN) 上安裝冗餘組件。 這很重要,因為您必須將冗餘組件保留在遠離活動實例的地理位置。 但是對於 WAN,數據複製是異步的,以避免對吞吐量性能產生負面影響。 這意味著對備用實例的更新將滯後於對活動實例的更新,從而導致恢復過程的延遲。 由於災難很少發生,一些延遲可能是可以容忍的,並且取決於 (a) 實現盡可能低的 RTO 和 RPO 對您的業務有多重要,以及 (b) 您可以分配多少預算來實現最佳 RTO 和 RPO。
SIOS 如何幫助您實現高可用性
SIOS 提供單一解決方案來滿足各種操作系統、基礎架構環境和應用程序的高可用性和災難恢復需求,包括 SAP、SQL Server、Oracle 和其他運行在基於 SAN 的共享存儲配置或 SAN 的環境中,本地數據存儲配置。
- 視窗環境:當添加到 Windows Server 故障轉移群集 (WSFC) 環境時,SIOS DataKeeper 允許您創建無 SAN 群集,其中共享存儲群集是不可能或不切實際的,或者在基於 SAN 的 Windows 群集中添加複制以進行災難保護。 快速、高效的基於主機的複制同步本地和遠程集群節點上的本地存儲,在物理、虛擬或云環境的任意組合中創建無 SAN 集群。
- Linux 環境:適用於 Linux 的 SIOS 保護套件是一個打包的聚類軟件使用 SIOS LifeKeeper 和 SIOS DataKeeper 提供高可用性故障轉移集群、持續應用程序監控、數據複製和可配置恢復策略的緊密集成組合的解決方案,以保護您的業務關鍵應用程序和數據免受停機和災難的影響。 SIOS 保護套件讓您可以使用各種存儲設備(包括直連存儲、iSCSI 和光纖通道)構建 SAN 或 SANLess 集群。 SIOS Protection Suite for Linux 支持所有主要的 Linux 發行版,包括 Red Hat Enterprise Linux、SUSE Linux Enterprise Server、CentOS 和 Oracle Linux。
使用 SIOS 解決方案,RPO 始終為零,而 RTO 取決於應用程序,但對於某些應用程序,通常為 30 秒到幾分鐘。 讓我們來討論一位客戶在瑞士最大的零售公司中使用 HA 集群的“SIOS in action”案例研究。
Migros 通過 SIOS 高可用性解決方案實現其 POS 系統的關鍵業務連續性
Migros 是瑞士最大的零售公司、最大的連鎖超市以及擁有超過 100,000 名員工的最大雇主。 它也是世界上最大的四十家零售商之一。 Migros 與總部位於瑞士的 IT 服務提供商和 SIOS 解決方案經銷商 Realstuff Informatik AG 合作,希望將其銷售點 (POS) 系統替換為一個新平台,該平台運行效率更高,並且可以最大限度地減少停機威脅。
新的 POS 系統在 Migros 的 650 家商店中提供價格和產品分類信息,零售商需要一個高可用性解決方案來支持日常銷售。 如果沒有 HA 系統,員工將無法在系統出現故障時為產品定價或稱重貨物,從而導致運營陷入停頓。 在評估選項後,Migros 決定需要一個開源服務器環境,提供高可用性和持續數據保護,獨立於虛擬環境,並且可以由公司的 IT 員工內部操作。 為了滿足這些要求,該團隊選擇了 SIOS Protection Suite for Linux 進行複制以保護 POS 數據。
在系統設計、客戶培訓和母語支持方面,Realstuff 與位於德國德累斯頓並由 Computer Concept 運營的中歐和東歐 SIOS 能力和支持中心合作。 對於 Migros 來說,在區域辦公時間內從能力和支持中心獲得 24x7x365 的支持非常重要。
Realstuff 實施了 SIOS Protection Suite 高可用性解決方案,以持續監控 POS 服務器並複制數據。 在每個商店位置,使用兩台服務器來確保持續的數據保護。 如果一台服務器出現故障,第二個實例會立即接管工作。 此外,兩台服務器都在監控系統上鏡像數據資產。在此處閱讀完整的 Migros 案例研究。
最後的想法
區域能力和支持中心與 Realstuff 協商,為實施和啟動提供見解和指導,並舉辦了為期三天的培訓研討會來培訓 Migros 團隊。 Realstuff 經理兼執行委員會成員 Richard Huber 在部署後評論說,SIOS 高可用性解決方案的優勢在於其靈活性、可靠性、易用性以及數據始終保持同步的保證。
如今,Migros 已通過 SIOS 易於使用的解決方案滿足其對 HA 的要求,該解決方案提供對服務器、存儲、應用程序、數據庫和網絡連接的持續監控,以檢測故障點、減少停機時間、保持客戶端連接並提供不間斷的數據訪問。
有關 SIOS 解決方案以及 SIOS 如何幫助您在 SQL Server 環境中實現 HA 的更多信息,您可以閱讀“為什麼使用集群實現 SQL Server 高可用性”在這裡。