Date: 17 1 月, 2023
了解業務關鍵型應用程序高可用性的複雜性
最大限度地減少系統、數據庫和應用程序的停機時間是最大限度提高生產力的關鍵。 現代組織依靠關鍵業務系統、數據庫和應用程序(例如企業資源規劃 (ERP)、客戶關係管理 (CRM)、電子商務、財務系統和供應鏈管理)來高效運營並提供卓越的客戶體驗. 當系統、數據庫或應用程序出現故障時,高可用性保護會恢復操作以保持業務正常運行。
什麼是高可用性?
高可用性是系統、數據庫或應用程序的一個屬性,旨在長時間連續可靠地運行。 高可用性的目標是通過合併冗餘組件和其他技術來解決系統、數據庫或應用程序中的單點故障,從而減少或消除關鍵應用程序的計劃內和計劃外停機時間。
簡單地說,高可用性確保您的系統、數據庫或應用程序按預期運行:“何時”是指系統、數據庫或應用程序必須按預期啟動和運行的時間百分比——這意味著應用程序按用戶期望和滿足的方式運行及時滿足他們的需求。
數據中心模型
高可用性服務級別協議 (SLA) 有助於確保 IT 基礎架構的關鍵組件在工作時間內正常運行和可用。 IDC 為高可用性創建了一個 SLA 模型,該模型定義了具有以下正常運行時間要求的五個級別: • AL4(持續可用性——系統容錯):無用戶中斷,每年計劃內和計劃外停機時間總計最多不超過 5 分 15 秒(99.999% 或“五個九”可用性)。
• AL3(高可用性——傳統集群):最少的用戶中斷和每年最多不超過 52 分 35 秒的計劃內和計劃外停機時間(99.99% 或“四個九”可用性)。
• AL2(恢復——數據複製和備份):一些用戶中斷和每年最多不超過 8 小時 45 分 56 秒的計劃內和計劃外停機時間(99.9% 或“三個九”的可用性)。
• AL1(可靠性——熱插拔組件):所有服務停止,每年總計 87 小時 39 分 29 秒的計劃內和計劃外停機時間(99% 或“兩個九”的可用性)。
• AL0(未受保護的服務器):所有服務停止,並且未定義正常運行時間 SLA。
您的高可用性要求取決於整個系統、應用程序和許多其他因素的重要性,包括: • 應用程序對業務有多重要 • 客戶是否注意到影響 • 應用程序運行的頻率 • 有多少用戶受到停機影響 • 數據庫或應用程序必須以多快的速度故障轉移到冗餘系統以避免中斷 • 有多少數據損失是可以容忍的 五個九的可用性通常是為需要連續“有狀態”操作的應用程序保留的。 對於業務關鍵型應用程序,四個九的可用性是標準的。 非關鍵系統和應用程序,您可能只需要兩個九的可用性。 在確定可接受的停機時間時,重要的是要考慮: • 計劃外停機時間(即硬件或軟件故障) • 例行硬件和軟件維護的計劃停機時間 • 應用程序和數據庫級別的正常運行時間 各種高可用性解決方案可以幫助企業實現其 SLA 目標針對不同的系統、數據庫和應用程序。 儘管持續可用性 (AL4) 似乎是關鍵業務部署的最合適目標,但在成本和可用性之間找到適當的平衡點很重要。 連續可用性還會對計劃維護所需的停機時間產生負面影響,因為在應用應用程序或操作系統更新時系統通常必須脫機,而高可用性通常允許滾動更新。
高可用性指標:RTO 與 RPO
除了正常運行時間和可用性之外,恢復時間目標 (RTO) 和恢復點目標 (RPO) 是用於評估系統、數據庫或應用程序中的高可用性(以及災難恢復)的重要指標。
反收購行動是任何中斷的最大可容忍持續時間。 在線事務處理應用程序通常具有最低的 RTO,而那些業務關鍵型應用程序的 RTO 通常只有幾秒鐘。
RPO是發生故障時可以容忍的最大數據丟失量。 對於災難恢復,應用程序及其相關數據的典型 RPO 可能是 24 小時。 每晚備份可確保在發生災難時可以恢復過去 24 小時內對數據所做的任何更改。 但是,對於高可用性應用程序和數據,RPO 通常為零。 也就是說,在任何故障情況下都不應該有數據丟失。
傳統聚類
高可用性集群是一組服務器節點(和其他組件),它們支持需要最少停機時間的關鍵業務應用程序。集群軟件允許您將服務器配置為集群,以便多個服務器可以協同工作以提供高可用性並防止數據丟失。 IT 組織依靠高可用性集群來消除單點故障並將停機和數據丟失的風險降至最低。
傳統的本地高可用性集群是一組連接到共享存儲(通常是存儲區域網絡或 SAN)的兩個或多個服務器節點,這些節點配置有相同的操作系統、數據庫和應用程序(參見圖 1) ).
其中一個節點被指定為主要(或活動)節點,其他節點被指定為次要(或備用)節點。 如果主節點發生故障,集群允許系統、數據庫或應用程序的操作自動故障轉移到一個或多個輔助節點,並繼續正常運行,中斷最少。 由於輔助節點連接到同一存儲,因此操作繼續進行,數據丟失為零。 這種集群架構的好處是減少停機時間、消除數據丟失和保護數據完整性。
但是,有很多場景不需要共享存儲。 共享存儲中的故障將使所有集群脫機,從而產生單點故障 (SPoF) 風險。 SAN 存儲的擁有和管理成本高昂且複雜。 最後,在雲中使用共享存儲會顯著增加不必要的成本和復雜性。 有些雲根本不提供共享存儲選項。
如圖所示圖 2, SANless 或“無共享”集群是共享存儲的最佳替代方案。 在這些配置中,每個集群節點都有自己的本地存儲。 高效的基於主機的塊級複製用於同步集群節點上的存儲,使它們保持相同。 在發生故障轉移時,輔助節點訪問主節點使用的存儲的相同副本。 這種集群架構的優勢在於消除 SPoF、消除 SAN 成本和復雜性、在雲中易於使用和節省成本、減少停機時間並減少數據丟失。
設計原則
最先進的高可用性集群包含以下設計原則: • 當一個活動組件發生故障時,它們會自動快速地故障轉移到冗餘系統 • 它們在故障轉移期間和之後保持特定於應用程序的最佳實踐 • 它們提供手動切換和切回的能力,以實現高效測試和“滾動”維護,且成本最低計劃內停機 • 它們可以自動檢測網絡、存儲、操作系統、硬件或應用程序中的故障 • 它們可以防止在系統發生故障時丟失數據 • 它們可以跨不同地理位置的節點進行故障轉移以實現災難恢復
高可用性集群
各種集群軟件解決方案可用於 Windows、Linux 發行版和各種管理程序(虛擬機解決方案)。 一組僅支持一個操作系統,例如: • Windows 服務器故障轉移群集 (WSFC):為 Microsoft SQL Server 和 Microsoft Exchange 等託管應用程序提供高可用性和災難恢復 • SUSE Linux Enterprise 高可用性擴展 (HAE):支持物理和虛擬 Linux 服務器的集群,具有策略驅動的集群和連續數據複製• 紅帽起搏器(Pacemaker):為性能、高可用性、負載平衡和可伸縮性創建單站點集群 例如,這裡列出的解決方案都不能保護在 Oracle Linux 操作系統上運行的 SAP。 因此,每個解決方案都會限制您的靈活性和部署選項。 更先進高可用性解決方案,例如適用於 Linux 的 SIOS Protection Suite,在主要 Linux 發行版(包括 Oracle Linux、Red Hat 和 SUSE)中提供應用程序感知保護。
此外,每個應用程序、數據庫和 ERP 系統都有自己的配置和持續管理要求。 為了滿足這些要求,HAE 和 Pacemaker 通常需要高度的技術技能和復雜的手動腳本,這會引入人為錯誤和不可靠的故障轉移的可能性。
通常受故障轉移集群保護的關鍵業務應用程序、數據庫和 ERP 系統的一些示例包括 SAP S/4HANA、SQL Server 和其他應用程序和數據庫。
SAP S/4HANA多家 Linux 供應商在其“Enterprise for SAP”訂閱中為 SAP 提供開源高可用性擴展。 SAP S/4HANA 環境包含多項服務,例如 ABAP SAP 中央服務 (ASCS)、評估收據結算 (ERS) 和其他 SAP 組件,這些服務需要在正確的位置進行維護並以正確的順序啟動。 在 SUSE HAE 和 Red Hat Pacemaker 等開源集群產品中,在這些複雜環境中手動配置和管理集群可能非常耗時,而且容易出現人為錯誤,從而增加災難性停機和數據丟失的風險。
創建應用程序感知的高可用性解決方案還需要在應用程序和數據庫方面具有特定的深厚專業知識。 相比之下,適用於 Linux 的 SIOS 保護套件包括用於 SAP 和 HANA 的應用程序恢復工具包,可確保故障轉移保持應用程序最佳實踐。
SAP 還提供 HANA 系統複製,這是 HANA 軟件附帶的一項功能。 它可以將 SAP HANA 數據庫持續同步到同一數據中心、遠程站點或云中的輔助位置。 數據被複製到輔助站點並預加載到內存中。 發生故障時,備站點接管,無需重啟數據庫,有助於降低RTO。 但是,必須手動觸發到主節點的故障恢復。 HSR 需要與應用感知集群軟件(如 SIOS Protection Suite)搭配使用,後者可以檢測故障並在必要時協調故障轉移。
數據庫服務器
許多公司依靠 SQL Server 作為支持重要業務功能的關鍵應用程序的後端數據庫。 Microsoft WSFC 通常用於支持 SQL Server 應用程序的 Always On 可用性組 (AG) 和 SQL Server 故障轉移群集實例 (FCI)。
但是,帶有 AG 的 WSFC 需要昂貴的 SQL Server 企業版許可。 此外,使用 FCI 時,整個實例將故障轉移到備用節點。 使用 AG,只有組中的數據庫受到保護。
使用SIOS 數據管理員WSFC 允許您使用具有成本效益的標準版許可為 SQL Server 提供高級高可用性保護。
其他應用程序和數據庫
SIOS 軟件可用於保護各種關鍵業務應用程序、數據庫和 ERP,包括 Oracle、MaxDB、MySQL、PostgreSQL 和 DB2。 SIOS 軟件支持集群和災難恢復。
在我們的下一篇博客中,我們將研究特定的行業用例,以幫助您了解不同的企業如何為其關鍵任務應用程序實現高可用性。
經許可轉載自信息系統