Date: 16 12 月, 2018
在群集架構中消除SPoF的最佳實踐
就像鏈條僅與其最薄弱的環節一樣強大,高可用性集群的有效性受到其部署中存在的任何單點故障(SPOF)的限制。 為確保絕對最高級別的可用性,必須刪除SPOF。 有一種簡單的方法可以消除這些弱鏈接的集群。
邁出第一步
明智地,在需要消除群集架構中的SPoF時,識別存在的任何SPOF,特別注意服務器,網絡連接和存儲設備。 現代服務器具有冗餘和糾錯內存,跨硬盤和多個CPU的數據條帶化,這消除了大多數硬件組件作為SPOF。 但是,軟件和人為錯誤可能導致服務器或應用程序停機。 部署高可用性集群解決方案可監控服務器和關鍵應用程序的運行狀況,並在發生故障時採取自動恢復操作,從而消除了此SPOF。 所有群集解決方案都提供基本的ping測試來驗證服務器功能。但只有更高級的產品才能跟踪應用程序運行狀況,並能夠自動從檢測到的故障中恢復。 更深層次的檢測和恢復可最大限度地減少停機時間。為冗餘構建集群的所有組件對於最大化正常運行時間至關重要。 與存儲的連接通常代表SPOF,並且將多路徑構建到任何共享存儲配置中至關重要。 Linux DM Multipath(DM-MPIO)在路徑發生故障時將塊I / O重新路由到備用路徑。這消除了從服務器到存儲的路徑中的所有組件作為潛在的SPOF,並在發生故障時提供自動恢復。
還有什麼可以做的
但即使配置了多路徑,共享存儲/ SAN仍然代表單點故障,就像它所在的物理數據中心一樣。 為了提供進一步的保護,必須部署關鍵數據的異地複制以及跨站點群集。 結合站點之間的網絡冗餘,這種最佳解決方案將消除群集架構中的SPoF。實時復制可確保始終提供最新的業務關鍵數據副本。異地執行備份數據中心或云服務還可以防止火災,停電等導致的主要數據中心中斷。使用應用程序級別的監視和自動恢復,共享存儲的多路徑以及異地保護的數據複製,可以消除群集體系結構中潛在的單點故障。 在群集架構和部署期間關注這些組件將確保最大可能的正常運行時間。