可用性方程
您熟悉可用性方程嗎?簡而言之,此等式顯示了將應用程序恢復到可用性所需的總時間如何等於檢測應用程序遇到問題所需的時間加上執行恢復操作所需的時間:
TRESTORE = TDETECT + TRECOVER
高可用性解決方案的關鍵概念
該等式引入了高可用性(HA)的關鍵概念:聚類,問題檢測和後續恢復。HA解決方案監控業務應用程序組件的運行狀況當檢測到問題時,這些解決方案可以恢復它們的服務。部署高可用性解決方案的目標是最大限度地減少停機時間。減少檢測和恢復時間是您選擇部署的任何HA解決方案的兩個重要任務。今天的應用程序是技術組合:服務器,存儲,網絡基礎設施等。在查看HA選項時,請確保您了解每個解決方案用於檢測所有中斷類型並從中恢復的技術。每項技術都會對服務恢復時間產生直接影響。
本地檢測和恢復
高可用性解決方案非常簡單。一種對提供最快恢復時間至關重要的技術稱為本地檢測和恢復(也稱為服務級別問題檢測和恢復)。在基本群集解決方案中,服務器已連接。它們被配置為一個或多個服務器可以在服務器發生故障時接管另一個服務器的操作。群集中的服務器節點不斷地向對方發送小數據包(通常稱為心跳信號)以指示它們“活著”。在簡單群集環境中,當一台服務器停止生成心跳時,其他群集成員會認為此服務器已關閉。然後,它將開始接管該服務器的操作域的責任。這種方法足以檢測服務器級別的故障。但除非問題導致心跳信號中斷或停止,否則服務器級檢測不充分。更重要的是,它實際上可以放大停電的程度和影響。例如,如果Apache進程掛起,服務器仍可能發送心跳。即使Web服務器子系統已停止執行其主要功能。基本服務器級群集解決方案不是在相同或不同的服務器上重新啟動Apache子系統,而是在備份服務器上重新啟動故障服務器的整個軟件堆棧,從而導致用戶中斷並延長恢復時間。
這個怎麼運作
使用本地檢測和恢復,高級群集解決方案在各個群集服務器中部署運行狀況監視代理,以監視各個系統組件,如文件系統,數據庫,用戶級應用程序,IP地址等。這些代理使用特定於受監視組件的啟發式方法。因此,代理可以預測和檢測操作問題,然後採取最合適的恢復操作。通常,最有效的恢復方法是在同一服務器上停止並重新啟動問題子系統。通過在同一物理服務器中啟用恢復,可以大大減少將應用程序還原到用戶可用性的時間。此外,通過更簡單地檢測故障,而不僅僅是通過觀察服務器級心跳。諸如SIOS的SteelEye Protection Suite for Linux等解決方案可為您的環境提供此級別的檢測和恢復。 確保您部署的HA解決方案也支持本地檢測和恢復。您想為您的項目享受高可用性解決方案嗎?請與我們聯繫。需要更多參考,以下是我們的成功案例。經Linuxclustering許可轉載