Date: 3 4 月, 2025
為什麼無儲存/無節點仲裁對於叢集可用性有害?
一般來說,法定人數是指出席並作出決定的一群人或團體。
在 LifeKeeper 中,Quorum 強制達成共識,使用叢集中節點的狀態來執行處理叢集內節點故障的下一步。生命守護者quorum 可以在三種模式下運行;儲存、多數和 TCP 遠端(TCP 遠端僅適用於 LifeKeeper for Linux)。
- 儲存 Quorum 使用共用儲存裝置來追蹤叢集中其他系統提供的更新,如果某個系統不提供更新,Quorum 會將叢集標記為失敗。
- 多數仲裁依賴奇數個集群的結構其中一個節點充當見證節點,以確定叢集中是否有一個或所有節點無法通訊
- 透過指定連接埠上的 TCP/IP 服務進行 TCP 遠端連接,以驗證叢集中的節點是否可以相互通訊。
了解集群中仲裁的重要性
Quorum 的目的是透過採取補救措施來應對意外情況,從而維持應用程式的可用性。它透過減少裂腦情況的風險並透過維持集群中所有節點之間的通訊來減少停機時間來實現這一點。
集群中沒有仲裁的情況下運作的風險
使用未配置 Quorum 的群集有風險。以下場景將討論缺乏法定人數的後果以及實施法定人數的重要性。
情境 1:減少停機時間
當一個或多個系統因不可避免的因素(例如當機或網路通訊暫時故障)而無法使用時,可能會發生意外停機。
有了儲存這樣的仲裁或 TCP 遠端配置,可以使用存取儲存設備和/或連接埠來追蹤叢集中的通訊狀態。這項額外措施可以防止可能導致嚴重停機的不必要的故障轉移。在其他情況下,Quorum 將採取措施關閉或重新啟動伺服器以將其恢復到健康狀態並避免更長的停機時間。
場景 2:腦裂
一個裂腦就是當叢集中的多個系統認為它們是主伺服器的時候。當主伺服器與輔助伺服器失去通訊時,就會發生這種情況,並且輔助伺服器認為主系統已發生故障。這會導致集群中出現兩個活躍的主系統。
如果配置了多數法定人數,則會提供另一個系統作為見證人,以投票決定哪個系統應該作為主系統,從而防止發生裂腦。
為什麼適當的仲裁配置很重要
操作集群沒有儲存或多數法定人數是危險的,因為它增加了因腦裂和/或網路中斷而導致資料遺失或長時間停機的風險。使用 Quroum 可以提供應對措施,確保集群始終健康並且任何不健康的系統都得到適當處理。
立即聯絡 SIOS了解我們的高可用性解決方案如何協助您正確配置仲裁並保護您的叢集。
作者:Alexus Gore,SIOS Technology Corp. 客戶體驗軟體工程師
經許可轉載西歐斯