理解和避免裂腦情景
裂腦。 我們博客的大多數讀者都聽說過這個詞,在計算環境中,也就是說,我們不得不同情那些第一個心理形像是如果有人有兩個大腦會導致的混亂同時。
什麼是故障轉移群集裂腦方案?
在故障轉移集群裂腦場景中,兩個節點都不能與另一個節點通信,備用服務器可能會提升自己成為活動服務器,因為它認為活動節點出現故障。 這導致兩個節點都變為“活動”,因為每個節點都會將另一個節點視為失敗。 因此,由於兩個節點上的數據都會發生變化,數據完整性和一致性會受到損害。 這被稱為裂腦。
如果不採取適當的步驟來避免它們,SAP HANA 資源層次結構可能會發生兩種類型的腦裂情況。
- HANA 資源裂腦: HANA 資源在多個集群節點上處於活動狀態 (ISP)。 這種情況通常是由影響集群節點之間通信路徑的臨時網絡中斷引起的。
- SAP HANA 系統複製裂腦: HANA 資源在主節點上為 Active (ISP),在備份節點上為 Standby (OSU),但數據庫正在運行並註冊為兩個節點上的主複製站點。 這種情況通常是由於在故障轉移期間無法停止先前主節點上的數據庫、為數據庫啟用了自動啟動,或者數據庫管理員在集群軟件環境之外的輔助複製站點上手動運行“hdbnsutil -sr_takeover” .
避免裂腦問題
避免或解決方案中每種類型的裂腦情景的建議SIOS 保護套件集群環境如下。
在裂腦情況下,每隔 quickCheck 時間間隔(默認為 2 分鐘),就會記錄一條類似於以下內容的消息並將其廣播到所有打開的控制台,直到問題得到解決。
EMERG:hana:quickCheck:HANA-SPS_HDB00:136363:WARNING: 服務器 hana2-1 和 hana2-2 之間發生臨時通信故障。需要手動干預以最大程度地降低數據丟失的風險。 要解決這種情況,請停止使用以下資源層次結構之一:hana2-1 上的 HANA-SPS_HDB00 或 hana2-2 上的 HANA-SPS_HDB00。 資源層次結構停止服務的服務器將成為輔助 SAP HANA 系統複製站點。
解決建議:
- 調查每個集群節點上的數據庫以確定哪個實例包含最新或相關的數據。 該決定必須由熟悉數據的合格數據庫管理員做出。
- 包含需要保留的數據的節點上的 HANA 資源在 LifeKeeper 中將保持 Active (ISP),並且將重新註冊為輔助複製站點的節點上的 HANA 資源層次結構將在救生員。 右鍵單擊 HANA 資源層次結構中應停止服務的節點上的每個葉資源,然後單擊中止服務…
- 一旦 SAP HANA 資源層次結構成功退出服務,LifeKeeper 將在下一個 quickCheck 間隔(默認為 2 分鐘)內將備用節點重新註冊為輔助複製站點。 一旦複製恢復,備用節點上不存在於主動節點上的任何數據都將丟失。 備用節點重新註冊為輔助複製站點後,SAP HANA 層次結構已返回到高度可用的狀態。
SAP HANA 系統複製裂腦解決方案
而在這種裂腦場景中,會記錄一條類似於以下內容的消息,並將其廣播到所有打開的控制台。 檢查間隔(默認為 2 分鐘),直到問題得到解決。
EMERG:hana:quickCheck:HANA-SPS_HDB00:136364:WARNING: SAP HANA 數據庫 HDB00 正在運行,並在 hana2-1 和 hana2-2 上註冊為主要主機。 需要手動干預以最大程度地降低數據丟失的風險。 要解決這種情況, 請通過在該服務器上運行命令“su – spsadm -c “sapcontrol -nr 00 -function Stop””來停止 hana2-2 上的數據庫實例 HDB00。 一旦停止, 它將成為輔助 SAP HANA 系統複製站點。
解決建議:
- 調查每個集群節點上的數據庫,確定Standby節點上是否存在重要數據,而Active節點上不存在。 如果在裂腦狀態下重要數據已經提交到 Standby 節點上的數據庫,則需要手動將數據複製到 Active 節點。 該決定必須由熟悉數據的合格數據庫管理員做出。
- 一旦任何丟失的數據從備用節點上的數據庫複製到活動節點,通過運行 LifeKeeper 警告消息中給出的命令停止備用節點上的數據庫:
su – adm -c “sapcontrol -nr <Inst#> -function Stop” 其中是 HANA 安裝的小寫 SAP 系統 ID,<Inst#> 是 HDB 實例的實例編號(例如,實例編號、例如,HDB00 是 00)
- 一旦數據庫成功停止,LifeKeeper 將在下一個 quickCheck 間隔(默認為 2 分鐘)內將備用節點重新註冊為輔助複製站點。 一旦複製恢復,備用節點上不存在於主動節點上的任何數據都將丟失。 備用節點重新註冊為輔助複製站點後,SAP HANA 層次結構已返回到高度可用的狀態。
了解常見的裂腦場景並採取這些步驟來緩解它們可以節省您的時間並保護數據完整性。
經授權轉載SIOS