Date: 15 9 月, 2023
如何保護雲平台中的應用程序
雲平台僅保護應用程序免受因硬件故障導致的停機。任務關鍵型應用程序需要 HA/DR 保護,無論其在何種雲環境中運行。
在提供高可用性保護時,一般原則是確保所有組件都是冗餘的,以避免單點故障 (SPOF)。也就是說,確保沒有任何一個元素在發生故障時導致整個系統停止。然而,值得注意的是,運營基礎設施很難在公共雲中訪問。
在基於雲的高可用性集群中,備用節點有可能位於同一主機服務器上、同一機架中,並使用與操作節點相同的網絡交換機。除非您對這些元素進行冗餘配置,否則它們中的任何一個都可能出現 SPOF,並使應用程序面臨災難性故障的風險。
有必要確保集群節點位於不同的雲“區域”和“可用區”,這些雲“區域”和“可用區”在物理上將不同地理位置的數據中心和運營基礎設施分開。
確保云可用性的主要原則是什麼?
隨著部件磨損、系統不兼容以及設置發生變化,您不能指望構成物理 IT 基礎設施的各種組件永遠按照規范運行。儘管定期維護可以降低停機風險,但在產品生命週期中很可能會出現某些故障。
在極少數情況下,操作系統或嵌入式軟件中可能存在潛在的嚴重錯誤,導致應用程序停止工作。
您可能已經註意到,HA集群配置正是符合這個原則,通過將重要服務器及其資源冗餘到主用系統(生產系統)來消除單點故障。但是,請務必記住兩件事:1. 服務器硬件不是唯一的關鍵組件,2. 在公共雲基礎設施中,您可能看不到其他關鍵的 SPOF 組件。
謹防隱藏在雲隱形基礎設施中的單點故障陷阱
大多數公共雲以所謂的“多租戶”模式運行。也就是說,他們在同一台物理主機服務器上運行多個公司的虛擬機。通過常規合同,您無法指定係統在哪個主機服務器上運行。這可能會導致問題,如
雲集群中的備用節點可以放置在運行活動節點的同一主機服務器上。即使您配置了HA集群配置,如果主服務器宕機,運行節點和備用節點也會宕機。在這種情況下,您的雲運營商將決定何時以及如何恢復您的系統。
運行主節點的主機服務器和運行備用節點的主機服務器可以位於同一機架中。在這種情況下,該機架就成為單點故障,因此如果該機架發生故障,其下的主備節點也會發生故障。
此外,在基礎設施的上層,例如捆綁多個機架的網絡交換機、網關和路由器以及數據中心的電源單元,操作系統節點和備用系統節點可能共存於同一系統中,並且如果這些關鍵如果組件不是冗餘的,那麼就會出現不可避免的單點故障。同樣,對於公有云用戶的公司來說,這樣的數據中心基礎設施是一個黑匣子,可能無法查看詳細配置來識別 SPOF。
應利用公共雲可用區和區域來提高可用性
如何明確避免公有云中隱藏的單點故障?最穩健的方法是使用雲端準備的“可用區”和“區域”。
可用區是數據中心內基礎設施的獨立物理隔離。區域是地理上分開的獨立數據中心。公共雲允許您有意將這些可用區或區域用於不同的目的。
通過構建運行節點和備用節點分佈在這兩個或多個區域的不同可用區的 HA 集群配置,幾乎所有的 SPOF 都可以避免。如果您堅持這些最佳實踐,您就可以自信地確保可用性、災難恢復(災難恢復)和 BCP(業務連續性計劃)。
經許可轉載安全操作系統