更好地維護高可用性集群需要考慮的十個問題
維護是每個公司生命週期的一部分。每個基礎設施都在不斷移動和變化,即使是那些正在走向生命終結的基礎設施。您的團隊可能在您過去所做的事情上取得了很大的成功,但隨著系統變得越來越複雜,您過去認為成功的事情可能需要更新。這裡有十個問題需要改進集群維護, 最大化高可用性,並最大限度地減少停機時間。
系統維護時如何保證高可用
-
業務利益相關者最好的日子是什麼時候?
與計劃外停機不同,這些是多個團隊、系統和互連資源根本無法用於計劃活動的窗口。例如,一家公司需要每月進行系統合規性檢查和安全檢查。在此期間,業務運營被檢查員、審計員等關閉。
-
團隊安排維護的最佳日期是什麼時候?
作為客戶體驗副總裁,我們與許多對某些事件和活動有限制日期的團隊密切合作。您的團隊可能負責不止一組系統和服務器,並向具有關鍵應用程序和基礎架構的多個團隊報告。了解哪些日子最適合團隊可以幫助您避免分心、衝突和由於已知資源限製而浪費的時間。
-
什麼日期和時間最適合合作夥伴、顧問和非公司承包商?
關鍵基礎設施通常包括許多與公司人員配置沒有直接關係的其他供應商和供應商。這些資源包括操作系統、安全和 HA 供應商和顧問,以及來自基礎架構提供商和其他合作夥伴的架構師。提前了解哪些日子最好或包含在您的支持層中對於正確安排和人員配備至關重要。
隨著全球團隊的增加,為所有這些資源找到合適的時間是另一個需要回答的重要問題。EST、IST、EMEA 和其他地區的資源最佳時間是什麼時候?
-
維護的預期範圍是什麼?維護活動的預期結果是什麼?整體思考。
超越對應用程序的簡單維護,考慮包括它運行的整個環境。最近,一位計劃升級其應用程序的客戶決定同時升級其操作系統。不幸的是,這種範圍上的微小變化帶來了比預期更大的後果。他們的應用程序不支持新升級的操作系統,問題接踵而至。確保明確定義維護窗口的範圍,並詳細說明該範圍的結果。僅僅說環境有效是不夠的。盡可能詳細說明預期版本、行為和可衡量的結果。查看更多關於IT 彈性。
-
維護窗口的時間長度是多少(預期的,允許的)?
理想情況下,我們都希望有所有的時間來執行維護,但客戶遍布世界各地意味著對計劃停機時間的容忍度很小——即使是關鍵任務也是如此。當您計劃維護時,預計停機時間有多長?你真的能滿足最大允許窗口嗎?如果不是,那麼您將需要重新計劃維護事件。
-
回滾計劃是什麼?
雖然我們希望沒有任何問題,但我們應該意識到我們正在處理軟件、複雜的環境和配置,以及由許多團隊處理的許多移動部分。回滾計劃——即將系統恢復到維護前的版本和設置的方法——是必不可少的。確保如果出現問題,您有回滾計劃,例如完整備份或機器映像。查看更多關於災難恢復.
-
所涉及的各個團隊成員是誰,他們的角色和職責是什麼?是否明確定義了所有必需的角色和職責?
作為客戶體驗副總裁,我們的團隊參與了一項維護活動,由於關鍵團隊成員失踪,該活動遇到了無法預料的延誤。在製定計劃和架構時,請務必確定團隊成員以及所需的 IT 角色和職責。正如高級支持工程師 Greg Tucker 提醒客戶的那樣,HA 涉及環境的每一層,包括存儲、網絡、計算、操作系統、安全、策略等。
-
維護計劃記錄在哪裡?最後一次審查、更新和測試計劃是什麼時候?
成功是美好的,但它也會讓你沾沾自喜或自得其樂。經過多年的成功,您的過程可能不再被詳細記錄或被積極遵循。回答這些問題可以確保您的團隊繼續取得成功。
-
在生產計劃之前的測試/QA 中解決了哪些問題?
感謝您繼續測試維護步驟。確保將在測試環境中解決的問題正確添加到生產維護計劃中。SIOS 客戶成功團隊已經看到客戶執行 QA 測試、發現錯誤假設並進行必要的更正,但未能將這些更正放入他們的生產清單中。
-
您的計劃中缺少誰或缺少什麼?
既然您已經查看了計劃、時間安排、團隊、角色和架構,最後一個問題仍然存在:缺少誰或缺少什麼?作為最後一步,查看您的計劃並提出以下問題:“我們的計劃中缺少誰?” 另外,考慮問“我們的計劃中缺少什麼?” 作為客戶體驗副總裁,我與我們的團隊一起審查了無數客戶的活動計劃。最令人難忘的維護計劃審查之一揭示了回滾計劃中的一系列步驟,包括從克隆圖像和備份數據恢復服務器。但是,映像克隆和數據備份步驟並未包含在任務列表中。他們被忽視了,並被認為是在流程的早期完成的。
系統維護是保持高可用性的關鍵要素
系統維護是維護計算機系統的關鍵和必要部分。維護可以是糾正錯誤、引入新的軟件功能或使系統適應新的用例。當所討論的系統是對組織保持業務連續性至關重要的業務關鍵系統時,制定一個深思熟慮的計劃是必不可少的。考慮這十個問題和您自己的其他問題,以確保您的維護滿足業務需求,而不會出現不必要的風險或延誤。
聯繫 SIOS今天介紹高可用性和災難恢復解決方案。
經許可轉載自信息系統