部署安全、高可用性 IT 系統的挑戰
11 月號的《Intelligent CIO》刊登了 SIOS 客戶支援工程師 Phil Merry 撰寫的引人注目的署名文章,該文章討論了部署安全且高度可用的 IT 系統所面臨的挑戰。
經許可轉載安全作業系統
SIOS SANless clusters High-availability Machine Learning monitoring
11 月號的《Intelligent CIO》刊登了 SIOS 客戶支援工程師 Phil Merry 撰寫的引人注目的署名文章,該文章討論了部署安全且高度可用的 IT 系統所面臨的挑戰。
經許可轉載安全作業系統
在這一集中的 Let’s Talk 中,SIOS Technology 的高級技術佈道師 Dave Bermingham 討論了安全應用視訊管理系統 (VMS) 中高可用性 (HA) 的重要性,重點討論了保護基本組件等挑戰。
經許可轉載安全作業系統
企業越來越多地使用多個雲端服務供應商來保持靈活性和可擴展性;然而,最近發生的 CrowdStrike 中斷等事件凸顯出即使是頂級系統也可能遇到問題,特別是在更新和安全性修補程式方面。本次網路研討會討論了實施多雲高可用性 (HA) 解決方案的最佳實踐,以確保您的關鍵任務應用程式在意外中斷期間保持運作。它還涵蓋了防止系統配置錯誤或有問題的修補程式導致停機的策略,確保您可以有效地管理您的雲端基礎架構。
觀看點播網路研討會,了解如何在您的環境中實現高可用性並最大限度地減少可預防的停機時間。
經許可轉載安全作業系統
當我還是一名在坦克營服役的海軍陸戰隊員時,我記得在發射砲彈之前我們都做好了聽到「Fire in the Hole」的準備。即使你沒有聽到其他人大喊大叫,我們也有無線電/通訊、手/臂信號、旗幟、照明彈等,表明一切都“開始”,射彈正在射程內。我們都知道溝通至關重要。
如果您是資料庫管理員、伺服器工程師或負責叢集上應用程式資源運作狀況的 IT 通才 (資料管理員儲存),溝通對您來說也很重要。例如,您如何通知其他人您為擴展儲存所做的努力?為了取得成功,您可能需要與團隊中的其他幾名成員就與源捲和目標卷相關的廣泛主題進行溝通,包括:
當需要配置現有的 DataKeeper 鏡像時,您團隊中的誰會大喊「火在洞裡」?您不想在之前和之後收到通知嗎?
您的 DataKeeper 儲存需要向所有利害關係人傳達一些訊息;內部或外部(託管):
海軍:“準備好了嗎?”
其他海軍陸戰隊員:“是!” (當然有一些髒話,我們是海軍陸戰隊!哈哈)
海軍陸戰隊:“洞裡有火”
DataKeeper 管理員:「暫停並解鎖鏡像」又稱為「洞裡有火」
準備好優化您的儲存空間以實現高可用性了嗎?與 SIOS 專家聯繫今天,以確保您的叢集大小調整順利、高效且可擴展。
經許可轉載安全作業系統
作為客戶支援組織,我們每天都會收到來自世界各地客戶的來信。當客戶有疑問或需要協助的問題時,可以致電或發送電子郵件向我們提出案例。有些案例最終成為新問題,而許多案例最終根本不是新問題。客戶似乎一次又一次遇到同樣的問題。經過 20 年的客戶支援工作和數千個案例之後,我們仍然會看到以前從未報告過的新問題,而這些問題也屬於常見類別。這讓我們的工作變得非常有趣!我們注意到的一件事是,客戶報告的問題屬於一些常見的類別。
以下是客戶向我們尋求協助的 5 大原因(根本原因):
很多時候客戶需要更改叢集中的IP位址。有時,更改網路配置的後果並未事先意識到或規劃。當網路發生變化時,集群可能會出現意想不到的問題。如果更改的 IP 位址用於 DataKeeper 和 LifeKeeper 配置(例如鏡像端點或通訊路徑),則您需要在 DataKeeper 和 LifeKeeper 配置中進行更改,以便產品了解此變更。
提前規劃
如果您知道需要進行網路更改,我們建議您提前規劃網路更改。提前規劃將避免任何不可預見的問題,並確保您已定義實施變更的步驟。
更新鏡像IP位址
如果 IP 位址(鏡像端點)發生更改,DataKeeper 將無法再使用原始鏡像 IP 位址(因為它不再存在),並且無法在伺服器之間鏡像資料。 DataKeeper 將需要更新才能使用新的鏡像 IP 位址。這種情況已記錄在案這裡。
通常,所報告問題的根本原因最終是配置問題。客戶報告說,他們的配置無法正常工作,或者從產品 GUI 中看到的產品似乎無法正常工作。通常,配置問題是由於群集環境中原始群集配置發生變更或首次安裝產品時設定不正確而導致的。
報告的常見配置問題範例:
很多時候客戶需要擴大/增加他們的數量。關鍵的產品要求之一是來源磁碟區必須等於或小於目標卷,否則產品將無法將資料從來源重新同步到目標磁碟區。雖然這看起來合乎邏輯,但常常被忽略。有時,目標磁碟區最終小於來源磁碟區,這會導致磁碟區無法達到鏡像狀態。以下文件和影片解釋了擴展您的程序DataKeeper 卷。
安裝 DataKeeper 時,系統會提示使用者輸入 DataKeeper 服務要使用的登入憑證。建議使用具有管理員權限的網域帳戶,大多數客戶都會建立專門供 DataKeeper 使用的帳戶。使用的網域帳戶必須新增至本機系統管理員群組。此帳戶必須在安裝 DataKeeper 的每台伺服器上具有管理員權限。很多時候,該帳戶沒有新增到本機系統管理員群組,這會阻止 DataKeeper 無法連接到自身以及叢集中的其他 DataKeeper 伺服器。請參閱文件以獲取更詳細的信息這裡。
主要的時間配置問題需要對叢集進行更改,以使 DataKeeper 或 LifeKeeper 產品再次回到工作環境。
我們建議在對叢集環境進行更改之前聯繫支援人員,以便我們協助確保您朝著正確的方向前進,並為您提供有關該主題的文件和影片。
升級是系統管理員任務的常見部分。隨著新版本的發布,您總是需要升級系統上的某些內容:作業系統、應用程式軟體、系統韌體、資料庫軟體、安全軟體等。措。
許多客戶在計劃升級 DataKeeper 或 LifeKeeper 時會聯繫支援人員並提出問題,以確保他們在實際實施升級之前了解升級流程。這是我們願意看到的。我們確實看到一些客戶在執行升級之前沒有聯繫並發生意外問題的情況。許多人認為升級是例行公事;但是,有些升級會造成不相容並可能導致問題。
升級規劃
規劃以及了解特定升級所需的內容是升級的關鍵。在執行升級之前詢問問題。確保在升級之前記錄了您的步驟。不要忘記在升級生產系統之前對測試或 QA 系統進行升級。這是我們推薦的最佳實踐,這樣,如果您遇到升級問題,問題將發生在測試伺服器或 QA 伺服器上,而不是在生產伺服器上。
什麼是外部或作業系統相關問題?當報告的問題超出了 DataKeeper 和 LifeKeeper 範圍時,我們將根本原因稱為外部或作業系統相關問題。 DataKeeper 和 LifeKeeper 使用許多伺服器元件,例如:磁碟/磁碟區和網路。如果作業系統無法「看到」磁碟或磁碟區,則 DataKeeper 和 LifeKeeper 也無法「看到」磁碟或磁碟區。乍一看,報告的問題可能與 DataKeeper 或 LifeKeeper 相關,但是,在分析問題時,確定是 DataKeeper 或 LifeKeeper 所依賴的作業系統元件。
例如,為了使 DataKeeper 映像正常運作,DataKeeper 要求磁碟區對作業系統可見、線上、運作狀況良好並且具有有效的檔案系統。如果不符合這些要求,DataKeeper 鏡像將無法將資料從一個系統鏡像到另一個系統。 DataKeeper 將顯示鏡像處於暫停狀態。偵錯此問題時,磁碟/磁碟區的 Windows 磁碟管理工具顯示該磁碟區處於離線狀態、不處於正常狀態,或是原始裝置。一旦這個問題得到修正,DataKeeper 就可以再次將資料從一個系統鏡像到另一個系統。有關更多詳細信息,請參閱視頻“為 DataKeeper 使用準備存儲”,位於這裡。
當 DataKeeper 磁碟區無法鎖定目標系統時,會出現外部或作業系統相關問題的另一個範例。 DataKeeper 有意鎖定目標系統上的捲,以防止在目標系統上發生寫入操作。為了讓 DataKeeper 鎖定目標卷,該磁碟區上不能有作業系統頁面檔案。很多時候,系統在作業系統層級配置為“自動管理頁面檔案”,有時頁面檔案最終會被作業系統放置在 DataKeeper 磁碟區上。為了解決這個問題,我們建議更改此作業系統設定。參考這個連結了解更多詳情。
客戶還聯繫我們以透過鏡像來提高其鏡像性能和系統性能,因為鏡像沒有進入鏡像狀態或該產品正在降低系統性能。第一個問題(鏡像未達到鏡像狀態)只需使用 WriteQueueHighWater、WriteQueueHighWaterSynchronous 和 BlockWritesonLimitReached 等幾個常更改的可調參數調整 DataKeeper 中的註冊表項以匹配您的系統配置。請參閱位於這些可調參數的文檔這裡。
第二個問題(系統效能)只是移動 DataKeeper 位圖位置的問題。預設情況下,位圖位於 C 驅動器上,可能需要重新定位到更快的驅動器。有關重新定位點陣圖的信息,請參閱文件和視頻這裡。
系統和產品調整通常是為了最大限度地提高性能。這些變更的範例包括更改產品可調參數以更緊密地匹配客戶的環境。有很多因素會影響 DataKeeper 和 LifeKeeper,包括作業系統、網路、儲存設備等。我們確實提供驗證和運行狀況檢查服務,以幫助客戶確保實施 HA 最佳實踐。訪問這個連結有關我們產品的詳細資訊。
我們建議的一個關鍵策略是確保在投入生產之前完成測試,以便在此過程中儘早發現並解決問題(包括效能問題)。測試通常在進入生產環境之前在測試或 QA 環境中完成。最好嘗試在測試/QA 環境上模擬生產環境負載,以確保生產環境充分執行。我們建議您閱讀我們的一些有關性能的博客,位於我們的部落格特別是在這裡。
提前解決這些常見問題,確保您的系統順利運作。需要專家指導嗎?立即聯絡我們的支援團隊幫助您避免將來撥打支援電話!
經許可轉載安全作業系統