Date: 20 9 月, 2020
擴展您的高可用性指標
在技術領域,我們喜歡數據。我們喜歡有關數據的數據以及我們工具可以帶來的所有指標和度量。我們圍繞分析技術創建了行業,這些產品可以捕獲數千個已連接設備的每個細節。我們喜歡指標和措施。在更高可用性空間中的許多情況下,我們喜歡高可用性指標,這些指標告訴我們系統從故障中恢復的速度。我們計算並跟踪檢測和修復之間的時間,我們著迷於了解和衡量在災難,系統故障或磁盤崩潰中會丟失多少事務數據。
具有諷刺意味的是,在高可用性和災難恢復(HA / DR)系統中,有些指標沒有引起足夠的重視。
以下是管理環境時應注意的其他八個高可用性指標:
1。 安全警報
可用性不僅涉及應用程序監視和恢復。 公開可用的系統總是受到攻擊。 如果您不監視安全警報和警告,則您的應用程序可能會完美運行,而您的知識產權卻可以完美無缺地被轉移。
2。空閒連接
空閒的連接聽起來無害,但它們幾乎和南部草坪上的綠葉葛根一樣無害。 空閒連接會佔用資源,並有可能填滿數據庫池,擁塞網絡和窒息性能。 此外,空閒連接可能表明應用程序層或數據庫配置存在問題。
3。長期運行的查詢,命令或作業
這不僅適用於數據庫查詢或作業,還適用於命令和備份。 長時間運行的查詢,命令和作業可能表明系統運行狀況不佳,磁盤速度降低,CPU或其他資源爭用,或者係統,應用程序兼容性或操作系統存在更深層次的問題。
4。磁盤IO
磁盤IO通常是指與磁盤活動有關的系統的輸入/輸出操作。測量磁盤I / O可以幫助確定瓶頸,給定工作負載的硬件配置不正確,磁盤大小不正確或磁盤佈局調整不當。 監視磁盤I / O可以幫助您告訴您長時間運行的查詢是否是由於不良的sql語法,不良的應用程序編碼或延遲和訪問問題引起的。
5,記憶
我們都考慮要使用多少內存,但是內存監視不只是衡量和查看可用內存還是已使用內存。 監視內存可幫助您調查瓶頸,洩漏,識別大小不正確的系統,了解負載,平均負載和峰值。 此外,了解內存密集型模式可以幫助您調整可用性套件,以避免錯誤的故障。
6。磁盤空間
作為客戶體驗副總裁,我曾經有過一次很不幸的經歷,要在清晨醒來緊急呼叫。 停電後,客戶面臨停機生產系統。 當他們嘗試重新啟動系統時,受保護的應用程序無法啟動。 快速檢查錯誤日誌後,很明顯根驅動器已100%充滿。 該應用程序無法寫入任何文件系統。 磁盤空間監視有多種形式和方法,將其作為度量標準可以防止不必要的問題和增加更多成本的最後一刻爭奪。。
7 錯誤和警報
日誌中的錯誤,警報和恢復消息是要考慮的另一個很好的指標。 您的可用性解決方案可能會使您的客戶保持在線狀態並感到滿意,但也可能掩蓋了需要盡快引起您注意的問題。 為FATAL,PANIC和關鍵ERROR消息添加日誌監視可以幫助您確定可用性解決方案經常從中恢復的問題,例如數據庫崩潰,應用程序緊急情況或核心轉儲,或者需要冷重啟的致命錯誤。
8。恢復編號
與監視錯誤和警報類似,恢復編號可以告訴您很多有關係統可用性的信息。 如果您平均每週要進行一次以上的應用程序恢復,則可能會遇到比正常的可用性保護更多的事情。 儘管恢復成功地重啟了您的應用程序或系統,但這些錯誤甚至真實的恢復中有太多是不健康的。
我們可以監控的HA / DR指標列表以及用於監控它們的工具正在飛速發展。 確保您和您的團隊考慮擴展當前的數據捕獲和分析,以包括那些可能構成最佳更高可用性系統的數據。
—客戶體驗副總裁Cassius Rhue
經SIOS許可轉載