Date: 29 1 月, 2021
休斯頓我們有問題(或如何理解和響應可用性警報)
成功的失敗
休斯頓,我們有一個問題!這是一條標誌性的台詞,提醒無數太空迷和電影迷想起阿波羅13號太空任務的巨大難度,潛在的災難和危險狀態,這項任務被NASA稱為“成功失敗”。忽略自己的應用程序可用性警報可能不會在歷史上成為決定性的時刻,但也會造成類似的破壞
現在回到1970年:
“對氧氣罐進行例行攪拌會點燃其內部損壞的電線絕緣層,從而引起爆炸,從而將兩個服務模塊(SM)氧氣罐的內容物排空。 沒有呼吸和發電所需的氧氣,SM的推進和生命維持系統將無法運行。 必須關閉命令模塊(CM)的系統,以保留其剩餘的再入資源,從而迫使機組人員以救生艇的身份轉移到月球模塊(LM)。 隨著月球著陸的取消,任務負責人努力使機組人員還活著。”
氧氣罐的爆炸觸發了警報,警告,壓力和電壓下降,通信中斷,然後是宇航員與任務控制系統之間現在著名的無線電通信。但是,如果在爆炸之後機組人員什麼也沒做呢? 如果他們從未檢查過爆炸,從未對警告和量具做出回應,也從未告知任務控制部有問題該怎麼辦?如果任務控制在控制中心的儀表板上收到通知或提醒後,從未嘗試提供任何幫助怎麼辦?如果團隊把頭埋在沙子裡,或者為了命運和機會而辭職,卻從未嘗試從遇到的失敗中學習,即興發揮或改善自己,該怎麼辦?結果將是悲慘的!它可能是一部紀錄片,但幾乎沒有一部具有標誌性線條的大片。
在環境中觸發警報時該怎麼辦?
除非您當然在NASA工作,否則太空行走與我們的日常活動相去甚遠,但是最近有關Apollo 13的博客確實引發了一個有關可用性的問題。當您的環境中觸發警報時,您該怎麼辦? 你只是忽略它嗎?您是否低估它,等待警報,日誌消息或其他指示符消失?您是否與供應商支持聯繫以了解如何禁用這些警報,警告和消息?還是說:“我們這裡有問題,需要解決”?
作為SIOS Technology Corp.客戶體驗的副總裁,我們在警報和指示器方面都有著豐富的經驗。我們與選擇忽略警告的客戶進行了艱苦的交流,關閉了指示問題的嚴重警報,這些警告的範圍從應用程序閾值到網絡不穩定到潛在的數據不一致。我們還看到了一些客戶,他們調動了他們的警報,調查了為什麼警報響起,發現了根本原因並享受了勞動成果。這種成果通常是提高穩定性,創新和學習或避免災難的甜蜜收穫。
可用性產品觸發警報時您可以做的4件事
1.確定可用性警報的類型和嚴重性。
警報或錯誤是否表示警告,錯誤或嚴重問題? 幫助您和您的團隊了解關鍵性的一個好地方是查閱可用的文檔。 檢查產品文檔,在線論壇,知識庫文章(KBA)以及內部團隊數據和流程手冊。
2.評估警報的即時性。
對於警告和錯誤,它們有多大可能發展為嚴重的問題或事件。對於關鍵問題和警報,這可能很明顯,但是即使對關鍵事件進行評估,也可以為您的後續步驟提供一些指導;自我更正,問題隔離或立即升級。
3.諮詢其他資源。
您還可以訪問其他哪些來源來確定警報條件? 例如,如果警報與存儲有關,是否還有其他工具可以揭示存儲的運行狀況?如果問題是網絡警報,是否部署了虛擬機監控程序工具,流量工具,NIC統計信息或其他專用的監視工具來幫助進行分析。
4.聯繫支持。
換句話說,如果不確定,請通知任務控制。 確定類型,評估即時性並諮詢其他資源之後,最好與供應商聯繫以尋求支持。關於API調用閾值的警告似乎是無害的。 但是,如果一旦達到這樣的限制,API調用將失敗,則可能導致立即採取措施。 獲得專家的授權可能有助於保持內心的平靜和避免災難。
SIOS等經驗豐富的供應商可以幫助您快速確定問題的原因並推薦最佳解決方案。
反复忽略可用性環境中的問題可能會導致意外的後果,但同樣會帶來災難性的後果。 解決由警報,日誌消息,警告指示符或其他已安裝和配置的指示符指示的問題,可以在給您的客戶,企業,團隊和您自己帶來“解決問題的機會”之前,將其變為災難。 同時,增強您的可用性策略和基礎架構。您會選擇哪一個?
– Cassius Rhue,客戶體驗副總裁
轉載自SIOS