Date: 1월 29, 2021
휴스턴 문제가 있습니다 (또는 가용성 알림을 이해하고 이에 대응하는 방법)
성공적인 실패
휴스턴, 우리에게 문제가 생겼다!이는 수많은 우주 애호가와 영화 팬들에게 Apollo 13 우주 임무의 큰 어려움, 잠재적 인 재난, 위험한 상태를 상기시켜주는 상징적 인 라인입니다. NASA는 이제“성공적인 실패”라고 부르는 임무입니다. 자신의 애플리케이션 가용성 경고를 무시하면 기록에서 결정적인 순간이 아닐 수 있지만 유사한 혼란을 초래할 수도 있습니다.
이제 1970 년으로 돌아갑니다.
“산소 탱크를 일상적으로 휘저어 내부에 손상된 와이어 절연체가 점화되어 서비스 모듈 (SM) 산소 탱크의 내용물이 모두 우주로 배출되는 폭발이 발생했습니다. 호흡과 전력 생산에 필요한 산소가 없으면 SM의 추진 및 생명 유지 시스템이 작동하지 못했습니다. 명령 모듈 (CM) 시스템은 재진입을 위해 남은 자원을 절약하기 위해 종료되어야했으며 승무원은 구명정으로 달 모듈 (LM)으로 이동해야했습니다. 달 착륙이 취소됨에 따라 임무 관제사는 승무원을 집으로 데려 오기 위해 노력했습니다.”
산소 탱크의 폭발로 인해 경보, 경고, 압력 및 전압 강하가 발생하고 통신이 중단되고 이제는 우주 비행사와 미션 컨트롤 간의 유명한 무선 통신이 시작되었습니다.하지만 폭발 후 승무원이 아무 조치도 취하지 않았다면 어떨까요? 폭발을 확인하지 않았고 경고 및 게이지에 응답하지 않았으며 문제가 있음을 Mission Control에 알리지 않았다면 어떻게됩니까?Mission Control이 제어 센터의 대시 보드에서 알림을 받거나 알림을받은 후 지원을 제공하지 않은 경우 어떻게됩니까?팀이 머리를 모래에 묻거나 운명과 우연에 사임하고 그들이 직면 한 실패로부터 배우거나, 즉흥적으로 개선하거나 개선하려고하지 않았다면 어떨까요?그 결과는 비극적이었습니다!다큐멘터리로 만들었을지 모르지만 상징적 인 라인을 특징으로하는 블록버스터 영화는 아닙니다.
환경에서 경고가 트리거되면 어떻게합니까?
물론 NASA에서 일하지 않는 한 우주 산책은 일상 활동과는 거리가 멀지 만 Apollo 13에 대한 최근 블로그는 가용성에 대한 질문을 불러 일으 킵니다.환경에서 경고가 트리거되면 어떻게합니까? 그냥 무시 하시나요?경고, 로그 메시지 또는 기타 표시기가 사라질지 확인하기 위해 그것을 경시합니까?이러한 경고, 경고 및 메시지를 비활성화하는 방법을 이해하기 위해 공급 업체 지원에 문의하십니까?아니면“여기에 문제가있어 해결해야합니다”라고 말합니까?
SIOS Technology Corp.의 고객 경험 담당 부사장으로서 우리는 경고와 지표를 모두 경험했습니다.우리는 경고를 무시하고 애플리케이션 임계 값에서 네트워크 불안정성, 잠재적 인 데이터 불일치에 이르기까지 문제를 나타내는 중요한 경고를 해제 한 고객과 함께 열심히 걸어 왔습니다.또한 경고를 확인하고 경보가 울리는 이유를 조사하고 근본 원인을 밝혀 내고 노동의 결실을 즐긴 고객도 보았습니다.이 열매는 안정성, 혁신 및 학습 개선, 또는 재난을 피할 수있는 가장 좋은 보상입니다.
가용성 제품이 경고를 트리거 할 때 수행 할 수있는 4 가지 작업
1. 가용성 경고의 유형과 중요도를 확인합니다.
경고 또는 오류가 경고, 오류 또는 심각한 문제를 나타 냅니까? 중요도를 이해하는 데 도움이되는 좋은 위치는 사용 가능한 문서를 참조하는 것입니다. 제품 문서, 온라인 포럼, 지식 기반 문서 (KBA), 내부 팀 데이터 및 프로세스 매뉴얼을 확인하십시오.
2. 경고의 즉시 성을 평가합니다.
경고 및 오류의 경우 심각한 문제 또는 이벤트로 진행될 가능성중요한 문제 및 경고의 경우 이는 분명 할 수 있지만 평가를 통해 중요한 이벤트도 다음 단계에 대한 지침을 제공합니다. 자체 수정, 문제 격리 또는 즉각적인 에스컬레이션.
3. 추가 소스를 참조하십시오.
경고 조건을 결정하기 위해 액세스 할 수있는 다른 소스는 무엇입니까? 예를 들어 경고가 스토리지와 관련된 경우 스토리지 상태를 노출 할 수있는 다른 도구가 있습니까?문제가 네트워크 경고 인 경우 하이퍼 바이저 도구, 트래픽 도구, NIC 통계 또는 분석을 돕기 위해 배포 된 기타 특수 모니터링 도구가 있습니까?
4. 지원에 문의하십시오.
즉, 확실하지 않은 경우 Mission Control에 알립니다. 유형을 결정하고 즉시 성을 평가하고 추가 소스를 참조한 후 공급 업체에 지원을 요청하는 것이 좋습니다.API 호출 임계 값에 대한 경고는 무해한 것처럼 보일 수 있습니다. 그러나 이러한 한도에 도달하면 API 호출이 실패하면 즉각적인 조치를 취할 수 있습니다. 전문가의 권한을 얻는 것은 마음의 평화를 유지하고 재난을 피하는 데 도움이 될 수 있습니다.
SIOS와 같은 숙련 된 공급 업체가 문제의 원인을 신속하게 파악하고 최상의 솔루션을 추천하는 데 도움을 줄 수 있습니다.
가용성 환경의 문제를 반복적으로 무시하면 예상치 못한 결과가 발생할 수 있지만 그다지 치명적인 결과는 아닙니다. 알림, 로그 메시지, 경고 표시기 또는 기타 설치 및 구성된 표시기로 표시된 문제를 해결하면 재해가 발생하기 전에 고객, 비즈니스, 팀 및 자신에게 '문제를 해결할 기회'가 제공됩니다. 동시에 가용성 전략과 인프라를 강화합니다.어느 쪽을 선택 하시겠습니까?
– Cassius Rhue, VP, 고객 경험
SIOS에서 재현