Date: 9월 20, 2020
고 가용성 지표 확장
기술 분야에서 우리는 데이터를 좋아합니다. 우리는 데이터에 대한 데이터와 우리 도구가 가져올 수있는 모든 지표와 측정을 좋아합니다. 수천 개의 연결된 장치에서 모든 세부 사항을 캡처하는 제품인 분석을 중심으로 산업을 만들었습니다. 우리는 메트릭과 측정을 좋아합니다. 고 가용성 공간 내의 많은 경우에 우리는 시스템이 장애로부터 얼마나 빨리 복구되었는지 알려주는 고 가용성 메트릭을 좋아합니다. 탐지와 치료 사이의 시간을 계산하고 추적하며 재해, 시스템 장애 또는 디스크 충돌로 인해 손실되는 트랜잭션 데이터의 양을 파악하고 측정하는 데 집착합니다.
아이러니하게도 고 가용성 및 재해 복구 (HA / DR) 시스템에는 충분한주의를 끌지 못하는 몇 가지 메트릭이 있습니다.
다음은 환경을 관리하기 위해 지켜봐야 할 8 가지 다른 고 가용성 지표입니다.
1. 보안 경고
가용성은 단순히 애플리케이션 모니터링 및 복구에 관한 것이 아닙니다. 공개적으로 사용 가능한 시스템은 항상 공격을받습니다. 보안 경고 및 경고를 모니터링하지 않는 경우 애플리케이션은 완벽하게 실행되고 지적 재산은 완벽하게 유출 될 수 있습니다.
2. 유휴 연결
유휴 연결은 무해한 것처럼 들리지만 남쪽 잔디밭에있는 녹색 잎이 많은 칡과 같이 무해합니다. 유휴 연결은 리소스를 차지하고 데이터베이스 풀을 채우고 네트워크를 정체시키고 성능을 저하 시키도록 위협합니다. 또한 유휴 연결은 응용 프로그램 계층 또는 데이터베이스 구성에 문제가 있음을 나타낼 수 있습니다.
삼. 장기 실행 쿼리, 명령 또는 작업
이는 데이터베이스 쿼리 또는 작업뿐만 아니라 명령 및 백업에도 적용됩니다. 오래 실행되는 쿼리, 명령 및 작업은 시스템 상태 불량, 느린 디스크 속도, CPU 또는 기타 리소스 경합 또는 더 심층적 인 시스템, 응용 프로그램 호환성 또는 OS 문제의 지표가 될 수 있습니다.
4. 디스크 IO
디스크 IO는 일반적으로 디스크 활동과 관련된 시스템의 입력 / 출력 작업을 나타냅니다. 디스크 I / O를 측정하면 주어진 워크로드에 대해 병목 현상, 불량한 하드웨어 구성, 부적절한 크기의 디스크 또는 잘못 조정 된 디스크 레이아웃을 식별하는 데 도움이 될 수 있습니다. 디스크 I / O를 모니터링하면 장기 실행 쿼리가 잘못된 SQL 구문의 기능인지, 잘못 코딩 된 애플리케이션인지, 지연 시간 및 액세스 문제인지 알 수 있습니다.
5. 기억
우리 모두는 얼마나 많은 메모리가 사용되는지에 대해 생각하지만 메모리 모니터링은 사용 가능한지 여부를 측정하고 보는 것 이상입니다. 메모리 모니터링은 병목 현상, 누수를 조사하고 부적절한 크기의 시스템을 식별하고로드,로드 평균 및 스파이크를 이해하는 데 도움이됩니다. 또한 메모리 집약적 패턴에 대해 알면 가용성 제품군을 조정하여 잘못된 실패를 방지 할 수 있습니다.
6. 디스크 공간
고객 경험 담당 부사장으로서 저는 한때 긴급 전화를 위해 아침 일찍 깨어 난 불행한 경험을했습니다. 고객은 정전 후 생산 시스템이 다운되었습니다. 시스템을 다시 시작하려고 할 때 보호 된 응용 프로그램이 시작되지 않았습니다. 오류 로그를 빠르게 확인한 후 루트 드라이브가 100 % 찼음을 확인했습니다. 애플리케이션이 파일 시스템에 쓸 수 없습니다. 디스크 공간 모니터링은 다양한 형태와 방식으로 사용할 수 있으며이를 메트릭으로 사용하면 불필요한 문제를 방지하고 추가 비용이 많이 드는 막판 스크램블을 방지 할 수 있습니다. .
7. 오류 및 경고
로그의 오류, 경고 및 복구 메시지는 고려해야 할 또 다른 좋은 지표입니다. 가용성 솔루션은 고객을 온라인 상태로 유지하고 행복하게 만들 수 있지만 조만간주의가 필요한 문제를 가릴 수도 있습니다. FATAL, PANIC 및 주요 ERROR 메시지에 대한 로그 모니터링을 추가하면 데이터베이스 충돌, 애플리케이션 패닉 또는 코어 덤프 또는 콜드 재시작이 필요한 치명적인 오류와 같이 가용성 솔루션이 자주 복구하는 문제를 식별하는 데 도움이 될 수 있습니다.
8. 복구 번호
오류 및 경고 모니터링과 마찬가지로 복구 번호는 시스템 가용성 상태에 대해 많은 정보를 제공합니다. 매주 평균적으로 두 번 이상의 애플리케이션 복구를 수행하는 경우 정상적인 가용성 보호보다 더 많은 것을 경험하고있을 가능성이 있습니다. 복구를 통해 애플리케이션이나 시스템을 다시 시작했지만 이러한 잘못된 복구 또는 실제 복구 중 너무 많은 것은 정상적이지 않습니다.
모니터링 할 수있는 HA / DR 메트릭 목록과이를 모니터링하는 도구가 급격히 증가하고 있습니다. 귀하와 귀하의 팀이 현재 데이터 캡처 및 분석을 확장하여 가능한 최상의 고 가용성 시스템을 만드는 데 필요한 정보를 포함하도록하십시오.
— Cassius Rhue, VP, 고객 경험
SIOS의 허가를 받아 복제