Date: 11월 9, 2022
전환, 장애 조치 및 복구 간의 미묘하지만 중요한 차이점 설명
고가용성은 전문 분야이며 대부분의 전문 분야와 마찬가지로 고유한 어휘와 용어가 있습니다. 우리 고객은 일반적으로 IT에 대해 매우 잘 알고 있지만 HA 환경에서 일한 적이 없다면 일반적인 HA 용어 중 일부가 그들과 우리 모두에게 상당한 혼란을 야기할 수 있습니다. 그것들은 단순해 보이지만 HA의 맥락에서 매우 구체적인 의미가 있습니다. 여기에서는 전환, 장애 조치 및 복구라는 세 가지 용어에 대해 설명합니다.
전환이란 무엇입니까 ?
전환은 사용자 시작 를 통한 조치 고가용성 (HA) 클러스터링 솔루션 사용자 인터페이스 또는 CLI. 전환 시 사용자는 수동으로 보호된 응용 프로그램의 소스 또는 기본 서버를 변경하는 작업을 시작합니다. 일반적인 전환 시나리오에서 실행 중인 모든 응용 프로그램 및 종속성은 상위 응용 프로그램에서 시작하여 모든 하위/종속성이 중지될 때 끝나는 순서대로 중지됩니다. 애플리케이션과 해당 종속성이 중지되면 새로 지정된 기본 또는 소스 서버에서 순서대로 다시 시작됩니다.
예를 들어 알파, 베타 및 감마 리소스가 있는 경우. 리소스 알파는 리소스 베타 및 감마에 따라 다릅니다. 리소스 베타는 리소스 감마에 따라 다릅니다.전환 이벤트에서 알파 리소스가 먼저 중지되고 베타가 중지되고 마지막으로 감마가 중지됩니다.세 가지가 모두 중지되면 전환은 계속해서 리소스를 의도한 서버의 작동 상태로 만듭니다.프로세스는 자원 Gamma에서 시작하여 Beta가 이어지며 마지막으로 Alpha 자원에 대한 시작 작업이 완료됩니다.전통적으로 전환 작업에는 리소스가 적절하고 질서 있는 방식으로 중지되어야 하므로 더 많은 시간이 필요합니다. 전환은 가동 시간을 유지하면서 소프트웨어 버전을 업데이트해야 하거나 기본 프로덕션 노드에서 유지 관리 작업(롤링 업그레이드를 통해)을 수행하거나 DR 테스트를 수행해야 할 때 수행되는 경우가 많습니다.
주요 요점 : 조치를 취하는 데 실패가 없다면 전환이었습니다.
장애 조치란 무엇입니까?
장애 조치 작업은 일반적으로 서버 충돌 또는 예기치 않은/계획되지 않은 재부팅에 대한 응답으로 사용자가 시작하지 않은 작업입니다. 노드 A와 노드 B의 두 노드가 있는 HA 클러스터의 시나리오를 고려하십시오.이 시나리오에서는 모든 중요 응용 프로그램 Alpha, Beta 및 Gamma가 노드 A에서 시작되고 작동합니다. 이 시나리오에서 장애 조치는 노드 A에 예기치 않은/계획되지 않은 재부팅, 전원 끄기, 중지 또는 패닉이 발생할 때 발생합니다. HA 소프트웨어가 노드 A가 더 이상 작동하지 않고 클러스터 내에서 작동 가능하지 않음을 감지하면(솔루션에서 정의한 대로), 장애 조치 작업을 트리거하여 사용 가능한 클러스터 노드에 대한 중요한 애플리케이션, 리소스, 서비스 및 종속성에 대한 액세스를 복원합니다. , 이 경우 노드 B.장애 조치 시나리오에서 노드 A에 충돌(또는 기타 시뮬레이션된 즉각적인 오류)이 발생했기 때문에 노드 A에서 중지할 프로세스가 없으며 결과적으로 적절한 감지 및 차단 작업이 처리되면 노드 B는 즉시 복원 프로세스를 시작합니다. 자원. 전환의 경우와 같이 프로세스는 자원 Gamma에서 시작하여 Beta가 이어지며 마지막으로 Alpha 자원에 대한 시작 작업이 완료됩니다. 일반적으로 장애 조치 작업은 전환보다 시간이 덜 걸립니다. 의 처리 때문이다. 장애 조치 이전 기본(서비스 중 또는 활성) 노드에서 리소스를 중지(또는 정지)할 필요가 없습니다.
핵심 사항: 시스템 장애에 대한 응답으로 장애 조치가 발생합니다.
무엇인가요 회복 ?
복구 이벤트는 장애 조치와 혼동하기 쉽습니다. 복구 이벤트는 프로세스, 서버, 통신 경로, 디스크 또는 클러스터 리소스에 장애가 발생하고 식별된 장애에 대한 응답으로 고가용성 소프트웨어가 작동할 때 발생합니다. 대부분의 HA 소프트웨어 솔루션은 여러 가지 방법으로 복구 이벤트를 처리할 수 있습니다. 가장 눈에 띄는 방법은 다음과 같습니다.
- 로컬에서 단계적 재시작 후 원격에서 단계적 재시작
- 다시 시작은 항상 로컬에서 시도되며 복구에 성공하면 추가 작업이 발생하지 않습니다. 로컬 재시작에 실패하면 다음 작업이 발생합니다.
- 로컬 다시 시작이 실패하면 리소스가 원격 노드로 정상적으로 이동됩니다.
- 로컬에서 단계적 재시작 후 원격에서 강제 재시작
- 다시 시작은 항상 로컬에서 시도되며 복구에 성공하면 추가 작업이 발생하지 않습니다.로컬 다시 시작이 실패하면 다음 작업이 발생합니다.
- 리소스는 기본 노드를 차단하여 원격 노드로 이동합니다.
- 원격에서 강제 재시작
- 다시 시작은 로컬에서 시도되지 않습니다.
- 리소스는 방법 2b에 설명된 대로 항상 다음 사용 가능한 클러스터 노드로 강제 설정됩니다.
- 강제 서버 재시작, 원격 장애 조치 없음
- 다시 시작은 항상 로컬에서 시도됩니다.
- 로컬 다시 시작이 실패하면 기본 노드가 다시 시작되어 서비스 복구를 시도합니다.
- 리소스는 원격 시스템에 실패하지 않습니다.
- 정책 기반 로컬 재시작 후 원격
- 정책은 복구를 원격으로 시도하기 전에 재시도 횟수를 제어할 수 있습니다.
복구 정책의 다양한 변형으로 인해 전환 동작과 유사한 복구 이벤트를 쉽게 볼 수 있습니다. 이것은 종종 방법 1과 5의 경우입니다. 이러한 시나리오에서 응용 프로그램과 서비스는 원격 노드에서 시작되기 전에 순서대로 정상적으로 중지됩니다. 방법 2와 3, 고객은 종종 장애 조치와 유사한 동작을 보게 됩니다. 방법 2와 3에서 기본 서버는 장애 조치와 유사한 관찰 가능한 동작을 생성하는 HA 소프트웨어에 의해 다시 시작되거나 차단됩니다.방법 4는 일반적으로 거의 사용되지 않는 옵션이지만 전환과 장애 조치가 혼합된 것입니다.방법 4는 응용 프로그램 및 서비스를 정상적으로 중지한 다음 응용 프로그램 및 서비스를 다시 시작하는 것으로 시작합니다(전환과 유사). 그러나 응용 프로그램 및 서비스의 로컬 다시 시작이 실패하면 시스템이 다시 시작되지만(페일오버와 유사) 실제로 원격 클러스터 노드에 실패하지 않습니다. 드물기는 하지만 방법 4는 불균형 클러스터가 있거나 정책 기반 방법론과 함께 사용되는 경우에 자주 호출됩니다.
주요 요점 : 복구 이벤트는 선택한 방법에 따라 다릅니다. 벤더 간의 HA 용어는 공통 용어가 다른 의미를 가질 수 있는 영역입니다. 엔터프라이즈 응용 프로그램과 함께 클러스터 솔루션을 배포하고 유지 관리할 때 장애 조치, 전환 및 복구에 대한 솔루션 공급자 용어를 이해해야 합니다.그리고 그 자리에 있는 동안 레스토랑에서 소스를 옆(접시)에 놓을지 아니면 옆(으깬 감자)에 소스를 놓을지 확인하십시오. 시오스