Date: 9월 23, 2021
태그: 리눅스
스플릿 브레인 시나리오 이해 및 피하기
분할 뇌. 우리 블로그의 대부분의 독자는 컴퓨팅 맥락에서 이 용어를 들어보았을 것입니다. 그러나 누군가가 두 개의 두뇌를 가지고 있고 둘 다 동등하게 제어할 수 있는 혼돈에 대한 첫 번째 정신적 이미지가 있는 사람들과 동정하지 않을 수 없습니다. 동시에.
장애 조치 클러스터 분할 브레인 시나리오란 무엇입니까?
장애 조치 클러스터 스플릿 브레인 시나리오에서 두 노드는 서로 통신할 수 없으며 대기 서버는 활성 노드가 실패했다고 생각하기 때문에 스스로를 활성 서버로 승격할 수 있습니다. 그 결과 두 노드가 모두 ‘활성’ 상태가 되어 서로가 실패한 것으로 간주됩니다. 결과적으로 두 노드의 데이터가 변경됨에 따라 데이터 무결성과 일관성이 손상됩니다. 이를 스플릿 브레인이라고 합니다.
적절한 조치를 취하지 않으면 SAP HANA 리소스 계층 구조에 대해 두 가지 유형의 분할 브레인 시나리오가 발생할 수 있습니다.
- HANA 리소스 스플릿 브레인: HANA 리소스는 여러 클러스터 노드에서 활성(ISP)입니다. 이 상황은 일반적으로 클러스터 노드 간의 통신 경로에 영향을 미치는 일시적인 네트워크 중단으로 인해 발생합니다.
- SAP HANA 시스템 복제 스플릿 브레인: HANA 리소스는 기본 노드에서 활성(ISP)이고 백업 노드에서 대기(OSU)이지만 데이터베이스가 실행되고 두 노드에서 기본 복제 사이트로 등록됩니다. 이 상황은 일반적으로 장애 조치 중에 이전 기본 노드에서 데이터베이스를 중지하지 못하거나 데이터베이스에 대해 자동 시작이 활성화되어 있거나 데이터베이스 관리자가 클러스터링 소프트웨어 환경 외부의 보조 복제 사이트에서 “hdbnsutil -sr_takeover”를 수동으로 실행하는 경우에 발생합니다. .
스플릿 브레인 문제 피하기
각 유형의 분할 브레인 시나리오를 피하거나 해결하기 위한 권장 사항 SIOS 보호 제품군 클러스터링 환경은 아래와 같습니다.
분할 브레인 시나리오에서 다음과 유사한 메시지가 기록되고 문제가 해결될 때까지 quickCheck 간격(기본값 2분)마다 열려 있는 모든 콘솔에 브로드캐스트됩니다.
EMERG:hana:quickCheck:HANA-SPS_HDB00:136363:WARNING: 서버 hana2-1과 hana2-2 사이에 일시적인 통신 장애가 발생했습니다. 데이터 손실 위험을 최소화하려면 수동 개입이 필요합니다. 이 상황을 해결하려면 hana2-1의 HANA-SPS_HDB00 또는 hana2-2의 HANA-SPS_HDB00과 같은 리소스 계층 중 하나를 사용하지 마십시오. 리소스 계층 구조가 서비스에서 제외된 서버는 보조 SAP HANA 시스템 복제 사이트가 됩니다.
해결을 위한 권장 사항:
- 각 클러스터 노드의 데이터베이스를 조사하여 어떤 인스턴스에 최신 데이터나 관련 데이터가 포함되어 있는지 확인합니다. 이 결정은 데이터에 대해 잘 알고 있는 자격을 갖춘 데이터베이스 관리자가 수행해야 합니다.
- 유지해야 하는 데이터가 포함된 노드의 HANA 리소스는 LifeKeeper에서 활성(ISP)으로 유지되며, 보조 복제 사이트로 다시 등록될 노드의 HANA 리소스 계층 구조는 라이프키퍼. 계층을 서비스에서 제외해야 하는 노드의 HANA 리소스 계층에서 각 리프 리소스를 마우스 오른쪽 버튼으로 클릭하고 서비스 중단 …
- SAP HANA 리소스 계층 구조가 성공적으로 중단되면 LifeKeeper는 다음 quickCheck 간격(기본값 2분) 동안 대기 노드를 보조 복제 사이트로 다시 등록합니다. 복제가 재개되면 활성 노드에 없는 대기 노드의 모든 데이터는 손실됩니다. 대기 노드가 보조 복제 사이트로 다시 등록되면 SAP HANA 계층 구조가 고가용성 상태로 돌아갑니다.
SAP HANA 시스템 복제 분할 브레인 해결
이 스플릿 브레인 시나리오에서는 다음과 유사한 메시지가 기록되고 모든 열려 있는 콘솔에 빠르게 브로드캐스트됩니다. 문제가 해결될 때까지 간격(기본값 2분)을 확인합니다.
EMERG:hana:quickCheck:HANA-SPS_HDB00:136364:WARNING: SAP HANA 데이터베이스 HDB00이 실행 중이며 hana2-1 및 hana2-2 모두에서 기본 마스터로 등록되어 있습니다. 데이터 손실 위험을 최소화하려면 수동 개입이 필요합니다. 이 상황을 해결하려면 해당 서버에서 'su – spsadm -c “sapcontrol -nr 00 -function Stop”' 명령을 실행하여 hana2-2에서 데이터베이스 인스턴스 HDB00을 중지하십시오. 중지되면 보조 SAP HANA 시스템 복제 사이트가 됩니다.
해결을 위한 권장 사항:
- 각 클러스터 노드의 데이터베이스를 조사하여 Active 노드에 없는 중요한 데이터가 Standby 노드에 있는지 확인합니다. 스플릿 브레인 상태에서 대기 노드의 데이터베이스에 중요한 데이터가 커밋된 경우 데이터를 수동으로 활성 노드에 복사해야 합니다. 이 결정은 데이터에 대해 잘 알고 있는 자격을 갖춘 데이터베이스 관리자가 수행해야 합니다.
- 누락된 데이터가 대기 노드의 데이터베이스에서 활성 노드로 복사되면 LifeKeeper 경고 메시지에 제공된 명령을 실행하여 대기 노드의 데이터베이스를 중지합니다.
su – adm -c “sapcontrol -nr <Inst#> -function Stop” 여기서 은 HANA 설치를 위한 소문자 SAP 시스템 ID이고 <Inst#>는 HDB 인스턴스의 인스턴스 번호(예: 인스턴스 번호, 예를 들어 HDB00은 00)
- 데이터베이스가 성공적으로 중지되면 LifeKeeper는 다음 quickCheck 간격(기본값 2분) 동안 보조 복제 사이트로 대기 노드를 다시 등록합니다. 복제가 재개되면 활성 노드에 없는 대기 노드의 모든 데이터는 손실됩니다. 대기 노드가 보조 복제 사이트로 다시 등록되면 SAP HANA 계층 구조가 고가용성 상태로 돌아갑니다.
일반적인 스플릿 브레인 시나리오를 인식하고 이를 완화하기 위해 이러한 단계를 수행하면 시간을 절약하고 데이터 무결성을 보호할 수 있습니다.
의 허가를 받아 재생산 시오스