클러스터로 고가용성을 달성하는 방법
클러스터로 고가용성을 달성하는 방법
고가용성이란 무엇입니까?
고가용성 (HA)는 단일 장애 지점을 제거하여 지속적인 작동 또는 장기간의 가동 시간을 보장하는 기술 시스템의 구성 요소입니다. 고가용성 클러스터 최소한의 다운타임과 지속적인 가용성이 필요한 비즈니스 크리티컬 애플리케이션을 지원하는 서버 그룹입니다.
모든 조직은 데이터 웨어하우스, 전자 상거래 애플리케이션, 고객 관계 관리 시스템(CRM), 금융 시스템, 공급망 관리 및 비즈니스 인텔리전스 시스템과 같은 다양한 비즈니스 크리티컬 데이터베이스 및 애플리케이션을 사용합니다. 시스템, 데이터베이스 또는 애플리케이션에 장애가 발생하면 이러한 조직은 시스템을 계속 실행하고 수익 손실, 비생산적인 직원 및 불행한 고객의 위험을 최소화하기 위해 고가용성 보호가 필요합니다.
고가용성 클러스터에는 5가지 설계 원칙이 통합되어 있습니다.
- 활성 구성 요소에 장애가 발생하면 자동으로 이중화 시스템으로 장애 조치하여 작업을 수행합니다. 이것은 단일 실패 지점을 제거합니다.
- 원인에 관계없이 발생하는 애플리케이션 수준 오류를 자동으로 감지할 수 있습니다.
- 그들은 시스템 장애 동안 데이터 손실의 양을 보장합니다.
- 다운타임을 최소화하기 위해 자동으로 신속하게 중복 구성 요소로 장애 조치합니다.
- 계획된 유지 관리 중에 가동 중지 시간을 최소화하기 위해 수동으로 장애 조치 및 장애 복구하는 기능을 제공합니다.
TechTarget은 HA를 "바람직하게 긴 시간 동안 지속적으로 작동하는 시스템 또는 구성 요소"로 정의합니다. 가용성은 '100% 작동' 또는 '결코 실패하지 않음'을 기준으로 측정할 수 있습니다. 시스템이나 제품에 대해 널리 사용되지만 달성하기 어려운 가용성 표준을 '99.999%' 가용성이라고 합니다." 그러나 고가용성을 간단한 용어로 정의해 보겠습니다.
고가용성은 필요할 때 시스템, 데이터베이스 및 애플리케이션이 작동하도록 합니다.
"언제"는 애플리케이션이 가동되어 실행되어야 하는 시간의 백분율을 고려합니다. "필요한 대로"는 데이터 손실 없이 시스템, 데이터베이스 및/또는 응용 프로그램의 적절한 작동을 고려합니다.
시스템 및/또는 애플리케이션에 따라 고가용성이 다릅니다. 예를 들어, 전자 상거래 시스템과 같은 미션 크리티컬 애플리케이션의 경우 99.99%(99.99%) 가용성이 업계 표준으로 간주됩니다. 99.99%의 가용성으로 연간 52.60분의 가동 중지 시간 또는 하루 8.64초의 가동 중지 시간을 예상할 수 있습니다. 그러나 단일 데스크탑 오류와 같은 중요하지 않은 애플리케이션 및 시스템의 경우 고가용성은 99% 2개(99%)일 수 있으며, 이는 연간 8.77시간의 다운타임 또는 하루 1.44분의 다운타임에 해당합니다. 허용 가능한 가동 중지 시간을 측정할 때 다음을 고려하는 것이 중요합니다.
- 계획되지 않은 다운타임(예: 하드웨어 또는 소프트웨어 오류)
- 일상적인 하드웨어 및 소프트웨어 유지 관리에 필요한 계획된 다운타임
- 데이터베이스 및 애플리케이션 수준의 가동 시간
고가용성에 대한 선택은 애플리케이션이 비즈니스에 얼마나 중요한지, 고객이 영향을 받는지, 애플리케이션이 실행되는 빈도, 영향을 받는 사용자 수, 데이터베이스 또는 애플리케이션이 중복 시스템으로 장애 조치해야 하는 속도를 비롯한 여러 요인에 따라 달라집니다. , 얼마나 많은 데이터 손실을 견딜 수 있는지.
고가용성 지표: RTO 및 RPO
일반적으로 HA(및 재해 복구(DR))를 평가하는 데 사용되는 두 가지 메트릭은 RTO(복구 시간 목표)와 RPO(복구 시점 목표)입니다.
- RTO는 모든 중단의 최대 허용 기간입니다. 온라인 트랜잭션 처리 애플리케이션은 일반적으로 RTO가 가장 낮고 미션 크리티컬 애플리케이션의 RTO는 몇 초에 불과합니다.
- RPO는 장애가 발생했을 때 허용할 수 있는 최대 데이터 손실량입니다. HA의 경우 RPO는 모든 오류 시나리오에서 데이터 손실이 0이어야 함을 지정하기 위해 종종 0입니다.
그러나 고가용성을 지원하기 위해 달성할 수 있는 RTO 및 RPO에는 차이가 있습니다. 재해 복구 . HA와 함께, 데이터 복제 중복 구성 요소가 LAN 환경에 있으므로 동기식일 수 있습니다. 활성 및 대기 데이터베이스를 동시에 업데이트할 수 있으므로 가장 까다로운 RTO 및 RPO를 충족할 수 있는 완전 자동 실시간 복구가 가능합니다. 결과적으로 대기 인스턴스는 "핫" 상태이고 활성 인스턴스와 동기화되므로 장애가 발생할 경우 즉시 인계받을 수 있습니다.
그러나 재해 발생 시 시스템, 소프트웨어 및 데이터를 복구하려면 WAN(광역 네트워크)에 중복 구성 요소가 있어야 합니다. 이는 활성 인스턴스에서 멀리 떨어진 지리적 위치에 중복 구성 요소를 유지해야 하기 때문에 중요합니다. 그러나 WAN의 경우 처리 성능에 부정적인 영향을 미치지 않도록 데이터 복제가 비동기식입니다. 즉, 대기 인스턴스에 대한 업데이트는 활성 인스턴스에 대한 업데이트가 지연되어 복구 프로세스 중에 지연이 발생합니다. 재해는 드물기 때문에 약간의 지연은 견딜 수 있으며 (a) 가능한 가장 낮은 RTO 및 RPO를 달성하는 것이 비즈니스에 얼마나 중요한지, (b) 최상의 RTO 및 RPO를 달성하기 위해 할당할 수 있는 예산에 따라 달라집니다.
SIOS가 고가용성을 달성하는 데 도움이 되는 방법
SIOS는 SAP, SQL Server, Oracle 및 SAN 기반, 공유 스토리지 구성 또는 SANless에서 실행되는 기타 환경을 비롯한 다양한 운영 체제, 인프라 환경 및 애플리케이션 전반에서 고가용성 및 재해 복구 요구 사항을 모두 충족하는 단일 솔루션을 제공합니다. , 로컬 데이터 스토리지 구성.
- 윈도우 환경 : WSFC(Windows Server Failover Cluster) 환경에 추가되면 SIOS DataKeeper를 사용하여 공유 스토리지 클러스터가 불가능하거나 비현실적인 SANless 클러스터를 생성하거나 SAN 기반 Windows 클러스터에서 재해 보호를 위한 복제를 추가할 수 있습니다. 빠르고 효율적인 호스트 기반 복제는 로컬 및 원격 클러스터 노드의 로컬 스토리지를 동기화하여 물리적, 가상 또는 클라우드 환경의 모든 조합에서 SANless 클러스터를 생성합니다.
- 리눅스 환경 : Linux용 SIOS Protection Suite는 패키지로 제공됩니다. 클러스터링 소프트웨어 SIOS LifeKeeper 및 SIOS DataKeeper를 사용하여 고가용성 장애 조치 클러스터링, 지속적인 애플리케이션 모니터링, 데이터 복제 및 구성 가능한 복구 정책의 긴밀하게 통합된 조합을 제공하여 비즈니스 크리티컬 애플리케이션과 데이터를 가동 중지 및 재해로부터 보호하는 솔루션입니다. SIOS Protection Suite를 사용하면 직접 연결 스토리지, iSCSI 및 파이버 채널을 비롯한 다양한 스토리지 장치를 사용하여 SAN 또는 SANless 클러스터를 구축할 수 있습니다. Linux용 SIOS Protection Suite는 Red Hat Enterprise Linux, SUSE Linux Enterprise Server, CentOS 및 Oracle Linux를 포함한 모든 주요 Linux 배포판을 지원합니다.
SIOS 솔루션의 경우 RPO는 항상 0이고 RTO는 애플리케이션에 따라 다르지만 일부 애플리케이션의 경우 일반적으로 30초에서 몇 분입니다. 스위스 최대 소매 회사에서 HA 클러스터를 사용하는 한 고객의 "SIOS 실행" 사례 연구에 대해 논의해 보겠습니다.
Migros, SIOS 고가용성 솔루션으로 POS 시스템의 중요한 비즈니스 연속성 달성
Migros는 스위스에서 가장 큰 소매 회사이자 가장 큰 슈퍼마켓 체인이며 100,000명 이상의 직원을 둔 가장 큰 고용주입니다. 또한 세계에서 가장 큰 40대 소매업체 중 하나입니다. Migros는 스위스에 기반을 둔 IT 서비스 제공업체이자 SIOS 솔루션의 리셀러인 Realstuff Informatik AG와 협력하여 POS(Point of Sale) 시스템을 보다 효율적으로 운영하고 가동 중지 시간의 위협을 최소화할 수 있는 새로운 플랫폼으로 교체하려고 했습니다.
새로운 POS 시스템은 Migros의 650개 매장에서 가격 및 제품 구색 정보를 제공하며 소매업체는 일상적인 판매를 지원하기 위해 고가용성 솔루션이 필요했습니다. HA 시스템이 없으면 직원은 시스템 오류가 발생하면 제품의 가격을 책정하거나 제품의 무게를 측정할 수 없어 운영이 중단되었습니다. 옵션을 평가한 후 Migros는 고가용성과 지속적인 데이터 보호를 제공하고 가상 환경에 독립적이며 회사의 IT 직원이 내부적으로 운영할 수 있는 오픈 소스 서버 환경을 원한다고 결정했습니다. 이러한 요구 사항을 해결하기 위해 팀은 POS 데이터를 보호하기 위한 복제용 SIOS Protection Suite for Linux를 선택했습니다.
시스템 설계, 고객 교육 및 모국어 지원을 위해 Realstuff는 독일 드레스덴에 있으며 Computer Concept에서 운영하는 중부 및 동부 유럽을 위한 SIOS 역량 및 지원 센터와 협력했습니다. Migros는 지역 사무실 시간 동안 Competence and Support Center에서 24x7x365 지원을 받는 것이 중요했습니다.
Realstuff는 POS 서버를 지속적으로 모니터링하고 데이터를 복제하기 위해 SIOS Protection Suite 고가용성 솔루션을 구현했습니다. 각 매장 위치에 두 대의 서버가 사용되어 지속적인 데이터 보호를 보장합니다. 한 서버에 장애가 발생하면 두 번째 인스턴스가 즉시 작업을 인계받습니다. 또한 두 서버 모두 모니터링 시스템의 데이터 자산을 미러링합니다.여기에서 전체 Migros 사례 연구를 읽어보십시오.
마지막 생각들
지역 역량 및 지원 센터는 Realstuff와 상의하여 구현 및 출시에 대한 통찰력과 방향을 제공하고 Migros 팀을 교육하기 위해 3일 교육 워크숍을 실시했습니다. Realstuff의 관리자이자 이사회 구성원인 Richard Huber는 배포 후 SIOS 고가용성 솔루션의 이점은 유연성, 안정성, 사용 용이성 및 데이터가 항상 동기화된 상태로 유지된다는 보장이라고 말했습니다.
오늘날 Migros는 서버, 스토리지, 애플리케이션, 데이터베이스 및 네트워크 연결을 지속적으로 모니터링하여 장애 지점을 감지하고, 가동 중지 시간을 줄이며, 클라이언트 연결을 유지하고, 중단 없는 데이터 접근.
SIOS 솔루션 및 SIOS가 SQL Server 환경에서 HA를 달성하는 데 어떻게 도움이 되는지에 대한 자세한 내용은 다음을 참조하세요. "SQL Server 고가용성을 위한 클러스터링이 필요한 이유" 여기.