Date: 1월 17, 2023
비즈니스 크리티컬 애플리케이션에 대한 고가용성의 복잡성 이해
시스템, 데이터베이스 및 애플리케이션의 가동 중지 시간을 최소화하는 것이 생산성 극대화의 핵심입니다. 현대 조직은 ERP(Enterprise Resource Planning), CRM(Customer Relationship Management), 전자상거래, 재무 시스템, 공급망 관리와 같은 비즈니스 크리티컬 시스템, 데이터베이스 및 애플리케이션에 의존하여 효율적으로 운영하고 우수한 고객 경험을 제공합니다. . 시스템, 데이터베이스 또는 애플리케이션에 장애가 발생하면 고가용성 보호 기능이 작업을 복원하여 비즈니스를 계속 가동합니다.
고가용성이란 무엇입니까?
고가용성은 장기간 지속적이고 안정적으로 작동하도록 설계된 시스템, 데이터베이스 또는 응용 프로그램의 속성입니다. 고가용성의 목표는 중복 구성 요소 및 기타 기술을 통합하여 시스템, 데이터베이스 또는 응용 프로그램의 단일 실패 지점을 해결함으로써 중요한 응용 프로그램에 대해 계획되거나 계획되지 않은 가동 중지 시간을 줄이거나 제거하는 것입니다.
간단히 말해서, 고가용성 시스템, 데이터베이스 또는 응용 프로그램이 예상대로 작동하는지 확인합니다. "언제"는 시스템, 데이터베이스 또는 응용 프로그램이 예상대로 가동 및 실행되어야 하는 시간의 비율을 의미합니다. 적시에 그들의 필요.
IDC 모델
고가용성을 위한 SLA(서비스 수준 계약)는 IT 인프라의 주요 구성 요소가 업무 시간 동안 운영되고 사용 가능하도록 보장하는 데 도움이 됩니다. IDC는 다음 가동 시간 요구 사항과 함께 5가지 수준을 정의하는 고가용성을 위한 SLA 모델을 만들었습니다. • AL4(지속적인 가용성 – 시스템 내결함성): 사용자 중단이 없으며 연간 최대 총 5분 15초의 계획 및 계획되지 않은 중단 시간(99.999% 또는 "99.99%" 가용성).
• AL3(고가용성 – 기존 클러스터링): 최소 사용자 중단 및 연간 최대 총 52분 35초의 계획 및 계획되지 않은 중단 시간(99.99% 또는 "99.99%" 가용성).
• AL2(복구 – 데이터 복제 및 백업): 일부 사용자 중단 및 연간 최대 총 8시간 45분 56초의 계획 및 계획되지 않은 중단 시간(99.9% 또는 "99.9%" 가용성).
• AL1(신뢰성 – 핫 스왑 가능 구성 요소): 모든 서비스 중지 및 연간 총 87시간 39분 29초의 계획 및 계획되지 않은 중단 시간(99% 또는 "2-9" 가용성).
• AL0(보호되지 않은 서버): 모든 서비스가 중지되고 가동 시간 SLA가 정의되지 않습니다.
고가용성 요구 사항은 전체 시스템의 중요도, 애플리케이션 및 다음과 같은 기타 여러 요인에 따라 달라집니다. • 애플리케이션이 비즈니스에 얼마나 중요한지 • 고객이 영향을 인지하는지 여부 • 애플리케이션 실행 빈도 • 다운타임의 영향을 받는 사용자 수 • 중단을 피하기 위해 데이터베이스 또는 애플리케이션이 중복 시스템으로 장애 조치되어야 하는 속도 • 데이터 양 손실은 허용됩니다. 99.9999%의 가용성은 일반적으로 지속적인 "상태 저장" 작업이 필요한 애플리케이션용으로 예약되어 있습니다. 비즈니스 크리티컬 애플리케이션의 경우 99.999%의 가용성이 표준입니다. 중요하지 않은 시스템 및 애플리케이션의 경우 99.99%의 가용성만 필요할 수 있습니다. 허용 가능한 중단 시간을 결정할 때는 다음을 고려하는 것이 중요합니다. • 계획되지 않은 중단 시간(하드웨어 또는 소프트웨어 오류) • 일상적인 하드웨어 및 소프트웨어 유지 관리를 위한 계획된 중단 시간 • 응용 프로그램 및 데이터베이스 수준의 가동 시간 다양한 고가용성 솔루션은 기업이 SLA 목표를 달성하는 데 도움이 될 수 있습니다. 서로 다른 시스템, 데이터베이스 및 응용 프로그램에 대해. 지속적인 가용성(AL4)이 비즈니스 크리티컬 배포에 가장 적합한 목표처럼 보일 수 있지만 비용과 가용성 간의 적절한 균형을 찾는 것이 중요합니다. 지속적인 가용성은 일반적으로 롤링 업데이트를 허용하는 고가용성에 비해 애플리케이션 또는 OS 업데이트가 적용될 때 일반적으로 시스템을 오프라인으로 전환해야 하므로 계획된 유지 관리에 필요한 다운타임에 부정적인 영향을 미칠 수 있습니다.
고가용성 지표: RTO 대 RPO
가동 시간 및 가용성 외에도 RTO(복구 시간 목표) 및 RPO(복구 지점 목표)는 시스템, 데이터베이스 또는 애플리케이션의 고가용성(및 재해 복구)을 평가하는 데 사용되는 중요한 메트릭입니다.
RTO 중단의 최대 허용 기간입니다. 온라인 트랜잭션 처리 애플리케이션은 일반적으로 RTO가 가장 낮고 비즈니스 크리티컬한 애플리케이션의 RTO는 몇 초에 불과합니다.
RPO 장애 발생 시 허용할 수 있는 최대 데이터 손실량입니다. 재해 복구의 경우 애플리케이션 및 관련 데이터에 대한 일반적인 RPO는 24시간일 수 있습니다. 야간 백업을 통해 재해 발생 시 지난 24시간 동안의 데이터 변경 사항을 복원할 수 있습니다. 그러나 고가용성 애플리케이션 및 데이터의 경우 RPO는 종종 0입니다. 즉, 어떤 장애 시나리오에서도 데이터 손실이 없어야 합니다.
전통적인 클러스터링
고가용성 클러스터는 가동 중지 시간을 최소화해야 하는 비즈니스 크리티컬 애플리케이션을 지원하는 서버 노드(및 기타 구성 요소) 그룹입니다.클러스터링 소프트웨어 여러 서버가 함께 작동하여 고가용성을 제공하고 데이터 손실을 방지할 수 있도록 서버를 클러스터로 구성할 수 있습니다. IT 조직은 고가용성 클러스터링에 의존하여 단일 실패 지점을 제거하고 다운타임 및 데이터 손실 위험을 최소화합니다.
기존의 온프레미스 고가용성 클러스터는 동일한 운영 체제, 데이터베이스 및 애플리케이션으로 구성된 공유 스토리지(일반적으로 SAN 또는 SAN)에 연결된 둘 이상의 서버 노드 그룹입니다(그림 1 참조). ).
노드 중 하나는 기본(또는 활성) 노드로 지정되고 다른 노드는 보조(또는 대기) 노드로 지정됩니다. 기본 노드에 장애가 발생하면 클러스터링을 통해 시스템, 데이터베이스 또는 응용 프로그램의 작동이 하나 이상의 보조 노드로 자동 장애 조치되고 중단을 최소화하면서 정상적으로 계속 작동할 수 있습니다. 보조 노드가 동일한 스토리지에 연결되어 있으므로 데이터 손실 없이 작업이 계속됩니다. 이 클러스터 아키텍처의 이점은 가동 중지 시간 감소, 데이터 손실 제거 및 데이터 무결성 보호입니다.
그러나 공유 스토리지가 필요하지 않은 시나리오가 많이 있습니다. 공유 스토리지에 장애가 발생하면 모든 클러스터가 오프라인 상태가 되어 단일 장애 지점(SPoF) 위험이 됩니다. SAN 스토리지는 비용이 많이 들고 소유 및 관리가 복잡할 수도 있습니다. 마지막으로 클라우드에서 공유 스토리지를 사용하면 불필요하고 상당한 비용과 복잡성이 추가될 수 있습니다. 일부 클라우드는 공유 스토리지 옵션을 전혀 제공하지 않습니다.
에 표시된 바와 같이 그림 2, SANless 또는 "무공유" 클러스터는 공유 스토리지에 대한 최상의 대안입니다. 이러한 구성에서 모든 클러스터 노드에는 자체 로컬 저장소가 있습니다. 효율적인 호스트 기반 블록 수준 복제는 클러스터 노드의 스토리지를 동기화하여 동일하게 유지하는 데 사용됩니다. 장애 조치 시 보조 노드는 기본 노드에서 사용하는 스토리지의 동일한 복사본에 액세스합니다. 이 클러스터 아키텍처의 이점은 SPoF 제거, SAN 비용 및 복잡성 제거, 클라우드에서의 사용 용이성 및 비용 절감, 다운타임 감소, 데이터 손실 완화입니다.
설계 원칙
가장 진보된 고가용성 클러스터는 다음 설계 원칙을 통합합니다. • 활성 구성 요소에 장애가 발생하면 중복 시스템으로 자동으로 신속하게 장애 조치합니다. • 장애 조치 도중 및 이후에 애플리케이션별 모범 사례를 유지합니다. 계획된 다운타임 • 네트워크, 스토리지, OS, 하드웨어 또는 애플리케이션의 장애를 자동으로 감지할 수 있습니다. • 시스템 장애 시 데이터 손실을 방지합니다. • 재해 복구를 위해 지리적으로 분리된 노드에서 장애 조치합니다.
고가용성 클러스터링
Windows, Linux 배포 및 다양한 하이퍼바이저(가상 머신 솔루션)에 대해 다양한 클러스터링 소프트웨어 솔루션을 사용할 수 있습니다. 한 그룹은 다음과 같은 단일 운영 체제만 지원합니다. • WSFC(Windows 서버 장애 조치 클러스터링): Microsoft SQL Server 및 Microsoft Exchange와 같은 호스팅된 애플리케이션에 고가용성 및 재해 복구 제공 • SUSE Linux Enterprise 고가용성 확장(HAE): 정책 기반 클러스터링 및 지속적인 데이터 복제를 통해 물리적 및 가상 Linux 서버의 클러스터링을 지원합니다. • Red Hat Pacemaker(페이스메이커): 성능, 고가용성, 로드 밸런싱 및 확장성을 위한 단일 사이트 클러스터 생성 여기에 나열된 솔루션은 예를 들어 Oracle Linux 운영 체제에서 실행되는 SAP를 보호할 수 없습니다. 따라서 각 솔루션은 유연성과 배포 옵션을 제한합니다. 고급 고가용성 솔루션 Linux용 SIOS Protection Suite와 같은 는 Oracle Linux, Red Hat 및 SUSE를 비롯한 주요 Linux 배포판에서 애플리케이션 인식 보호를 제공합니다.
또한 모든 애플리케이션, 데이터베이스 및 ERP 시스템에는 구성 및 지속적인 관리에 대한 고유한 요구 사항이 있습니다. 이러한 요구 사항을 충족하기 위해 HAE 및 Pacemaker에는 일반적으로 높은 수준의 기술과 복잡한 수동 스크립팅이 필요하므로 사람의 실수와 신뢰할 수 없는 장애 조치가 발생할 가능성이 있습니다.
일반적으로 장애 조치 클러스터링으로 보호되는 비즈니스 크리티컬 애플리케이션, 데이터베이스 및 ERP 시스템의 몇 가지 예로는 SAP S/4HANA, SQL Server 및 기타 애플리케이션과 데이터베이스가 있습니다.
SAP S/4HANA 여러 Linux 공급업체는 "Enterprise for SAP" 구독에서 SAP용 오픈 소스 고가용성 확장을 제공합니다. SAP S/4HANA 환경은 ASCS(ABAP SAP Central Service), ERS(Evaluated Receipt Settlement) 및 기타 SAP 구성 요소와 같은 여러 서비스로 구성되어 있으며 올바른 위치에서 유지 관리하고 올바른 순서로 시작해야 합니다. SUSE HAE 및 Red Hat Pacemaker와 같은 오픈 소스 클러스터링 제품에서 이러한 복잡한 환경에서 수동으로 클러스터를 구성하고 관리하는 것은 시간이 많이 걸리고 심각한 다운타임 및 데이터 손실의 위험을 증가시키는 인적 오류에 취약할 수 있습니다.
응용 프로그램 인식 고가용성 솔루션을 만들려면 응용 프로그램 및 데이터베이스에 대한 특정 심층 전문 지식도 필요합니다. 대조적으로, Linux용 SIOS 보호 제품군 장애 조치가 애플리케이션 모범 사례를 유지하도록 보장하는 SAP 및 HANA용 애플리케이션 복구 키트를 포함합니다.
SAP는 HANA 소프트웨어와 함께 제공되는 기능인 HANA 시스템 복제도 제공합니다. 동일한 데이터 센터, 원격 사이트 또는 클라우드의 보조 위치에 SAP HANA 데이터베이스를 지속적으로 동기화합니다. 데이터는 보조 사이트에 복제되고 메모리에 미리 로드됩니다. 장애가 발생하면 데이터베이스를 다시 시작하지 않고 보조 사이트가 인계되어 RTO를 줄이는 데 도움이 됩니다. 그러나 기본 노드로의 장애 복구는 수동으로 트리거해야 합니다. HSR은 장애를 감지하고 필요한 경우 장애 조치를 오케스트레이션할 수 있는 SIOS Protection Suite와 같은 애플리케이션 인식 클러스터링 소프트웨어와 쌍을 이루어야 합니다.
SQL 서버
많은 회사에서 중요한 비즈니스 기능을 지원하는 주요 응용 프로그램의 백엔드 데이터베이스로 SQL Server를 사용합니다. Microsoft WSFC는 일반적으로 SQL Server 애플리케이션용 Always On AG(가용성 그룹) 및 SQL Server FCI(장애 조치 클러스터 인스턴스)를 지원하는 데 사용됩니다.
그러나 AG가 포함된 WSFC에는 값비싼 SQL Server Enterprise Edition 라이선스가 필요합니다. 또한 FCI를 사용하면 전체 인스턴스가 대기 노드로 장애 조치됩니다. AG를 사용하면 그룹의 데이터베이스만 보호됩니다.
사용 SIOS 데이터키퍼 WSFC를 사용하면 비용 효율적인 Standard Edition 라이선스를 사용하여 SQL Server에 대한 고급 고가용성 보호를 제공할 수 있습니다.
기타 애플리케이션 및 데이터베이스
SIOS 소프트웨어는 Oracle, MaxDB, MySQL, PostgreSQL 및 DB2를 포함하여 광범위한 비즈니스 크리티컬 애플리케이션, 데이터베이스 및 ERP를 보호하는 데 사용할 수 있습니다. SIOS 소프트웨어는 클러스터링 및 재해 복구를 지원합니다.
다음 블로그에서는 다양한 비즈니스가 미션 크리티컬 애플리케이션의 고가용성을 달성하는 방법을 이해하는 데 도움이 되는 특정 산업 사용 사례를 살펴보겠습니다.
의 허가를 받아 복제됨 시오스