Date: 9월 15, 2023
클라우드 플랫폼에서 애플리케이션을 보호하는 방법
클라우드 플랫폼은 하드웨어 오류로 인한 다운타임으로부터만 애플리케이션을 보호합니다. 미션 크리티컬 애플리케이션은 작동하는 클라우드 환경에 관계없이 HA/DR 보호가 필요합니다.
고가용성 보호를 제공할 때 SPOF(단일 실패 지점)를 방지하기 위해 모든 구성 요소가 중복되도록 하는 것이 일반적인 원칙입니다. 즉, 단일 요소로 인해 장애가 발생할 경우 전체 시스템이 중지되지 않도록 해야 합니다. 하지만 퍼블릭 클라우드에서는 운영 인프라에 접근하기 어렵다는 점에 유의해야 한다.
클라우드 기반 고가용성 클러스터에서는 대기 노드가 동일한 호스트 서버, 동일한 랙에 위치하며 운영 노드와 동일한 네트워크 스위치를 사용할 가능성이 있습니다. 이러한 요소를 중복성으로 구성하지 않으면 해당 요소 중 하나라도 SPOF가 될 수 있으며 애플리케이션이 치명적인 오류에 빠질 위험이 있습니다.
클러스터 노드가 서로 다른 지리적 위치에 있는 데이터 센터와 운영 인프라를 물리적으로 분리하는 서로 다른 클라우드 “지역” 및 “가용성 영역”에 있는지 확인해야 합니다.
클라우드에서 가용성을 보장하기 위한 주요 원칙은 무엇입니까?
부품이 마모되고, 시스템이 호환되지 않고, 설정이 변경되면 물리적 IT 인프라를 구성하는 다양한 구성 요소가 영원히 사양에 따라 작동할 것이라고 기대할 수는 없습니다. 정기적인 유지 관리를 통해 가동 중지 시간의 위험을 줄일 수 있지만 제품 수명 주기 동안 문제가 발생할 가능성이 높습니다.
드문 경우지만 OS 또는 내장 소프트웨어에 잠재적으로 애플리케이션 작동을 중지시키는 심각한 버그가 있을 수 있습니다.
이미 알고 계시겠지만 HA 클러스터 구성은 이 원칙에 정확히 부합하며 중요한 서버와 해당 리소스를 활성 시스템(프로덕션 시스템)에 이중화하여 단일 장애 지점을 제거합니다. 그러나 다음 두 가지를 기억하는 것이 중요합니다. 1. 서버 하드웨어가 유일한 중요한 구성 요소는 아니며 2. 다른 중요한 SPOF 구성 요소는 공용 클라우드 인프라에서 사용자에게 보이지 않을 수 있습니다.
클라우드의 눈에 보이지 않는 인프라에 숨겨진 단일 장애 지점의 함정에 주의하세요
대부분의 퍼블릭 클라우드는 소위 “멀티 테넌트” 모드로 운영됩니다. 즉, 동일한 물리적 호스트 서버에서 여러 회사의 VM을 실행합니다. 그리고 일반 계약을 사용하면 시스템이 실행되는 호스트 서버를 지정할 수 없습니다. 이로 인해 다음과 같은 문제가 발생할 수 있습니다.
클라우드 클러스터의 대기 노드는 활성 노드를 운영하는 동일한 호스트 서버에 배치될 수 있습니다. HA 클러스터 구성을 구성하더라도 호스트 서버가 다운되면 운영 노드와 대기 노드도 모두 다운됩니다. 이 시나리오에서는 클라우드 운영자가 시스템 복원 시기와 방법을 결정합니다.
액티브 노드를 운영하는 호스트 서버와 스탠바이 노드를 운영하는 호스트 서버는 동일한 랙에 있을 수 있습니다. 이 경우 랙은 SPOF가 되므로 오류가 발생하면 그 아래의 활성 노드와 대기 노드도 모두 실패하게 됩니다.
또한 여러 랙을 묶는 네트워크 스위치, 게이트웨이 및 라우터, 데이터 센터의 전원 공급 장치 등 인프라의 상위 계층에서 운영 체제 노드와 대기 시스템 노드가 동일한 시스템에 공존할 수 있습니다. 구성 요소가 중복되지 않으면 피할 수 없는 단일 실패 지점이 발생합니다. 다시 말하지만, 퍼블릭 클라우드 사용자인 기업의 경우 이러한 데이터 센터 인프라는 블랙박스이므로 SPOF를 식별하기 위한 세부 구성을 살펴보는 것이 불가능할 수 있습니다.
가용성을 위해 퍼블릭 클라우드 가용성 영역 및 지역을 활용해야 합니다.
퍼블릭 클라우드에서 숨겨진 단일 장애 지점을 명시적으로 방지하려면 어떻게 해야 합니까? 가장 강력한 방법은 클라우드 측에 준비된 “가용성 영역”과 “지역”을 사용하는 것입니다.
가용 영역은 데이터 센터 내 인프라의 독립적인 물리적 분리입니다. 그리고 지역은 지리적으로 분리된 독립적인 데이터 센터입니다. 퍼블릭 클라우드를 사용하면 이러한 가용 영역 또는 지역을 다양한 목적으로 의도적으로 사용할 수 있습니다.
운영 노드와 대기 노드가 두 개 이상의 지역에 걸쳐 서로 다른 가용 영역에 분산되는 HA 클러스터 구성을 구축하면 거의 모든 SPOF를 확실하게 방지할 수 있습니다. 이러한 모범 사례를 준수하면 가용성, DR을 자신있게 보장할 수 있습니다.(재해 복구) 및 BCP(비즈니스 연속성 계획).
다음의 허가를 받아 복제됨시오스