번개가 두 번 절대 치지 않는다 : 푸른 구름이 생기지 않고 살아남 아라.
어제 새벽 트위터 피드를 열어 Azure Cloud 정전으로 많은 사람들이 영향을 받았다는 사실을 알게되었습니다. 정전에 관한 거의 모든 리소스 페이지를 사용할 수 없었습니다. 다행히 @AzureSupport는 Twitter를 통해 업데이트를 계속 제공했습니다. @AzureSupport의 원본 업데이트는 오전 7:12 (동부 표준시)에 제공되었습니다. 트위터 피드를 다시 살펴보면 처음에는 문제가 처음 1 시간에서 2 시간 전에 시작된 것처럼 보입니다. 원래 중단 된 미국 중부 지역보다 정전 사태가 더 큰 영향을 미쳤다는 것이 빠르게 나타났습니다. Azure Active Directory에 의존하는 서비스가 영향을받을 수 있고 새로운 구독을 제공하려는 고객에게 문제가있는 것처럼 보입니다. 그리고 24 시간 후에 문제는 완전히 해결되지 않았고 오늘 아침 마지막 업데이트에 따르면 … 그래서이 푸른 구름의 영향을 최소화하기 위해 할 수 있었습니까? 아무도 번개 같은 자연 재해로 Microsoft를 비난 할 수는 없습니다. 그러나 문제가 해결 될 때까지 유일한 재해 복구 계획이 Microsoft에 전화를 걸고 Microsoft에 전자 메일을 보내면 하루가 끝나면 방금 무례한 각성을 받게됩니다. 재해 복구 계획과 관련하여 모든 기반을 보장하는 것은 사용자의 몫입니다.
몇몇 대안을 탐구 할 시간?
먼지가 영향을받은 부분과 고객이 중단 시간을 최소화하기 위해 할 수 있었던 부분에 여전히 정착하는 동안, 여기에 나의 초기 생각이 있습니다.
가용성 세트 (오류 도메인 / 도메인 업데이트)
이 시나리오에서 페일 오버 클러스터를 구축했거나 Azure로드 밸런서 및 가용성 세트를 사용하더라도 전체 지역이 오프라인이 된 이후로 여전히 운이 없었을 것입니다. 특히 계획된 중단 시간에 가용성 세트를 활용하는 것이 좋습니다.이 경우에도 여전히 오프라인 상태 였을 것입니다.
가용 영역
아직 미국 중남부에서는 사용할 수 없습니다. 그러나 Azure에서 가동 가능한 가용 영역의 개념이 가동 중단의 영향을 최소화 할 수 있었던 것 같습니다. 번개가 하나의 데이터 센터에만 영향을 준다고 가정하면 다른 가용 영역의 다른 데이터 센터는 계속 작동해야합니다. 그러나 Azure Active Directory (AAD)와 같은 다른 비 지역 서비스의 중단은 여러 지역에 영향을 미쳤습니다. 가용 영역이 당신을 완전히 고립 시켰을 것이라고 생각하지 않습니다.
글로벌로드 밸런서, 교차 영역 페일 오버 클러스터 등
지역을 가로 지르는 SANLess 클러스터를 구축하든 글로벌로드 밸런서를 사용하여 여러 지역에 걸쳐로드를 분산하든 관계없이 South Central US에서의 정전 영향을 최소화 할 수 있습니다. 그러나 당신은 여전히 AAD 정전에 취약 할 수 있습니다.
하이브리드 클라우드, 크로스 클라우드
클라우드 전반의 장애 시나리오에서 탄력성을 보장하려면 주요 클라우드 제공 업체 외부의 대상에 실시간으로 데이터를 복제하고이 다른 위치에서 신속하게 응용 프로그램을 온라인으로 가져올 수있는 계획을 포함하는 DR 계획을 세우는 것이 좋습니다. 이 두 위치는 완전히 독립적이어야합니다. AAD와 같은 기본 위치에서 사용할 수있는 서비스에 의존해서는 안됩니다. DR 위치는 다른 클라우드 제공 업체가 될 수 있습니다. 이 경우 AWS 또는 Google Cloud Platform은 논리적 인 대안처럼 보일 수도 있고 자체 데이터 센터 일 수도 있습니다. 그러나 이런 종류의 일은 처음부터 클라우드에서 실행되는 목적을 무효화시킵니다.
서비스로서의 소프트웨어
Azure Active Directory (ADD), Azure SQL 데이터베이스 (Database-as-Service) 또는 클라우드 제공자의 많은 SaaS 오퍼링 중 하나와 같은 서비스로서의 소프트웨어는 유혹적으로 보일 수 있지만 최악의 시나리오를 계획해야합니다 . 비즈니스 크리티컬 한 애플리케이션을 단일 벤더에 맡기고 있기 때문에 컨트롤이 거의 없을 수도 있습니다. 현재 클라우드 서비스 공급자 외부의 복구를 포함하는 DR 옵션이라는 점을 기억하십시오. SaaS 서비스를 구현하기 전에 DR 옵션을 조사하는 것 외에 다른 말로는 나을 수 없습니다. 클라우드 외부의 복구가 옵션이 아닌 경우 해당 서비스에 가입하기 전에 오래 동안 열심히 생각하십시오. 비즈니스 관계자에게 클라우드 서비스가 오프라인 인 경우 전화 이외에는 아무 것도 할 수 없으며 불평 할 수 있음을 알립니다.
미래 동향
아주 가까운 장래에 크로스 클라우드 가용성에 대해 더 많은 것을 듣게 될 것입니다. 또한 사람들이 SIOS DataKeeper와 같은 솔루션을 활용하여 클라우드 공급자를 교차하는 강력한 HA 및 DR 전략을 구축하는 방법에 대해서도 설명합니다. 진정한 교차 클라우드 또는 하이브리드 클라우드 모델은 생각할 수있는 대부분의 클라우드 중단으로부터 진정으로 자신을 보호 할 수있는 유일한 방법입니다. 이 최근 정전으로 인해 영향을받은 경우 귀하의 의견을 듣고 싶습니다. 무엇이 내려 갔는지, 얼마나 오래 있었는지, 그리고 당신이 회복하기 위해 한 일을 말해주십시오. 미래에 당신의 경험이 나아질 수 있도록하기 위해 무엇을 할 계획입니까? Azure 클라우드 정전을 극복하는 방법과 같은 기사를 더 읽으십시오. Clusteringformeremortals.com의 허락을 받아 재현