Date: 11월 6, 2018
파기 후 파기
지난 주에 발생한 Azure Outage와 관련하여 최초의 공식 Post-Mortems가 Microsoft에서 나오기 시작했습니다. 이 첫 번째 Azure Outage Post-Mortem은 Azure DevOps 정전 (구체적으로는 이전에 Visual Studio Team Service 또는 VSTS라고 함)을 해결합니다. 정전의 폭과 깊이에 대한 몇 가지 추가적인 통찰력을 제공합니다. 정전의 원인을 확인합니다. 또한 Microsoft가 신속하게 온라인 상태로 되돌리려면 Microsoft가 직면 한 문제에 대한 통찰력을 제공합니다. 또한 Microsoft는 향후이 상황을보다 잘 처리하기 위해 Microsoft가 고려할 수있는 일부 기능 / 기능에 대해 설명합니다. 필자가 이전 기사에서 언급했듯이, 새로운 가용성 영역 (Azure)에서 출시되는 것과 같은 기능은이 중단의 영향을 최소화 할 수 있습니다. 사후에 Microsoft는 이전에 내가 말한 것을 확인합니다.
데이터 센터 오류 처리 개선을 위해 우리가 추구하는 주요 솔루션은 가용성 영역 (Availability Zones)이며 비동기 복제의 실현 가능성을 모색하고 있습니다.
취할 다른 예방 조치
가용성 영역이 교차 영역, 하이브리드 – 클라우드 또는 크로스 – 클라우드 비동기식 복제 인 경우에만 재해 복구 옵션이 더 많은 지역에서 롤아웃됩니다. 현재 사용 가능한 소프트웨어 기반 #SANless 클러스터링 솔루션을 통해 이러한 구성을 사용할 수 있습니다. 훌륭한 거리를 복제 할 때에도 매우 강력한 RTO 및 RPO를 제공합니다. SaaS / PaaS 솔루션을 사용하면 클라우드 서비스 제공 업체 (CSP)가 철제 클래드 HA / DR 솔루션을 제 공합니다. 이 경우 꽤 많은 결점이 드러난 것처럼 보입니다. 우리는 모든 CSP가 SaaS / PaaS 제품을 열심히 바라 볼 수 있기를 바랄뿐입니다. 존재할 수있는 HA / DR 갭을 처리 할 수 있습니다. 그때까지는 위험을 이해하는 것이 소비자의 책임입니다. 그들은 확장 된 중단의 위험을 완화하기 위해 할 수있는 일을해야하거나 위험이 해결 될 때까지 PaaS / SaaS를 사용하지 않기로 선택해야합니다.
RTO 또는 RPO?
사후 부검은 문제의 근원에 도달하게됩니다 … RTO 또는 RPO를 더 많이 평가합니까?
나는 근본적으로 고객이 데이터 손실을 수락할지 여부를 결정하기를 원하지 않습니다. 고객이 데이터 손실로 인해 대규모 팀의 생산성을 빠르게 높이고 다른 고객이 데이터 손실을 원하지 않는다고 말하면서 오랫동안 복구를 기다릴 것이라고 말했습니다.
CSP가 고객에 대한 결정을 내리는 것은 불가능합니다. CSP는 원본 데이터가 완전히 손실되어 복구 할 수 없다면 고객 데이터를 잃고 싶지 않습니다. 이 경우 거의 실시간으로 비동기식 복제본이 예상치 못한 오류가 발생했을 때 RPO 측면에서 얻을 수있는만큼 좋은 성능을 발휘합니다. 그러나이 정전은 실제로 예상치 못한 경고였습니까? 현대 위성 이미지와 일기 예보 개선으로이 지역의 중요한 날씨 관련 이벤트가있을 것이라는 공정한 경고가있었습니다. 이 게시물을 쓰면서 허리케인 플로렌스가 미국 동남부로 향하고 있습니다. 데이터 센터가 경로에있는 경우 영향을받는 지역에서 작업 부하를 이동하기위한 사전 조치를 취하십시오. 사전 대처 형 재해 복구와 재해 복구 형 재해 복구의 이점은 다양합니다. 데이터 손실이 없으며 예상치 못한 문제를 해결하는 데 충분한 시간입니다. 또한 직원들이 일하는 것보다 가족 돌보는 것에 대해 걱정할 수있는 인적 자원 관리가 포함됩니다. 다시 한 번, 능동적 인 재해 복구를 제정하는 것은 CSP가 모든 고객을 대신하여 힘든 결정이 될 것입니다. 지역 간 계획된 마이그레이션은 어느 정도의 가동 중지 시간을 초래합니다. 이 결정은 고객의 손에 맡겨야합니다. 이 Azure Outage Post-Mortem의 교훈을 받아 고객을 교육하십시오.
보호 받기
비즈니스 핵심 애플리케이션 및 데이터를 보호하기 위해 무엇을 할 수 있습니까? Azure Outage Post-Mortem에서 몇 가지 교훈을 얻으 십시다. 소프트웨어 기반의 #SANless 클러스터 솔루션을 사용하는 교차 지역, 크로스 클라우드 또는 하이브리드 클라우드 모델은 HA / DR 문제를 해결하는 데 많은 도움이됩니다. 또한 클라우드 기반 IaaS 배포를위한 우수한 RTO 및 RPO를 제공합니다. 애플리케이션 별 솔루션 이외에 다른 옵션이 있습니다. SIOS DataKeeper 및 SIOS Protection Suite와 같은 소프트웨어 기반의 블록 레벨 볼륨 복제 솔루션은 모든 데이터를 복제하고 Linux 및 Windows 플랫폼 모두에 대한 데이터 보호 솔루션을 제공합니다. 나의 가장 오래된 아들은 방금 Rutgers 대학에서 기상학 학사 학위를 시작했습니다. 인공 지능 (AI) 및 기계 학습 (ML) 프로세스가 NOAA의 날씨 관련 데이터를 처리하는 날을 상상해보십시오. 폭풍이 발생하기 2 일 전에 재해 복구 계획을 세울 수 있습니까? 나는 그의 석사 학위 논문에 대한 완벽한 주제를 발견했다고 생각한다. 또는 WeatherWatcher LLC의 지인과 똑똑한 친구에게 AI 및 ML을 기상 관련 데이터에 적용하여 사전 대처 형 재해 복구 이벤트를 제어하는 기술 시동에 자금을 지원할 수 있습니다. 저는 우리가 IT 분석 솔루션의 첨단에 서있다고 생각합니다. 우리는 첨단 기계 학습 기술을 적용하여 중요한 응용 프로그램 서비스를 제공하기위한 시간과 노력을 줄일 수 있습니다. SIOS iQ는이 분야에서 선도적 인 솔루션 중 하나입니다. 부화하고 준비하기. 허리케인 시즌이 막 시작되었고 우리는 이미 야생으로 타고 있습니다. 트위터 @daveberm에서 HA / DR 전략에 대해 논의하고 싶습니다.