Date: 8월 9, 2017
3 월 16 일에 미국 동부 지역의 일부 인스턴스에 영향을 미친 최근 스토리지 중단에 대해 들었을 수 있습니다. 작동 중단의 근본 원인 분석이 여기에 게시됩니다.
고객에게 미치는 영향 : 동부 미국 지역의 스토리지를 사용하는 고객 중 일부가 하나의 스토리지 단위로 스토리지 계정에 액세스하는 동안 오류 및 시간 초과를 경험했을 수 있습니다.
"단일 스토리지 저울 단위 란 무엇입니까?" 글쎄, 당신은 하나의 스토리지 클러스터, 또는 하나의 SAN으로 생각할 수도 있지만, 그것에 대해 생각하고 싶을 수도 있습니다. Azure가 정확한 인프라를 게시하지는 않는다고 생각하지만, 뒷장에서 백엔드 스토리지 용 스케일 아웃 파일 서버를 사용하고 있다고 가정 할 수 있습니다.
그래서 문제는 어떻게 최소한의 중단 시간으로이 정전에서 살아남을 수 있습니까? 근본 원인 분석을 자세히 읽으면이 작은 너겟을 발견하게됩니다.
가용성 세트에서 관리 디스크를 사용하는 가상 시스템은이 문제 발생시 가용성을 유지합니다.
당신이 요구하는 관리 디스크는 무엇입니까? 음, 2 월 8 일 Corey Sanders는 Managed Disks의 GA를 발표했습니다. 여기서 Managed Disks에 대한 모든 정보를 읽을 수 있습니다. https://azure.microsoft.com/en-us/services/managed-disks/
Managed Disks가 이러한 장애를 일으키는 데 도움이되는 이유는 Managed Disks와 결합 된 가용성 세트를 활용함으로써 가용성 세트의 각 인스턴스가 서로 다른 "스토리지 저울 단위"에 연결되도록 보장하기 때문입니다. 따라서이 경우 클러스터 노드 중 하나만 실패하고 나머지 노드는 작업 부하를 인계받습니다.
Managed Disks가 사용 가능하기 전에 (2016 년 2 월 8 일 이전에 배포 된 모든 것), 서버에 연결된 스토리지가 다른 스토리지 스케일 단위에 있는지 확인하는 방법이 없었습니다. 물론 각 인스턴스에 대해 서로 다른 저장소 계정을 사용할 수는 있지만 사실상 이러한 저장소 계정이 다른 저장소 규모 단위로 저장소를 제공한다는 보장은 없습니다.
따라서 Availability Set이 인스턴스 자체의 가용성을 보장하기 위해 다른 Fault Domains 및 Update Domains에있는 것을 보장하지만 각 인스턴스에 연결된 추가 스토리지는 실제로 단일 실패 지점을 나타냅니다. 스토리지 자체는 복원력이 뛰어나지 만 3 개의 데이터 복사본과 지리적 중복 옵션을 사용할 수 있습니다.이 경우 정전이 발생하면 전체 스토리지 스케일 장치가 연결된 모든 서버와 함께 중단됩니다.
짧은 이야기 만하면됩니다. 중단 시간 최소화를 위해 가능한 한 빨리 Managed Disk로 마이그레이션하십시오.
다운 타임을 최소화하고 싶다면 클라우드 제공자 또는 온 – 프레미엄 클라우드에 걸쳐있는 하이브리드 클라우드 배치를 고려해야합니다!