คุณอาจเคยได้ยินเกี่ยวกับปัญหาการหยุดทำงานของพื้นที่จัดเก็บข้อมูลล่าสุดซึ่งส่งผลกระทบต่อบางกรณีในภูมิภาคอเมริกาตะวันออกในวันที่ 16 มีนาคม มีการโพสต์การวิเคราะห์สาเหตุของการหยุดทำงานที่นี่
16 มีนาคมหน่วยเก็บข้อมูล US East Storage
ผลกระทบจากลูกค้า: กลุ่มย่อยของลูกค้าที่ใช้ Storage ในภูมิภาคอเมริกาตะวันออกอาจมีข้อผิดพลาดและหมดเวลาในขณะที่เข้าถึงบัญชีพื้นที่จัดเก็บข้อมูลของตนในหน่วยเก็บข้อมูลขนาดเดียว
คุณอาจจะถามว่า "หน่วยจัดเก็บข้อมูลขนาดเดียวคืออะไร" ดีคุณสามารถคิดเป็นกลุ่มการจัดเก็บเดียวหรือ SAN เดียวหรืออย่างไรก็ตามคุณต้องการคิดเกี่ยวกับเรื่องนี้ ฉันไม่คิดว่า Azure เผยแพร่โครงสร้างพื้นฐานที่แน่นอน แต่คุณอาจจะคิดว่าเบื้องหลังพวกเขาใช้ Scale Out File Servers สำหรับการจัดเก็บแบ็กเอนด์
คำถามก็คือฉันจะมีชีวิตรอดได้อย่างไรด้วยการหยุดทำงานน้อยที่สุด? ถ้าคุณอ่านต่อไปว่าการวิเคราะห์รากสาเหตุคุณพบว่ามีนักเก็ตน้อยคนนี้
เครื่องเสมือนที่ใช้ดิสก์ที่มีการจัดการในชุดการจัดหาจะสามารถรักษาความพร้อมใช้งานได้ในระหว่างเหตุการณ์นี้
มีอะไรจัดการดิสก์ที่คุณถาม? ดีวันที่ 8 กุมภาพันธ์ Corey Sanders ประกาศ GA ของ Managed Disks คุณสามารถอ่านทั้งหมดเกี่ยวกับ Managed Disks ได้ที่นี่ https://azure.microsoft.com/en-us/services/managed-disks/
เหตุผลที่ดิสก์ที่มีการจัดการจะช่วยในการหยุดทำงานนี้ได้โดยการใช้ประโยชน์จากชุดการจัดหาพร้อมกับไดรฟ์ที่มีการจัดการให้คุณมั่นใจได้ว่าแต่ละอินสแตนซ์ในชุดความพร้อมใช้งานของคุณเชื่อมต่อกับ "หน่วยจัดเก็บข้อมูลขนาดใหญ่" ที่แตกต่างกัน ดังนั้นในกรณีนี้โหนดคลัสเตอร์ของคุณจะล้มเหลวโดยเหลือเพียงโหนดหนึ่งเท่านั้นที่จะรับภาระงาน
ก่อนที่ดิสก์ที่มีการจัดการจะพร้อมใช้งาน (ไม่มีอะไรนำไปใช้ก่อนวันที่ 2/8/2016) ไม่มีวิธีใดที่จะทำให้มั่นใจได้ว่าพื้นที่เก็บข้อมูลที่แนบกับเซิร์ฟเวอร์ของคุณจะอาศัยอยู่กับหน่วยจัดเก็บข้อมูลที่แตกต่างกัน แน่นอนว่าคุณสามารถใช้บัญชีพื้นที่จัดเก็บข้อมูลที่แตกต่างกันได้สำหรับแต่ละกรณี แต่ในความเป็นจริงไม่ได้รับประกันว่า Storage Accounts จะจัดเตรียมพื้นที่เก็บข้อมูลไว้ในหน่วยเก็บข้อมูลที่แตกต่างกัน
ดังนั้นในขณะที่ชุดความพร้อมใช้งานทำให้แน่ใจได้ว่าอินสแตนซ์ของคุณอาศัยอยู่ในโดเมนฟอลต์ที่แตกต่างกันและอัปเดตโดเมนเพื่อให้แน่ใจว่ามีอินสแตนซ์ตัวเองอยู่แล้วพื้นที่เก็บข้อมูลเพิ่มเติมที่แนบมากับแต่ละอินสแตนซ์จริงๆถือว่าเป็นจุดล้มเหลวเพียงจุดเดียว แม้ว่าตัวเก็บข้อมูลจะมีความยืดหยุ่นสูงมีสำเนาข้อมูลและตัวเลือกสำรองข้อมูลทางภูมิศาสตร์ 3 ชุดในกรณีนี้ด้วยความผิดพลาดของพลังงานหน่วยเก็บข้อมูลขนาดใหญ่ทั้งหมดจะลดลงพร้อมกับเซิร์ฟเวอร์ทั้งหมดที่เชื่อมต่ออยู่
เรื่องยาวสั้นมาก … โยกย้ายไปยัง Managed Disk โดยเร็วที่สุดเพื่อช่วยลดเวลาหยุดทำงาน
และถ้าคุณต้องการลดเวลาหยุดทำงานคุณควรพิจารณาการปรับใช้ระบบไฮบริดในระบบคลาวด์ซึ่งจะช่วยให้ผู้ให้บริการระบบคลาวด์หรือผู้ให้บริการระบบคลาวด์เปิดให้ใช้งานได้