สรุปข้อเขียนของ Azure Post-Mortem ตอนที่ 3
โพสต์บล็อกก่อนหน้าของฉัน Azure Outage Post-Mortem – ตอนที่ 1 และ Azure Outage Post-Mortem ส่วนที่ 2 ได้ตั้งสมมติฐานขึ้นอยู่กับข้อมูลที่ จำกัด จากบล็อกโพสต์และ Twitter ฉันเพิ่งเข้าร่วมเซสชันที่ Ignite ซึ่งให้ความชัดเจนมากขึ้นเกี่ยวกับสิ่งที่เกิดขึ้นจริง ในวันพรุ่งนี้คุณควรจะสามารถดูเซสชั่นได้เอง BRK3075 – การเตรียมพร้อมสำหรับสิ่งที่ไม่คาดคิด: กายวิภาคของปัญหา Azure การวิเคราะห์สาเหตุหลักอย่างเป็นทางการจะมีการเผยแพร่ในเร็ว ๆ นี้ ในระหว่างนี้นี่เป็นข้อมูลที่รวบรวมได้จากเซสชั่น
สาเหตุ
จากการชันสูตรพลิกศพที่เกิดจากสภาพอากาศสีฟ้าการดับไฟไม่เกิดจากการชนฟ้าผ่าตามที่รายงานไว้ก่อนหน้านี้ แทนเนื่องจากลักษณะของพายุมี sags พายุไฟฟ้าและฟู เป็นผลให้มันล็อคออกโรงงานเย็นในดาต้าเซ็นเตอร์ที่ 1 ในช่วงหยุดพักครั้งแรกนี้พวกเขาสามารถกู้คืนเครื่องทำน้ำเย็นได้อย่างรวดเร็วโดยไม่มีผลกระทบที่เห็นได้ชัด หลังจากนั้นไม่นานมีการหยุดทำงานครั้งที่สองที่ศูนย์ข้อมูลที่สองซึ่งไม่สามารถกู้คืนได้อย่างถูกต้อง ที่เริ่มต้นชุดที่โชคร้ายของเหตุการณ์
2nd Outage
ในระหว่างการหยุดทำงานนี้ไมโครซอฟท์กล่าวว่า "วิศวกรไม่ได้ทำการวิเคราะห์ข้อมูลอย่างถูกต้อง – การกู้คืนโรงงานของเครื่องทำความเย็นไม่ได้ถูกจัดลำดับความสำคัญไว้" มีการแจ้งเตือนจำนวนมากถูกเรียกใช้ในขณะนี้ น่าเสียดายที่เครื่องทำความเย็นแบบออฟไลน์ไม่ได้รับความสำคัญที่ควรมี RCA ว่าเหตุใดจึงเกิดเหตุการณ์เช่นนี้อยู่ระหว่างการตรวจสอบ ไมโครซอฟท์ระบุว่าระบบทำความเย็นที่ซ้ำซ้อนแน่นอนอยู่ในสถานที่ อย่างไรก็ตามระบบระบายความร้อนไม่ได้รับการตั้งค่าให้ failover โดยอัตโนมัติ อุปกรณ์ใหม่ที่เพิ่งติดตั้งใหม่ไม่ได้รับการทดสอบอย่างสมบูรณ์ ดังนั้นจึงได้ตั้งค่าเป็นโหมดด้วยตนเองจนกว่าการทดสอบจะเสร็จสิ้น หลังจาก 45 นาทีการระบายความร้อนโดยรอบล้มเหลวการปิดระบบฮาร์ดแวร์ตัวจัดการอากาศปิดลงเนื่องจากคิดว่ามีไฟ เจ้าหน้าที่ได้รับการอพยพเนื่องจากมีสัญญาณเตือนไฟลุกลาม ในช่วงเวลานี้อุณหภูมิในศูนย์ข้อมูลเพิ่มขึ้น ฮาร์ดแวร์บางอย่างไม่ถูกปิดอย่างถูกต้องทำให้เกิดความเสียหายต่อการจัดเก็บและระบบเครือข่าย หลังจากที่รีเซ็ตเครื่องทำความเย็นด้วยตัวเองและเปิดตัวจัดการอากาศอุณหภูมิเริ่มกลับสู่ภาวะปกติ ใช้เวลาประมาณ 3 ชั่วโมง 29 นาทีก่อนที่พวกเขาจะได้เห็นภาพสถานะของดาต้าเซ็นเตอร์อย่างสมบูรณ์ ปัญหาใหญ่ที่สุดคือความเสียหายที่เกิดขึ้นกับพื้นที่เก็บข้อมูล ความกังวลหลักของ Microsoft คือการปกป้องข้อมูล Microsoft จะพยายามกู้คืนข้อมูลเพื่อไม่ให้สูญเสียข้อมูล นี้แน่นอนเอาเวลาที่ขยายความยาวโดยรวมของการหยุดทำงาน ข่าวดีก็คือไม่มีข้อมูลลูกค้าหายไป ข่าวร้ายก็คือดูเหมือนว่าจะใช้เวลา 24-48 ชั่วโมงเพื่อให้สิ่งต่างๆกลับคืนสู่สภาพปกติ ทั้งนี้ขึ้นอยู่กับสิ่งที่ฉันอ่านจาก Twitter จากลูกค้าที่บ่นเกี่ยวกับการหยุดชะงักเป็นเวลานาน
สมมติฐาน
ทุกคนคาดว่าการหยุดชะงักนี้จะส่งผลกระทบต่อลูกค้าที่เป็นเจ้าภาพในภาคกลางภาคใต้ แต่สิ่งที่พวกเขาไม่คาดหวังก็คือการหยุดชะงักจะมีผลกระทบนอกภูมิภาคนั้น ในเซสชั่น, Microsoft กล่าวถึงบางส่วนของการเข้าถึงขยายของการหยุดทำงาน
ผู้จัดการฝ่ายบริการ Azure (ASM)
ควบคุมทรัพยากร Azure "Classic", AKA, ทรัพยากรก่อน ARM ทุกคนที่ใช้ ASM อาจได้รับผลกระทบ ไม่เป็นที่ชัดเจนว่าเหตุใดจึงเกิดขึ้น ปรากฏว่าภาคกลางภาคใต้มีองค์ประกอบที่สำคัญของบริการดังกล่าวซึ่งไม่สามารถใช้งานได้
บริการทีม Visual Studio (VSTS)
ดูเหมือนว่าแหล่งข้อมูลต่างๆที่สนับสนุนบริการนี้มีอยู่ในภาคใต้ตอนล่าง การหยุดทำงานนี้ได้รับการอธิบายอย่างละเอียดโดย Buck Hodges (@tfsbuck) ผู้อำนวยการฝ่ายวิศวกรรม Azure DevOps โพสต์บล็อกนี้
POSTMORTEM: VSTS 4 กันยายน 2018
Azure Active Directory (AAD)
เมื่อภาคกลางตอนใต้ล้มเหลว AAD ทำในสิ่งที่ได้รับการออกแบบมาเพื่อให้ครบถ้วนและเริ่มส่งคำร้องขอรับรองความถูกต้องไปยังภูมิภาคอื่น ๆ ขณะที่ฝั่งตะวันออกเริ่มตื่นขึ้นและออนไลน์การเข้าชมการตรวจสอบสิทธิ์เริ่มต้นขึ้น ตอนนี้ปกติ AAD จะจัดการกับการเพิ่มขึ้นของการเข้าชมผ่าน autoscaling แต่ autoscaling มีการพึ่งพา ASM ซึ่งแน่นอนว่าออฟไลน์ หากไม่มีความสามารถในการทำสำเนาอัตโนมัติ AAD ไม่สามารถจัดการกับคำขอยืนยันข้อมูลที่เพิ่มขึ้นได้ ทำให้สถานการณ์แย่ลงคือข้อผิดพลาดในไคลเอ็นต์ Office ซึ่งทำให้มีตรรกะในการลองใหม่อย่างก้าวร้าวและไม่มีเหตุผลด้านหลัง การเข้าใช้งานการตรวจสอบสิทธิ์เพิ่มเติมนี้ทำให้ AAD เข้าสู่หัวเข่า พวกเขาหมดเวลาเพื่อพูดคุยเรื่องนี้ต่อไปในระหว่างเซสชัน Ignite คุณลักษณะหนึ่งที่พวกเขาจะแนะนำจะทำให้ผู้ใช้สามารถล็อกไฟล์ Storage ด้วยตนเองได้ในอนาคต ดังนั้นในกรณีที่เป้าหมายเวลาการกู้คืน (RTO) มีความสำคัญมากกว่า (RPO) ผู้ใช้จะมีความสามารถในการกู้คืนพื้นที่จัดเก็บข้อมูลซ้ำซ้อนที่จำลองแบบอะซิงโครนัสในศูนย์ข้อมูลสำรองหาก Microsoft ประสบปัญหาการหยุดทำงานชั่วคราวเพิ่มเติมในอนาคต
สิ่งที่คุณสามารถทำได้ตอนนี้
จนกว่าจะถึงเวลานั้นคุณจะต้องพึ่งพาโซลูชันการจำลองแบบอื่น ๆ เช่นการกู้คืนไซต์ SIOS DataKeeper Azure หรือโซลูชันการจำลองแบบเฉพาะของแอ็พพลิเคชันที่มีความสามารถในการทำซ้ำข้อมูลข้ามภูมิภาคและทำให้สามารถเรียกใช้แผนกู้คืนระบบของคุณได้ในการควบคุมของคุณ อ่านข้อมูลเพิ่มเติมเกี่ยวกับการฆาตกรรมโพสต์ภาพตัดปะของเราที่ทำด้วยทองคำได้รับอนุญาตจาก Clusteringformeremortals.com