สายฟ้าไม่เคยชนสองครั้ง: รอดตาย Azure Cloud Outage
เมื่อเช้าวานนี้ฉันเปิดฟีด Twitter ของฉันเพื่อดูว่าหลายคนได้รับผลกระทบจากการหยุดทำงานของเมฆ Azure เกือบทุกหน้าทรัพยากรเกี่ยวกับการหยุดทำงานไม่สามารถใช้งานได้ โชคดี @AzureSupport ยังคงให้บริการอัปเดตผ่านทาง Twitter การอัปเดตเดิมจาก @AuureSupport เข้ามาเมื่อเวลา 7.12 น. EDT การมองย้อนกลับไปที่ฟีด Twitter ทำให้ดูเหมือนว่าปัญหาเริ่มแรกหรือสองชั่วโมงก่อนหน้านั้น อย่างรวดเร็วกลายเป็นที่ชัดเจนว่าการขาดที่มีผลกระทบการแพร่กระจายที่กว้างขึ้นกว่าเพียงแค่ในภูมิภาคอเมริกาใต้ตอนใต้ตามที่รายงานไว้ ดูเหมือนว่าบริการที่อาศัย Azure Active Directory อาจได้รับผลกระทบเช่นกันและลูกค้าที่พยายามจัดหาแหล่งข้อมูลใหม่ ๆ กำลังมีปัญหาอยู่ และ 24 ชั่วโมงต่อมาปัญหายังไม่ได้รับการแก้ไขอย่างสมบูรณ์และเป็นไปตามการปรับปรุงครั้งล่าสุดเช้านี้ … ดังนั้นสิ่งที่คุณได้ทำเพื่อลดผลกระทบจากการหยุดทำงานนี้เมฆสีฟ้า? ไม่มีใครสามารถตำหนิ Microsoft ได้เนื่องจากเกิดภัยพิบัติทางธรรมชาติเช่นฟ้าผ่า แต่ในตอนท้ายของวันถ้าแผนการกู้คืนความเสียหายเพียงอย่างเดียวของคุณคือการโทรทวีตและอีเมล Microsoft จนกว่าปัญหาจะได้รับการแก้ไขคุณเพิ่งได้รับการปลุกใจหยาบคาย คุณจะต้องตรวจสอบให้แน่ใจว่าฐานข้อมูลทั้งหมดได้รับการคุ้มครองเมื่อคุณวางแผนการกู้คืนระบบ
เวลาในการสำรวจทางเลือกบางอย่าง?
ในขณะที่ฝุ่นยังคงตกอยู่ในสิ่งที่ได้รับผลกระทบและสิ่งที่ลูกค้าสามารถทำได้เพื่อลดการหยุดทำงานนี่คือบางส่วนของความคิดแรกของฉัน
ชุดความพร้อมใช้งาน (โดเมนข้อบกพร่อง / อัปเดตโดเมน)
ในสถานการณ์สมมตินี้แม้ว่าคุณจะสร้าง Failover Clusters หรือใช้ Balanced Balancing และ Azure Load Balancing แล้วก็ตามคุณก็ยังคงโชคดีอยู่ได้ แม้ว่าคุณจะยังคงแนะนำให้ใช้ชุดการตั้งค่าความพร้อมใช้งานโดยเฉพาะอย่างยิ่งสำหรับการหยุดทำงานตามแผนในกรณีนี้คุณจะยังออฟไลน์
โซนที่มีจำหน่าย
ยังไม่สามารถใช้งานได้ในภาคใต้ของอเมริกากลาง ดูเหมือนว่าแนวคิดของโซนการให้บริการที่เปิดตัวใน Azure อาจลดผลกระทบจากการหยุดทำงาน สมมติว่าการโจมตีด้วยสายฟ้ากระทบเฉพาะศูนย์ข้อมูลเพียงอย่างเดียวดาต้าเซ็นเตอร์อื่น ๆ ในโซนความพร้อมใช้งานอื่น ๆ ควรมีการใช้งานอยู่ อย่างไรก็ตามการขาดบริการอื่น ๆ ที่ไม่ใช่ภูมิภาคเช่น Azure Active Directory (AAD) ดูเหมือนจะส่งผลกระทบต่อหลายภูมิภาค ฉันไม่คิดว่าโซนการให้บริการจะแยกคุณออกทั้งหมด
Balancers โหลดทั่วโลกกลุ่มข้ามเขตล้มเหลว ฯลฯ
ไม่ว่าคุณจะสร้างกลุ่ม SANLess ที่ข้ามภูมิภาคหรือใช้เครื่องมือ balancers ทั่วโลกเพื่อกระจายภาระในหลายพื้นที่คุณอาจลดผลกระทบจากการหยุดทำงานใน South Central US แต่คุณอาจยังคงอ่อนแอต่อการหยุดทำงานของ AAD
ไฮบริดคลาวด์ครอสมีเมฆ
ความยืดหยุ่นที่ได้รับการรับรองในสถานการณ์ความล้มเหลวของระบบคลาวด์กว้างคือการมีแผนบริการ DR ซึ่งรวมถึงการจำลองข้อมูลตามเวลาจริงไปยังเป้าหมายภายนอกผู้ให้บริการระบบคลาวด์หลักของคุณและวางแผนที่จะนำแอปพลิเคชันออนไลน์อย่างรวดเร็วในที่อื่น ๆ สถานที่ทั้งสองแห่งนี้ควรเป็นอิสระอย่างสิ้นเชิง ไม่ควรพึ่งพาบริการจากตำแหน่งหลักของคุณเพื่อให้บริการเช่น AAD ตำแหน่ง DR อาจเป็นผู้ให้บริการระบบคลาวด์รายอื่น ในกรณีนี้ AWS หรือ Google Cloud Platform ดูเหมือนเป็นทางเลือกเชิงตรรกะหรืออาจเป็นดาตเซ็นเตอร์ของคุณเอง แต่ประเภทของความขัดแย้งกับวัตถุประสงค์ของการทำงานในเมฆในสถานที่แรก
ซอฟต์แวร์เป็นบริการ
แม้ว่า Azure Active Directory (ADD) Azure Active Directory (ADD) Azure SQL Database (Database-as-Service) หรือหนึ่งในข้อเสนอของ SaaS จำนวนมากจากผู้ให้บริการระบบคลาวด์อาจล่อลวงคุณก็จำเป็นต้องวางแผนสำหรับกรณีที่เลวร้ายที่สุด . คุณอาจมีการควบคุมน้อยมากเนื่องจากเชื่อมั่นในแอพพลิเคชันที่สำคัญทางธุรกิจสำหรับผู้ขายรายเดียว จำได้ว่าในแง่ของตัวเลือก DR ซึ่งรวมถึงการกู้คืนภายนอกผู้ให้บริการระบบคลาวด์ในปัจจุบัน ฉันไม่มีคำพูดใด ๆ ของภูมิปัญญาที่นี่นอกจากการตรวจสอบตัวเลือก DR ก่อนที่จะใช้บริการ SaaS ใด ๆ หากการกู้คืนนอกระบบคลาวด์ไม่ใช่ตัวเลือกให้ลองคิดนานและหนักก่อนลงชื่อสมัครใช้บริการดังกล่าว แจ้งให้เจ้าของธุรกิจทราบว่าหากบริการคลาวด์ออฟไลน์อาจไม่มีอะไรที่คุณสามารถทำได้นอกเหนือจากการโทรและบ่น
แนวโน้มในอนาคต
ฉันคิดว่าในอนาคตอันใกล้นี้คุณจะเริ่มได้ยินมากขึ้นเกี่ยวกับความพร้อมใช้งานข้ามคลาวด์ นอกจากนี้เกี่ยวกับวิธีที่ผู้ใช้ยกระดับโซลูชั่นเช่น SIOS DataKeeper เพื่อสร้างกลยุทธ์ HA และ DR ที่มีประสิทธิภาพซึ่งช่วยให้ผู้ให้บริการคลาวด์ข้ามระบบ แบบข้ามคลาวด์หรือแบบไฮบริดคลาวด์อย่างแท้จริงเป็นวิธีเดียวที่จะป้องกันตัวเองได้อย่างแท้จริงจากการใช้งานระบบคลาวด์ที่เป็นไปได้มากที่สุด หากคุณได้รับผลกระทบจากเหตุขัดข้องล่าสุดที่ฉันต้องการจะได้ยินจากคุณ บอกฉันว่าอะไรลงไประยะเวลาที่คุณลงและสิ่งที่คุณทำเพื่อกู้คืน คุณวางแผนที่จะทำอะไรเพื่อให้ในอนาคตประสบการณ์ของคุณดีขึ้น อ่านบทความเพิ่มเติมเช่นวิธีการที่จะรอด Azure Cloud Outage? ทำซ้ำโดยได้รับอนุญาตจาก Clusteringformeremortals.com