Azure Outage Post-Mortem ตอนที่ 1

Date: พฤศจิกายน 6, 2018

Azure Outage Post-Mortem

การโพสต์ข้อความอย่างเป็นทางการครั้งแรกเริ่มออกมาจากไมโครซอฟต์เกี่ยวกับ Azure Outage ที่เกิดขึ้นเมื่อสัปดาห์ที่แล้ว Azure Outage Mortage ฉบับแรกนี้จะกล่าวถึงปัญหาการหยุดทำงาน Azure DevOps โดยเฉพาะ (รู้จักกันในชื่อ Visual Studio Team Service หรือ VSTS) จะทำให้เรามีข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับความกว้างและความลึกของจุดดับเพลิง ยืนยันสาเหตุของการหยุดชะงัก นอกจากนี้ยังช่วยให้เรามีข้อมูลเชิงลึกเกี่ยวกับความท้าทายต่างๆที่ Microsoft ประสบในการทำให้สิ่งต่างๆออนไลน์กลับมาอย่างรวดเร็ว นอกจากนี้ยังกล่าวถึงคุณลักษณะบางอย่าง / คุณลักษณะที่ Microsoft อาจพิจารณาในการจัดการกับสถานการณ์นี้ให้ดีขึ้นในอนาคต ดังที่ได้กล่าวไว้ในบทความก่อนหน้านี้คุณลักษณะต่างๆเช่นโซนการให้บริการใหม่ที่เปิดตัวใน Azure อาจลดผลกระทบจากการหยุดทำงานนี้ ในการโพสต์ชันสูตร Microsoft ยืนยันสิ่งที่ฉันได้กล่าวไว้ก่อนหน้านี้

โซลูชันหลักที่เรากำลังดำเนินการเพื่อปรับปรุงความล้มเหลวของดาต้าเซ็นเตอร์ในการจัดการคือโซนความพร้อมใช้งานและเรากำลังสำรวจความเป็นไปได้ของการจำลองแบบอะซิงโครนัส

ข้อกำหนดอื่น ๆ ที่ต้องทำ

จนกว่าเขตข้อมูลที่พร้อมใช้งานจะถูกส่งออกไปทั่วภูมิภาคอื่น ๆ คุณจะมีตัวเลือกการกู้คืนระบบเพียงอย่างเดียวคือข้ามภูมิภาคไฮบริดสลีเมฆหรือแม้แต่การจำลองแบบอะซิงโครนัสข้ามคลาวด์ ซอฟท์แวร์ที่ใช้โซลูชั่น #SANless clustering ในวันนี้จะช่วยให้สามารถกำหนดค่าดังกล่าวได้ ให้ RTO และ RPO ที่มีประสิทธิภาพมากแม้ว่าจะทำซ้ำระยะทางที่ดีก็ตาม ด้วยโซลูชัน SaaS / PaaS คุณจะต้องพึ่งพาผู้ให้บริการระบบคลาวด์ (Cloud Service Provider – CSP) ในการจัดเตรียมโซลูชั่น HA / DR แบบเหล็กไว้ ในกรณีนี้ดูเหมือนว่าจะมีการขาดแคลนที่สำคัญอย่างมาก เราหวังเป็นอย่างยิ่งว่าจะทำให้ซีเอสพีทุกคนมองอย่างหนักที่ข้อเสนอของ SaaS / PaaS รวมทั้งเพื่อแก้ไขปัญหาช่องว่าง HA / DR ที่อาจเกิดขึ้น จนกระทั่งถึงตอนนั้นผู้บริโภคต้องรับผิดชอบต่อความเสี่ยง พวกเขาจำเป็นต้องทำในสิ่งที่สามารถทำได้เพื่อลดความเสี่ยงของการหยุดทำงานที่ยืดเยื้อหรือเพียงแค่เลือกที่จะไม่ใช้ PaaS / SaaS จนกว่าจะมีการจัดการความเสี่ยง

RTO หรือ RPO?

การโพสต์ชันสูตรได้รับรากเหง้าของปัญหาจริงๆ … สิ่งที่คุณให้ความสำคัญกับ RTO หรือ RPO มากขึ้น?

พื้นฐานฉันไม่ต้องการตัดสินใจว่าลูกค้าจะยอมรับข้อมูลหรือไม่ ฉันมีลูกค้าบอกฉันว่าพวกเขาจะสูญเสียข้อมูลเพื่อให้ทีมงานขนาดใหญ่มีประสิทธิผลอีกครั้งอย่างรวดเร็วและลูกค้ารายอื่น ๆ บอกฉันว่าพวกเขาไม่ต้องการสูญเสียข้อมูลใด ๆ และจะรอการกู้คืนนานเท่าไร

จะเป็นไปไม่ได้ที่ซีเอสพีจะตัดสินใจได้ว่าเป็นลูกค้า CSP จะไม่ต้องการสูญเสียข้อมูลลูกค้าเว้นแต่ข้อมูลเดิมจะหายไปและไม่สามารถกู้คืนได้ ในกรณีนี้แบบจำลองเรียลไทม์แบบเรียลไทม์ใกล้เคียงกับที่คุณจะได้รับในแง่ของ RPO ในความล้มเหลวที่ไม่คาดคิด อย่างไรก็ตามความผิดพลาดนี้เกิดขึ้นได้จริงและไม่มีคำเตือน? ภาพจากดาวเทียมสมัยใหม่และการปรับปรุงสภาพอากาศในการพยากรณ์อากาศทำให้มีการเตือนอย่างเป็นรูปธรรมว่าเหตุการณ์อากาศที่เกิดขึ้นในพื้นที่มีความสำคัญ พายุเฮอร์ริเคนฟลอเรนซ์มุ่งหน้าลงตะวันออกเฉียงใต้ของสหรัฐขณะที่ฉันเขียนบทความนี้ ใช้มาตรการเชิงรุกเพื่อย้ายปริมาณงานจากพื้นที่ที่ได้รับผลกระทบหากศูนย์ข้อมูลอยู่ในเส้นทาง ประโยชน์ของการกู้คืนความเสียหายเชิงรุกและการกู้คืนความเสียหายแบบรีแอ็กทีฟเป็นจำนวนมาก ไม่มีข้อมูลสูญหายเวลาเหลือเฟือในการแก้ไขปัญหาที่ไม่คาดคิด นอกจากนี้ยังรวมถึงการจัดการทรัพยากรมนุษย์เพื่อให้พนักงานสามารถกังวลกับการดูแลครอบครัวมากกว่าที่จะทำงาน อีกครั้งการรับรองการกู้คืนระบบเชิงรุกจะเป็นการตัดสินใจที่ยากสำหรับ CSP ในการทำในนามของลูกค้าทั้งหมดของพวกเขา การอพยพตามแผนทั่วทั้งภูมิภาคจะเกิดขึ้นจากการหยุดทำงาน การตัดสินใจนี้จะต้องอยู่ในมือของลูกค้า เรียนรู้จาก Azure Outage Post-Mortem เพื่อให้ความรู้แก่ลูกค้าของคุณ

สไลด์ 2.png — ภาพจากดาวเทียมเฮอร์ริเคนฟลอเรนซ์ถ่ายจากดาวเทียม GOES-16 ใหม่โดยได้รับความอนุเคราะห์จาก Tropical Tidbits

ได้รับการปกป้อง

ดังนั้นสิ่งที่คุณสามารถทำได้เพื่อปกป้องแอพพลิเคชันและข้อมูลสำคัญของธุรกิจของคุณ? มาลองบทเรียนบางส่วนจาก Azure Outage Post-Mortem โมเดลครอสส์คลาวด์หรือไฮบริด – คลาวด์ที่ใช้โซลูชันคลัสเตอร์แบบ #SANless ที่ใช้ซอฟต์แวร์อยู่เป็นระยะทางยาวเพื่อแก้ไขปัญหาข้อกังวล HA / DR ของคุณ นอกจากนี้ยังมี RTO และ RPO ที่ยอดเยี่ยมสำหรับการใช้งาน IaaS บนระบบคลาวด์ มีทางเลือกอื่นนอกเหนือจากโซลูชันเฉพาะของแอ็พพลิเคชัน ซอฟแวร์ที่ใช้ป้องกันข้อมูลระดับการจำลองระดับเช่น SIOS DataKeeper และ SIOS Protection Suite ทำซ้ำข้อมูลทั้งหมดและให้โซลูชั่นการป้องกันข้อมูลสำหรับทั้ง Linux และ Windows แพลตฟอร์ม ลูกชายคนโตของฉันเพิ่งเริ่มปริญญาตรีด้านอุตุนิยมวิทยาที่มหาวิทยาลัย Rutgers ลองจินตนาการถึงวันที่ปัญญาประดิษฐ์ (AI) และการเรียนรู้ด้วยเครื่อง (ML) จะประมวลผลข้อมูลที่เกี่ยวข้องกับสภาพอากาศจาก NOAA พวกเขาสามารถเรียกการโยกย้ายกู้คืนความเสียหายตามแผนได้เมื่อสองวันก่อนเกิดพายุ? ฉันคิดว่าฉันเพิ่งพบหัวข้อที่สมบูรณ์แบบสำหรับวิทยานิพนธ์ปริญญาโทของเขา หรือดีกว่ายังมีเขาและเพื่อนสมาร์ทของเขาที่ WeatherWatcher LLC รับเงินทุนสำหรับการเริ่มต้นใช้งานเทคโนโลยีที่ใช้ AI และ ML เพื่อจัดการข้อมูลสภาพอากาศที่เกี่ยวข้องเพื่อควบคุมกิจกรรมการกู้คืนความเสียหายเชิงรุก ผมคิดว่าเราเป็นเพียงจุดเริ่มต้นของโซลูชันการวิเคราะห์ด้านไอที เราสามารถใช้เทคโนโลยีการเรียนรู้เครื่องจักรขั้นสูงเพื่อลดเวลาและความพยายามเพื่อให้แน่ใจได้ว่าการส่งมอบบริการแอพพลิเคชันที่สำคัญ SIOS iQ เป็นหนึ่งในโซลูชั่นที่นำทางในสาขานั้น รุกลงฟักและเตรียมพร้อม ฤดูพายุเฮอริเคนเพิ่งเริ่มต้นและเราอยู่ในป่าแล้ว หากคุณต้องการพูดคุยเกี่ยวกับกลยุทธ์ HA / DR ของคุณให้ติดต่อฉันทาง Twitter @daveberm