อธิบายความแตกต่างที่ละเอียดอ่อนแต่สำคัญยิ่งระหว่างสวิตช์โอเวอร์ เฟลโอเวอร์ และการกู้คืน

Date: พฤศจิกายน 9, 2022

อธิบายความแตกต่างที่ละเอียดอ่อนแต่สำคัญยิ่งระหว่างสวิตช์โอเวอร์ เฟลโอเวอร์ และการกู้คืน

ความพร้อมใช้งานสูงเป็นวิชาพิเศษและเหมือนกับความเชี่ยวชาญพิเศษส่วนใหญ่ เพราะมีคำศัพท์และคำศัพท์เฉพาะของตัวเอง ลูกค้าของเรามักจะมีความรู้เกี่ยวกับไอทีเป็นอย่างดี แต่ถ้าพวกเขาไม่ได้ทำงานในสภาพแวดล้อม HA คำศัพท์ HA ทั่วไปบางคำของเราอาจทำให้เกิดความสับสนได้พอสมควร – สำหรับพวกเขาและสำหรับเรา ฟังดูง่ายแต่มีความหมายเฉพาะเจาะจงมากในบริบทของ HA คำศัพท์สามข้อนี้ถูกกล่าวถึงที่นี่ – สวิทโอเวอร์ เฟลโอเวอร์ และการกู้คืน

สวิตช์คืออะไร ?

การเปลี่ยนผ่านคือ a ผู้ใช้ริเริ่ม การกระทำผ่านทาง ความพร้อมใช้งานสูง (HA) อินเทอร์เฟซผู้ใช้โซลูชันคลัสเตอร์หรือ CLI ในการสับเปลี่ยน ผู้ใช้ ด้วยตนเอง เริ่มการดำเนินการเพื่อเปลี่ยนต้นทางหรือเซิร์ฟเวอร์หลักสำหรับแอปพลิเคชันที่ได้รับการป้องกัน ในสถานการณ์การสลับสับเปลี่ยนทั่วไป แอปพลิเคชันที่ทำงานอยู่และการขึ้นต่อกันทั้งหมดจะหยุดอย่างเป็นระเบียบ โดยเริ่มจากแอปพลิเคชันหลักและสิ้นสุดเมื่อการพึ่งพาย่อย/การพึ่งพาทั้งหมดหยุดลง เมื่อแอปพลิเคชันและการขึ้นต่อกันหยุดลง แอปพลิเคชันเหล่านั้นจะเริ่มต้นใหม่อย่างเป็นระเบียบบนเซิร์ฟเวอร์หลักหรือเซิร์ฟเวอร์ต้นทางที่กำหนดใหม่

ตัวอย่างเช่น หากคุณมีทรัพยากรอัลฟ่า เบต้า และแกมมา ทรัพยากรอัลฟ่าขึ้นอยู่กับทรัพยากรเบต้าและแกมมา ทรัพยากรเบต้าขึ้นอยู่กับทรัพยากรแกมมาในเหตุการณ์การเปลี่ยนผ่าน ทรัพยากรอัลฟ่าจะหยุดก่อน ตามด้วยเบต้า และสุดท้ายคือแกมมาเมื่อทั้งสามหยุดทำงาน การเปลี่ยนจะยังคงทำให้ทรัพยากรเข้าสู่สถานะการทำงานบนเซิร์ฟเวอร์ที่ต้องการกระบวนการเริ่มต้นด้วยทรัพยากรแกมมา ตามด้วยเบต้า และสุดท้ายการดำเนินการเริ่มต้นเสร็จสมบูรณ์สำหรับทรัพยากรอัลฟ่าตามเนื้อผ้า การดำเนินการเปลี่ยนระบบจะต้องใช้เวลามากขึ้นเนื่องจากต้องหยุดทรัพยากรในลักษณะที่สง่างามและเป็นระเบียบ การเปลี่ยนผ่านมักจะดำเนินการเมื่อมีความจำเป็นต้องอัปเดตเวอร์ชันซอฟต์แวร์ในขณะที่ยังคงรักษาเวลาทำงาน ดำเนินการบำรุงรักษา (ผ่านการอัปเกรดแบบต่อเนื่อง) บนโหนดการผลิตหลัก หรือทำการทดสอบ DR

ประเด็นสำคัญ: หากไม่มีความล้มเหลวในการทำให้เกิดการกระทำ แสดงว่าเป็นการสลับสับเปลี่ยน

เฟลโอเวอร์คืออะไร?

การดำเนินการเฟลโอเวอร์มักจะเป็นการดำเนินการที่ไม่ได้เริ่มต้นโดยผู้ใช้เพื่อตอบสนองต่อความผิดพลาดของเซิร์ฟเวอร์หรือการรีบูตที่ไม่คาดคิด/โดยไม่ได้วางแผนไว้ พิจารณาสถานการณ์จำลองของคลัสเตอร์ HA ที่มีสองโหนด ได้แก่ โหนด A และโหนด Bในสถานการณ์นี้ แอปพลิเคชันที่สำคัญทั้งหมดอัลฟ่า เบต้า และแกมมาจะเริ่มต้นและทำงานบนโหนด A ในสถานการณ์สมมตินี้ การเฟลโอเวอร์คือสิ่งที่เกิดขึ้นเมื่อโหนด A ประสบกับการรีบูตโดยไม่คาดคิด/ไม่ได้วางแผน ปิดเครื่อง หยุดทำงาน หรือตื่นตระหนก เมื่อซอฟต์แวร์ HA ตรวจพบว่าโหนด A ไม่ทำงานและใช้งานได้ภายในคลัสเตอร์อีกต่อไป (ตามที่กำหนดโดยโซลูชัน) ซอฟต์แวร์จะทริกเกอร์การดำเนินการเฟลโอเวอร์เพื่อกู้คืนการเข้าถึงแอปพลิเคชันที่สำคัญ ทรัพยากร บริการ และการพึ่งพาบนโหนดคลัสเตอร์ที่มีอยู่ , โหนด B ในกรณีนี้ในสถานการณ์ที่เกิดการเฟลโอเวอร์ เนื่องจากโหนด A ประสบกับความล้มเหลว (หรือการจำลองความล้มเหลวในทันที) ไม่มีกระบวนการใดๆ ที่จะหยุดบนโหนด A และด้วยเหตุนี้เมื่อการตรวจจับและการดำเนินการฟันดาบถูกต้องแล้ว โหนด B จะเริ่มกระบวนการกู้คืนทันที ทรัพยากร. เช่นเดียวกับกรณีการเปลี่ยนผ่าน กระบวนการเริ่มต้นด้วยทรัพยากรแกมมา ตามด้วยเบต้า และสุดท้ายการดำเนินการเริ่มต้นเสร็จสมบูรณ์สำหรับทรัพยากรอัลฟ่า ตามเนื้อผ้า การดำเนินการเฟลโอเวอร์จะต้องใช้เวลาน้อยกว่าการเปลี่ยน ทั้งนี้เป็นเพราะการประมวลผลของ a ล้มเหลว ไม่ต้องการทรัพยากรใด ๆ ที่จะหยุด (หรือหยุดนิ่ง) บนโหนดหลักก่อนหน้า (ในบริการหรือที่ใช้งานอยู่)

ประเด็นสำคัญ: ความล้มเหลวเกิดขึ้นเพื่อตอบสนองต่อความล้มเหลวของระบบ

คืออะไร การกู้คืน ?

เหตุการณ์การกู้คืนสร้างความสับสนได้ง่ายเมื่อเกิดข้อผิดพลาด เหตุการณ์การกู้คืนเกิดขึ้นเมื่อกระบวนการ เซิร์ฟเวอร์ เส้นทางการสื่อสาร ดิสก์ หรือแม้แต่ทรัพยากรคลัสเตอร์ล้มเหลว และซอฟต์แวร์ที่มีความพร้อมใช้งานสูงทำงานเพื่อตอบสนองต่อความล้มเหลวที่ระบุ โซลูชันซอฟต์แวร์ HA ส่วนใหญ่สามารถจัดการกับเหตุการณ์การกู้คืนได้หลายวิธี วิธีการที่โดดเด่นที่สุด ได้แก่ :

รีสตาร์ทอย่างนุ่มนวลในเครื่อง จากนั้นรีสตาร์ทอย่างนุ่มนวลบนรีโมต
1. มีการพยายามรีสตาร์ทในเครื่องเสมอ หากการกู้คืนสำเร็จ จะไม่มีการดำเนินการใดๆ เกิดขึ้นอีก หากการรีสตาร์ทในพื้นที่ล้มเหลว การดำเนินการครั้งต่อไปจะเกิดขึ้น
2. หากการรีสตาร์ทภายในเครื่องล้มเหลว ทรัพยากรจะถูกย้ายไปยังโหนดระยะไกลอย่างงดงาม
รีสตาร์ทอย่างนุ่มนวลในเครื่อง จากนั้นบังคับให้รีสตาร์ทบนรีโมต
1. มีการพยายามรีสตาร์ทในเครื่องเสมอ หากการกู้คืนสำเร็จ จะไม่มีการดำเนินการใดๆ เกิดขึ้นอีกหากการรีสตาร์ทในเครื่องล้มเหลว การดำเนินการครั้งต่อไปจะเกิดขึ้น
2. ทรัพยากรถูกย้ายไปยังโหนดระยะไกลโดยการฟันดาบโหนดหลัก
บังคับให้รีสตาร์ทบนรีโมท
1. ไม่มีการพยายามรีสตาร์ทในเครื่อง
2. ทรัพยากรจะถูกบังคับไปยังโหนดคลัสเตอร์ถัดไปที่พร้อมใช้งานเสมอตามที่อธิบายไว้ในวิธีที่ 2b
บังคับให้รีสตาร์ทเซิร์ฟเวอร์ ไม่มีข้อผิดพลาดระยะไกล
1. มีการพยายามรีสตาร์ทในเครื่องเสมอ
2. หากการรีสตาร์ทภายในเครื่องล้มเหลว โหนดหลักจะรีสตาร์ทเพื่อพยายามกู้คืนบริการ
3. ทรัพยากรจะไม่ล้มเหลวกับระบบระยะไกล
รีสตาร์ทเครื่องตามนโยบาย จากนั้นกดรีโมท
1. นโยบายอาจควบคุมจำนวนการลองใหม่ก่อนที่จะมีการกู้คืนจากระยะไกล

เนื่องจากนโยบายการกู้คืนมีหลายรูปแบบ จึงง่ายต่อการดูเหตุการณ์การกู้คืนที่คล้ายกับพฤติกรรมของการเปลี่ยน ซึ่งมักเป็นกรณีนี้ในวิธีที่ 1 และ 5 ในสถานการณ์เหล่านี้ แอปพลิเคชันและบริการจะหยุดทำงานอย่างเป็นระเบียบเรียบร้อยก่อนที่จะเริ่มทำงานบนโหนดระยะไกล วิธีที่ 2 และ 3 ลูกค้ามักจะเห็นพฤติกรรมที่คล้ายกับการเฟลโอเวอร์ ในวิธีที่ 2 และ 3 เซิร์ฟเวอร์หลักจะรีสตาร์ทหรือปิดล้อมโดยซอฟต์แวร์ HA ซึ่งสร้างพฤติกรรมที่สังเกตได้คล้ายกับการเฟลโอเวอร์วิธีที่ 4 มักจะเป็นตัวเลือกที่ไม่ค่อยได้ใช้ แต่เป็นลูกผสมของทั้งการสลับและเมื่อเกิดข้อผิดพลาดวิธีที่ 4 เริ่มต้นด้วยการหยุดแอปพลิเคชันและบริการอย่างราบรื่น ตามด้วยการเริ่มต้นแอปพลิเคชันและบริการใหม่อีกครั้ง (เหมือนกับการเปลี่ยนผ่าน) อย่างไรก็ตาม หากการรีสตาร์ทแอปพลิเคชันและบริการภายในเครื่องล้มเหลว ระบบจะเริ่มต้นใหม่ (เหมือนกับการเฟลโอเวอร์) แต่จะไม่ทำให้โหนดคลัสเตอร์ระยะไกลล้มเหลวจริงๆ แม้ว่าจะพบได้ยาก แต่วิธีที่ 4 มักถูกเรียกใช้ในกรณีที่มีคลัสเตอร์ที่ไม่สมดุล หรือใช้กับวิธีการตามนโยบาย

ประเด็นสำคัญ: เหตุการณ์การกู้คืนขึ้นอยู่กับวิธีการที่เลือกคำศัพท์ HA ระหว่างผู้ขายเป็นพื้นที่ที่คำศัพท์ทั่วไปสามารถใช้ในความหมายที่แตกต่างกัน เมื่อคุณปรับใช้และดูแลรักษาโซลูชันคลัสเตอร์ของคุณด้วยแอปพลิเคชันระดับองค์กร คุณต้องแน่ใจว่าคุณเข้าใจข้อกำหนดของผู้ให้บริการโซลูชันสำหรับกรณีเฟลโอเวอร์ สวิตช์โอเวอร์ และการกู้คืนและในขณะที่คุณอยู่ที่นั้น ต้องแน่ใจว่าร้านอาหารจะใส่ซอสที่ด้านข้าง (ในจานรอง) หรือด้านข้าง (มันฝรั่งบดของคุณ) ทำซ้ำโดยได้รับอนุญาตจาก SIOS