สมการความพร้อมใช้งาน

Date: ธันวาคม 9, 2018

ป้ายกำกับ:โซลูชันความพร้อมใช้งานสูง

คุณคุ้นเคยกับสมการความพร้อมใช้งานหรือไม่? สรุปย่อสมการนี้แสดงให้เห็นว่าเวลารวมที่จำเป็นในการเรียกคืนแอพพลิเคชันให้ใช้งานได้เท่ากับเวลาที่ต้องใช้ในการตรวจพบว่าแอปพลิเคชันกำลังประสบปัญหารวมถึงเวลาที่ต้องใช้ในการดำเนินการการกู้คืน:

T_RESTORE = T_DETECT + T_RECOVER

แนวคิดหลักของโซลูชันด้านความพร้อมในการใช้งานสูง

สมการแนะนำแนวคิดหลักของการมีอยู่สูง (HA): การจัดกลุ่มการตรวจหาปัญหาและการกู้คืนที่ตามมา โซลูชั่น HA ตรวจสอบสุขภาพของส่วนประกอบแอพพลิเคชั่นทางธุรกิจ เมื่อมีการตรวจพบปัญหาการแก้ปัญหาเหล่านี้จะทำหน้าที่คืนค่าบริการดังกล่าว วัตถุประสงค์ของการปรับใช้โซลูชันความพร้อมใช้งานสูงคือการลดเวลาการหยุดทำงาน การลดเวลาในการตรวจจับและกู้คืนเป็นงานสำคัญสองประการของโซลูชัน HA ที่คุณเลือกใช้ แอพพลิเคชันในปัจจุบันเป็นเทคโนโลยีที่รวมกัน: เซิร์ฟเวอร์การจัดเก็บข้อมูลโครงสร้างพื้นฐานของระบบเครือข่ายและอื่น ๆ เมื่อตรวจสอบตัวเลือก HA ของคุณโปรดมั่นใจว่าคุณเข้าใจเทคโนโลยีที่แต่ละโซลูชันใช้ในการตรวจจับและกู้คืนข้อมูลจากประเภทหยุดทำงานทั้งหมด เทคโนโลยีแต่ละชิ้นมีผลกระทบโดยตรงต่อเวลาในการฟื้นฟูบริการ

การตรวจจับและการกู้คืนในเครื่อง

โซลูชันความพร้อมใช้งานสูงตรงไปตรงมา เทคโนโลยีหนึ่งที่มีความสำคัญอย่างยิ่งต่อการคืนเวลาที่เร็วที่สุดเท่าที่เป็นไปได้คือการตรวจจับและกู้คืนข้อมูลในท้องถิ่น (aka การตรวจหาและกู้คืนปัญหาระดับบริการ) ในโซลูชันการจัดกลุ่มพื้นฐานเซิร์ฟเวอร์จะเชื่อมต่ออยู่ มีการกำหนดค่าให้เซิร์ฟเวอร์หนึ่งเครื่องหรือมากกว่าสามารถใช้การดำเนินงานของอีกเครื่องหนึ่งได้ในกรณีที่เซิร์ฟเวอร์ขัดข้อง โหนดเซิร์ฟเวอร์ในคลัสเตอร์จะส่งแพ็คเก็ตข้อมูลขนาดเล็กซึ่งมักเรียกว่าสัญญาณ heartbeat ซึ่งกันและกันเพื่อระบุว่าเป็น "alive" ในสภาวะแวดล้อมแบบคลัสเตอร์แบบคลัสเตอร์เมื่อเซิร์ฟเวอร์หนึ่งเครื่องหยุดการทำงานของ heartbeats สมาชิกกลุ่มอื่น ๆ จะถือว่าเซิร์ฟเวอร์นี้ไม่ทำงาน จากนั้นจะเริ่มดำเนินการรับผิดชอบต่อโดเมนที่ใช้งานเซิร์ฟเวอร์ วิธีนี้เพียงพอสำหรับการตรวจจับความล้มเหลวในระดับเซิร์ฟเวอร์ แต่ถ้าปัญหาไม่หยุดชะงักหรือหยุดสัญญาณ heartbeat การตรวจสอบระดับเซิร์ฟเวอร์ไม่เพียงพอ มากกว่านั้นจริงสามารถขยายขอบเขตและผลกระทบของการหยุดทำงาน ตัวอย่างเช่นถ้ากระบวนการของ Apache ถูกแขวนเซิร์ฟเวอร์อาจส่ง heartbeats แม้ว่าระบบย่อยเว็บเซิร์ฟเวอร์จะหยุดทำงานหลักแล้วก็ตาม แทนที่จะรีสตาร์ทระบบย่อยของ Apache บนเซิร์ฟเวอร์เดียวกันหรือเซิร์ฟเวอร์อื่นโซลูชันการจัดกลุ่มตามระดับเซิร์ฟเวอร์ขั้นพื้นฐานจะรีสตาร์ทชุดซอฟต์แวร์ทั้งหมดของเซิร์ฟเวอร์ที่ล้มเหลวบนเซิร์ฟเวอร์สำรองซึ่งจะทำให้ผู้ใช้หยุดชะงักและยืดเวลาการกู้คืน

มันทำงานอย่างไร

การใช้การตรวจจับและกู้คืนในระดับท้องถิ่นโซลูชันการจัดกลุ่มขั้นสูงจะติดตั้งตัวแทนการตรวจสอบด้านสุขภาพภายในเซิร์ฟเวอร์คลัสเตอร์แต่ละเครื่องเพื่อตรวจสอบส่วนประกอบต่างๆของระบบต่างๆเช่นระบบไฟล์ฐานข้อมูลแอพพลิเคชันระดับผู้ใช้ที่อยู่ IP เป็นต้น ตัวแทนเหล่านี้ใช้ heuristics ที่เฉพาะเจาะจงกับส่วนประกอบที่ได้รับการตรวจสอบ ดังนั้นตัวแทนสามารถทำนายและตรวจพบปัญหาการดำเนินงานและดำเนินการแก้ไขปัญหาที่เหมาะสมที่สุด บ่อยครั้งวิธีการกู้คืนที่มีประสิทธิภาพที่สุดคือการหยุดและรีสตาร์ทระบบย่อยปัญหาบนเซิร์ฟเวอร์เดียวกัน เวลาในการกู้คืนแอปพลิเคชันต่อความพร้อมใช้งานของผู้ใช้จะลดลงอย่างมากโดยทำให้การกู้คืนภายในเซิร์ฟเวอร์ทางกายภาพเดียวกัน นอกจากนี้โดยการตรวจจับความล้มเหลวในระดับละเอียดมากขึ้นกว่าเพียงแค่การสังเกต heartbeats ระดับเซิร์ฟเวอร์ โซลูชันเช่น SteelEye Protection Suite สำหรับ Linux จาก SIOS ให้การตรวจจับและกู้คืนระดับนี้สำหรับสภาพแวดล้อมของคุณ ตรวจสอบให้แน่ใจว่าโซลูชัน HA ใดที่คุณใช้สามารถใช้ในการตรวจจับและกู้คืนข้อมูลในท้องถิ่นได้ คุณต้องการที่จะเพลิดเพลินไปกับการแก้ปัญหาความพร้อมใช้งานสูงสำหรับโครงการของคุณ? เช็คอินกับเรา ต้องการข้อมูลเพิ่มเติมนี่คือเรื่องราวความสำเร็จของเรา ทำซ้ำโดยได้รับอนุญาตจาก Linuxclustering