Date: เมษายน 4, 2023
คำถามสิบข้อที่ต้องพิจารณาเพื่อการบำรุงรักษาคลัสเตอร์ความพร้อมใช้งานสูงที่ดียิ่งขึ้น
การบำรุงรักษาเป็นส่วนหนึ่งของทุกวงจรชีวิตของบริษัท โครงสร้างพื้นฐานทุกแห่งมีการเคลื่อนไหวและเปลี่ยนแปลงตลอดเวลา แม้กระทั่งสิ่งก่อสร้างที่กำลังจะสิ้นอายุขัย ทีมของคุณน่าจะประสบความสำเร็จอย่างมากจากสิ่งที่คุณเคยทำในอดีต แต่เมื่อระบบซับซ้อนและซับซ้อนมากขึ้น สิ่งที่คุณคิดว่าประสบความสำเร็จในอดีตอาจต้องได้รับการรีเฟรช ต่อไปนี้คือคำถาม 10 ข้อที่ควรปรับปรุงการบำรุงรักษาคลัสเตอร์, ขยายใหญ่สุดความพร้อมใช้งานสูงและลดเวลาหยุดทำงานให้เหลือน้อยที่สุด
วิธีตรวจสอบความพร้อมใช้งานสูงระหว่างการบำรุงรักษาระบบ
- วันที่ดีที่สุดสำหรับผู้มีส่วนได้ส่วนเสียทางธุรกิจคือวันใด?
แตกต่างจากเวลาหยุดทำงานที่ไม่ได้วางแผนไว้ สิ่งเหล่านี้เป็นหน้าต่างที่ทีม ระบบ และทรัพยากรที่เชื่อมต่อกันหลายทีมไม่พร้อมใช้งานสำหรับกิจกรรมที่วางแผนไว้ ตัวอย่างเช่น บริษัทหนึ่งต้องทำการตรวจสอบการปฏิบัติตามระบบรายเดือนและการตรวจสอบความปลอดภัย ในช่วงเวลานี้ การดำเนินธุรกิจจะถูกปิดโดยผู้ตรวจสอบ ผู้สอบบัญชี และสิ่งที่คล้ายกัน
- วันใดที่ดีที่สุดสำหรับทีมในการจัดกำหนดการบำรุงรักษา
ในฐานะรองประธานฝ่ายประสบการณ์ลูกค้า เราได้ทำงานอย่างใกล้ชิดกับหลายทีมที่มีกำหนดหยุดงานสำหรับกิจกรรมและกิจกรรมบางอย่าง ทีมของคุณมีแนวโน้มที่จะรับผิดชอบระบบและเซิร์ฟเวอร์มากกว่าหนึ่งชุด และรายงานไปยังหลายทีมด้วยแอปพลิเคชันและโครงสร้างพื้นฐานที่สำคัญ การทำความเข้าใจว่าวันใดดีที่สุดสำหรับทีมจะช่วยให้คุณหลีกเลี่ยงสิ่งรบกวน ความขัดแย้ง และเวลาที่สูญเสียไปเนื่องจากข้อจำกัดด้านทรัพยากรที่ทราบ
- วันและเวลาใดที่ประสานงานกับคู่ค้า ที่ปรึกษา และผู้รับเหมาที่ไม่ใช่บริษัทได้ดีที่สุด
โครงสร้างพื้นฐานที่สำคัญมักจะรวมถึงผู้ให้บริการและผู้ขายรายอื่นๆ จำนวนมากที่ไม่เกี่ยวข้องโดยตรงกับการจัดหาพนักงานของบริษัท แหล่งข้อมูลเหล่านี้รวมถึง OS, ผู้จำหน่ายและที่ปรึกษาด้านความปลอดภัยและ HA ตลอดจนสถาปนิกจากผู้ให้บริการโครงสร้างพื้นฐานและพันธมิตรอื่นๆ การทำความเข้าใจล่วงหน้าว่าวันใดดีที่สุดหรือรวมอยู่ในระดับการสนับสนุนของคุณมีความสำคัญอย่างยิ่งต่อการจัดตารางเวลาและการจัดพนักงานที่เหมาะสม
ด้วยจำนวนทีมทั่วโลกที่เพิ่มขึ้น การค้นหาเวลาที่เหมาะสมสำหรับทรัพยากรเหล่านี้เป็นอีกคำถามหนึ่งที่สำคัญที่ต้องตอบ เวลาใดที่ดีที่สุดสำหรับทรัพยากรใน EST, IST, EMEA และภูมิภาคอื่นๆ
- ขอบเขตการบำรุงรักษาที่ตั้งใจไว้คืออะไร? ผลลัพธ์ที่ต้องการของกิจกรรมการบำรุงรักษาคืออะไร? คิดแบบองค์รวม
คิดให้ไกลกว่าการบำรุงรักษาแอปพลิเคชันอย่างง่ายเพื่อรวมสภาพแวดล้อมทั้งหมดที่กำลังทำงานอยู่ เมื่อเร็ว ๆ นี้ ลูกค้าที่วางแผนจะอัปเกรดแอปพลิเคชันของตนได้ตัดสินใจอัปเกรดระบบปฏิบัติการของตนไปพร้อมกัน น่าเสียดายที่การเปลี่ยนแปลงเล็กน้อยในขอบเขตนี้มาพร้อมกับผลที่ตามมามากกว่าที่คาดไว้ แอปพลิเคชันของพวกเขาไม่รองรับระบบปฏิบัติการที่อัปเกรดใหม่และเกิดปัญหาตามมา ตรวจสอบให้แน่ใจว่าได้กำหนดขอบเขตของช่วงเวลาการบำรุงรักษาไว้อย่างดี และรายละเอียดผลลัพธ์สำหรับขอบเขตนั้น ไม่เพียงพอที่จะบอกว่า สภาพแวดล้อมมีผล ให้รายละเอียดเวอร์ชัน พฤติกรรม และผลลัพธ์ที่วัดได้หากเป็นไปได้ ดูเพิ่มเติมเกี่ยวกับความยืดหยุ่นด้านไอที
- ระยะเวลาสำหรับกรอบเวลาการบำรุงรักษา (คาดการณ์ อนุญาต) คือเท่าใด
ตามหลักการแล้ว เราทุกคนต่างต้องการมีเวลาทั้งหมดเพื่อดำเนินการบำรุงรักษา แต่การมีลูกค้าอยู่ทั่วโลกหมายความว่ามีความอดทนน้อยสำหรับกรอบเวลาหยุดทำงานตามแผน แม้กระทั่งสำหรับงานที่สำคัญ ในขณะที่คุณวางแผนการบำรุงรักษา ระยะเวลาที่คาดว่าจะหยุดทำงานนานเท่าใด คุณสามารถปฏิบัติตามหน้าต่างสูงสุดที่อนุญาตได้หรือไม่? ถ้าไม่เช่นนั้น คุณจะต้องวางแผนกิจกรรมการบำรุงรักษาใหม่
- แผนการย้อนกลับคืออะไร?
แม้ว่าเราหวังว่าจะไม่มีอะไรผิดพลาด แต่เราควรตระหนักว่าเรากำลังจัดการกับซอฟต์แวร์ สภาพแวดล้อมและการกำหนดค่าที่ซับซ้อน และชิ้นส่วนที่เคลื่อนไหวจำนวนมากซึ่งได้รับการจัดการโดยทีมงานจำนวนมาก แผนการย้อนกลับ – นั่นคือวิธีการคืนระบบให้เป็นเวอร์ชันก่อนการบำรุงรักษาและการตั้งค่า – เป็นสิ่งจำเป็น ตรวจสอบให้แน่ใจว่าหากมีสิ่งผิดพลาด คุณมีแผนย้อนกลับ เช่น การสำรองข้อมูลทั้งหมดหรืออิมเมจเครื่อง ดูเพิ่มเติมเกี่ยวกับการกู้คืนระบบ.
- สมาชิกในทีมแต่ละคนที่เกี่ยวข้องคือใคร มีบทบาทและความรับผิดชอบอย่างไร มีการระบุบทบาทและความรับผิดชอบที่จำเป็นทั้งหมดอย่างชัดเจนหรือไม่?
ในฐานะรองประธานฝ่ายประสบการณ์ลูกค้า ทีมของเรามีส่วนร่วมในกิจกรรมการบำรุงรักษาซึ่งพบความล่าช้าที่คาดไม่ถึงเนื่องจากสมาชิกในทีมหลักหายไป เมื่อคุณวางโครงร่างแผนและสถาปัตยกรรมของคุณ อย่าลืมระบุสมาชิกในทีม ตลอดจนบทบาทและความรับผิดชอบด้านไอทีที่จำเป็น ในฐานะวิศวกรฝ่ายสนับสนุนอาวุโส Greg Tucker เตือนลูกค้าว่า HA สัมผัสทุกชั้นของสภาพแวดล้อมของคุณ รวมถึงที่เก็บข้อมูล เครือข่าย การประมวลผล ระบบปฏิบัติการ ความปลอดภัย นโยบาย ฯลฯ
- เอกสารแผนการบำรุงรักษาอยู่ที่ไหน ครั้งสุดท้ายที่มีการทบทวน ปรับปรุง และทดสอบแผนเมื่อใด
ความสำเร็จนั้นยอดเยี่ยม แต่ก็ทำให้คุณอิ่มเอมใจหรือสบายใจได้เช่นกัน หลังจากหลายปีแห่งความสำเร็จ กระบวนการของคุณอาจไม่ได้รับการบันทึกไว้อย่างดีหรือได้รับการปฏิบัติตามอย่างจริงจังอีกต่อไป การตอบคำถามเหล่านี้จะทำให้ทีมของคุณประสบความสำเร็จต่อไปได้
- ประเด็นใดบ้างที่ได้รับการแก้ไขในการทดสอบ/QA ก่อนแผนการผลิต
ขอชื่นชมสำหรับการทดสอบขั้นตอนการบำรุงรักษาต่อไป ตรวจสอบให้แน่ใจว่าได้เพิ่มปัญหาที่ได้รับการแก้ไขในสภาพแวดล้อมการทดสอบลงในแผนการบำรุงรักษาการผลิตอย่างเหมาะสม ทีมงาน SIOS Customer Success ได้เห็นลูกค้าทำการทดสอบ QA ค้นพบข้อสันนิษฐานที่ผิดพลาด และทำการแก้ไขที่จำเป็น แต่ล้มเหลวในการวางการแก้ไขเหล่านั้นในรายการตรวจสอบการผลิตของพวกเขา
- ใครหรืออะไรหายไปจากแผนของคุณ?
ตอนนี้คุณได้พิจารณาแผน ระยะเวลา ทีม บทบาท และสถาปัตยกรรมแล้ว คำถามสุดท้ายยังคงอยู่: ใครหรืออะไรหายไป ในขั้นตอนสุดท้าย ให้ตรวจสอบแผนของคุณและถามคำถามว่า “ใครบ้างที่หายไปจากแผนของเรา” พิจารณาถามด้วยว่า “แผนของเราขาดอะไรไป” ในฐานะรองประธานฝ่ายประสบการณ์ลูกค้า ฉันได้ทำงานร่วมกับทีมของเราเพื่อตรวจสอบแผนกิจกรรมสำหรับลูกค้านับไม่ถ้วน การทบทวนแผนการบำรุงรักษาที่น่าจดจำที่สุดรายการหนึ่งได้เปิดเผยชุดของขั้นตอนภายในแผนการย้อนกลับ ซึ่งรวมถึงการกู้คืนเซิร์ฟเวอร์จากภาพโคลนและข้อมูลจากการสำรองข้อมูล อย่างไรก็ตาม ขั้นตอนการโคลนอิมเมจและการสำรองข้อมูลไม่ได้รวมอยู่ในรายการงาน พวกเขาถูกมองข้ามและสันนิษฐานว่าได้ทำไปแล้วก่อนหน้านี้ในกระบวนการ
การบำรุงรักษาระบบเป็นองค์ประกอบสำคัญในการรักษาความพร้อมใช้งานสูง
การบำรุงรักษาระบบเป็นส่วนสำคัญและจำเป็นในการบำรุงรักษาระบบคอมพิวเตอร์ การบำรุงรักษาอาจเป็นไปเพื่อแก้ไขข้อผิดพลาด แนะนำฟังก์ชันซอฟต์แวร์ใหม่ หรือปรับระบบให้เข้ากับกรณีการใช้งานใหม่ เมื่อระบบที่เป็นปัญหาเป็นระบบที่มีความสำคัญต่อธุรกิจซึ่งจำเป็นสำหรับองค์กรในการรักษาความต่อเนื่องทางธุรกิจ การวางแผนอย่างรอบคอบเป็นสิ่งสำคัญ พิจารณาคำถามสิบข้อนี้และคำถามอื่นๆ ของคุณเองเพื่อให้แน่ใจว่าการบำรุงรักษาของคุณเป็นไปตามความต้องการของธุรกิจโดยไม่มีความเสี่ยงหรือความล่าช้าที่ไม่จำเป็น
ติดต่อ SIOSวันนี้สำหรับโซลูชัน High Availability และ Disaster Recovery
ทำซ้ำโดยได้รับอนุญาตจากSIOS