Date: มีนาคม 8, 2022
พร้อมใช้งานสูงหรือมีความเสี่ยงสูง? รายการตรวจสอบความพร้อมใช้งานสูง
ไม่เป็นความลับที่ธุรกิจทุกขนาดมีความต้องการระบบไอทีเพิ่มขึ้นเรื่อยๆ แต่ระบบไอทีจะมีประสิทธิภาพสำหรับธุรกิจเหล่านี้และลูกค้าเท่านั้น หากใช้งานได้ ยืดหยุ่น และพร้อมใช้งานสูง ในขณะที่องค์กรต่างๆ มองหาความพร้อมใช้งานขององค์กร การมีพื้นฐานสำหรับการชั่งน้ำหนักและการประเมินจุดอ่อนของคุณอาจเป็นความแตกต่างที่ก่อให้เกิดการควบรวมโครงสร้างพื้นฐาน ซอฟต์แวร์ บริการ และการสนับสนุนที่ประสบความสำเร็จซึ่งจะช่วยเพิ่มความสำเร็จให้กับคุณ
บางครั้ง รายการตรวจสอบพื้นฐานที่สุดสามารถช่วยคุณแยกแยะว่าโซลูชันของคุณพร้อมใช้งานสูงหรือมีความเสี่ยงสูงหรือไม่
องค์กรของคุณมีโครงสร้างพื้นฐานที่เหมาะสมเพื่อรองรับหรือไม่ ความพร้อมใช้งานสูง ?
- ศูนย์ข้อมูลของคุณมีเซ็นเซอร์ด้านสิ่งแวดล้อมเพื่อวัดระบบอาคารหรือไม่?
- ศูนย์ข้อมูลของคุณมีการดำเนินงาน 24x7x365 หรือไม่
- ศูนย์ข้อมูลของคุณมีพลังงานสำรองและการเชื่อมต่อเครือข่ายจากแหล่งที่หลากหลายหรือไม่?
- ศูนย์ข้อมูลของคุณมีโฮสต์และบริการจัดเก็บข้อมูลหลายชั้นหรือไม่
- ในฐานะรองประธานฝ่ายประสบการณ์ลูกค้า ฉันได้เห็นลูกค้าพยายามสร้างโซลูชันที่มีความพร้อมใช้งานสูงโดยไม่ต้องจัดการกับปัญหาพื้นฐานพื้นฐานภายในโครงสร้างพื้นฐานของพวกเขา
พวกเขาปรับใช้ซอฟต์แวร์แต่มีความไม่เสถียรภายในโครงสร้างพื้นฐานเครือข่าย เซิร์ฟเวอร์ และศูนย์ข้อมูลเอง คลาวด์สามารถจัดการกับปัญหาด้านโครงสร้างพื้นฐานได้มากมาย แต่แพลตฟอร์มคลาวด์ไม่ได้ทั้งหมดได้รับการออกแบบเหมือนกัน อย่าลืมทำความเข้าใจดาต้าเซ็นเตอร์ ในสถานที่ หรือคลาวด์ของคุณ
องค์กรของคุณมี runbook (หรือ playbook) ที่ครอบคลุมการออกแบบ สถาปัตยกรรม และกระบวนการหรือไม่?
- Runbook ของคุณได้รับการจัดทำเป็นเอกสาร เผยแพร่ และเข้าถึงได้ง่ายหรือไม่?
- ส่วนที่เป็นกิจวัตรของรันบุ๊กของคุณเป็นแบบอัตโนมัติเพียงพอหรือไม่
- ใครบ้างที่มีสิทธิ์เข้าถึงรันบุ๊กองค์กรของคุณ
- เป็นปัจจุบันและบำรุงรักษาอยู่หรือไม่?
- มีการควบคุมเวอร์ชันสำหรับรันบุ๊กและเครื่องมือการทำงานอัตโนมัติในนั้นหรือไม่
หากคุณตอบว่า runbook หรือ playbook คืออะไร ขั้นตอนแรกของคุณคือการค้นหาหรือสร้างมันขึ้นมา runbook (หรือ playbook) ช่วยให้องค์กรของคุณรักษาระบบและกระบวนการที่เกี่ยวข้องกับสถาปัตยกรรมระบบที่มีความพร้อมใช้งานสูง บางบริษัทใช้เครื่องมืออัตโนมัติเพื่อสร้างสคริปต์ที่ปรับใช้และกำหนดค่าเซิร์ฟเวอร์ ส่วนบริษัทอื่นๆ ใช้เอกสารที่ควบคุมเวอร์ชันเพื่อสรุปว่าทุกสิ่งทำงานร่วมกันอย่างไรเพื่อให้มีความยืดหยุ่นและประสบความสำเร็จ ทีมของคุณจำเป็นต้องมีที่ที่ผู้มาใหม่และสมาชิกในทีมที่มีอยู่สามารถเข้าไปเพื่อทำความเข้าใจสภาพแวดล้อม กระบวนการ และเครื่องมือที่ใช้ได้
องค์กรของคุณมีทรัพยากรที่อุทิศให้กับการรักษาแนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับความพร้อมใช้งานสูงหรือไม่
- องค์กรของคุณให้การสนับสนุนและฝึกอบรมพนักงานและผู้รับเหมาเหล่านี้หรือไม่
- องค์กรของคุณให้อิสระแก่ทีมเหล่านี้ในการปรับตัวและสร้างแนวทางปฏิบัติที่ดีที่สุดหรือไม่?
“ฉันไม่ได้ตั้งค่าระบบเหล่านี้” ผู้ดูแลระบบไอทีกล่าว “ฉันเพิ่งสืบทอดระบบเหล่านี้กับเซิร์ฟเวอร์อื่น” คร่ำครวญเป็นปรากฏการณ์ที่ตรงไปตรงมาและมักพบเห็นในองค์กร ไม่ว่าจะเป็นผลจากการควบรวมกิจการ การลดต้นทุน การจ้างภายนอก หรือการหมุนเวียนพนักงานทั่วไป องค์ประกอบสำคัญขององค์กรที่มีความพร้อมใช้งานสูงก็คือการจัดหาพนักงานที่เพียงพอ กุญแจสู่องค์กรที่มีความเสี่ยงสูงคือการขาดบุคลากร บุคลากรที่ได้รับการฝึกอบรมหรือไม่ได้รับการสนับสนุน
องค์กรของคุณมีการควบคุมการจัดการการเปลี่ยนแปลงที่เหมาะสมหรือไม่
- คุณมีนโยบายและกำหนดการอัพเดทเป็นประจำหรือไม่?
- คุณมีกระบวนการที่กำหนดไว้ในการบำรุงรักษาโปรแกรมแก้ไขหรือไม่?
- คุณมีกระบวนการตรวจสอบสำหรับแพตช์ (ช่องโหว่ ภัยคุกคาม ฯลฯ) หรือไม่?
การจัดการการเปลี่ยนแปลงเป็นสิ่งสำคัญ การควบคุมการจัดการการเปลี่ยนแปลงและนโยบายเป็นสิ่งจำเป็นอย่างยิ่งในการลดความเสี่ยงและทำให้แน่ใจว่าระบบของคุณพร้อมใช้งาน ผู้ใช้ที่ไม่มีข้อจำกัดที่เหมาะสมสามารถเพิ่มแพ็คเกจหรือการอัปเดตที่ทำลายความเสถียร หรือทำการเปลี่ยนแปลงที่ขัดขวางองค์กรเป็นเวลาหลายชั่วโมง นอกจากนี้ การไม่มีนโยบายที่กำหนดไว้มักจะทำให้เกิดการเบี่ยงเบนระหว่างสิ่งที่คาดหวัง (ในเอกสาร) กับที่เกิดขึ้นจริง (สิ่งที่อยู่ในสถานที่) การจัดการการเปลี่ยนแปลงยังมีความสำคัญอย่างยิ่งเพื่อให้แน่ใจว่าคลัสเตอร์สแตนด์บายของคุณอยู่ในระดับแพตช์และซอฟต์แวร์เดียวกันกับระบบหลัก/ต้นทาง และ QA (หรือก่อนการผลิต) จะไม่เบี่ยงเบนไปจากการผลิตโดยสิ้นเชิง
องค์กรของคุณมีการควบคุมการเข้าถึงที่เหมาะสมหรือไม่
- คุณมีระดับการจัดการบัญชีสำหรับการดูแลเซิร์ฟเวอร์หรือไม่?
- คุณมีการควบคุมเพื่อป้องกันการหยุดทำงานโดยไม่ได้ตั้งใจหรือไม่?
ทีมบริการของเราเข้าร่วมการโทรของลูกค้าและรอและรอและรอผู้ดูแลระบบที่มีสิทธิ์เรียกใช้ชุดคำสั่งที่ยกระดับเพื่อเข้าร่วมเซสชันเพื่อกำหนดค่าและอัปเดตซอฟต์แวร์ สัปดาห์ต่อมา ทีมของเราได้เข้าร่วมการโทรของลูกค้ารายอื่นและเฝ้าดูด้วยความสยดสยองเมื่อผู้ใช้หลายคนซึ่งมีสิทธิ์ระดับผู้ดูแลระบบเรียกใช้คำสั่งจำนวนมากในคลัสเตอร์เดียวกัน ความแตกต่างในการโทรทั้งสองชี้ให้เห็นอย่างชัดเจนว่าการควบคุมการเข้าถึงมีความสำคัญ องค์กรที่มีความพร้อมใช้งานสูงจำเป็นต้องตรวจสอบให้แน่ใจว่ามีการควบคุมการเข้าถึงที่เหมาะสมซึ่งป้องกันไม่ให้ผู้ใช้เรียกใช้คำสั่งที่ยกระดับซึ่งอาจทำให้การกำหนดค่าเสียหายหรือลดการดำเนินงาน ตรวจสอบให้แน่ใจว่าผู้ใช้มีข้อ จำกัด ในสิ่งที่พวกเขาสามารถทำได้ตามบทบาท ความต้องการ และประสบการณ์
บริษัทของคุณมีขั้นตอนการทดสอบปกติหรือไม่?
- องค์กรของคุณทดสอบในสภาพแวดล้อมก่อนการผลิตหรือ QA ก่อนการผลิตหรือไม่?
- องค์กรของคุณทำการสำรองข้อมูลและทดสอบการสำรองข้อมูลเป็นประจำหรือไม่?
- องค์กรของคุณฝึกฝนสถานการณ์การกู้คืนจากภัยพิบัติและการทดสอบความโกลาหลเพื่อการปรับปรุงอย่างต่อเนื่องหรือไม่?
การทดสอบต้องใช้เวลา แต่ในบทบาทของฉันในการช่วยเหลือลูกค้าด้วย การโยกย้ายระบบคลาวด์และการปรับใช้ที่มีความพร้อมใช้งานสูง , เวลาผ่านไปด้วยดีเสมอมา บ่อยครั้ง ความแตกต่างระหว่างความพร้อมใช้งานสูงและความเสี่ยงสูงอาจมาจากกระบวนการทดสอบของลูกค้าหรือคู่ค้า เนื่องจากโซลูชันมีความซับซ้อนมากขึ้น การทดสอบและการตรวจสอบจึงมีความจำเป็นมากขึ้นเรื่อยๆ เพื่อลดความเสี่ยงและจุดอ่อน หากทุกอย่างเปลี่ยนตั้งแต่การออกแบบไปจนถึงการผลิต แสดงว่าคุณกำลังใช้งานระบบที่มีช่องโหว่สูง แต่ถ้าคุณมีการทดสอบและจุดตรวจ กระบวนการตรวจสอบการเปลี่ยนแปลงก่อนที่จะนำไปสู่การผลิต ความเสี่ยงของคุณจะลดลงอย่างมาก ในฐานะรองประธานฝ่ายประสบการณ์ลูกค้า ทีมบริการของเราทำงานร่วมกับลูกค้าที่เป็นแบนเนอร์ซึ่งปรับใช้ระบบของตนตลอดทั้งปีใน QA ก่อนเสร็จสิ้นการย้ายข้อมูลจริง ในปีนั้น พวกเขาจำลองการหยุดทำงาน ภัยพิบัติ การโหลดของลูกค้า เวลาหยุดทำงาน การบำรุงรักษา กลยุทธ์การแพตช์ การสำรองข้อมูล การกู้คืนจากการสำรองข้อมูล และชุดทดสอบอื่นๆ ด้วยเหตุนี้ พวกเขาจึงมีผลลัพธ์ที่โดดเด่นในด้านประสิทธิภาพ การปฏิบัติตามกระบวนการ ความพร้อมใช้งานสูงและความสำเร็จขององค์กร
แม้ว่าจะไม่มีรายการตรวจสอบใดที่จะครอบคลุมทุกช่องโหว่ที่อาจเกิดขึ้นในความพร้อมใช้งานสูง แต่การตอบคำถามเหล่านี้จะทำให้คุณมีพื้นฐานที่ดีในการทำความเข้าใจว่าองค์กรของคุณมีความพร้อมใช้งานสูงหรือมีความเสี่ยงสูงหรือไม่
ทำซ้ำโดยได้รับอนุญาตจาก SIOS