Date: กันยายน 20, 2020
ขยายเมตริกความพร้อมใช้งานสูงของคุณ
ในสาขาเทคโนโลยีเรารักข้อมูล เราชอบข้อมูลเกี่ยวกับข้อมูลและเมตริกและมาตรการทั้งหมดที่เครื่องมือของเราสามารถนำมาใช้ได้ เราได้สร้างอุตสาหกรรมเกี่ยวกับการวิเคราะห์ผลิตภัณฑ์ที่รวบรวมทุกรายละเอียดจากอุปกรณ์ที่เชื่อมต่อหลายพันเครื่อง เราชอบตัวชี้วัดและมาตรการต่างๆ ในหลาย ๆ กรณีภายในพื้นที่ว่างที่สูงขึ้นเราชอบเมตริกความพร้อมใช้งานสูงที่บอกให้เราทราบว่าระบบฟื้นตัวจากความล้มเหลวได้เร็วเพียงใด เราคำนวณและติดตามเวลาระหว่างการตรวจจับและการแก้ไขและเราหมกมุ่นอยู่กับการรู้และวัดว่าข้อมูลธุรกรรมจะสูญหายไปจากภัยพิบัติระบบล้มเหลวหรือดิสก์ล่มมากเพียงใด
แดกดันในระบบความพร้อมใช้งานสูงและการกู้คืนความเสียหาย (HA / DR) มีเมตริกบางอย่างที่ไม่ได้รับความสนใจเพียงพอ
นี่คือเมตริกความพร้อมใช้งานสูงอื่น ๆ อีกแปดรายการที่คุณควรดูเพื่อจัดการสภาพแวดล้อมของคุณ:
1. การแจ้งเตือนความปลอดภัย
ความพร้อมใช้งานไม่ใช่แค่การตรวจสอบและการกู้คืนแอปพลิเคชันเท่านั้น ระบบที่เปิดเผยต่อสาธารณะมักถูกโจมตีอยู่เสมอ หากคุณไม่ได้ตรวจสอบการแจ้งเตือนและคำเตือนด้านความปลอดภัยแอปพลิเคชันของคุณอาจทำงานได้อย่างไม่มีที่ติในขณะที่ทรัพย์สินทางปัญญาของคุณกำลังถูกขนย้ายออกไปอย่างไร้ที่ติ
2. การเชื่อมต่อที่ไม่ได้ใช้งาน
การเชื่อมต่อที่ไม่ได้ใช้งานฟังดูไม่เป็นอันตราย แต่มันก็ไม่เป็นอันตรายเช่นเดียวกับคุดสุใบเขียวบนสนามหญ้าทางใต้ การเชื่อมต่อที่ไม่ได้ใช้งานจะใช้ทรัพยากรและคุกคามเพื่อเติมเต็มพูลฐานข้อมูลเครือข่ายที่แออัดและยับยั้งประสิทธิภาพ นอกจากนี้การเชื่อมต่อที่ไม่ได้ใช้งานอาจบ่งบอกถึงปัญหาในเลเยอร์แอปพลิเคชันหรือการกำหนดค่าฐานข้อมูล
3. แบบสอบถามคำสั่งหรืองานที่ใช้งานมานาน
สิ่งนี้ใช้ไม่เพียงกับการสืบค้นฐานข้อมูลหรืองานเท่านั้น แต่ยังรวมถึงคำสั่งและการสำรองข้อมูลด้วย คิวรีคำสั่งและงานที่รันเป็นเวลานานอาจเป็นตัวบ่งชี้ความสมบูรณ์ของระบบที่ไม่ดีความเร็วของดิสก์ที่ช้า CPU หรือการแย่งชิงทรัพยากรอื่น ๆ หรือปัญหาระบบความเข้ากันได้ของแอปพลิเคชันหรือระบบปฏิบัติการที่ลึกกว่า
4. ดิสก์ IO
โดยทั่วไป Disk IO หมายถึงการดำเนินการอินพุต / เอาต์พุตของระบบที่เกี่ยวข้องกับกิจกรรมของดิสก์ การวัดดิสก์ I / O สามารถช่วยระบุปัญหาคอขวดการกำหนดค่าฮาร์ดแวร์ที่ไม่ดีดิสก์ที่มีขนาดไม่เหมาะสมหรือเค้าโครงดิสก์ที่ได้รับการปรับแต่งไม่ดีสำหรับปริมาณงานที่กำหนด การตรวจสอบดิสก์ I / O สามารถช่วยบอกคุณได้ว่าคิวรีที่รันเป็นเวลานานเป็นฟังก์ชันของไวยากรณ์ sql ที่ไม่ดีแอปพลิเคชันที่เข้ารหัสไม่ดีหรือปัญหาเวลาแฝงและการเข้าถึงหรือไม่
5. หน่วยความจำ
เราทุกคนคิดเกี่ยวกับจำนวนหน่วยความจำที่ใช้ แต่การตรวจสอบหน่วยความจำนั้นเป็นมากกว่าการวัดและดูที่ฟรีเมื่อเทียบกับที่ใช้ การตรวจสอบหน่วยความจำช่วยให้คุณตรวจสอบคอขวดการรั่วไหลระบุระบบที่มีขนาดไม่เหมาะสมเข้าใจโหลดค่าเฉลี่ยโหลดและการเพิ่มขึ้นอย่างรวดเร็ว นอกจากนี้การเรียนรู้เกี่ยวกับรูปแบบที่ใช้หน่วยความจำมากสามารถช่วยคุณปรับแต่งชุดความพร้อมใช้งานเพื่อหลีกเลี่ยงความผิดพลาดที่ผิดพลาดได้
6. พื้นที่ดิสก์
ในฐานะรองประธานฝ่ายประสบการณ์ลูกค้าครั้งหนึ่งฉันเคยมีประสบการณ์ที่โชคร้ายในการตื่น แต่เช้าเพื่อโทรฉุกเฉิน ลูกค้าประสบปัญหาระบบการผลิตล่มหลังจากไฟฟ้าดับ เมื่อพยายามรีสตาร์ทระบบแอปพลิเคชันที่ได้รับการป้องกันไม่สามารถเริ่มทำงานได้ หลังจากตรวจสอบบันทึกข้อผิดพลาดอย่างรวดเร็วเป็นที่ชัดเจนว่ารูทไดรฟ์เต็ม 100% แอปพลิเคชันไม่สามารถเขียนลงในระบบไฟล์ใด ๆ การตรวจสอบพื้นที่ดิสก์มีให้ใช้งานในหลายรูปแบบและหลายวิธีและการมีเป็นเมตริกสามารถป้องกันปัญหาที่ไม่จำเป็นและการแย่งชิงในนาทีสุดท้ายที่มีราคาแพงเพื่อเพิ่ม .
7. ข้อผิดพลาดและการแจ้งเตือน
ข้อผิดพลาดการแจ้งเตือนและข้อความการกู้คืนในบันทึกเป็นอีกหนึ่งเมตริกที่ควรพิจารณา โซลูชันความพร้อมใช้งานของคุณอาจทำให้ลูกค้าของคุณออนไลน์และมีความสุข แต่ก็อาจปกปิดปัญหาที่คุณจะต้องดำเนินการในไม่ช้า การเพิ่มการตรวจสอบบันทึกสำหรับข้อความ FATAL, PANIC และคีย์ ERROR สามารถช่วยคุณระบุปัญหาที่โซลูชันความพร้อมใช้งานของคุณมักจะกู้คืนเช่นฐานข้อมูลล่มแอปพลิเคชันตื่นตระหนกหรือการทิ้งข้อมูลหลักหรือข้อผิดพลาดร้ายแรงที่ต้องรีสตาร์ทเย็น
8. หมายเลขการกู้คืน
เช่นเดียวกับการตรวจสอบข้อผิดพลาดและการแจ้งเตือนหมายเลขการกู้คืนสามารถบอกคุณได้มากมายเกี่ยวกับความพร้อมใช้งานของระบบของคุณ หากคุณเฉลี่ยการกู้คืนแอปพลิเคชันมากกว่าหนึ่งครั้งต่อสัปดาห์คุณอาจประสบปัญหาบางอย่างที่มากกว่าการป้องกันความพร้อมใช้งานปกติ และในขณะที่การกู้คืนประสบความสำเร็จในการรีสตาร์ทแอปพลิเคชันหรือระบบของคุณการกู้คืนที่ผิดพลาดหรือแม้แต่การกู้คืนจริงจำนวนมากเกินไปก็ไม่ดี
รายการเมตริก HA / DR ที่เราตรวจสอบได้และเครื่องมือในการตรวจสอบนั้นกำลังเติบโตอย่างก้าวกระโดด ตรวจสอบให้แน่ใจว่าคุณและทีมของคุณพิจารณาขยายการบันทึกและวิเคราะห์ข้อมูลในปัจจุบันเพื่อรวมสิ่งที่ทำให้ระบบความพร้อมใช้งานสูงขึ้นที่ดีที่สุดเท่าที่จะเป็นไปได้
– Cassius Rhue รองประธานฝ่ายประสบการณ์ลูกค้า
ทำซ้ำโดยได้รับอนุญาตจาก SIOS