Date: September 20, 2020
Perluas Metrik Ketersediaan Tinggi Anda
Di bidang teknologi, kami menyukai data. Kami menyukai data tentang data dan semua metrik serta ukuran yang dapat dihasilkan oleh alat kami. Kami telah menciptakan industri seputar analytics, produk yang menangkap setiap detail dari ribuan perangkat yang terhubung. Kami menyukai metrik dan ukuran. Dalam banyak kasus dalam ruang ketersediaan yang lebih tinggi, kami menyukai metrik ketersediaan tinggi yang memberi tahu kami seberapa cepat sistem pulih dari kegagalan. Kami menghitung dan melacak waktu antara deteksi dan perbaikan, dan kami terobsesi untuk mengetahui dan mengukur berapa banyak data transaksional yang akan hilang dalam bencana, kegagalan sistem, atau kerusakan disk.
Ironisnya, dalam sistem ketersediaan tinggi dan pemulihan bencana (HA / DR), ada beberapa metrik yang kurang mendapat perhatian.
Berikut delapan metrik ketersediaan tinggi lainnya yang harus Anda perhatikan untuk mengelola lingkungan Anda:
1. Peringatan keamanan
Ketersediaan bukan hanya tentang pemantauan dan pemulihan aplikasi. Sistem yang tersedia untuk umum selalu diserang. Jika Anda tidak memantau lansiran dan peringatan keamanan, aplikasi Anda mungkin berjalan dengan sempurna, sementara kekayaan intelektual Anda disalurkan dengan sempurna ke luar pintu.
2. Koneksi menganggur
Koneksi yang menganggur terdengar tidak berbahaya, tetapi sama tidak berbahayanya dengan kudzu berdaun hijau di halaman selatan. Koneksi idle membutuhkan sumber daya dan mengancam untuk mengisi kumpulan database, jaringan yang padat, dan kinerja yang melumpuhkan. Lebih lanjut, koneksi idle dapat menunjukkan masalah pada lapisan aplikasi atau konfigurasi database.
3. Kueri, perintah, atau pekerjaan yang berjalan lama
Ini berlaku tidak hanya untuk kueri atau pekerjaan database, tetapi juga untuk perintah dan cadangan. Kueri, perintah, dan pekerjaan yang berjalan lama dapat menjadi indikator kesehatan sistem yang buruk, kecepatan disk yang lambat, CPU atau sumber daya lain yang berselisih, atau masalah sistematis, kompatibilitas aplikasi atau OS yang lebih dalam.
4. Disk IO
Disk IO biasanya mengacu pada operasi input / output dari sistem yang terkait dengan aktivitas disk. Mengukur I / O disk dapat membantu mengidentifikasi kemacetan, konfigurasi perangkat keras yang buruk, ukuran disk yang tidak tepat, atau tata letak disk yang tidak disetel dengan baik untuk beban kerja tertentu. Pemantauan disk I / O dapat membantu memberi tahu Anda jika kueri yang berjalan lama adalah fungsi dari sintaks sql yang buruk, aplikasi dengan kode yang buruk, atau masalah latensi dan akses.
5. Penyimpanan
Kita semua berpikir tentang berapa banyak memori yang digunakan, tetapi pemantauan memori lebih dari sekadar mengukur dan melihat yang gratis versus yang digunakan. Memori pemantauan membantu Anda melihat kemacetan, kebocoran, mengidentifikasi sistem dengan ukuran yang tidak tepat, memahami beban, rata-rata beban, dan lonjakan. Selain itu, mengetahui tentang pola intensif memori dapat membantu Anda menyesuaikan rangkaian ketersediaan untuk menghindari kegagalan palsu.
6. Ruang Disk
Sebagai Wakil Presiden Pengalaman Pelanggan, saya pernah mengalami pengalaman malang bangun pagi-pagi untuk panggilan darurat. Pelanggan menghadapi sistem produksi yang turun setelah pemadaman listrik. Ketika mereka mencoba untuk me-restart sistem mereka, aplikasi mereka yang dilindungi gagal untuk memulai. Setelah pemeriksaan cepat dari log kesalahan, jelas terlihat bahwa drive root 100% penuh. Aplikasi tidak dapat menulis ke sistem file mana pun. Pemantauan ruang disk tersedia dalam berbagai bentuk dan cara dan menjadikannya sebagai metrik dapat mencegah masalah yang tidak perlu dan pengacakan menit-menit terakhir yang mahal untuk menambah lebih banyak masalah. .
7. Kesalahan dan peringatan
Kesalahan, peringatan, dan pesan pemulihan di log adalah metrik bagus lainnya untuk dipertimbangkan. Solusi ketersediaan Anda mungkin membuat klien Anda tetap online dan senang, tetapi mungkin juga menutupi masalah yang memerlukan perhatian Anda segera. Menambahkan pemantauan log untuk FATAL, PANIC, dan pesan ERROR kunci dapat membantu Anda mengidentifikasi masalah yang sering dipulihkan oleh solusi ketersediaan Anda, seperti database crash, kepanikan aplikasi atau core dump, atau kesalahan fatal yang memerlukan restart dingin.
8. Nomor pemulihan
Mirip dengan peringatan dan kesalahan pemantauan, nomor pemulihan dapat memberi tahu Anda banyak hal tentang kesehatan ketersediaan sistem Anda. Jika Anda rata-rata melakukan lebih dari satu pemulihan aplikasi per minggu, kemungkinan Anda mengalami sesuatu yang lebih dari perlindungan ketersediaan normal. Dan meskipun pemulihan berhasil dalam memulai ulang aplikasi atau sistem Anda, terlalu banyak dari pemulihan palsu atau bahkan sebenarnya tidak sehat.
Daftar metrik HA / DR yang dapat kami pantau dan alat untuk memantau mereka berkembang pesat. Pastikan Anda dan tim Anda mempertimbangkan untuk memperluas pengambilan dan analisis data Anda saat ini untuk menyertakan data yang menghasilkan sistem ketersediaan terbaik yang lebih tinggi.
– Cassius Rhue, VP, Pengalaman Pelanggan
Direproduksi dengan izin dari SIOS