Date: Januari 29, 2021

Houston Kami Memiliki Masalah (atau Cara Memahami & Menanggapi Peringatan Ketersediaan)

Kegagalan yang Berhasil

Houston kita punya masalah!Ini adalah garis ikonik yang mengingatkan penggemar luar angkasa dan penggemar film yang tak terhitung jumlahnya tentang kesulitan besar, potensi bencana, dan keadaan berbahaya dari misi luar angkasa Apollo 13 – sebuah misi yang sekarang disebut NASA sebagai "Kegagalan yang Berhasil". Mengabaikan peringatan ketersediaan aplikasi Anda sendiri mungkin tidak dicatat dalam sejarah sebagai momen yang menentukan, tetapi juga dapat menimbulkan malapetaka serupa

Sekarang kembali ke tahun 1970:

"Pengadukan rutin tangki oksigen memicu isolasi kabel yang rusak di dalamnya, menyebabkan ledakan yang mengeluarkan isi dari kedua tangki oksigen Service Module (SM) ke luar angkasa. Tanpa oksigen, yang dibutuhkan untuk bernapas dan untuk menghasilkan tenaga listrik, sistem propulsi dan pendukung kehidupan SM tidak dapat beroperasi. Sistem Modul Komando (CM) harus ditutup untuk menghemat sumber daya yang tersisa untuk masuk kembali, memaksa awak untuk dipindahkan ke Modul Bulan (LM) sebagai sekoci. Dengan pendaratan di bulan dibatalkan, pengontrol misi bekerja untuk membawa kru pulang hidup-hidup. "

Ledakan tangki oksigen memicu alarm, peringatan, penurunan tekanan dan voltase, komunikasi terputus, dan kemudian komunikasi radio yang sekarang terkenal antara astronot dan Pengendali Misi.Tetapi bagaimana jika, setelah ledakan, kru tidak melakukan apa-apa? Bagaimana jika mereka tidak pernah memeriksa ledakan, tidak pernah menanggapi peringatan dan pengukur, dan tidak pernah memberi tahu Mission Control bahwa ada masalah?Bagaimana jika Mission Control, setelah diberi tahu atau diperingatkan kembali di dasbor mereka di pusat kendali, tidak pernah berusaha memberikan bantuan apa pun?Bagaimana jika tim membenamkan kepala mereka di pasir, atau pasrah pada nasib dan kebetulan, tidak pernah mencoba untuk belajar, berimprovisasi, atau meningkatkan dari kegagalan yang mereka hadapi?Hasilnya akan sangat tragis!Ini mungkin berhasil menjadi dokumenter, tetapi bukan film blockbuster yang menampilkan garis ikonik.

Apa yang Anda Lakukan Saat Lansiran Dipicu di Lingkungan Anda?

Jalan-jalan di luar angkasa jauh dari aktivitas kita sehari-hari, kecuali tentu saja Anda bekerja untuk NASA, tetapi blog terbaru di Apollo 13 memang memicu pertanyaan yang berlaku untuk ketersediaan.Apa yang Anda lakukan saat ada peringatan yang terpicu di lingkungan Anda? Apakah Anda mengabaikannya begitu saja?Apakah Anda meremehkannya, menunggu untuk melihat apakah peringatan, pesan log, atau indikator lain akan hilang begitu saja?Apakah Anda menghubungi dukungan vendor Anda untuk memahami bagaimana Anda dapat menonaktifkan peringatan, peringatan, dan pesan ini?Atau apakah Anda berkata, "Kami memiliki masalah di sini dan kami perlu menyelesaikannya"?

Sebagai VP Customer Experience di SIOS Technology Corp. kami telah mengalami kedua sisi peringatan dan indikator.Kami dengan susah payah berjalan bersama pelanggan yang memilih untuk mengabaikan peringatan, mematikan peringatan kritis yang menunjukkan masalah, mulai dari ambang aplikasi hingga ketidakstabilan jaringan hingga potensi ketidakkonsistenan data.Dan kami juga telah melihat pelanggan yang telah menyetel peringatan mereka, menyelidiki mengapa alarm mereka berbunyi, menemukan akar penyebabnya dan menikmati hasil kerja mereka.Buah ini paling sering merupakan hadiah manis dari peningkatan stabilitas, inovasi dan pembelajaran, atau bencana yang dapat dihindari.

4 hal yang dapat Anda lakukan saat produk ketersediaan Anda memicu peringatan

1. Tentukan apakah jenis dan kekritisan tanda ketersediaan.

Apakah peringatan atau kesalahan menunjukkan peringatan, kesalahan, atau masalah kritis? Tempat yang baik untuk membantu Anda dan tim Anda memahami kekritisan adalah dengan berkonsultasi dengan dokumentasi yang tersedia. Periksa dokumentasi produk, forum online, artikel basis pengetahuan (KBA), dan data tim internal serta manual proses.

2. Kaji kesegeraan peringatan.

Untuk peringatan dan error, seberapa besar kemungkinannya untuk berkembang menjadi masalah atau peristiwa kritis.Untuk masalah dan peringatan kritis, ini mungkin terlihat jelas tetapi penilaian, bahkan peristiwa kritis akan memberikan beberapa panduan tentang langkah Anda selanjutnya; koreksi diri, isolasi masalah, atau eskalasi langsung.

3. Konsultasikan sumber tambahan.

Sumber lain apa yang dapat Anda akses untuk membuat keputusan tentang kondisi waspada? Misalnya, jika peringatan terkait dengan penyimpanan, apakah ada alat lain yang dapat mengekspos kesehatan penyimpanan Anda?Jika masalahnya adalah peringatan jaringan, apakah ada alat hypervisor, alat lalu lintas, statistik NIC, atau alat pemantauan khusus lainnya yang digunakan untuk membantu analisis.

4. Hubungi dukungan.

Dengan kata lain, jika Anda tidak yakin, peringatkan Mission Control. Setelah menentukan jenis, menilai kesegeraan, dan berkonsultasi dengan sumber tambahan, ada baiknya untuk menghubungi vendor Anda untuk mendapatkan dukungan.Peringatan tentang ambang batas untuk panggilan API mungkin tampak tidak berbahaya. Tetapi jika panggilan API akan gagal setelah batas tersebut tercapai, ini bisa menjadi penyebab untuk tindakan segera. Mendapatkan otoritas dari spesialis dapat membantu menjaga ketenangan pikiran dan menghindari bencana.

Vendor berpengalaman seperti SIOS dapat membantu Anda mengidentifikasi penyebab masalah dengan cepat dan merekomendasikan solusi terbaik.

Mengabaikan masalah dalam lingkungan ketersediaan Anda berulang kali dapat menyebabkan hasil yang tidak terduga, tetapi tidak kalah buruknya. Mengatasi masalah yang ditunjukkan oleh peringatan, pesan log, indikator peringatan, atau indikator lain yang dipasang dan dikonfigurasikan memberi pelanggan Anda, bisnis Anda, tim Anda, dan diri Anda sendiri “kesempatan untuk menyelesaikan masalah,” sebelum menjadi bencana. Dan pada saat yang sama, perkuat infrastruktur dan strategi ketersediaan Anda.Mana yang akan kamu pilih?

– Cassius Rhue, VP, Pengalaman Pelanggan

Direproduksi dari SIOS

Cara Memahami & Menanggapi Pemberitahuan Ketersediaan