Date: November 9, 2022
Menjelaskan Perbedaan Halus tapi Penting Antara Switchover, Failover, dan Recovery
Ketersediaan tinggi adalah spesialisasi dan seperti kebanyakan spesialisasi, ia memiliki kosakata dan terminologinya sendiri. Pelanggan kami biasanya sangat berpengetahuan tentang TI tetapi jika mereka belum pernah bekerja di lingkungan HA, beberapa terminologi HA umum kami dapat menyebabkan cukup banyak kebingungan – bagi mereka dan bagi kami. Mereka terdengar sederhana tetapi dengan makna yang sangat spesifik dalam konteks HA. Tiga istilah ini dibahas di sini – swithover, failover, dan recovery.
Apa itu Peralihan? ?
Peralihan adalah dimulai oleh pengguna tindakan melalui ketersediaan tinggi (HA) solusi pengelompokan antarmuka pengguna atau CLI. Dalam peralihan, pengguna secara manual memulai tindakan untuk mengubah sumber atau server utama untuk aplikasi yang dilindungi. Dalam skenario peralihan yang khas, semua aplikasi dan dependensi yang berjalan dihentikan secara berurutan, dimulai dengan aplikasi induk dan diakhiri ketika semua turunan/dependensi dihentikan. Setelah aplikasi dan dependensinya dihentikan, mereka kemudian dimulai ulang secara teratur di server utama atau sumber yang baru ditunjuk.
Misalnya, jika Anda memiliki sumber daya Alpha, Beta, dan Gamma. Resource Alpha bergantung pada resource Beta dan Gamma. Sumber Daya Beta tergantung pada sumber daya Gamma.Dalam peristiwa peralihan, sumber daya Alpha dihentikan terlebih dahulu, diikuti oleh Beta, dan akhirnya Gamma.Setelah ketiganya dihentikan, peralihan terus membawa sumber daya ke status operasional di server yang dimaksud.Proses dimulai dengan sumber daya Gamma, diikuti oleh Beta, dan akhirnya operasi start up selesai untuk sumber daya Alpha.Secara tradisional, operasi peralihan membutuhkan lebih banyak waktu karena sumber daya harus dihentikan dengan cara yang anggun dan teratur. Peralihan sering dilakukan ketika ada kebutuhan untuk memperbarui versi perangkat lunak sambil mempertahankan waktu aktif, melakukan pekerjaan pemeliharaan (melalui peningkatan berkelanjutan) pada node produksi utama, atau melakukan pengujian DR.
Takeaway kunci: Jika tidak ada kegagalan untuk menyebabkan tindakan, maka itu adalah peralihan
Apa itu Failover?
Operasi failover biasanya merupakan tindakan yang dimulai oleh non-pengguna sebagai respons terhadap kerusakan server atau reboot yang tidak terduga/tidak direncanakan. Pertimbangkan skenario cluster HA dengan dua node, Node A dan Node B.Dalam skenario ini, semua aplikasi penting Alpha, Beta, dan Gamma dimulai dan beroperasi di Node A. Dalam skenario ini, failover adalah apa yang terjadi ketika Node A mengalami reboot yang tidak terduga/tidak direncanakan, matikan, hentikan, atau panik. Setelah perangkat lunak HA mendeteksi bahwa Node A tidak lagi berfungsi dan tersedia secara operasional dalam cluster (seperti yang ditentukan oleh solusi), itu akan memicu operasi failover untuk memulihkan akses aplikasi kritis, sumber daya, layanan, dan dependensi pada node cluster yang tersedia , Node B dalam hal ini.Dalam skenario failover, karena Node A telah mengalami crash (atau kegagalan langsung simulasi lainnya) tidak ada proses untuk berhenti pada Node A, dan akibatnya setelah tindakan deteksi dan pagar yang tepat telah diproses, Node B akan segera memulai proses pemulihan sumber daya. Seperti dalam kasus peralihan, proses dimulai dengan sumber daya Gamma, diikuti oleh Beta, dan akhirnya operasi pengaktifan selesai untuk sumber daya Alpha. Secara tradisional, operasi failover membutuhkan waktu lebih sedikit daripada switchover. Hal ini karena pengolahan kegagalan tidak memerlukan sumber daya apa pun untuk dihentikan (atau dihentikan) pada node primer (dalam-layanan atau aktif) sebelumnya.
Takeaway Kunci: Kegagalan terjadi sebagai respons terhadap kegagalan sistem.
Apa Pemulihan ?
Peristiwa pemulihan mudah dikacaukan dengan failover. Peristiwa pemulihan terjadi ketika proses, server, jalur komunikasi, disk, atau bahkan sumber daya cluster gagal dan perangkat lunak ketersediaan tinggi beroperasi sebagai respons terhadap kegagalan yang diidentifikasi. Sebagian besar solusi perangkat lunak HA mampu melakukan berbagai cara untuk menangani peristiwa pemulihan. Metode yang paling menonjol meliputi:
- Restart dengan anggun secara lokal, lalu restart dengan anggun pada remote
- Restart selalu dicoba secara lokal, jika pemulihan berhasil tidak ada tindakan lebih lanjut yang terjadi. Jika restart lokal gagal, operasi berikutnya terjadi
- Jika restart lokal gagal, sumber daya dipindahkan dengan anggun ke node jarak jauh
- Restart dengan anggun secara lokal, lalu restart paksa pada remote
- Restart selalu dicoba secara lokal, jika pemulihan berhasil tidak ada tindakan lebih lanjut yang terjadi.Jika restart lokal gagal operasi berikutnya terjadi.
- Sumber daya dipindahkan ke simpul jarak jauh dengan memagari simpul utama
- Restart paksa pada remote
- Restart tidak pernah dicoba secara lokal
- Sumber daya selalu dipaksa ke node cluster berikutnya yang tersedia seperti yang dijelaskan dalam metode 2b.
- Restart server paksa, tidak ada failover jarak jauh
- Restart selalu dicoba secara lokal
- Jika restart lokal gagal, node utama dimulai ulang untuk mencoba memulihkan layanan.
- Sumber daya tidak akan gagal ke sistem jarak jauh
- Restart lokal berbasis kebijakan, lalu jarak jauh
- Kebijakan dapat mengatur jumlah percobaan ulang sebelum upaya pemulihan jarak jauh terjadi
Karena banyaknya variasi dalam kebijakan pemulihan, mudah untuk melihat peristiwa pemulihan yang menyerupai perilaku peralihan. Hal ini sering terjadi pada metode 1 dan 5. Dalam skenario ini, aplikasi dan layanan dihentikan secara tertib sebelum dimulai pada node jarak jauh. Metode 2 dan 3, pelanggan akan sering melihat perilaku yang mirip dengan failover. Dalam metode 2 dan 3, server utama dimulai ulang atau dipagari oleh perangkat lunak HA yang menciptakan perilaku yang dapat diamati mirip dengan failover.Metode 4 biasanya merupakan opsi yang jarang digunakan, tetapi merupakan gabungan dari peralihan dan kegagalan.Metode 4 dimulai dengan penghentian aplikasi dan layanan dengan anggun, diikuti dengan memulai ulang aplikasi dan layanan (seperti peralihan). Namun, jika restart lokal aplikasi dan layanan gagal, sistem akan dimulai ulang (seperti failover), tetapi tanpa benar-benar gagal ke node cluster jarak jauh. Meskipun jarang, Metode 4 sering digunakan dalam kasus di mana terdapat klaster yang tidak seimbang, atau digunakan dengan metodologi berbasis kebijakan.
Takeaway kunci: Peristiwa pemulihan tergantung pada metode yang dipilih. Terminologi HA antara vendor adalah area di mana istilah umum dapat memiliki arti yang berbeda. Saat Anda menerapkan dan memelihara solusi klaster Anda dengan aplikasi perusahaan, pastikan Anda memahami persyaratan penyedia solusi untuk failover, switchover, dan pemulihan.Dan, saat Anda melakukannya, pastikan Anda tahu apakah restoran akan meletakkan saus di samping (dalam piring), atau di samping (kentang tumbuk Anda) Diperbanyak dengan izin dari SIOS