Cara Menghilangkan Satu Titik Kegagalan di Cloud dengan Pengelompokan Ketersediaan Tinggi
Saat memberikan perlindungan ketersediaan tinggi, merupakan prinsip umum untuk memastikan semua komponen redundan untuk menghindari Single Points of Failure (SPOF). Artinya, pastikan tidak ada satu elemen pun yang menyebabkan seluruh sistem berhenti jika gagal. Namun, penting untuk dicatat bahwa infrastruktur operasional sulit diakses di cloud publik.
Di sebuah cluster ketersediaan tinggi berbasis cloud , ada kemungkinan bahwa node siaga akan ditempatkan di server host yang sama, di rak yang sama, dan menggunakan sakelar jaringan yang sama dengan node operasi. Kecuali Anda mengonfigurasi elemen-elemen ini dengan redundansi, salah satunya bisa menjadi SPOF dan membuat aplikasi berisiko mengalami kegagalan besar.
Penting untuk memastikan node cluster berada di “wilayah” dan “zona ketersediaan” cloud yang berbeda yang secara fisik memisahkan pusat data dan infrastruktur operasional di lokasi geografis yang berbeda.
Apa prinsip utama untuk memastikan ketersediaan?
Anda tidak dapat mengharapkan berbagai komponen yang membentuk infrastruktur TI fisik untuk beroperasi sesuai spesifikasi selamanya. Suku cadang aus, sistem menjadi tidak kompatibel, dan pengaturan berubah. Meskipun perawatan rutin dapat mengurangi risiko waktu henti, kemungkinan ada sesuatu yang gagal selama siklus hidup produk.
Dalam beberapa kasus yang jarang terjadi, Anda mungkin memiliki bug serius yang tersembunyi di OS atau perangkat lunak tertanam yang menyebabkan aplikasi berhenti bekerja.
Seperti yang mungkin telah Anda perhatikan, konfigurasi cluster Ketersediaan Tinggi persis sejalan dengan prinsip ini, dan satu titik kegagalan dihilangkan dengan membuat server penting dan sumber dayanya menjadi berlebihan ke sistem aktif (sistem produksi). Namun, penting untuk mengingat dua hal. Satu, perangkat keras server bukan satu-satunya komponen penting. Poin kedua, komponen SPOF penting lainnya mungkin tidak terlihat oleh Anda di infrastruktur cloud publik.
Waspadalah terhadap jebakan dari satu titik kegagalan yang tersembunyi di infrastruktur awan yang tidak terlihat
Sebagian besar cloud publik beroperasi dalam apa yang disebut mode "multi-penyewa". Artinya, mereka menjalankan VM dari beberapa perusahaan di server host fisik yang sama. Dan dengan kontrak reguler, Anda tidak dapat menentukan server host mana yang menjalankan sistem Anda. Ini dapat menyebabkan masalah karena node siaga di kluster awan Anda mungkin ditempatkan pada server host yang sama yang mengoperasikan node aktif. Bahkan jika Anda mengonfigurasi konfigurasi cluster HA, jika server host mati, node operasi dan node siaga akan turun juga. Dalam skenario ini, operator cloud Anda memutuskan kapan dan bagaimana sistem Anda akan dipulihkan.
Server host yang mengoperasikan node aktif dan server host yang mengoperasikan node siaga mungkin berada di rak yang sama. Dalam hal ini, rak menjadi SPOF, jadi jika terjadi kegagalan, baik node aktif dan siaga di bawahnya juga akan gagal.
Selanjutnya, di lapisan atas infrastruktur Anda seperti sakelar jaringan yang menggabungkan beberapa rak, gateway dan router, dan unit catu daya di pusat data, simpul sistem operasi dan simpul sistem siaga dapat hidup berdampingan dalam sistem yang sama. Dan jika komponen kunci ini tidak berlebihan, maka Anda memiliki satu titik kegagalan yang tak terhindarkan. Sekali lagi, untuk perusahaan yang merupakan pengguna cloud publik, infrastruktur pusat data seperti itu adalah kotak hitam. Mungkin tidak mungkin untuk melihat konfigurasi terperinci untuk mengidentifikasi SPOF.
Zona dan wilayah ketersediaan cloud publik harus dimanfaatkan untuk ketersediaan
Bagaimana kita bisa secara eksplisit menghindari titik kegagalan tersembunyi di cloud publik? Metode yang paling kuat adalah dengan menggunakan "Zona Ketersediaan" dan "Wilayah" yang disiapkan di sisi cloud.
Availability Zone adalah pemisahan fisik independen dari infrastruktur di dalam pusat data Anda. Dan wilayah adalah pusat data independen yang terpisah secara geografis. Beberapa cloud publik memungkinkan Anda untuk secara sengaja menggunakan Availability Zone atau wilayah ini untuk tujuan yang berbeda.
Misalnya, Amazon Web Service (AWS) memiliki 12 wilayah di seluruh dunia. Selain itu, Microsoft Azure memiliki 22 wilayah.Dengan membangun konfigurasi cluster HA di mana node operasi dan node siaga didistribusikan di zona ketersediaan yang berbeda di dua atau lebih wilayah ini, hampir semua SPOF dapat dihindari dengan pasti.Jika Anda mematuhi praktik terbaik ini, Anda dapat memastikan ketersediaan dengan percaya diri, DR (Pemulihan bencana ) dan BCP (Perencanaan Kesinambungan Bisnis).