Satu-satunya cara terbaik untuk menyebarkan kuorum/saksi
Selama pertemuan baru-baru ini, pelanggan mengajukan pertanyaan tentang Ketersediaan Tinggi (HA) dan kebutuhan kelayakan kuorum/saksi. Pertanyaan mereka adalah, “Apa cara terbaik untuk menyebarkan kuorum/saksi?” Jawaban atas pertanyaan mereka sederhana, tidak ada satu pun cara terbaik untuk menerapkan kuorum.Untuk memahami alasannya, mari kita mulai dengan mendefinisikan tiga hal utama: apa yang dimaksud dengan sumber saksi, sumber kuorum, dan skenario otak terbelah.
Apa itu otak terbelah?
Dalam lingkungan cluster normal, aplikasi yang dilindungi berjalan pada node utama di cluster.Jika terjadi kegagalan aplikasi pada node utama tersebut, perangkat lunak pengelompokan memindahkan operasi aplikasi ke node sekunder atau remote, yang mengambil peran utama. Pada waktu tertentu, hanya ada satu simpul utama.
Split brain adalah suatu kondisi yang terjadi ketika anggota cluster tidak dapat berkomunikasi satu sama lain, tetapi dalam keadaan berjalan dan beroperasi, dan kemudian mengambil kepemilikan sumber daya bersama secara bersamaan. Akibatnya, Anda memiliki dua pengemudi bus yang memperebutkan kemudi.Otak terbelah, karena sifatnya yang merusak, dapat menyebabkan kehilangan data atau kerusakan data dan sebaiknya dihindari melalui penggunaan fungsi anggar, kuorum, saksi, atau kuorum/saksi untuk arbitrase klaster.
Di sebagian besar manajer klaster, kuorum dipertahankan ketika:
- Semua server dapat melihat status yang sama untuk semua rekan cluster dan saksi
- Semua server dapat melihat status yang sama untuk semua rekan cluster, meskipun bukan saksinya
- Semua server dapat melihat sumber saksi, meskipun tidak satu sama lain, dan menghindari skenario otak terbelah
Di sebagian besar manajer klaster, kuorum hilang ketika:
- Server tidak dapat melihat semua rekan cluster dan server saksi
- Server tidak dapat melihat sebagian besar rekan cluster, meskipun mereka dapat melihat server saksi
- Server tidak dapat mengakses atau mempertahankan akses ke sumber daya kuorum untuk berhasil menengahi keanggotaan kuorum dan akses sumber daya
Apa itu sumber daya saksi (atau server)?
Sumber daya saksi adalah server, titik akhir jaringan, atau perangkat yang digunakan untuk mencapai dan mempertahankan kuorum ketika sebuah cluster memiliki jumlah anggota yang genap.Sebuah cluster dengan jumlah anggota ganjil, menggunakan mayoritas cluster, tidak perlu menggunakan sumber daya saksi karena semua anggota server cluster menengahi keanggotaan mayoritas.
Apa yang dimaksud dengan kuorum dan sumber kuorum?
Sumber daya kuorum adalah sumber daya (perangkat, sistem, penyimpanan blok, penyimpanan file, berbagi file, dll) yang berfungsi sebagai sarana untuk arbitrase status dan keanggotaan cluster.Di beberapa manajer klaster, kuorum adalah sumber daya di dalam klaster yang membantu atau diperlukan untuk setiap status klaster dan keputusan keanggotaan klaster.Di manajer klaster lain, kuorum berfungsi sebagai pemutus ikatan untuk menghindari perpecahan otak.
Lebih dari Satu Cara untuk Menyebarkan Kuorum
Mengingat sifat kritis kuorum, arsitektur HA sangat penting untuk menyebarkan sumber daya kuorum/saksi dengan benar, dan untungnya (atau sayangnya) tidak ada satu pun , cara terbaik untuk menerapkan kuorum.Ada beberapa faktor yang dapat membentuk cara di mana saksi dan sumber-sumber kuorum Anda berperilaku.Faktor-faktor ini meliputi:
1. Apakah penerapan Anda akan dilakukan di tempat, cloud, atau hybrid
Menyebarkan di pusat data lokal di mana perangkat penyimpanan tambahan, seperti penyimpanan saluran serat, perangkat atau koneksi kontrol daya, atau perangkat stonith tradisional hadir akan memberi pelanggan opsi tambahan untuk fungsi kuorum dan saksi yang mungkin tidak berada di cloud.Demikian pula, lingkungan cloud dan hibrid menghadirkan perbedaan dalam hal apa yang dapat diterapkan dan kuorum kasus penggunaan apa yang diterapkan untuk dicegah. Selain itu, persyaratan dan perbedaan latensi dapat membatasi jenis perangkat dan sumber daya apa yang tersedia untuk konfigurasi kuorum/saksi.
2. Tujuan pemulihan Anda
Tujuan pemulihan juga penting untuk dipertimbangkan saat merancang dan merancang sumber daya kuorum dan saksi Anda.Dalam contoh dua cluster node (node A dan node B), ketika node A mengalami kehilangan konektivitas ke node B, apa prioritas tertinggi untuk pemulihan. Jika sumber saksi/kuorum berada dalam jaringan yang sama dengan simpul A, ini dapat mengakibatkan simpul A tetap online, tetapi terputus dari klien, sementara simpul B tidak dapat menilai kuorum dan pengambilalihan.Demikian juga, jika perangkat kuorum hanya hidup di wilayah, pusat data, atau jaringan dengan node B, kehilangan dapat mengakibatkan kegagalan sumber daya ke jaringan atau pusat yang mati atau jauh dari node utama yang berfungsi dan beroperasi.
3. Redundansi Pusat Data (atau Wilayah) yang Tersedia Dalam Infrastruktur Anda
Redundansi pusat data atau wilayah juga merupakan faktor penting dalam topologi HA Anda dengan kuorum/saksi. Jika pusat data Anda hanya memiliki dua tingkat redundansi, Anda harus memahami keseimbangan antara penempatan kuorum/saksi di pusat data yang sama dengan node cluster utama atau standby. Jika pusat data memiliki lebih dari dua tingkat redundan, seperti zona ketersediaan ketiga atau akses ke wilayah kedua, opsi ini akan memberikan tingkat redundansi yang lebih tinggi untuk cluster.
4. Persyaratan Pemulihan Bencana
Memahami persyaratan pemulihan bencana Anda yang sebenarnya juga merupakan faktor utama dalam desain Anda. Jika perangkat lunak manajer klaster Anda memerlukan akses ke kuorum/saksi untuk memulihkan dari pemadaman pusat data total (atau kegagalan wilayah), maka Anda harus memahami dampak ini pada desain Anda.Banyak paket perangkat lunak ketersediaan tinggi memiliki alat atau metode untuk skenario ini, tetapi jika perangkat lunak Anda tidak, desain dan penempatan kuorum/saksi Anda mungkin perlu mengakomodasi kenyataan ini.
5. Jumlah Anggota Dalam Cluster, dan Lokasi Mereka
Server kuorum/saksi tambahan biasanya tidak diperlukan ketika cluster berisi jumlah node yang ganjil.Namun, jika hanya menggunakan dua node dalam sebuah cluster atau menggunakan node DR yang tidak selalu tersedia dapat mengubah arsitektur Anda.Sebagai Wakil Presiden Pengalaman Pelanggan, saya telah bekerja dengan pelanggan yang telah menerapkan tiga arsitektur simpul, tetapi untuk penghematan biaya, mereka mengotomatiskan penghentian berkala server ketiga.
6. Sistem Operasi dan Manajer Cluster
Faktor terakhir yang disebutkan dalam kuorum/saksi adalah pengelola klaster dan sistem operasi.Tidak semua perangkat lunak HA dan manajer cluster sama dalam hal penyebaran kuorum/saksi atau arbitrase status kuorum.Beberapa perangkat lunak pengelompokan memerlukan disk bersama untuk arbitrase, yang lain lebih fleksibel memungkinkan pembagian (NFS, SMB, EFS, File Azure, dan S3).Menyadari apa yang dibutuhkan manajer klaster Anda, dan mode yang didukungnya terkait dengan kuorum (mayoritas sederhana, saksi, berbagi file, dll.) tidak hanya akan memengaruhi apa yang Anda terapkan, tetapi juga bagaimana Anda menerapkannya.
Satu-satunya cara terbaik untuk menyebarkan server kuorum/saksi adalah dengan memahami definisi vendor Anda tentang kuorum/saksi dan opsi yang tersedia, mengetahui kebutuhan Anda, mempertimbangkan keterbatasan atau peluang yang disajikan oleh pusat data Anda (atau lingkungan cloud) dan merancang solusinya yang memberikan sistem kritis Anda tingkat perlindungan tertinggi terhadap otak terbelah, kegagalan palsu, dan waktu henti.
-Cassius Rhee, Wakil Presiden, Pengalaman Pelanggan