SLA Ketersediaan: FT, Ketersediaan Tinggi, dan Pemulihan Bencana – Mulai dari mana
Wajar untuk mengatakan bahwa di era modern ini di mana banyak aspek kehidupan kita didorong oleh teknologi, kita hidup di dunia yang sangat instan.Misalnya, dengan mengklik tombol, pesanan bahan makanan mingguan kami tiba di depan pintu kami.Kami dapat langsung membeli tiket untuk acara atau perjalanan.Atau bahkan akhir-akhir ini, pesan mobil baru tanpa harus pergi ke mana pun di dekat ruang pamer dan berurusan dengan wiraniaga yang memaksa. Kita dimanjakan dalam dunia kenyamanan ini.
Tapi mari kita pikirkan semua vendor dan penyedia layanan yang harus mendukung tingkat layanan ini.Mereka harus mempertahankan tingkat investasi yang tinggi untuk memastikan bahwa infrastruktur dasar mereka (dan khususnya infrastruktur TI mereka) dibangun dan dioperasikan sedemikian rupa sehingga mereka dapat mendukung harapan "selalu aktif" ini.Aplikasi dan database harus selalu berjalan, untuk memenuhi permintaan pelanggan dan memaksimalkan produktivitas dan pendapatan perusahaan.Pentingnya kelangsungan bisnis TI sama pentingnya dengan sebelumnya.
Banyak konsep ketersediaan TI yang beredar seperti toleransi kesalahan (FT) , ketersediaan tinggi (HA) dan pemulihan bencana (DR) .Tapi ini bisa menimbulkan pertanyaan lebih lanjut.Apa perbedaan antara konsep ketersediaan ini?Manakah dari mereka yang tepat untuk infrastruktur saya?Bisakah mereka digabungkan atau dipertukarkan? Langkah pertama dan terpenting untuk inisiatif ketersediaan apa pun adalah membuat perjanjian tingkat layanan (SLA) aplikasi/ketersediaan basis data yang jelas.Ini kemudian menentukan pendekatan ketersediaan yang paling sesuai.
Apa itu SLA?
Sampai batas tertentu, kita semua tahu apa itu SLA, tetapi untuk diskusi ini, mari kita pastikan bahwa kita semua berada pada gelombang yang sama. Ketersediaan SLA adalah kontrak antara penyedia layanan dan pengguna akhir mereka yang menentukan tingkat yang diharapkan dari aplikasi/database uptime dan aksesibilitas vendor adalah untuk memastikan dan menguraikan hukuman yang terlibat (biasanya keuangan) jika tingkat layanan yang disepakati tidak bertemu.Di dunia TI, SLA ditempa dari dua ukuran kekritisan untuk bisnis – Recovery Time Objectives (RTO) dan Recovery Point Objectives (RPO).Sangat sederhana, RTO mendefinisikan seberapa cepat kita membutuhkan operasi aplikasi untuk dipulihkan jika terjadi kegagalan. RPO menentukan seberapa terkini data kami jika terjadi skenario pemulihan. Setelah Anda dapat mengidentifikasi metrik ini untuk aplikasi dan database Anda, ini akan menentukan SLA Anda.SLA diukur sebagai persentase, jadi misalnya, Anda mungkin menemukan istilah seperti 99,9% atau 99,99% tersedia.Ini adalah ukuran berapa menit waktu aktif dan ketersediaan yang akan dijamin oleh TI untuk aplikasi pada tahun tertentu. Secara umum, lebih banyak perlindungan berarti lebih banyak biaya. Oleh karena itu, penting untuk memperkirakan biaya waktu henti selama satu jam untuk aplikasi atau database dan menggunakan SLA ini sebagai alat untuk memilih solusi yang masuk akal secara bisnis.
Setelah memiliki SLA, kami dapat membuat keputusan bisnis tentang jenis solusi mana – FT, HA, DR, atau kombinasinya – yang merupakan pendekatan yang paling sesuai untuk kebutuhan ketersediaan kami.
Apa itu Toleransi Kesalahan (FT)?
FT memberikan ketersediaan SLA yang sangat mengesankan di 99,999%.Dalam istilah dunia nyata, solusi FT akan menjamin tidak lebih dari 5,25 menit waktu henti dalam satu tahun.Pada dasarnya, dua server identik dijalankan secara paralel satu sama lain, memproses transaksi di kedua server pada saat yang sama dalam konfigurasi aktif-aktif dalam apa yang disebut sebagai proses "lockstep". Jika server utama gagal, server sekunder melanjutkan pemrosesan, tanpa gangguan apa pun pada aplikasi atau kehilangan data apa pun.Pengguna akhir tidak akan menyadari bahwa telah terjadi kegagalan server.
Ini terdengar fantastis!Ini terdengar luar biasa!Mengapa kita membutuhkan yang lain?Tapi tunggu dulu… sehebat suara FT di atas kertas, ada beberapa peringatan yang perlu dipertimbangkan.
Proses "lockstep" adalah binatang yang aneh.Ini sangat rewel tentang jenis perangkat keras server yang dapat dijalankannya, terutama dalam hal prosesor.Daftar kompatibilitas perangkat keras yang terbatas ini memaksa solusi FT untuk duduk di ujung yang lebih tinggi dari braket biaya, yang bisa sangat banyak mencapai ratusan ribu dolar pada saat Anda memasukkan dua atau lebih cluster FT dengan dukungan dan layanan terkait.
Kerentanan Kesalahan Perangkat Lunak
Solusi FT juga dirancang dengan mempertimbangkan toleransi kesalahan perangkat keras dan tidak terlalu memperhatikan potensi kesalahan aplikasi.Ingat, solusi FT menjalankan transaksi dan proses yang sama secara bersamaan, jadi jika ada kesalahan aplikasi di server utama, ini juga akan direplikasi di server sekunder.
Apa itu Ketersediaan Tinggi (HA)?
Untuk sebagian besar SLA, FT terlalu mahal untuk dibeli dan dikelola untuk kasus penggunaan rata-rata.Dalam kebanyakan kasus, solusi HA adalah pilihan yang lebih baik. Mereka memberikan tingkat perlindungan yang hampir sama dengan biaya yang lebih murah.Solusi HA memberikan SLA 99,99% yang setara dengan sekitar 52 menit waktu henti dalam satu tahun, dengan menerapkan secara Aktif-Siaga.SLA yang dikurangi diperkenalkan karena ada periode kecil waktu henti di mana server Aktif harus beralih ke server Siaga sebelum operasi dilanjutkan.Oke, ini tidak mengesankan seperti solusi FT, tetapi untuk sebagian besar persyaratan TI, HA memenuhi SLA, bahkan untuk aplikasi superkritis seperti sistem CRM dan ERP.
Sama pentingnya, solusi Ketersediaan Tinggi lebih agnostik aplikasi, dan juga dapat mengelola failover server jika terjadi kegagalan aplikasi serta kegagalan perangkat keras atau OS. Mereka juga memungkinkan lebih banyak fleksibilitas konfigurasi.Tidak ada daftar kompatibilitas perangkat keras seperti FT yang harus ditangani, karena pada sebagian besar kesempatan mereka akan berjalan pada platform apa pun di mana OS yang mendasarinya didukung.
Bagaimana Disaster Recovery (DR) cocok dengan gambar?
Seperti FT dan HA, DR juga dapat digunakan untuk mendukung fungsi bisnis yang penting. Namun, DR dapat digunakan bersama dengan FT dan HA.Toleransi Kesalahan dan Ketersediaan Tinggi difokuskan pada pemeliharaan waktu aktif di tingkat lokal, seperti dalam pusat data (atau zona ketersediaan cloud).DR mengirimkan situs atau pusat data redundan ke failover jika terjadi bencana di pusat data utama.
Apa artinya semua itu?
Pada akhirnya, tidak ada pendekatan ketersediaan yang salah atau benar untuk diambil.Ini bermuara pada kekritisan proses bisnis yang Anda coba lindungi dan ekonomi dasar dari solusi.Dalam beberapa skenario, itu tidak masalah.Misalnya, jika Anda menjalankan pembangkit listrik tenaga nuklir, saya akan merasa lebih nyaman bahwa operasi kritis dilindungi oleh sistem FT. Mari kita hadapi itu, Anda mungkin tidak ingin ada gangguan dalam layanan di sana.Namun untuk sebagian besar lingkungan TI, waktu kerja kritis juga dapat diberikan dengan HA pada titik harga yang jauh lebih mudah dicerna.
Bagaimana memilih: FT, HA dan DR?
- Pertama dan terpenting, pahami operasi bisnis Anda secara mendetail dan identifikasi biaya waktu henti.
- Setelah SLA Anda ditetapkan, pertimbangkan biaya solusi ketersediaan pilihan dengan biaya setiap potensi waktu henti.
- Saat memilih solusi ketersediaan Anda, lihat kemudahan penerapan dan penggunaan, karena ini juga akan memengaruhi TCO keseluruhan dari solusi ketersediaan.
Sistem TI kuat, tetapi mereka bisa salah pada saat yang paling tidak nyaman. FT, HA, dan DR adalah polis asuransi Anda untuk melindungi Anda saat mengirimkan SLA kepada pelanggan di dunia yang serba instan dan nyaman ini.
Direproduksi dengan izin dari SIOS