Lightning Never Strikes Twice: Surviving A Azure Cloud Outage
Kemarin pagi saya membuka umpan Twitter saya untuk menemukan bahwa banyak orang terkena dampak pemadaman Azure Cloud. Hampir setiap halaman sumber daya tentang pemadaman tidak tersedia. Untungnya, @AzureSupport terus memberikan pembaruan melalui Twitter. Pembaruan asli dari @AzureSupport datang pada pukul 7:12 pagi. Melihat kembali pada umpan Twitter, sepertinya masalah awalnya dimulai satu atau dua jam sebelum itu. Dengan cepat menjadi jelas bahwa pemadaman memiliki dampak penyebaran yang lebih luas daripada hanya wilayah AS Tengah Selatan seperti yang dilaporkan semula. Sepertinya layanan yang bergantung pada Azure Active Directory dapat berdampak juga dan pelanggan yang mencoba menyediakan langganan baru mengalami masalah. Dan 24 jam kemudian masalah belum sepenuhnya teratasi dan sesuai dengan pembaruan terakhir pagi ini … Jadi apa yang bisa Anda lakukan untuk meminimalkan dampak dari gangguan awan biru ini? Tidak ada yang bisa menyalahkan Microsoft atas bencana alam seperti sambaran petir. Tetapi pada akhir hari jika satu-satunya rencana pemulihan bencana Anda adalah menelepon, men-tweet, dan mengirim email ke Microsoft hingga masalah teratasi, Anda baru saja menerima kebangkitan yang kasar. Terserah Anda untuk memastikan bahwa semua basis tercakup ketika datang ke rencana pemulihan bencana Anda.
Waktu Untuk Menjelajahi Beberapa Alternatif?
Sementara debu masih menempel pada apa yang terkena dampak dan apa yang dapat dilakukan pelanggan untuk meminimalkan waktu henti, inilah beberapa pemikiran awal saya.
Sets Ketersediaan (Domain Fault / Perbarui Domain)
Dalam skenario ini, bahkan jika Anda membangun Failover Clusters, atau leveraged Azure Load Balancers dan Availability Sets, Anda masih akan kurang beruntung karena seluruh wilayah menjadi offline. Meskipun masih disarankan untuk memanfaatkan Sets yang Tersedia, terutama untuk downtime yang direncanakan, dalam hal ini Anda masih akan offline.
Zona Ketersediaan
Ini belum tersedia di wilayah AS Tengah Selatan. Namun tampaknya konsep Zona Ketersediaan yang diluncurkan di Azure dapat meminimalkan dampak pemadaman listrik. Dengan asumsi sambaran petir hanya berdampak pada satu pusat data, maka pusat data lain di Zona Ketersediaan lainnya harus tetap beroperasi. Namun, pemadaman layanan non-regional lainnya seperti Azure Active Directory (AAD) tampaknya telah mempengaruhi beberapa wilayah. Saya pikir Zona Ketersediaan tidak akan mengisolasi Anda sepenuhnya.
Global Load Balancers, Cross Failover Cluster, dll.
Apakah Anda sedang membangun cluster SANLess yang melintasi wilayah, atau menggunakan load balancer global untuk menyebarkan beban di beberapa wilayah, Anda mungkin telah meminimalkan dampak pemadaman di AS Tengah Selatan. Tetapi Anda mungkin masih rentan terhadap pemadaman AAD.
Hybrid-Cloud, Cross Cloud
Ketahanan yang terjamin dalam skenario kegagalan luas awan adalah memiliki rencana DR yang termasuk memiliki replikasi data secara real-time ke target di luar penyedia cloud primer Anda dan rencana di tempat untuk membawa aplikasi online dengan cepat di lokasi lain ini. Kedua lokasi ini harus sepenuhnya independen. Seharusnya tidak bergantung pada layanan dari lokasi utama Anda untuk tersedia, seperti AAD. Lokasi DR bisa menjadi penyedia cloud lain. Dalam hal ini AWS atau Google Cloud Platform tampak seperti alternatif logis, atau bisa juga datacenter Anda sendiri. Namun hal semacam itu mengalahkan tujuan berlari di awan di tempat pertama.
Perangkat Lunak sebagai Layanan
Meskipun Perangkat Lunak sebagai layanan seperti Azure Active Directory (ADD), Azure SQL Database (Database-as-Service) atau salah satu dari banyak tawaran SaaS dari penyedia cloud mana pun dapat terlihat menarik, Anda benar-benar perlu merencanakan skenario terburuk . Anda mungkin memiliki kontrol yang sangat kecil karena Anda mempercayai aplikasi bisnis penting untuk satu vendor. Ingat itu dalam hal opsi DR yang mencakup pemulihan di luar penyedia layanan cloud saat ini. Saya tidak memiliki kata-kata bijak di sini selain menyelidiki opsi DR Anda sebelum menerapkan layanan SaaS apa pun. Jika pemulihan di luar awan bukan pilihan, maka berpikirlah lama dan keras sebelum Anda mendaftar untuk layanan itu. Informasikan kepada pemilik saham bisnis bahwa jika layanan cloud sedang offline, mungkin tidak ada yang dapat Anda lakukan selain menelepon dan mengeluh.
Tren masa depan
Saya pikir dalam waktu dekat, Anda akan mulai mendengar lebih banyak tentang ketersediaan lintas awan. Juga tentang bagaimana orang memanfaatkan solusi seperti SIOS DataKeeper untuk membangun strategi HA dan DR yang kuat yang melintasi penyedia cloud. Model cloud cross atau cloud cloud yang sesungguhnya adalah satu-satunya cara untuk benar-benar melindungi diri Anda dari gangguan awan yang paling mungkin terjadi. Jika Anda terkena dampak dari penghentian terbaru ini, saya akan senang mendengar dari Anda. Katakan padaku apa yang terjadi, berapa lama kamu turun, dan apa yang kamu lakukan untuk pulih. Apa yang akan Anda lakukan agar di masa depan pengalaman Anda menjadi lebih baik? Baca lebih banyak artikel seperti Cara Bertahan Hidup A Azure Cloud Outage? Direproduksi dengan izin dari Clusteringformeremortals.com