Date: November 6, 2018
Azure Outage Post-Mortem
Post-Mortems resmi pertama mulai keluar dari Microsoft terkait dengan Azure Outage yang terjadi minggu lalu. Ini Azure Outage Post-Mortem pertama alamat penghapusan Azure DevOps khusus (sebelumnya dikenal sebagai Visual Studio Team Service, atau VSTS). Ini memberi kita wawasan tambahan tentang luas dan kedalaman pemadaman. Ini menegaskan penyebab pemadaman. Ini juga memberi kita beberapa wawasan tentang tantangan yang dihadapi Microsoft dalam membuat semuanya kembali online dengan cepat. Selain itu, ini mengisyaratkan beberapa fitur / fungsionalitas yang mungkin dipertimbangkan Microsoft untuk menangani situasi ini lebih baik di masa depan. Seperti yang saya sebutkan di artikel saya sebelumnya, fitur seperti Zona Ketersediaan baru yang diluncurkan di Azure, mungkin telah meminimalkan dampak pemadaman ini. Di post-mortem, Microsoft mengkonfirmasi apa yang saya katakan sebelumnya.
Solusi utama yang kami lakukan untuk meningkatkan penanganan kegagalan pusat data adalah Ketersediaan Zona, dan kami mengeksplorasi kelayakan replikasi asynchronous.
Pencegahan Lainnya Untuk Mengambil
Sampai Zona Ketersediaan diluncurkan di lebih banyak wilayah satu-satunya pilihan pemulihan bencana, Anda memiliki replikasi asinkron lintas wilayah, hibrida-awan atau bahkan lintas-awan. Perangkat lunak berbasis solusi penguncian #Sanless yang tersedia saat ini akan memungkinkan konfigurasi tersebut. Menyediakan RTO dan RPO yang sangat kuat, bahkan ketika mereplikasi jarak yang jauh. Dengan solusi SaaS / PaaS, Anda bergantung pada Penyedia Layanan Cloud (CSP) untuk memiliki solusi HA / DR yang dilapisi zat besi di tempat. Dalam hal ini, sepertinya kekurangan yang cukup signifikan terpapar. Kami hanya dapat berharap bahwa hal itu mengarahkan semua CSP untuk memperhatikan penawaran SaaS / PaaS mereka. Serta untuk mengatasi kesenjangan HA / DR yang mungkin ada. Sampai saat itu, adalah kewajiban konsumen untuk memahami risiko. Mereka perlu melakukan apa yang bisa mereka lakukan untuk mengurangi risiko pemadaman yang lama, atau hanya memilih untuk tidak menggunakan PaaS / SaaS sampai risikonya ditanggapi.
RTO atau RPO?
The post-mortem benar-benar sampai ke akar masalah … apa yang Anda nilai lebih, RTO atau RPO?
Saya pada dasarnya tidak ingin memutuskan untuk pelanggan apakah atau tidak menerima kehilangan data. Saya telah meminta pelanggan memberi tahu saya bahwa mereka akan kehilangan data untuk membuat tim besar produktif kembali dengan cepat, dan pelanggan lain mengatakan kepada saya bahwa mereka tidak ingin kehilangan data apa pun dan akan menunggu pemulihan untuk waktu yang lama.
Tidak mungkin bagi CSP untuk membuat keputusan itu untuk pelanggan. CSP tidak ingin kehilangan data pelanggan, kecuali data asli benar-benar hilang dan tidak dapat dipulihkan. Dalam hal ini, replika async real-time mendekati sebaik yang akan Anda dapatkan dalam hal RPO dalam kegagalan yang tidak terduga. Namun, apakah pemadaman ini benar-benar tidak terduga dan tanpa peringatan? Citra satelit modern dan peningkatan prakiraan cuaca memberi peringatan yang adil bahwa akan ada peristiwa terkait cuaca yang signifikan di daerah tersebut. Hurricane Florence sedang menuju AS Tenggara saat saya menulis posting ini. Ambil tindakan proaktif untuk memindahkan beban kerja dari wilayah yang terkena dampak jika pusat data berada di jalur. Manfaat pemulihan bencana proaktif vs pemulihan bencana reaktif sangat banyak. Tidak ada kehilangan data, cukup waktu untuk mengatasi masalah yang tidak terduga. Ini juga termasuk mengelola sumber daya manusia sedemikian rupa sehingga karyawan dapat khawatir tentang merawat keluarga mereka, daripada di tempat kerja. Sekali lagi, memberlakukan pemulihan bencana proaktif akan menjadi keputusan sulit bagi CSP untuk mewakili semua pelanggan mereka. Migrasi yang direncanakan di seluruh wilayah akan menyebabkan sejumlah downtime. Keputusan ini harus diserahkan ke tangan pelanggan. Ambil pelajaran dari Postage Mortal Azure Outage ini untuk mengedukasi pelanggan Anda.
Dapatkan Dilindungi
Jadi apa yang dapat Anda lakukan untuk melindungi aplikasi dan data penting bisnis Anda? Mari kita pelajari beberapa pelajaran dari Azure Outage Post-Mortem. Model lintas wilayah, lintas-awan, atau hibrida-awan dengan solusi berbasis perangkat lunak #SANless cluster akan sangat membantu mengatasi masalah HA / DR Anda. Selain itu, ada RTO dan RPO yang sangat baik untuk penyebaran IaaS berbasis cloud. Ada pilihan lain selain dari solusi spesifik aplikasi. Solusi replikasi volume blok berbasis perangkat lunak seperti SIOS DataKeeper dan SIOS Protection Suite mereplikasi semua data dan memberikan solusi perlindungan data untuk platform Linux dan Windows. Putra tertua saya baru saja memulai gelar sarjana di bidang Meteorologi di Rutgers University. Bayangkan suatu hari ketika kecerdasan buatan (AI) dan pembelajaran mesin (ML) memproses data terkait cuaca dari NOAA. Mereka dapat memicu migrasi pemulihan bencana yang direncanakan dua hari sebelum badai melanda? Saya pikir saya baru saja menemukan topik yang sempurna untuk tesis Masternya. Atau lebih baik lagi, minta dia dan teman-teman pandainya di WeatherWatcher LLC mendapatkan dana untuk startup teknologi yang menerapkan AI dan ML untuk menhubungi data terkait untuk mengontrol peristiwa pemulihan bencana proaktif. Saya pikir kami hanya di titik puncak solusi analisis IT. Kami dapat menerapkan teknologi pembelajaran mesin canggih untuk memotong waktu dan upaya untuk memastikan pengiriman layanan aplikasi penting. SIOS iQ adalah salah satu solusi yang memimpin dalam bidang itu. Bungkam menetas dan bersiap-siap. Musim badai baru saja dimulai dan kami sudah siap untuk perjalanan liar. Jika Anda ingin mendiskusikan strategi HA / DR Anda, hubungi saya di Twitter @daveberm.