Date: 6月 7, 2019
主要的云中断影响谷歌计算引擎 – 您准备好了吗?
谷歌首次在2019年6月2日太平洋时间12:25报道了一个“问题”。现在在任何类型的灾难中都很常见,有关此次停机的报告首次出现在社交媒体上。社交媒体现在似乎是在灾难早期获取任何类型信息的最可靠的地方。
许多依赖Google Compute Engine的服务都受到了影响。我家里有三个十几岁的孩子。当所有三个孩子从他们的洞穴(又称卧室)出现时,他们的脸上出现了担忧的表情。Snapchat,Youtube和Discord都离线了!他们一定认为这肯定是天启的第一个迹象。我向他们保证,这不是新黑暗时代的开始。相反,他们应该去外面做一些码头工作。这让他们害怕回到现实状态,他们很快就赶紧跑去找别的东西来占用他们的时间。除了开玩笑之外,有许多服务被报告为关闭或仅在某些地区可用。尘埃仍然在停电的原因,广度和范围。但肯定的是,中断在规模和范围上都非常重要,影响了许多客户和服务,包括Gmail和其他G-Suite服务,Vimeo等。
在我们等待最新谷歌计算引擎停机的官方根本原因分析时,谷歌报告称“美国东部的高水平网络拥堵”导致停机。我们将不得不等待他们确定导致网络问题的原因。是人为错误,网络攻击,硬件故障还是其他什么?
您是否为此云中断做好了准备?
我在上一次重大云停运期间写道。如果您在云中运行业务关键型工作负载,无论云服务提供商如何,您都有责任为不可避免的中断做好计划。2018年9月4日的多天Azure停电与次级HVAC系统在与电风暴相关的电涌期间启动失败有关。虽然故障只发生在一个数据中心内,但是中断暴露了多个依赖于这个数据中心的服务。这使得数据中心本身成为单点故障。
有一个健全的灾难恢复计划
利用云的基础架构,通过在可用区,区域甚至云服务提供商之间不断复制关键数据来最大限度地降低风险。除了数据保护之外,制定快速恢复关键业务应用程序的程序是任何灾难恢复计划的重要组成部分。有各种复制和恢复选项可用。这包括云供应商自己提供的服务,如Azure Site Recovery,SQL Server Always On Availability Groups等特定于应用程序的解决方案,以及SIOS DataKeeper等第三方解决方案,可保护在Windows和Linux上运行的各种应用程序。拥有完全依赖于单个云提供商的灾难恢复策略会使您容易受到可能影响单个云中多个区域的情况的影响。多数据中心或多地区灾难不太可能发生。但是,正如我们在去年秋天看到的最近这次中断和Azure中断一样,即使单个数据中心本地出现故障,影响也可以在多个数据中心甚至云中的区域内实现。要最大限度地降低风险,请考虑灾难恢复站点位于主云平台之外的多云或混合云方案。云与您自己的数据中心一样容易中断。你必须采取措施为灾难做准备。我建议您首先查看最关键的业务应用程序。如果他们离线并且管理它们的云门户甚至不可用,你会怎么做?你能恢复吗?你会满足你的RTO和RPO目标吗?如果没有,也许是时候重新评估您的灾难恢复策略了。
“由于没准备好,你准备失败。” – 本杰明富兰克林