Date: 11月 20, 2022
HA 和 DR 的简单日子已经一去不复返了
翻阅电视频道,我偶然发现了电影“他只是没那么喜欢你”和德鲁·巴里摩尔 (Drew Barrymore) 的场景,讲述了我们大多数人在 2022 年对技术,尤其是高可用性和灾难恢复的感受:“我怀念那些日子你有一个电话号码和一台答录机,那台答录机有一盒磁带,而那一盒磁带要么有一个人的留言,要么没有。 现在你只需要四处检查所有这些不同的门户网站,就会被七种不同的技术拒绝。 太累了。”有时,您不希望只有一个云,甚至没有云平台吗?一个数据库运行在一个操作系统上;并且只需要担心一个前端应用程序。 但是,世界已经发生了变化,而且发展得更快,也变得更加复杂。技术的进步、并购的影响以及我们 24/7 社会日益增长的胃口和节奏,数十亿消费者正在寻找最新的交易和最好的体验,这意味着简单的日子已经一去不复返了。
关于您的可用性的 4 个硬道理
- 您的解决方案并不像您想象的那么简单
当然,您的企业环境并不简单。您有遗留系统和应用程序,几乎是自打孔卡以来就存在的那种。您拥有专为新一代应用程序和数据库打造的新系统。此外,您拥有十年前创建的解决方案,以弥合从一个平台迁移到另一个平台之间的差距或跨越时间,但尽管您尽了最大努力,这些系统仍然存在。 除了这些挑战之外,还有越来越多的系统和 IT 资源来自于公司 U 的并购。在新时代交付 HA 并不像您想象的那么简单。
- 糟糕的架构是一个比你意识到的更大的问题
作为客户体验副总裁,我们已经看到了不良架构造成的损害。虽然部署 HA 软件绝对有助于提高应用程序和数据库的可用性,但 HA 软件永远无法完全克服不完整的需求、糟糕的网络、缺少冗余硬件或其他缺少的架构组件。我们的团队曾经与一位客户合作,以纠正在高峰运行时间导致系统不稳定的规模过小的环境。由于他们糟糕的架构,包括网络和硬件不稳定,他们的团队经常发现他们自己在争先恐后地从可避免的停机问题中恢复过来。为了拥有一个完整、健全、高可用性和弹性的解决方案,您需要部署出色的软件作为健全架构的一部分。
- 您的管理员需要的帮助比他们承认的要多
开发企业级、高度可用的弹性 HA 解决方案,建立在具有增长能力的可靠架构之上,并不是一个简单的过程。针对弹性、应用程序和数据可用性进行设计和架构并不像从货架上拿一盒蛋糕那么容易。投入一系列工具、来自不同团队的流程、混合的 SLA 以及各种操作系统、应用程序、数据库和平台,您就有了需要帮助的秘诀。 最近,我采访了一位在企业支持环境中工作 20 年的老手。他描述了他的许多同行,有时甚至是他自己,都无法承受维护关键企业可用性的重担。您的管理员不仅在凌晨 2 点起床处理灾难性的多系统、多应用程序、几乎完全崩溃的数据中心时需要帮助,而且在企业可用性的日常辛勤工作中也需要帮助技术复杂的时代。
- 您的解决方案可能没有您想象的那么高可用
“虽然公共云提供商通常会在其服务水平协议中保证一定程度的可用性,但这些 SLA 仅适用于云硬件。”云提供商 SLA 未涵盖应用程序停机的许多其他原因,包括:
- 软件问题和错误
- 人为错误
- 软件故障
- 系统或应用程序挂起
作为客户体验副总裁,我们已经看到了一两件事,包括递归例程中退出失败导致的拒绝服务攻击、系统耗尽、健康、关键应用程序的安全软件隔离、内核恐慌以及随机运行的虚拟机重启。如果您的 HA 策略仅依赖于管理程序的 SLA,您的解决方案可能没有您想象的那么高可用。 您需要保护关键应用程序集群软件可以监视和检测问题,可靠地响应问题,并在必要时将操作转移到备用服务器,以确保您的产品和服务在需要的时间和地点保持可靠和可用。
我们的单一数据中心变成了一系列的云平台,跨越了几十个数据中心。我们的 skunk work 应用程序已经成为我们必须跨 Windows、Linux 和一些不同的 *Nix 变种管理的关键前端、中间件和后端解决方案的一部分。技术的进步意味着我们的高可用性变得更加复杂,需要更好的架构。这也意味着我们的团队需要更多帮助来管理这一切,如果我们不小心,可能意味着我们仍然容易受到攻击和暴露。您的团队面对的最多的是四个真相中的哪一个?
客户体验副总裁 Cassius Rhue 经许可转载自信息系统