Date: 12月 9, 2018
可用性方程
您熟悉可用性方程吗?简而言之,此等式显示了将应用程序恢复到可用性所需的总时间如何等于检测应用程序遇到问题所需的时间加上执行恢复操作所需的时间:
TRESTORE = TDETECT + TRECOVER
高可用性解决方案的关键概念
该等式引入了高可用性(HA)的关键概念:聚类,问题检测和后续恢复。HA解决方案监控业务应用程序组件的运行状况当检测到问题时,这些解决方案可以恢复它们的服务。部署高可用性解决方案的目标是最大限度地减少停机时间。减少检测和恢复时间是您选择部署的任何HA解决方案的两个重要任务。今天的应用程序是技术组合:服务器,存储,网络基础设施等。在查看HA选项时,请确保您了解每个解决方案用于检测所有中断类型并从中恢复的技术。每项技术都会对服务恢复时间产生直接影响。
本地检测和恢复
高可用性解决方案非常简单。一种对提供最快恢复时间至关重要的技术称为本地检测和恢复(也称为服务级别问题检测和恢复)。在基本群集解决方案中,服务器已连接。它们被配置为一个或多个服务器可以在服务器发生故障时接管另一个服务器的操作。群集中的服务器节点不断地向对方发送小数据包(通常称为心跳信号)以指示它们“活着”。在简单群集环境中,当一台服务器停止生成心跳时,其他群集成员会认为此服务器已关闭。然后,它将开始接管该服务器的操作域的责任。这种方法足以检测服务器级别的故障。但除非问题导致心跳信号中断或停止,否则服务器级检测不充分。更重要的是,它实际上可以放大停电的程度和影响。例如,如果Apache进程挂起,服务器仍可能发送心跳。即使Web服务器子系统已停止执行其主要功能。基本服务器级群集解决方案不是在相同或不同的服务器上重新启动Apache子系统,而是在备份服务器上重新启动故障服务器的整个软件堆栈,从而导致用户中断并延长恢复时间。
这个怎么运作
使用本地检测和恢复,高级群集解决方案在各个群集服务器中部署运行状况监视代理,以监视各个系统组件,如文件系统,数据库,用户级应用程序,IP地址等。这些代理使用特定于受监视组件的启发式方法。因此,代理可以预测和检测操作问题,然后采取最合适的恢复操作。通常,最有效的恢复方法是在同一服务器上停止并重新启动问题子系统。通过在同一物理服务器中启用恢复,可以大大减少将应用程序还原到用户可用性的时间。此外,通过更简单地检测故障,而不仅仅是通过观察服务器级心跳。诸如SIOS的SteelEye Protection Suite for Linux等解决方案可为您的环境提供此级别的检测和恢复。 确保您部署的HA解决方案也支持本地检测和恢复。您想为您的项目享受高可用性解决方案吗?请与我们联系。需要更多参考,以下是我们的成功案例。经Linuxclustering许可转载