Date: 12月 16, 2018
在群集架构中消除SPoF的最佳实践
就像链条仅与其最薄弱的环节一样强大,高可用性集群的有效性受到其部署中存在的任何单点故障(SPOF)的限制。 为确保绝对最高级别的可用性,必须删除SPOF。 有一种简单的方法可以消除这些弱链接的集群。
迈出第一步
明智地,在需要消除群集架构中的SPoF时,识别存在的任何SPOF,特别注意服务器,网络连接和存储设备。 现代服务器具有冗余和纠错内存,跨硬盘和多个CPU的数据条带化,这消除了大多数硬件组件作为SPOF。 但是,软件和人为错误可能导致服务器或应用程序停机。 部署高可用性集群解决方案可监控服务器和关键应用程序的运行状况,并在发生故障时采取自动恢复操作,从而消除了此SPOF。 所有群集解决方案都提供基本的ping测试来验证服务器功能。但只有更高级的产品才能跟踪应用程序运行状况,并能够自动从检测到的故障中恢复。 更深层次的检测和恢复可最大限度地减少停机时间。为冗余构建集群的所有组件对于最大化正常运行时间至关重要。 与存储的连接通常代表SPOF,并且将多路径构建到任何共享存储配置中至关重要。 Linux DM Multipath(DM-MPIO)在路径发生故障时将块I / O重新路由到备用路径。这消除了从服务器到存储的路径中的所有组件作为潜在的SPOF,并在发生故障时提供自动恢复。
还有什么可以做的
但即使配置了多路径,共享存储/ SAN仍然代表单点故障,就像它所在的物理数据中心一样。 为了提供进一步的保护,必须部署关键数据的异地复制以及跨站点群集。 结合站点之间的网络冗余,这种最佳解决方案将消除群集架构中的SPoF。实时复制可确保始终提供最新的业务关键数据副本。异地执行备份数据中心或云服务还可以防止火灾,停电等导致的主要数据中心中断。使用应用程序级别的监视和自动恢复,共享存储的多路径以及异地保护的数据复制,可以消除群集体系结构中潜在的单点故障。 在群集架构和部署期间关注这些组件将确保最大可能的正常运行时间。