Date: 12月 3, 2021
如何通过集群实现高可用性
如何通过集群实现高可用性
什么是高可用性?
高可用性(HA) 是技术系统的一个组成部分,可消除单点故障以确保长时间的连续运行或正常运行。 高可用性集群是支持需要最少停机时间和持续可用性的关键业务应用程序的服务器组。
所有组织都使用各种关键业务数据库和应用程序,例如数据仓库、电子商务应用程序、客户关系管理系统 (CRM)、财务系统、供应链管理和商业智能系统。 当系统、数据库或应用程序出现故障时,这些组织需要高可用性保护来保持系统正常运行,并将收入损失、员工效率低下和客户不满的风险降至最低。
高可用集群包含五个设计原则:
- 当活动组件出现故障时,它们会自动故障转移到冗余系统以进行操作。 这消除了单点故障。
- 无论原因如何,它们都可以在发生应用程序级故障时自动检测它们。
- 它们确保在系统故障期间不会丢失大量数据。
- 它们会自动快速地故障转移到冗余组件,以最大限度地减少停机时间。
- 它们提供手动故障转移和故障恢复的能力,以最大限度地减少计划维护期间的停机时间。
TechTarget 将 HA 定义为“一个系统或组件,可以持续运行很长时间。 可以相对于“100% 运行”或“永不失败”来衡量可用性。一个广泛持有但难以实现的系统或产品可用性标准被称为‘五个 9’ (99.999%) 的可用性。”但让我们用简单的术语定义高可用性:
高可用性可确保您的系统、数据库和应用程序在需要时运行。
“何时”考虑了应用程序必须启动和运行的时间百分比。 “根据需要”考虑了系统、数据库和/或应用程序的正常运行,不会丢失数据。
根据系统和/或应用程序,高可用性会有所不同。 例如,对于关键任务应用程序,例如您的电子商务系统,四个 9 (99.99%) 的可用性被视为行业标准。 凭借 99.99% 的可用性,您预计每年的停机时间不会超过 52.60 分钟或每天的停机时间不超过 8.64 秒。 但是,对于非关键应用程序和系统,例如单个桌面故障,高可用性可能是两个 9 (99%),这相当于每年 8.77 小时的停机时间或每天 1.44 分钟的停机时间。 在衡量可接受的停机时间时,重要的是要考虑:
- 计划外停机(例如,硬件或软件故障)
- 日常硬件和软件维护所需的计划停机时间
- 数据库和应用程序级别的正常运行时间
您对高可用性的选择取决于许多因素,包括应用程序对业务的重要性、客户是否受到影响、应用程序运行的频率、受影响的用户数量、数据库或应用程序必须以多快的速度故障转移到冗余系统,以及可以容忍的数据丢失量。
高可用性指标:RTO 和 RPO
通常用于评估 HA(以及灾难恢复 (DR))的两个指标是恢复时间目标 (RTO) 和恢复点目标 (RPO)。
- RTO 是任何中断的最大可容忍持续时间。 在线事务处理应用程序通常具有最低的 RTO,而那些关键任务的 RTO 通常只有几秒钟。
- RPO 是发生故障时可以容忍的最大数据丢失量。 对于 HA,RPO 通常为零,以指定在所有故障情况下都应为零数据丢失。
但是,您可以实现哪些 RTO 和 RPO 来支持高可用性与灾难恢复. 有了 HA,数据复制可以是同步的,因为您的冗余组件位于您的 LAN 环境中。 活动和备用数据库可以同时更新,从而实现完全、自动、实时的恢复,可以满足最苛刻的 RTO 和 RPO。 因此,您的备用实例是“热的”并且与您的活动实例同步,因此它可以在发生故障时立即接管。
但是,要在发生灾难时恢复系统、软件和数据,需要在广域网 (WAN) 上安装冗余组件。 这很重要,因为您必须将冗余组件保留在远离活动实例的地理位置。 但是对于 WAN,数据复制是异步的,以避免对吞吐量性能产生负面影响。 这意味着对备用实例的更新将滞后于对活动实例的更新,从而导致恢复过程的延迟。 由于灾难很少发生,一些延迟可能是可以容忍的,并且取决于 (a) 实现尽可能低的 RTO 和 RPO 对您的业务有多重要,以及 (b) 您可以分配多少预算来实现最佳 RTO 和 RPO。
SIOS 如何帮助您实现高可用性
SIOS 提供单一解决方案来满足各种操作系统、基础架构环境和应用程序的高可用性和灾难恢复需求,包括 SAP、SQL Server、Oracle 和其他运行在基于 SAN 的共享存储配置或 SAN 的环境中,本地数据存储配置。
- 视窗环境:当添加到 Windows Server 故障转移群集 (WSFC) 环境时,SIOS DataKeeper 允许您创建无 SAN 群集,其中共享存储群集是不可能或不切实际的,或者在基于 SAN 的 Windows 群集中添加复制以进行灾难保护。 快速、高效的基于主机的复制同步本地和远程集群节点上的本地存储,在物理、虚拟或云环境的任意组合中创建无 SAN 集群。
- Linux 环境:适用于 Linux 的 SIOS 保护套件是一个打包的聚类软件使用 SIOS LifeKeeper 和 SIOS DataKeeper 提供高可用性故障转移集群、持续应用程序监控、数据复制和可配置恢复策略的紧密集成组合的解决方案,以保护您的业务关键应用程序和数据免受停机和灾难的影响。 SIOS 保护套件让您可以使用各种存储设备(包括直连存储、iSCSI 和光纤通道)构建 SAN 或 SANLess 集群。 SIOS Protection Suite for Linux 支持所有主要的 Linux 发行版,包括 Red Hat Enterprise Linux、SUSE Linux Enterprise Server、CentOS 和 Oracle Linux。
使用 SIOS 解决方案,RPO 始终为零,而 RTO 取决于应用程序,但对于某些应用程序,通常为 30 秒到几分钟。 让我们来讨论一位客户在瑞士最大的零售公司中使用 HA 集群的“SIOS in action”案例研究。
Migros 通过 SIOS 高可用性解决方案实现其 POS 系统的关键业务连续性
Migros 是瑞士最大的零售公司、最大的连锁超市以及拥有超过 100,000 名员工的最大雇主。 它也是世界上最大的四十家零售商之一。 Migros 与总部位于瑞士的 IT 服务提供商和 SIOS 解决方案经销商 Realstuff Informatik AG 合作,希望将其销售点 (POS) 系统替换为一个新平台,该平台运行效率更高,并且可以最大限度地减少停机威胁。
新的 POS 系统在 Migros 的 650 家商店中提供价格和产品分类信息,零售商需要一个高可用性解决方案来支持日常销售。 如果没有 HA 系统,员工将无法在系统出现故障时为产品定价或称重货物,从而导致运营陷入停顿。 在评估选项后,Migros 决定需要一个开源服务器环境,提供高可用性和持续数据保护,独立于虚拟环境,并且可以由公司的 IT 员工内部操作。 为了满足这些要求,该团队选择了 SIOS Protection Suite for Linux 进行复制以保护 POS 数据。
在系统设计、客户培训和母语支持方面,Realstuff 与位于德国德累斯顿并由 Computer Concept 运营的中欧和东欧 SIOS 能力和支持中心合作。 对于 Migros 来说,在区域办公时间内从能力和支持中心获得 24x7x365 的支持非常重要。
Realstuff 实施了 SIOS Protection Suite 高可用性解决方案,以持续监控 POS 服务器并复制数据。 在每个商店位置,使用两台服务器来确保持续的数据保护。 如果一台服务器出现故障,第二个实例会立即接管工作。 此外,两台服务器都在监控系统上镜像数据资产。在此处阅读完整的 Migros 案例研究。
最后的想法
区域能力和支持中心与 Realstuff 协商,为实施和启动提供见解和指导,并举办了为期三天的培训研讨会来培训 Migros 团队。 Realstuff 经理兼执行委员会成员 Richard Huber 在部署后评论说,SIOS 高可用性解决方案的优势在于其灵活性、可靠性、易用性以及数据始终保持同步的保证。
如今,Migros 已通过 SIOS 易于使用的解决方案满足其对 HA 的要求,该解决方案提供对服务器、存储、应用程序、数据库和网络连接的持续监控,以检测故障点、减少停机时间、保持客户端连接并提供不间断的数据访问。
有关 SIOS 解决方案以及 SIOS 如何帮助您在 SQL Server 环境中实现 HA 的更多信息,您可以阅读“为什么要为 SQL Server 高可用性建立集群”在这里。