Date: 7月 3, 2023
为什么 SIOS HANA 多目标自动化比您想象的更重要
Larry(化名)是一位 SIOS 客户,过去曾部署过用于高可用性和灾难恢复 (HA/DR) 的复制解决方案。当他启动 PoC 来测试 Linux 的双节点复制解决方案时,使用SIOS 生命守护者和DataKeeper复制一样,他的首要任务是保护数据完整性。Larry 的 PoC 测试清单包括标准项目,其中包括:数据库启动/停止、将数据库迁移到备份节点、维护活动和服务器故障转移等等。Larry 坚信该解决方案能够实现快速服务器切换(即优雅的迁移)和快速故障转移(即突然强制迁移)应用程序、数据库、存储和服务从一台服务器到另一台服务器的迁移。但是,他更加强烈和热情地认为此类活动不应导致数据丢失。
通过避免脑裂来保护数据完整性
除了这些标准测试之外,拉里还添加了特定测试来试图强制“裂脑“ 设想。脑裂是指当集群成员无法相互通信,但处于运行和可操作状态,并随后同时获得公共资源的所有权时,就会发生这种情况。实际上,两名公交车司机正在争夺方向盘。由于其破坏性,脑裂可能会导致数据丢失或数据损坏,最好通过使用一种机制来确定哪个节点应保持活动状态(驱动总线)以及哪个节点应停止写入磁盘来避免。
虽然在部署使用仲裁和仲裁加见证功能的集群中,裂脑场景相对不常见,但随着每个节点添加到集群配置,解决裂脑问题的难度呈指数级增加。在具有三个或更多节点的多目标配置中,集群软件不仅必须协调故障转移到正确的节点,还必须自动将复制从新的主节点切换到第三节点,以维持灾难恢复保护,同时确保在不同节点之间进行正确仲裁。节点。在其他集群解决方案中,必须手动编写这些复杂的操作脚本,并在发生故障转移时手动更新以恢复正常操作,并且当发生脑裂时,只会变得更加困难。
由于 SIOS LifeKeeper 的功能和改进以及SAP HANA 应用程序恢复套件(方舟),拉里很难引入裂脑场景。然而,当他最终设计出一款产品时,他因了解 SIOS 产品用于保护数据的逻辑而受益匪浅。Larry 认识到 SIOS 集群软件提供的数据保护设计的高度复杂性。他选择了 SIOS LifeKeeper。
SIOS HANA 多目标自动化差异
像 Larry 这样的场景只是 SIOS 的 HANA 多目标自动化比您想象的更重要的九个原因之一。以下是全部九个:
- 增强保护
SIOS 的解决方案简化了多目标场景中 HANA 数据库资源的保护。基于向导的选项可快速检测当前配置并将信息精确添加到 LifeKeeper 配置中。错误检测既简洁又信息丰富,可以帮助用户解决任何问题并随后节省时间。 - 简化管理
Natalie(化名)负责 HANA 多节点配置。当服务器出现故障或需要维护时,Natalie 利用不同的脚本和工具来执行所需的操作。然而,这是不可扩展的。迁移到 SIOS LifeKeeper 后,Natalie 和团队有一个简单的 UI 来执行所有核心任务,例如停止和重新启动 HANA 和 HANA 系统复制。此外,如果发生灾难,团队可以使用单一、简化的 SIOS UI,而无需搜索最新的运行手册、查找正确脚本的副本或在凌晨 2 点致电 Natalie。。 - 简化监控
SIOS UI 中直观的状态报告为团队提供了一种快速的方法来确定复制地位。与使用监控板和自制脚本的集合相比,使用单一工具可以简化管理并节省时间。 - 自动恢复
某些 HANA HSR 解决方案能够在这两个节点之间执行 HANA 复制的故障转移。然而,管理员通常必须在系统故障转移后重新注册复制。如果有三个或更多节点,管理员是否了解如何更新第三个或第四个节点上的注册?他们会记得正确使用同步和异步吗?SIOS 解决方案能够处理三个甚至四个节点的多目标复制,并在出现故障后无缝地自动注册目标节点。 - 灵活性和可扩展性
通过两个、三个或四个节点组合来保护 HANA 集群的能力意味着客户可以灵活地提高可用性和灾难恢复级别。具有法定人数的两个节点客户能够提供针对灾难的可用性保护,并利用具有握手功能的 HANA 接管,以接近零停机时间处理维护活动。部署三个节点的客户可以通过在不同的数据中心或区域中部署具有异步复制功能的第三个节点来获得额外的灾难恢复功能。为了获得更多好处,三节点客户可以部署具有存储仲裁的第四个节点,以启用高可用性和灾难恢复如果整个数据中心丢失。 - 数据保护
让我们回到拉里的问题。他在主节点 A 上运行 HANA,并向节点 B 和 C 进行多目标复制。当您的手动工作以灾难告终时会发生什么?哪个节点是主节点?当节点 A 崩溃时,一切是否同步?如何避免出现错误的节点?除了在多目标 HSR 配置中添加对三个或更多节点的支持之外,新的 HANA ARK 还包括额外的管理工具,可在发生灾难或不幸的脑裂事件时提供帮助。HANA_DATA_OUT_OF_SYNC_<tag> 标志可防止用户意外在错误的系统上恢复数据库。HANA_LAST_OWNER_<tag> 标志可帮助管理员了解在备用节点不同步的情况下何时对主系统执行了操作。该标志告诉管理员该节点是最后一个所有者,并且应该在其中恢复复制。当备用数据库之间的所有通信暂时丢失然后恢复时,HANA_DATA_CONSISTENCY_UNKNOWN_<tag> 帮助 SIOS 自动解决并恢复复制。当与最佳实践、仲裁部署和适当的调整结合使用时,这些工具可以让像 Larry 这样的管理员避免脑裂,并在发生脑裂时安全地恢复。
- 报告、性能和灾难恢复
当然,多目标的真正好处在于额外的节点以及这些节点解锁的功能。在同一数据中心使用三个节点可以通过 logreplay_readaccess 参数释放更多报告的潜力,同时仍然在灾难恢复站点维护一个节点。此外,SIOS 对不同复制模式的支持使用户可以选择拥有同步节点和异步节点,以便跨数据中心(或区域)获得更好的性能。 - 持续测试
您的团队多久测试一次自制脚本?您的运行手册中有关配置、管理和凌晨 2 点场景的审核频率如何。HANA 多目标解决方案不仅经过 SIOS 工程师、QA 和客户体验专家的持续测试,而且还针对每个版本和更新的 HANA 故障转移和恢复流程持续进行测试和验证。 - 广泛的文档
不久前,我们的团队与一位客户合作进行集群管理。虽然他的前任对他们的环境非常了解,但员工晋升和重组让许多 IT 人员负责他们知之甚少的系统。当被问及其配置的操作手册和文档时,客户无法从以前的团队或以前的管理员那里找到详细信息。除了坚如磐石的自动化、管理、监控、恢复和数据保护之外,SIOS 多目标解决方案还包括有关由 LifeKeeper 控制的 HANA 多目标系统的实施、操作和管理的详细且易于使用的文档。
利用 SIOS 的整体解决方案意味着客户可以受益于一致、及时的监控和检测、快速、可靠和高效的恢复,以及保证高可用性和灾难恢复保护的全自动解决方案。联系我们有关 SAP HANA 多目标自动化的更多信息。
-Cassius Rhue,客户体验副总裁
经许可转载安全操作系统