Date: 9月 23, 2021
理解和避免裂脑情景
裂脑。 我们博客的大多数读者都会在计算环境中听说过这个词,但我们不得不同情那些第一印象是如果有人有两个大脑会导致的混乱同时。
什么是故障转移群集裂脑方案?
在故障转移集群裂脑场景中,两个节点都不能与另一个节点通信,备用服务器可能会因为认为活动节点发生故障而将自己提升为活动服务器。 这导致两个节点都变为“活动”,因为每个节点都会将另一个节点视为失败。 因此,由于两个节点上的数据都会发生变化,数据完整性和一致性会受到损害。 这被称为裂脑。
如果不采取适当的步骤来避免它们,SAP HANA 资源层次结构可能会发生两种类型的脑裂场景。
- HANA 资源裂脑: HANA 资源在多个集群节点上处于活动状态 (ISP)。 这种情况通常是由影响集群节点之间通信路径的临时网络中断引起的。
- SAP HANA 系统复制裂脑: HANA 资源在主节点上为 Active (ISP),在备份节点上为 Standby (OSU),但数据库正在运行并注册为两个节点上的主复制站点。 这种情况通常是由于在故障转移期间无法停止先前主节点上的数据库、为数据库启用了自动启动,或者数据库管理员在集群软件环境之外的辅助复制站点上手动运行“hdbnsutil -sr_takeover” .
避免裂脑问题
避免或解决方案中每种类型的裂脑情景的建议SIOS 保护套件集群环境如下。
在裂脑情况下,每隔 quickCheck 时间间隔(默认为 2 分钟),就会记录一条类似于以下内容的消息并将其广播到所有打开的控制台,直到问题得到解决。
EMERG:hana:quickCheck:HANA-SPS_HDB00:136363:WARNING: 服务器 hana2-1 和 hana2-2 之间发生临时通信故障。需要手动干预以最大程度地降低数据丢失的风险。 要解决这种情况,请停止使用以下资源层次结构之一:hana2-1 上的 HANA-SPS_HDB00 或 hana2-2 上的 HANA-SPS_HDB00。 资源层次结构停止服务的服务器将成为辅助 SAP HANA 系统复制站点。
解决建议:
- 调查每个集群节点上的数据库以确定哪个实例包含最新或相关的数据。 该决定必须由熟悉数据的合格数据库管理员做出。
- 包含需要保留的数据的节点上的 HANA 资源在 LifeKeeper 中将保持 Active (ISP),并且将重新注册为辅助复制站点的节点上的 HANA 资源层次结构将在救生员。 右键单击 HANA 资源层次结构中应停止服务的节点上的每个叶资源,然后单击中止服务…
- 一旦 SAP HANA 资源层次结构成功退出服务,LifeKeeper 将在下一个 quickCheck 间隔(默认为 2 分钟)内将备用节点重新注册为辅助复制站点。 一旦复制恢复,备用节点上不存在于主动节点上的任何数据都将丢失。 备用节点重新注册为辅助复制站点后,SAP HANA 层次结构已返回到高度可用的状态。
SAP HANA 系统复制裂脑解决方案
而在这种裂脑场景中,会记录一条类似于以下内容的消息,并将其广播到所有打开的控制台。 检查间隔(默认为 2 分钟),直到问题得到解决。
EMERG:hana:quickCheck:HANA-SPS_HDB00:136364:WARNING: SAP HANA 数据库 HDB00 正在运行,并在 hana2-1 和 hana2-2 上注册为主要主机。 需要手动干预以最大程度地降低数据丢失的风险。 要解决这种情况, 请通过在该服务器上运行命令“su – spsadm -c “sapcontrol -nr 00 -function Stop””来停止 hana2-2 上的数据库实例 HDB00。 一旦停止,它将成为辅助 SAP HANA 系统复制站点。
解决建议:
- 调查每个集群节点上的数据库,确定Standby节点上是否存在重要数据,而Active节点上不存在。 如果在裂脑状态下重要数据已经提交到 Standby 节点上的数据库,则需要手动将数据复制到 Active 节点。 该决定必须由熟悉数据的合格数据库管理员做出。
- 一旦任何丢失的数据从备用节点上的数据库复制到活动节点,通过运行 LifeKeeper 警告消息中给出的命令停止备用节点上的数据库:
su – adm -c “sapcontrol -nr <Inst#> -function Stop” 其中是 HANA 安装的小写 SAP 系统 ID,<Inst#> 是 HDB 实例的实例编号(例如,实例编号、例如,HDB00 是 00)
- 一旦数据库成功停止,LifeKeeper 将在下一个 quickCheck 间隔(默认为 2 分钟)内将备用节点重新注册为辅助复制站点。 一旦复制恢复,备用节点上不存在于主动节点上的任何数据都将丢失。 备用节点重新注册为辅助复制站点后,SAP HANA 层次结构已返回到高度可用的状态。
了解常见的裂脑场景并采取这些步骤来缓解它们可以节省您的时间并保护数据完整性。
经授权转载SIOS