SIOS LifeKeeper for Linux v 9.8.1 改进了公司管理 HA/DR 的方式
在当今技术驱动的环境中,公司正在寻求创新的解决方案来有效维护其复杂的应用程序环境。在这个视频中,托德·多恩SIOS Technology 的销售工程师解释了最新版本如何适用于 Linux 的 SIOS LifeKeeper帮助公司保护关键企业系统免受停机和灾难的影响。 “该版本具有新的网页管理控制台。它是独立的,不需要额外的安装或第三方插件,”Doane 说。
经许可转载安全操作系统
SIOS SANless clusters High-availability Machine Learning monitoring
在当今技术驱动的环境中,公司正在寻求创新的解决方案来有效维护其复杂的应用程序环境。在这个视频中,托德·多恩SIOS Technology 的销售工程师解释了最新版本如何适用于 Linux 的 SIOS LifeKeeper帮助公司保护关键企业系统免受停机和灾难的影响。 “该版本具有新的网页管理控制台。它是独立的,不需要额外的安装或第三方插件,”Doane 说。
经许可转载安全操作系统
GenApp 还是 QSP?这两种解决方案均受 LifeKeeper 支持,有助于防止关键应用程序停机,但了解这些解决方案之间的细微差别对于选择适合您的特定需求的解决方案非常重要。以下是一些功能、优点和潜在用例,供您决定哪些功能最适合您的环境。
GenApp,通用应用程序的缩写,是一种资源类型,允许您在 LifeKeeper 中管理自定义应用程序。借助灵活的框架,您可以使用自己的脚本来执行应用程序可能需要的各种任务,以自动执行故障转移和恢复过程。这种灵活性允许对 LifeKeeper 如何处理启动、关闭、监控、记录操作等进行精细控制,以确保应用程序的高可用性。
QSP或快速服务保护旨在成为保护操作系统服务的快速且简单的方法。 QSP 通过内置的可调整超时来自动执行这些应用程序的监控、故障转移和恢复。此外,您可以创建依赖关系,以便服务可以与需要该服务的其他应用程序一起启动和停止。
您需要确定的第一件事是是否可以通过停止并重新启动服务或守护程序来恢复您的应用程序。如果是这样,那么 QSP 可能是保持应用程序正常运行的最佳且最快的解决方案。这是因为它不需要编码,几分钟之内您就可以将应用程序添加为 LifeKeeper GUI 中的 QSP 资源。此外,它是核心产品的一部分,任何编码更新都包含在新产品版本中。但是,如果您的应用程序除了简单的运行状况检查和操作系统服务级别的重新启动功能之外还需要其他功能才能正确恢复,那么您将需要探索 GenApps。为 GenApp 资源类型创建自定义脚本将需要更深入的技术技能和长期维护,但是,执行保持应用程序平稳运行所需的任何任务的灵活性至关重要,尤其是对于利基应用程序。这些任务可以是监视、日志记录、清理任务或配置更改等任何任务。
Linux 和 Windows 版 LifeKeeper 均支持 GenApps 和 QSP,更多技术细节可在下面的链接中找到。
经许可转载安全操作系统
在支持工作中,我们从客户那里得到的最常见问题之一是“是什么促使我们故障转移从我的主节点到辅助节点?”。
发生这种情况的原因有多种……我们将尝试解释最常见的原因以及如何识别这些原因。
在我们开始之前,让我们区分“故障转移”和“切换”,因为许多客户可以互换使用这些术语。
“切换”是手动将层次结构从主节点移动到辅助节点的行为。这可以通过 GUI、在辅助节点上执行“In Service”或通过命令行来完成:
Perform_action -a Restore -t $LKTag(使层次结构投入使用)
另一方面,“故障转移”是在没有任何手动交互的情况下执行的……并且被定义为在先前活动的服务器、应用程序或硬件/网络发生故障时自动切换到备份服务器。
故障转移和切换本质上是相同的操作,不同之处在于故障转移是自动的并且通常在没有警告的情况下运行,而切换是有意的并且需要人为干预。
以下是启动“故障转移”的最常见“故障”:
服务器故障
通讯(心跳)失败
LifeKeeper 有一个内置的“心跳”信号,可以定期通知配置中的每个服务器其配对服务器正在运行。默认情况下,LifeKeeper 每五秒在服务器之间发送一次心跳(这对于繁忙的集群是可调整的)。如果通信问题导致心跳跳过两次心跳,但在第三次心跳时恢复,LifeKeeper 不会采取任何操作。然而,如果通信路径在三个节拍内保持无效状态,LifeKeeper 会将该通信路径标记为无效。如果冗余通信路径也失效(我们建议两条路径),它将启动故障转移。
以下情况可能会导致心跳丢失:
调整心跳参数:
LCMNUMHBEATS=Y(其中 Y 是在日志中记录通信路径失败错误之前的心跳数)。默认值为 3,如果您的系统繁忙或跨 WAN,则可以更改,以避免错误的通信路径故障。
LCMHBEATTIME=5(这是以秒为单位的间隔,这是默认值,不应更改)。
默认情况下,这些可调参数不在 /etc/default/LifeKeeper 文件中。您将需要添加它们来更改心跳值。
在 /etc/default/LifeKeeper 中添加这些可调参数和值后,您需要停止 LifeKeeper 并重新启动它。您可以使用命令 lkstop -f,该命令会停止 LifeKeeper,但不会关闭受保护的应用程序。
您需要在两个系统上执行此操作。
这将允许 LifeKeeper 在将通信路径标记为失败之前等待 5 倍 Y 秒。
什么是裂脑,是什么原因导致的?
如果使用单个通信路径并且该通信路径发生故障,则 LifeKeeper 层次结构可能会尝试同时在多个系统上投入使用。这称为错误故障转移或“裂脑”场景。在里面“裂脑”情景,每个服务器都认为它控制着应用程序,因此可能会尝试访问共享存储设备并向其写入数据。为了解决裂脑情况,LifeKeeper 可能会导致服务器关闭或重新启动,或者使层次结构停止服务,以确保所有共享数据的数据完整性。此外,TCP 通信路径上的大量网络流量可能会导致意外行为,包括错误故障转移和 LifeKeeper 无法正确初始化。
以下是可能导致脑裂的情况:
使用仲裁/见证来防止裂脑
LifeKeeper 旨在监控单个应用程序和相关应用程序组,在受保护的应用程序发生故障时定期执行本地恢复或通知。例如,相关应用程序是主要应用程序依赖于较低级别存储或网络资源的层次结构。 LifeKeeper 监控这些受保护资源的状态和运行状况。如果确定资源处于故障状态,则将尝试在没有外部干预的情况下恢复当前系统(服务中节点)上的资源或应用程序。如果本地恢复失败,将启动资源故障转移。
应用失败
删除失败的示例:
文件系统问题
IP地址故障
当 IP 恢复套件检测到 IP 地址故障时,由此产生的故障会触发 IP 本地恢复脚本的执行。 LifeKeeper 首先尝试在当前网络接口上恢复 IP 地址的服务。如果本地恢复尝试失败,LifeKeeper 会将 IP 地址和所有相关资源故障转移到备份服务器。在故障转移期间,删除过程将取消当前服务器上的 IP 地址配置,以便可以在备份服务器上进行配置。此删除过程失败将导致系统重新启动。
预订冲突
SCSI设备
用于确定故障转移原因的资源
/var/log/lifekeeper.log
这个由 LifeKeeper 编写的日志文件应该是您在确定可能导致故障转移的原因时首先查看的地方。
例如,最常见的原因之一是通信路径故障。以下是发生这种情况时您将在 lifekeeper.log 中找到的条目示例:
9 月 21 日 11:06:57 es1ecc08tev lcm[46893]:信息:lcm.tli_hand:::005257:在开发 10.236.17.226/10.238.17.226 上错过了 48 个心跳 1(lcm 驱动程序编号 = 129)。
9 月 21 日 11:06:57 es1ecc08tev lcm[46893]:信息:lcm.tli_hand:::005257:在开发 10.236.17.226/10.237.17.226 上错过了 48 个心跳 1(lcm 驱动程序编号 = 1360929)。
9 月 21 日 11:07:02 es1ecc08tev lcm[46893]:信息:lcm.tli_hand:::005257:在开发 10.236.17.226/10.238.17.226 上错过了 48 个心跳 2(lcm 驱动程序编号 = 129)。
达到最大心跳数后,故障转移开始:
9 月 21 日 11:10:49 es6ecc08tev lcm[9416]: INFO:lcm.tli_hand:::005257:missed heartbeat 47 of 48 on dev 10.237.17.226/10.236.17.226 (lcm 驱动程序编号 = 71)。
9 月 21 日 11:10:49 es6ecc08tev eventslcm[47082]:警告:lcd.net:::004258:10.237.17.226/10.236.17.226 与 es1ecc08tev 的通信失败
9 月 21 日 11:10:49 es6ecc08tev eventslcm[47082]:警告:lcd.net:::004261:将启动系统“es1ecc08tev”的通信故障转移。
9 月 21 日 11:10:49 es6ecc08tev lifekeeper[47121]:通知:event.comm_down:::010466:通信 es1ecc08tev 失败
/var/日志/消息
这个 Linux 生成的文件通常包含由系统上运行的各种进程和服务生成的系统消息。这些消息可以包括:
系统启动消息:有关系统启动过程的信息,包括内核消息和来自 systemd 或其他 init 系统的消息。
服务启动和关闭消息:指示服务何时启动或停止的消息,包括在此过程中遇到的任何错误或警告。
内核消息:有关 Linux 内核操作的信息,包括硬件检测、设备初始化以及内核错误或警告。
网络相关消息:有关网络连接、防火墙活动和网络配置更改的信息。
系统性能信息:与系统性能监控相关的消息,例如CPU使用率、内存使用率、磁盘I/O统计信息。
SIOS科技公司提供高可用性和灾难恢复通过针对最重要应用程序的集群管理来保护和优化 IT 基础设施的产品。今天联系我们了解更多信息。
经许可转载安全操作系统
Betsy 是一辆 1999 款 Amazon Green Ford F-150,这是我购买的第一辆车。我不知道我的卡车是如何得到“贝特西”这个名字的,也不知道为什么它被卡住了,但它确实被卡住了。在超过 17 年的时间里,贝特西做了各种各样的事,从在海滩巡游到在跑道上比赛,拖运大量的园林绿化用品,再到带着我不断壮大的家人穿越东南部。经过很多英里和多年的学习如何保养卡车后,她开始展示磨损情况。在一次下午开车时,我注意到温度计逐渐升至 H(高)。经过几次交谈后,我带贝特西去了当地一家经销商的服务部门,开始了为期一周的自我折磨。
第一次访问时,我匆忙提供了高级细节。 “几分钟后,卡车就开始发热了,”我说。六个小时后,我花了 100 美元取回了我的卡车。技术人员无法重现该问题。因此,我被送回家,并支付了诊断费,并要求如果再次发生这种情况就回来。第二次来时,我匆忙补充说,问题发生在 18 分钟或 14 英里的驾驶时间超过 45 分钟的通勤时间之后。六个小时后,花了大约 375 美元,我取回了我的卡车。技术人员能够用新的细节重现问题,并更换了恒温器和软管。第三次来的时候,技术员的电话提前打来:“先生。”鲁,你需要一个新的散热器。”
这就是这个故事的简短版本。较长的版本包括我未能向服务技术人员解释在第一次和第二次访问之间我已经更换了恒温器。它还忽略了一个事实,即我对散热器液体进行了冲洗和填充,并且很可能在此过程中使软管夹松动。最重要的是,它忽略了这样一个事实:我的邻居(一名机械师)在卡车出现此问题之前告诉我,要更换散热器并进行其他预防性维护。现在,这与更好的客户体验有什么关系呢?
以下是我从自己遭受的磨难中得到的三个教训,它们将改善您的客户体验,而不仅仅是您的下一次汽车服务。
在我第一次访问时,我匆忙向服务技术人员提供了最基本的详细信息。结果,无法实现适当的解决方案。世界上的许多事件发生在最不合时宜的时间,并带来很大的压力和时间限制,但向您的客户体验团队提供尽可能多的详细信息仍然是最佳实践。您什么时候注意到这个问题,或者问题是什么时候发生的?您注意到了什么或者问题的症状是什么?当时还发生了什么其他事情?
考虑您可能提供的任何其他支持详细信息,包括错误消息和错误代码、软件系统日志、客户端日志以及捕获错误情况或症状的任何图片。很多时候我们喜欢认为软件中的事物是不相关的,而事实上它们是非常相关的。
当我第二次来的时候,我给自己和技术人员带来了又一次极大的伤害。我没有解释我已经尝试过的所有事情(好的和坏的),并分享解决问题的失败尝试,而是推迟了我的解决方案。如果我告诉大家我已经更换了恒温器,对散热器进行了冲洗和重新填充,也许技术人员会去其他地方寻找问题。当您分享您为解决问题所采取的措施以及您可能采取的措施使问题变得更糟时,它可以帮助您的客户体验团队改进他们的响应,专注于其他问题领域,消除虚假的转移注意力(不相关的问题或事情)伪装成真实问题),并提供整体更出色的体验。
在问题出现之前,我的邻居根据他多年的经验和我的卡车的车龄提供了建议。他告诉我更换散热器,进行一些预防性维护,并对卡车的整体健康状况进行例行检查。最有可能的是,您的客户体验团队在其知识库中提供了与您的产品相关的建议以及与企业可用性要求运营相关的多年经验。使用它们进行预防性维护、主动调整,并检查您的可用性环境是否遵守这些最佳实践。但最重要的是,当他们提出建议时,执行它。最后,您将节省大量时间、金钱和麻烦。
第三次访问两天后,新散热器的缺货到达,我更换了散热器。我又继续开着 Betsy 好几年,最后才把它换成了一辆家用 SUV。
经许可转载安全操作系统
西奥斯科技宣布推出适用于 Linux 管理员培训的 SIOS LifeKeeper乌德米,一个在线技能市场和学习平台。这一发展突显了 SIOS 致力于通过为全球企业提供全面的高可用性和灾难恢复来促进关键应用程序的可用性(医管局/灾难恢复) 技术培训。
Udemy 的平台提供无与伦比的便利性和灵活性,让学习者可以随时随地访问 SIOS 管理培训。适用于 Linux 的 SIOS LifeKeeper 管理员培训涵盖了确保关键 Linux 应用程序、ERP 和数据库始终可用(即使在出现硬件或软件故障时)所需的关键概念和方法。
SIOS Technology Corp 全球销售与营销副总裁 Margaret Hoagland 表示:“与 Udemy 的合作标志着我们使命的一个重要里程碑,即让所有人都能获得 SIOS HA/DR 专业知识。通过利用 Udemy 的平台,我们可以覆盖更广泛的领域。” IT 专业人士的受众,为他们提供确保组织高可用性和灾难恢复所需的知识和技能。”
未来的学习者可以通过首先在 Udemy (www.udemy.com) 上创建免费帐户并使用其企业电子邮件注册来访问 SIOS LifeKeeper for Linux 管理员培训课程。注册后,他们在网站上提交一份表格SIOS培训现场,使用他们在 Udemy 上注册时使用的同一企业电子邮件来接收课程邀请。
经许可转载安全操作系统