Date: 4月 24, 2023
更好地维护高可用性集群需要考虑的十个问题
维护是每个公司生命周期的一部分。 每个基础设施都在不断移动和变化,即使是那些正在走向生命终结的基础设施。 您的团队可能在您过去所做的事情上取得了很大的成功,但随着系统变得越来越复杂,您过去认为成功的事情可能需要更新。 以下是改善集群维护、最大化高可用性和最小化停机时间的十个问题。i
系统维护时如何保证高可用
-
业务利益相关者最好的日子是什么时候?
与计划外停机不同,这些是多个团队、系统和互连资源根本无法用于计划活动的窗口。 例如,一家公司需要每月进行系统合规性检查和安全检查。 在此期间,业务运营被检查员、审计员等关闭。
-
团队安排维护的最佳日期是什么时候?
作为客户体验副总裁,我们与许多对某些事件和活动有限制日期的团队密切合作。 您的团队可能负责不止一组系统和服务器,并向具有关键应用程序和基础架构的多个团队报告。 了解哪些日子最适合团队可以帮助您避免分心、冲突和由于已知资源限制而浪费的时间。
-
什么日期和时间最适合合作伙伴、顾问和非公司承包商?
关键基础设施通常包括许多与公司人员配置没有直接关系的其他供应商和供应商。 这些资源包括操作系统、安全和 HA 供应商和顾问,以及来自基础架构提供商和其他合作伙伴的架构师。 提前了解哪些日子最好或包含在您的支持层中对于正确安排和人员配备至关重要。
随着全球团队的增加,为所有这些资源找到合适的时间是另一个需要回答的重要问题。 EST、IST、EMEA 和其他地区的资源最佳时间是什么时候?
-
维护的预期范围是什么? 维护活动的预期结果是什么? 整体思考。
超越对应用程序的简单维护,考虑包括它运行的整个环境。 最近,一位计划升级其应用程序的客户决定同时升级其操作系统。 不幸的是,这种范围上的微小变化带来了比预期更大的后果。 他们的应用程序不支持新升级的操作系统,问题接踵而至。 确保明确定义维护窗口的范围,并详细说明该范围的结果。 仅仅说环境有效是不够的。 尽可能详细说明预期版本、行为和可衡量的结果。 查看有关 IT 弹性的更多信息。
-
维护窗口的时间长度是多少(预期的,允许的)?
理想情况下,我们都希望有所有时间来执行维护,但客户遍布世界各地意味着对计划停机时间的容忍度很小——即使是关键任务。 当您计划维护时,预计停机时间有多长? 你真的能满足最大允许窗口吗? 如果不是,那么您将需要重新计划维护事件。
-
回滚计划是什么?
虽然我们希望没有任何问题,但我们应该意识到我们正在处理软件、复杂的环境和配置,以及由许多团队处理的许多移动部分。 回滚计划——即将系统恢复到维护前的版本和设置的方法——是必不可少的。 确保如果出现问题,您有回滚计划,例如完整备份或机器映像。 查看有关灾难恢复的更多信息。
-
所涉及的各个团队成员是谁,他们的角色和职责是什么? 是否明确定义了所有必需的角色和职责?
作为客户体验副总裁,我们的团队参与了一项维护活动,由于关键团队成员失踪,该活动遇到了无法预料的延误。 在制定计划和架构时,请务必确定团队成员以及所需的 IT 角色和职责。 正如高级支持工程师 Greg Tucker 提醒客户的那样,HA 涉及环境的每一层,包括存储、网络、计算、操作系统、安全、策略等。
-
维护计划记录在哪里? 最后一次审查、更新和测试计划是什么时候?
成功是美好的,但它也会让你沾沾自喜或自得其乐。 经过多年的成功,您的过程可能不再被详细记录或被积极遵循。 回答这些问题可以确保您的团队继续取得成功。
-
在生产计划之前的测试/QA 中解决了哪些问题?
感谢您继续测试维护步骤。 确保将在测试环境中解决的问题正确添加到生产维护计划中。 SIOS 客户成功团队已经看到客户执行 QA 测试、发现错误假设并进行必要的更正,但未能将这些更正放入他们的生产清单中。
-
您的计划中缺少谁或缺少什么?
现在您已经查看了计划、时间安排、团队、角色和架构,最后一个问题仍然存在:缺少谁或缺少什么? 作为最后一步,查看您的计划并提出以下问题:“我们的计划中缺少谁?” 另外,考虑问“我们的计划中缺少什么?” 作为客户体验副总裁,我与我们的团队一起审查了无数客户的活动计划。 最令人难忘的维护计划审查之一揭示了回滚计划中的一系列步骤,其中包括从克隆图像和备份数据恢复服务器。 但是,映像克隆和数据备份步骤并未包含在任务列表中。 他们被忽视了,并被认为是在流程的早期完成的。
系统维护是保持高可用性的关键要素
系统维护是维护计算机系统的关键和必要部分。 维护可以是纠正错误、引入新的软件功能或使系统适应新的用例。 当所讨论的系统是对组织保持业务连续性至关重要的业务关键系统时,制定一个深思熟虑的计划是必不可少的。 考虑这十个问题和您自己的其他问题,以确保您的维护满足业务需求,而不会出现不必要的风险或延误。
立即联系 SIOS 获取高可用性和灾难恢复解决方案。
经 SIOS 许可转载