Date: 6月 5, 2024
优化 IT 系统以实现高可用性的策略
保持 IT 系统的高可用性 (HA) 对组织的成功至关重要。从关键数据库管理到确保无缝客户体验,实现不间断运营面临着独特的挑战,需要战略规划。以下是组织可以利用的一些关键策略来优化其 IT 系统以实现高可用性。
优化 IT 系统以实现高可用性的常见挑战
有几个不同的领域开始对 IT 系统构成挑战。其中一个经常出现的问题是与防病毒 (AV) 解决方案的兼容性。问题往往源于防病毒软件对系统的过度保护以及隔离对应用程序或 HA 解决方案运行至关重要的文件。当然,验证解决方案之间的兼容性始终很重要,但更进一步来说,对于管理系统的每个人来说,熟悉 AV 解决方案的工作原理并了解配置/请求更改 AV 解决方案的程序总是有好处的,这样关键的应用程序就不会中断。
除了 AV 解决方案外,防火墙配置也很重要——HA 解决方案通常会通过网络传输额外的通信来协调集群行为。因此,通常需要添加特定规则来适应 HA 解决方案,以防止 HA 解决方案执行错误的集群恢复操作。
最后,在配置高可用性系统时,访问控制原则会变得稍微复杂一些。虽然各个团队(例如,数据库团队、SAP 团队、云团队 – 无论事物如何分布)都需要各自域的权限,但管理 HA 解决方案的任何管理员都可以看到他们拥有通过 HA 解决方案可访问的额外权限(例如,启动应用程序的故障转移、在节点之间建立通信、锁定/解锁存储等)。因此,在委派访问权限时,考虑通过 HA 解决方案可执行的操作非常重要。可能只允许根级用户使用 HA 控制,或者您可以定义通过 HA 解决方案采取行动的程序,以便通知团队并跟踪操作。无论如何,从最小特权原则的角度来看,HA 解决方案具有复杂性,应考虑到这一点,以确保应用程序和系统只能由委派方访问和更改。
故障转移和灾难恢复策略在确保系统正常运行中的作用
故障转移功能和灾难恢复 (DR) 策略都对关键系统的正常运行时间有重大影响。显然,HA 可以提供故障转移功能,以确保单服务器问题不会导致应用程序套件中断,并且如果配置正确,故障转移几乎可以无缝进行。这允许在故障系统上进行恢复,同时备用系统将发挥主要作用来承担负载。当然,灾难恢复可以与 HA 策略紧密交织在一起。如果已经配置了冗余,为什么不确保这种冗余存在于故障域中呢?如果观察得当,应用程序可以具有高可用性和容错能力。从 IT 角度分析这些结果时,正确配置的 HA 和 DR 策略可以确保系统得到最大程度的利用,同时将停机时间降至最低。托管应用程序的地区发生的自然灾害或技术故障不太可能传播到其他地区。将计划的冗余与灾难恢复计划结合起来,可以用更少的资源满足更多的功能需求——因为仔细的规划可以确保冗余和容错都由备用站点的部署来处理。
平衡成本效益和高可用性:组织策略
配置集群环境或高可用性系统的成本可能很高。通常,至少有一个备用系统与主系统一起运行,尽管没有处理工作负载,但仍然会产生成本——但这些成本是可以降低的。以下是我建议的几种方法:考虑使用托管共享存储解决方案。如果您不需要数据的冗余副本,则可以使用共享存储来节省存储空间。像 Amazon EFS 这样的解决方案可能意味着您只需支付一半的存储费用,而不是复制磁盘配置。
考虑 DR 系统的用例。通常,这些系统只是在主站点恢复期间的权宜之计。资源不会在 DR 站点上运行很长时间,因此 – 根据工作负载 – 您可能能够在 DR 站点上配置较小的系统以节省计算成本。当然,您需要与利益相关者沟通设计决策,以便每个人都知道 DR 站点不是长期托管解决方案 – 但只要您的工作负载和员工能够处理增加的限制,就可以节省实例大小。同样,不会托管工作负载而仅在集群内协调的编排器和/或仲裁系统可能比委派给的系统工作负载小得多。
考虑使用扩展或横向扩展的解决方案。扩展意味着增加单台机器的计算能力——在云环境中,这涉及当工作负载压倒较小实例时,将其资源池增加到较大实例的资源池。横向扩展意味着在需要计算能力时增加将共享应用程序负载的工作人员数量。显然,用例决定了何时何地扩展或横向扩展是更好的解决方案——但通过熟悉手头的软件和环境,您将能够做出决策并配置系统以在需要时采取适当的行动。扩展解决方案需要考虑的另一件事是考虑您的缩减规则的积极性。为了节省成本,确保实例将缩减到适当的资源池——并评估规定缩减行为的规则,以确保您不会将过多的资源配置时间延长到需要的时间。在 IT 团队、利益相关者、网络安全团队和 HA 供应商之间建立良好的沟通。确保有沟通的基础可以促进任何技术或环境升级的合作推出。此外,通过保持沟通畅通,所有团队将更了解系统上发生的活动。让所有团队保持最新状态至关重要,可以更轻松地诊断问题或在必要时开始回滚程序。最后,保持良好的沟通还可以确保团队之间有效地共享最佳实践,以便团队能够合作,而不是按照不同的原则运作。
实现高可用性:最佳实践
对于任何部署系统的人,我建议的第一个也是最重要的做法是维护一个测试环境。使测试环境尽可能接近生产环境,并对生产环境中将发生的任何程序进行试运行,以便团队在生产部署时熟悉程序和运行手册。这种做法也融入了我为系统提供的其他最佳实践中。通过维护您的测试环境,您还将维护一个可用于预先测试任何更改的系统。测试环境是验证产品兼容性和确保技术之间相互操作的任何考虑都得到充分建立的最佳场所。我一次又一次看到的一个很好的例子是配置防病毒软件的排除项——有些情况下这些排除项没有配置,生产环境会遭遇中断,因为防病毒软件可能会隔离一个访问频率非常高的文件。最后,确保您定期审核您的配置。检查安全组、访问控制、防火墙规则和软件兼容性(尤其是 HA、受保护的应用程序和防病毒软件之间的兼容性)等各个方面。保留一份完整的日志,记录这些审计结果以及由此做出的任何更改——跟踪这些详细信息可以提供可靠的记录,如果配置更改似乎导致问题,则可以查看这些记录。此外,在向供应商请求支持时,这些审计可以成为一种极好的工具,可以更快地进行全面的根本原因分析。最重要的是,这些审计将提供应如何配置的记录——如果与规定的配置有任何变化,可以参考过去的审计结果,重新调整系统以符合组织的系统配置标准。
SIOS 深知,优化 IT 系统以实现高可用性对于组织的成功至关重要。通过解决防病毒解决方案的兼容性挑战并微调防火墙配置,组织可以增强系统弹性和正常运行时间。今天与我们联系以获取更多信息。
经许可转载西欧斯