Date: 11月 8, 2021
灾难恢复基础知识
灾难恢复概述
灾难恢复是指在站点范围甚至区域性故障的情况下快速恢复/修复系统并将损坏降至最低的能力。 灾难恢复是业务连续性管理的重要组成部分,拥有强大的灾难恢复协议将有助于防止不必要的数据丢失和与系统停机相关的费用。
什么构成了灾难恢复的“灾难”部分? 这可以指地震、洪水等自然灾害,也可以指范围广泛的事件,例如“火灾”、“恐怖主义”、“未经授权的入侵”、“大规模黑客攻击”和“长期大规模- 大规模停电。”如果 IT 系统发生故障,任何有可能对 IT 系统造成灾难性损坏的事物。
系统故障的真正影响
除了与系统故障相关的潜在物理损坏和数据丢失之外,缺乏灾难恢复计划可能会给企业带来无法挽回的收入损失。 对于系统停机的每一分钟,这意味着失去销售和机会、潜在的负面客户体验、商业声誉受损以及紧急 IT 维修的高昂费用。
灾难恢复的重要性
对于提供关键任务服务的公司而言,构建可以处理意外系统停机的业务连续性系统至关重要。 如果能够首先防止故障,并在发生本地故障甚至站点范围或区域性灾难时快速恢复,将有助于保护数据、与客户保持融洽关系,并节省时间和潜在的毁灭性经济损失。
重要的是要认识到灾难性的系统故障是会发生的事情,而不是可能发生的事情,因此制定适当的灾难恢复计划将保护您的业务。
灾难恢复挑战
虽然灾难恢复协议是必不可少的,但它的设置和实施并非没有挑战。 以下是正确实施灾难恢复的一些常见障碍:挑战 1:地理分离。
灾难保护的本质是将系统和数据保存在与主数据中心或云实例在地理上分开的位置,以便在发生灾难或云中断时,辅助系统可以上线并继续运行。
挑战 2:网络带宽要求将数据复制到异地位置以进行灾难恢复可能意味着增加网络带宽要求和延迟问题。
挑战三:数据量持续增加灾难恢复站点上的存储容量要求会随着时间的推移而增加。 适当的灾难恢复计划需要建立“保护优先级”,以明确应保护哪些数据并优化可用存储资源。
挑战 4:恢复时的恢复程序如果系统因灾难而宕机,则需要进行服务恢复。 通常,公司发现他们的数据分散在多个位置,并且没有标准化的程序和恢复,从而导致大量的时间和费用损失。 制定清晰、标准化的修复程序将消除这种头痛,并允许在最重要的时候快速采取行动。
数据备份与可用性保护
传统上,数据备份 – 本质上是复制数据和应用程序并将其移动到异地位置的过程 – 已执行的目的是在 IT 设备故障/故障的情况下保护数据,并按照法规进行记录保存/存档HIPAA(医疗信息可移植性责任法案)等要求。 要恢复运行,需要更换或修复受事件影响的任何服务器、存储和其他硬件以及网络。 必须配置服务器,必须恢复应用程序、重新联机并连接到恢复的数据。 这些步骤可以几个月。
如果没有适当的可用性保护流程,仅使用备份的恢复操作可能是一个耗时且昂贵的过程。 可用性流程使全面运行的系统准备好在发生灾难时接管,从而在几分钟内恢复服务。
以下是有效的灾难恢复计划很重要的其他一些常见原因:
灾难恢复指标
灾难恢复的主要指标是“RPO”和“RTO”。
RPO(恢复点目标) RPO 表示从灾难发生时到过去什么时间保证数据恢复的时间点。
如果“RPO = < 5 分钟”以“RPO = 0(零数据丢失)”为目标时,就需要故障转移集群等可用性保护机制。
RTO(恢复时间目标) RTO 是一个指数,它显示您的企业从最初的停机时间到恢复运营所允许的时间。 “RTO = 1 个月或更长时间”,您也许可以通过仅进行远程备份和保护替代设备来处理数据恢复。 但是,如果您的“RTO = 一分钟内”,则需要故障转移群集。
选择灾难恢复方法
在为您的企业确定正确的灾难恢复方法时,请考虑以下重要因素:
- 业务流程的关键性和对影响的容忍度
- 要保护的数据类型和容量
- 恢复要求——您的 RPO 和 RTO
- 预算
关注业务影响
在IT部门牵头制定IT系统容灾措施的同时,企业主必须考虑系统中断的影响和程度对每次系统停止对业务的影响”,以确保对业务的不利影响最小。
受保护的数据类型(数据完整性)
对受保护数据的类型和重要性进行分类很重要。 对于不需要非常精确一致性的数据(例如文件服务器),简单的主存储备份可能就足够了。
另一方面,诸如 SQL Server、Oracle 和 SAP 等 ERP 系统和数据库具有多个服务和部件,它们需要位于特定服务器上,按特定顺序启动,并根据各种特定于应用程序的最佳实践进行管理。 . 它们通常需要高可用性保护和应用程序感知集群解决方案来协调故障转移。
—————————————————————————————————————————
关键灾难恢复术语
远程备份——本质上是将应用程序和数据的副本保存在地理上分离的远程位置。
同步存储镜像保持本地和远程存储副本同步以进行 DR 保护。 在这种方法中,数据被写入本地存储并立即复制到远程存储。 在将数据写入远程位置的过程完成之前,不会“提交”本地存储。 此过程使两个位置保持相同,从而消除了在事件发生时传输中的数据无法写入远程位置时可能导致的差异。 主站点和备份站点之间的数据完整性得到保证。
异步存储镜像。
此方法将数据写入本地存储,然后将其复制到远程位置。 当地理分离导致延迟时,它可以实现更高的网络利用效率并减少带宽争用。
“冷备”与“热备”
冷备用在发生灾难时保持数据副本或辅助系统脱机的过程。 如果主系统出现故障,则必须手动启动系统和软件(在某些情况下已配置),并且必须在操作继续之前恢复数据。
热备这是一个保持辅助系统正常运行并在主系统停机时切换到它们的过程。
灾难恢复方法成本比较
RPO 和 RTO 越小,停机时间越短,但成本也会相应增加。
考虑到每种类型数据的成本和资产价值,有必要找到需要何种保护级别的最佳方法。 内部实施和服务外包之间的平衡将影响成本。
要了解有关高可用性和灾难恢复解决方案的更多信息,请访问SIOS,点击这里.