如何保护云平台中的应用程序 – 云环境的 SANless 集群
经授权转载西欧
SIOS SANless clusters High-availability Machine Learning monitoring
经授权转载西欧
除非你一直处于困境或时间冻结,否则你很可能从一个或另一个消息来源听说雇主和雇员正处于一种被称为“大辞职”的趋势之中。据报道美国新闻与世界报道, “根据美国劳工统计局的数据,2021 年 7 月有 400 万美国人辞职,而且趋势并未放缓。”无论您的公司规模或当前的收入来源如何,如果还没有,这种趋势将在不久的将来影响您的 IT 团队。是的,让它沉入其中。负责确保您的关键任务应用程序可用性的同一团队以某种方式容易受到“大辞职”的影响。那么,你如何识别警告标志,接受现实,并以同理心和清晰的态度通过“大辞职”,以便它不会对您的关键应用程序造成“大灾难”?
不要放弃。严重地!当同事和好人选择换工作、职业或以其他方式离开劳动力市场时,辞职可能很诱人。尤其是当您开始考虑用更短的板凳来承担已经很繁重的工作量时。但不要放弃。
当然,识别风险的过程是两方面的。 辞职后,您的团队将面临进一步人事变动的风险。但是,由于容量、技术知识或专业知识的损失,您的高可用性也面临风险。为防止您的企业在新团队辞职后出现计划外停机,您需要识别关键风险领域。一些技术风险包括:
很多时候,当人们开始离开一家公司时,很容易说这是“他们,而不是我们!”我们希望关注他们的问题导致他们离开、辞职或选择不同职业或工作的所有原因。他们离开的原因很可能完全是个人的,但有时,问题就在镜子里,不是他们,而是我们。为什么弄清楚这是他们的问题还是你对 HA 很重要?好吧,如果问题在于您的公司,例如它的使命、愿景、围绕 HA 和 IT 的文化,或者 IT 和 HA 系统管理的招聘和人员配备问题,那么简单地增加额外的员工人数将是一个临时解决方案。此外,团队士气、承诺和知识转移的风险可能会进一步受到侵蚀,因为重点仍然是责任转移与问题解决。
在过去的两年里,几乎每家公司都有人退出了他们的团队。无论他们是寻求更高的薪水、留在家里照顾家人、退休还是寻求其他选择,他们都离开了。如果您失去了一名团队成员,则必须评估剩余的团队。该评估在本质上将是技术性的和非技术性的。从技术上讲,您需要:一个。 确定当前的技能、能力和知识差距团队中还剩下哪些技能,技术专长和能力水平如何? 知识差距在哪里,尤其是理论和实践之间的差距?
湾。 了解现有和缺失的角色。您的许多团队成员可能涉及多个角色和职责。失去一个团队成员实际上可能意味着失去多个角色和职责的覆盖范围。
C。 评估即时培训或增强需求你在哪里,但需要额外的培训来稳定和巩固团队? 您在哪些领域缺乏可以通过培训现有人员或某种形式的合同专业服务来缓解的问题?作为客户体验副总裁,请亲眼目睹这一点。 在失去了负责 HA 环境的关键团队成员后,我们的团队最近与一家需要专业服务的公司合作。
非技术上,您将需要:一个。 了解剩余团队成员的感受甚至在 COVID 大流行和“大辞职”时期之前,许多团队都在气喘吁吁。 一个 24/7 的 HA 世界留下了很多工作需要处理正常的团队人数、规范和任务。如果您的团队受到影响,那么检查并听取剩余团队成员的故事与停机生产服务器一样重要。找出谁精疲力竭、精疲力尽、困惑、濒临崩溃,或者相反,谁充满活力并准备好迎接新的挑战。 一定要倾听口头和非口头的暗示,同情(不仅仅是失去同事,还有他们的情绪、担忧和恐惧)。
湾。 了解其余团队成员仍在船上的原因了解团队成员的感受既是技术上的又是非技术上的必要性,但与这项任务几乎同等重要的是发现他们留下来的理由。当然,有些原因可能会让您大吃一惊。作者兼演讲者 Carey Nieuwhof 表示,一些团队成员之所以留下来只是因为他们“因为没有先离开而感到被困在团队中”。团队成员留下的其他原因可能不会让您感到惊讶,但无论出于何种原因,舒适度、机会、薪水、地点、股票期权、激情、团队合作、文化,您的团队成员留下的所有原因都很重要。
C。 评估人手不足的影响显然,前面讨论过的人手不足的技术成分;评估技能差距等。但是,人手不足的技术评估有一个推论,那就是非技术性的。请务必评估和评估人手不足(即使只是暂时的)对剩余团队成员的心理、情感和个人健康的影响。在我担任经理的早期职业生涯中,我们的团队处理了一次裁员事件,该事件使几名员工情绪脆弱,精神疲惫。这导致了更高的疲劳度、更多的精神迷雾,以及这些团队成员的缺陷和错误率增加。如果您的团队因人手不足而在精神和身体上受到严重影响,您的 HA 面临的风险可能会增加。您的团队可能正在争先恐后地收拾残局,他们可能会迅速团结起来为已辞职的领导或团队成员提供保障,但您必须了解那些留下来的人是否也筋疲力尽、感到被困或有风险离开。
多年前,一位高管离开了公司。尽管在近一年的过渡期中,他的角色和任务发生了转变,但仍有一些角色和任务令其余员工感到惊讶。在今天的辞职浪潮中,您没有一整年的过渡期。此外,如果您的团队经历了不止一次的辞职,那么您可能还没有完成第一人的分析和过渡,因此确定最关键的任务并确定其优先级并分配责任非常关键。 请务必列出以下任务:安全扫描、更新、维护、备份、测试、新应用程序部署、成本分析、镜像的克隆和重新部署、补丁应用程序和漏洞修复。尽管有损失,这些任务仍然是必要的,如果任其发展,可能会产生毁灭性的影响。
仍然需要涵盖任务、角色和责任。需要解决关键问题。在您重建员工、培训现有人员并让您的公司更能适应大辞职的过渡和变化之后,计划外的停机时间不会等着发生。为了在短期内导航,您需要制定一个明智的、切实可行的短期计划。该计划应列出已确定的程序、任务和流程,以便可以继续进行维护和操作。此外,它应该定义如何在未来动荡的季节中仔细管理现有的关键基础设施政策。
前面的步骤导致了这一点。通过对当前团队的评估、关键风险的识别以及过渡计划的到位,下一步就是着眼于未来。 你还有使命。您仍然有需要高度可用的关键应用程序。您仍然有需要保护、挖掘、复制并可供您的业务使用的数据。开始为未来的团队制定计划。
并非所有关于“大辞职”的消息对您的团队和 HA 来说都是坏消息。在团队成员离开前往新的或不同的职位和机会之后,您有一个真实而难得的机会来获取您评估的所有信息,并将它们转化为增长和调整的工具以及更美好的 HA 未来。建设这个更光明的未来包括定义所需的职责、角色和技能,更新架构和设计,规划新员工和服务参与,以及专注于建立更健康的团队。
对于现代企业来说,停机时间变得比以往任何时候都更加昂贵。 ITIC 2021 年每小时停机成本调查发现,在 91% 的组织中,关键业务系统、数据库或应用程序停机一小时的平均成本超过 300,000 美元,而对于 18% 的大型企业来说,一小时的停机时间超过 500 万美元。
高可用性(HA) 是系统、数据库或应用程序的属性,旨在长时间连续可靠地运行。 HA 的目标是减少或消除关键应用程序的计划外停机时间。 这是通过在关键业务系统、数据库或应用程序的设计中结合冗余组件和其他技术来消除单点故障来实现的。
服务提供商使用服务级别协议 (SLA) 来保证客户的关键业务系统、数据库或应用程序在业务需要时启动并运行。
IDC 创建了一个 SLA 模型,该模型定义了以下五个级别的正常运行时间要求:
据 ITIC 称,89% 的受访组织现在要求其关键业务系统、数据库和应用程序具有“四个九”的可用性,其中 35% 的组织进一步努力实现“五个九”的可用性。
除了正常运行时间和可用性之外,另外两个重要的 HA 指标是恢复时间目标(RTO)和恢复点目标(RPO)。 RTO 是任何中断的最大可容忍持续时间,RPO 是发生故障时可以容忍的最大数据丢失量。 与通常以小时和天定义的灾难恢复 RTO 和 RPO 指标不同,关键业务系统、数据库和应用程序的 RTO 和 RPO 指标通常只有几秒钟 (RTO) 和零 (RPO)。
HA 集群通常由服务器节点、存储和集群软件组成。
传统的本地 HA 集群是一组连接到共享存储(通常是存储区域网络或 SAN)的两个或多个服务器节点,这些节点配置有相同的操作系统、数据库和应用程序(请参阅图1 )。
其中一个节点被指定为主(或活动)节点,其他(或多个)被指定为辅助(或备用)节点。 如果主节点发生故障,集群允许系统、数据库或应用程序自动故障转移到一个或多个辅助节点,并以最小的中断继续运行。 由于辅助节点连接到同一个存储,因此操作继续进行,数据丢失为零。
然而,在传统集群模型中使用共享存储带来了一些挑战,包括:
无 SAN 或“无共享”集群(请参阅图 2 ) 解决与共享存储相关的挑战。 在这些配置中,每个集群节点都有自己的本地存储。 高效的基于主机的块级复制用于同步集群节点上的存储,保持它们相同。 如果发生故障转移,辅助节点会访问主节点使用的存储的相同副本。
集群软件允许您将服务器配置为集群,以便多台服务器可以协同工作以提供 HA 并防止数据丢失。 各种集群软件解决方案可用于 Windows、Linux 发行版和各种虚拟机管理程序。 但是,这些解决方案中的每一个都限制了您的灵活性和部署选项,并带来了各种挑战,例如技术复杂性和昂贵的许可费用。
HA 对于关键业务系统、数据库和应用程序至关重要。 但是随着无数平台的可用,复杂性显着增加。 这就是为什么应用程序感知解决方案如此有意义的原因。 您需要的是一个在高可用性方面拥有丰富专业知识的值得信赖的合作伙伴——像 SIOS 这样的合作伙伴,它拥有确保您的业务保持正常运行的技术知识。
不要等待中断或灾难来确定您是否具备业务所需的弹性。 立即在以下位置安排个性化演示https://us.sios.com了解 SIOS 可以为您的业务做些什么。
转载自西欧
故障转移集群是一种为应用程序提供高可用性保护的方法,它通过在多台服务器上运行相同的操作系统、数据库和应用程序来消除单点故障,所有这些服务器都共享相同的存储或连接到持续同步的存储。 Oracle 在其中一台服务器上运行,称为主服务器。 如果失败,应用程序编排软件(集群软件)将在称为故障转移的过程中将操作转移到一个或多个辅助服务器。 由于主服务器和远程服务器访问相同或相同的存储,因此 Oracle 操作可以以最少的恢复时间或数据丢失继续进行。 许多组织将 Oracle 视为其运营的支柱,尤其是当他们使用基于 Oracle 的 SAP 系统或 Oracle ERP 系统时。
Oracle 的集群软件称为 Oracle Real Application Clusters (RAC)。 RAC “使您能够将较小的商用服务器组合到一个集群中,以创建支持关键业务应用程序的可扩展环境。”[1]借助 Oracle RAC,您可以对 Oracle 数据库进行集群并使用 Oracle Clusterware 连接多个服务器,从而使它们作为一个系统运行。
虽然 RAC 以前与 Oracle 数据库标准版捆绑在一起(不收取额外费用),但 Oracle 现在已从 19c 版的标准版中删除了 RAC 功能。 您可以通过 Oracle 数据库企业版支付额外费用购买 Oracle RAC。 不幸的是,这意味着任何想要使用 RAC 的客户都必须升级到 Oracle Database Enterprise 或迁移到 Oracle 云,这两种解决方案都比标准版昂贵得多。
SIOS 无需升级到企业版即可提供高可用性 Oracle 集群解决方案,最多可节省 70% 的许可成本。
这适用于 Linux 的 SIOS 保护套件提供高可用性故障转移集群、连续应用程序监控、数据复制和可配置恢复策略的紧密集成组合,保护您的 Oracle 数据库和应用程序免受停机和灾难的影响。 与仅监控服务器运行的其他集群解决方案不同,SIOS LifeKeeper 监控服务器、网络连接、存储、所有 Oracle 进程和任何相关应用程序的运行状况。 通过一组策略定义的操作立即纠正问题,确保快速恢复而不会中断最终用户。
SIOS 保护套件可以在共享存储 (SAN) 环境中运行以支持传统的 HA 集群,或者在云、混合和其他共享存储不切实际或不可能的环境中的无共享 (SANless) 存储配置中运行。 它为您的 Oracle 数据库和应用程序提供了具有自动和手动故障转移/故障恢复策略的强大、多功能且易于配置的集群。
适用于 Linux 的 SIOS 保护套件包括:
SIOS LifeKeeper 支持所有主要的 Linux 发行版,包括 Red Hat Enterprise Linux、SUSE Linux Enterprise Server、CentOS 和 Oracle Linux,并适应各种存储架构。 SIOS 软件已经过调整和优化,可以在这些操作系统上运行,并且对组件进行了测试,以确保 SANless 集群解决方案可以在每个操作系统上运行。
借助适用于 Linux 的 SIOS 保护套件,您可以在灵活、可扩展的公共云环境(例如 Amazon Web Services (AWS) 或 Microsoft Azure)中运行您的 Oracle 应用程序,而无需锁定供应商或牺牲性能、高可用性或灾难保护.
适用于 AWS 或 Azure 上的 Linux 的 SIOS 保护套件提供了跨云故障域和可用区创建高可用性 Linux 集群所需的元素,为您提供地理隔离,以防止站点范围内和区域性的灾难和中断。
在 Windows Server 故障转移集群 (WSFC) 环境中,您可以使用 SIOS DataKeeper Cluster Edition 来同步本地存储,并使用基于主机的高效复制进行 SANless 集群。SIOS DataKeeper 集群版软件可保护您的业务关键型 Windows 环境(包括 Oracle)免于停机和数据丢失。
SIOS SANless 集群软件为您的 Oracle 数据库和应用程序在 VMware、Hyper-V、KVM 和 XenServer 环境中运行时提供所需的企业级高可用性、可靠性和灵活性。
适用于 Linux 的 SIOS 保护套件可保护您在虚拟环境中的 Linux 上运行的 Oracle 数据库和应用程序。 如果您在虚拟环境中在 Windows 上运行 Oracle,SIOS DataKeeper Cluster Edition 可以保护您的业务关键型 Windows 环境,包括您的 Oracle 数据库和应用程序。
SIOS 提供集成的数据复制,高可用性聚类和灾难恢复在 Linux 和 Windows 上支持 Oracle 的解决方案可以为小型和大型组织提供容错保护,而成本仅为其他 Oracle 集群解决方案的一小部分。 使用 SIOS SANless 集群,您不需要昂贵的共享存储来实现完全的高可用性应用程序和数据库保护。 相反,您可以在没有 SAN 的云中运行您的 Oracle 数据库和应用程序。此外,SIOS 还可以在本地以及虚拟和混合环境中保护您的 Oracle 数据库和应用程序。
有关 SIOS 如何保护您的 Oracle 数据库和应用程序的更多信息,单击此处或个性化演示.
[1]https://docs.oracle.com/cd/B28359_01/rac.111/b28254/admcon.htm#RACAD7148经授权转载西欧
您的 SAP 系统是您组织的命脉,如果系统出现故障,您的运营就会停止。 为了支持 SAP 系统的高可用性,您的 IT 团队可以在集群环境中安装 SAP。
集群是一组两个或多个连接的服务器,它们配置有相同的操作系统、数据库和应用程序。 这些连接的服务器被称为“节点”。其中一个节点被指定为主节点。 如果主节点发生故障,集群允许您的组织自动将应用程序操作故障转移到一个或多个辅助节点,从而减少停机时间、消除数据丢失并保持数据完整性。
高可用性 SAP 集群解决方案可用于在 Linux 或 Windows 环境中运行的服务器。
前端应用需求高可用性,即 S/4 HANA,任何其他依赖于 HANA 的应用程序也是如此。
Linux 供应商(例如 SUSE 和 RedHat)为 SAP 提供了几种开源 HA 解决方案,其中包括 HA 扩展及其“Enterprise for SAP”订阅。 这些供应商捆绑了开源软件,您可以使用这些软件为 HANA 数据库、ABAP SAP 中央服务 (ASCS)、评估收据结算 (ERS) 和其他 SAP 组件构建高可用性集群。[1]
SUSE HAE(和其他开源集群选项)是高度手动的,只保护单个组件。 例如,将 SUSE HAE 和其他开源解决方案与 SAP 或 SAP HANA 集成可能既耗时又复杂,需要仔细的手动脚本编写和繁琐的确认步骤。 创建应用程序感知 HA 解决方案还需要在应用程序和数据库方面具有特定的深厚专业知识。
SAP 还提供 HANA 系统复制,这是 HANA 软件附带的一项功能。 它提供 SAP HANA 数据库到同一数据中心、远程站点或云中的辅助位置的持续同步。 数据被复制到辅助站点并预加载到内存中。 发生故障时,辅助站点将接管而无需重新启动数据库,这有助于减少恢复时间目标 (RTO)。 不幸的是,必须手动触发到主节点的故障回复,并发出单独的命令。 也没有集成的 HA 故障转移编排以及 SAP 中央服务等组件。[2]SIOS HA 集群软件为您的应用程序和数据提供全面的 SAP 认证保护,包括高可用性、数据复制和灾难恢复在一个简单、经济高效的解决方案中。 SIOS 软件可让您在 Windows 或 Linux 环境中保护 SAP,在物理、虚拟、云(公共、私有和混合)和高性能闪存存储环境的任意组合中使用您选择的服务器硬件。 SIOS 软件易于配置,并提供对整个 SAP 应用程序环境的快速复制、全面监控和保护。 它在共享 (SAN) 存储或无共享 (SANless) 存储环境中提供持续的数据可用性。
对于 SAP S/4HANA 和 SAP HANA 数据库,SIOS 可用于补充 SAP 已经在使用 HANA 系统复制所做的工作,以提供完全自动化的高可用性——自动监控关键 SAP HANA 应用程序流程,以及自动故障转移和故障恢复。[3]
适用于 Linux 的 SIOS 保护套件提供了高可用性的紧密集成组合故障转移集群、持续的 SAP 应用程序监控、数据复制和可配置的恢复策略,保护您的 SAP 应用程序免受停机和灾难的影响。 虽然 SIOS Protection Suite 可以在 SAN 环境中运行以支持传统的基于 HA 硬件的集群,但该架构采用无共享的服务器集群方法,使其能够运行 SANless。 它提供了一个强大、通用且易于配置的解决方案,具有适用于各种应用程序的自动和手动故障转移/故障恢复策略。
适用于 Linux 的 SIOS 保护套件支持 SAP 集群,如下所示:
ARK 提供特定于应用程序的感知,并将应用程序堆栈连接到上下文中的 HA 解决方案,包括所有相关组件。 例如,SIOS 提供了一个 SAP HANA 应用程序恢复工具包,它提供主机自动故障转移、存储复制和系统复制以提高可用性。
最后,借助适用于 Linux 的 SIOS 保护套件,您可以在灵活、可扩展的云环境(例如 Amazon Web Services (AWS) 和 Azure)中运行关键业务应用程序,而不会牺牲性能、高可用性或灾难保护。
SIOS DataKeeper Cluster Edition 是一个软件插件,它与 WSFC 简单无缝地集成,以添加性能优化的、基于主机的同步或异步复制。 使用 DataKeeper,您可以轻松创建无 SAN 集群,为您的 SAP 应用程序实现高可用性和灾难恢复,无论是在云中、在 VMware 等虚拟化环境中运行,还是在仅使用本地存储的物理服务器上运行。 它增加了高效的复制以同步每个集群节点上的本地存储,创建一个在 WSFC 看来就像传统存储一样的无 SAN 集群。 有了它,您可以在云、混合云中创建 Windows 集群,或者在云中扩展一个基于 SAN 的传统本地集群,以实现灾难恢复。
使用 SIOS DataKeeper Cluster Edition,您可以实现对关键 SAP 组件的高可用性保护,包括 ABAP SAP Central Service (ASCS) 实例、后端数据库(Microsoft SQL Server、Oracle、DB2、MaxDB、MySQL 和 PostgreSQL)、SAP Central服务实例 (SCS)。
SIOS DataKeeper 不仅消除了 SAN 的成本、复杂性和单点故障风险,还允许您在本地存储中使用最新的快速 PCIe 闪存和 SSD,以实现单一经济高效的性能和保护解决方案。
SIOS DataKeeper 还提供SAP 高可用性和云环境中的灾难恢复,例如 Amazon Web Services (AWS)、Microsoft Azure 和 Google Cloud Services,而不会牺牲性能。
如果您的组织不使用 WSFC,SIOS 提供适用于 Windows 的保护套件,其中包括 SIOS DataKeeper、SIOS LifeKeeper 和可选的应用程序恢复工具包 (ARK),用于 SAP 等领先应用程序和基础设施操作。 它是一个紧密集成的 SAP 集群解决方案,结合了高可用性故障转移集群、持续应用程序监控、数据复制和可配置的恢复策略,以保护您的业务关键型 SAP 应用程序和数据免受停机和灾难的影响。
全球各地的组织都使用 SIOS HA 解决方案来保护其 SAP 应用程序,无论是在 Windows 还是 Linux 环境中运行。 这里只是几个例子:
有关高可用性 SAP 集群的更多信息,点击这里.
参考https://blogs.sap.com/2020/05/03/high-availability-and-dr-for-sap-hana-sap-s-4hana-and-sap-central-services/[1]同上。[2] https://blogs.sap.com/2020/05/03/high-availability-and-dr-for-sap-hana-sap-s-4hana-and-sap-central-services/[3]同上。经授权转载西欧