Date: 6月 29, 2020
企业可用性:法院的教训
我爱篮球。我喜欢玩游戏,观看游戏并仔细思考游戏的大脑方面;思想和动机,策略和战术。我想寻找能正常工作或失败的小东西,屏幕设置太早或滚动太晚。我喜欢防守和轮换。我想知道教练的练习,演练,旅行等策略。 几个月前我自然而然地离开了24/7全天候工作日,想象一下,我抽出一天时间去看篮球,更具体地说是我女儿在中学篮球练习。
在观看的大约三分之一时间内,我无法控制自己。我吹口哨,“劝诱”那个年轻的女孩,恶作剧地着小跑到球场上,大喊:“快跑!忙!”她做到了,耳边的队友也做到了。 接下来的几分钟,戏剧和演习充满了活力,清晰的切割,流畅的动作和动力。 但是,它并没有持续。 取而代之的是,需要更多的哨声,需要更多的举动来移动和奔跑,努力发挥,大刀阔斧,下潜,专心,专注,学习和纠正。2个小时快结束时,我将最后一刻的注意力转移到预言上,“练习的方式就是演奏的方式!”
我几乎可以感觉到您传达了AI的精神,而不是人工智能(AI),艾伦·艾弗森(AI)。 “我们在谈论,练习。 实践!”我认为这与可用性有关。 好吧,当我考虑女儿和队友时,我对篮球的热爱满足了我对可用性的热爱。怎么样?
篮球策略与可用性策略类似的三种方式:
- 在篮球运动中,每个团队都需要一个计划,以确保企业可用性。
- 在篮球运动中,每个团队都需要练习该计划,同上以确保可用性,灾难恢复,尤其是计划好的维护。
- 在篮球比赛中,该计划在火中受到考验的情况下,其执行效果只会与实施该计划时一样好
企业可用性需要计划
您的可用性(特别是灾难,计划的维护和中断恢复策略)仅与您创建的一样好。简而言之,您对中断的计划是什么(请注意,云故障,服务器崩溃,网络饱和以及人为错误)。 您有书面计划吗?您是否已确定所有者和备份所有者?您是否知道您的体系结构和拓扑(什么服务器做什么,它位于什么位置,它属于哪个团队,服务什么功能,与它相关的业务优先级以及它需要什么SLO / SLA)?谁是您的主要供应商,他们的召唤清单是什么?您的检查点,数据保护计划和备份策略是什么?您有什么测试计划和验证计划来验证该计划?
企业可用性需求实践
一个好的计划,检查一下。现在练习。 实施灾难恢复步骤和计划外的停机策略是每个企业配置的必要组成部分。但是,不进行演练的策略并不是真正的策略。在这种情况下,这只是一种可能的提议方法。 它更像是一个建议,而不是实际的记录计划。第二步是练习。逐步了解您的计划策略。排练维护时间。恢复备份和数据。验证假设和失败模式。
企业可用性需要测试
一个计划和一个演练,检查。现在您拥有三个中的两个,让我回到女儿的团队。 作为“非官方教练”,我的临别词如下:“练习的方式就是比赛的方式!”快进三天。比赛已经结束了。他们所参加的球队在运动能力上不匹配,并且与去年一样,当时该球队的比赛在半场结束时规模过大。 但是今年,人员不足和规模较小的团队显然已经做好了更多准备。本来应该是轻松的胜利现在进入了接近并列的最后一分钟。主队,即对手,开始进行新闻报道。尽管如此,我女儿的球队还是为这种命运的练习而无意中做出了准备。 随之而来的不是很好。四次失误的失误,三分球命中两次关键犯规,四分命中或零失误,以及一系列挫败感最终导致毁灭性的一分失误。
我的最后一点是,您在实际中断,灾难或计划内维护方面做得如何?您是否使用真实的数据,真实的客户以及真正的紧迫感进行练习?您的高层管理人员多久签到一次?相信我,在充满压力的时刻出现老板会让人做出奇怪而不明智的事情!您的沙盒和测试系统看起来像生产环境吗?在过去的生活中,我曾经与一位客户在产品和质量保证之间使用不同的硬件,存储和Linux OS版本进行过合作。当他们进入应用程序更新的过程中,灾难就来了。 您是否有用户和数据以及测试期间运行的作业?实际的灾难模拟呢?这是一项难以接受的工作,它会测试具有潜在破坏性后果的硬崩溃,从异地恢复,甚至更难于模拟同时发生的多点,多个系统故障,但这种做法往往不可行,往往会使2小时的计划维护变成八小时的多团队企业灾难。 练习不足或实践不佳是您的战略和团队取得惊人胜利,还是团队,供应商,企业和客户遭受惨败和代价高昂的失败之间的区别。
在篮球运动中,受到抨击的计划只能维持与计划相同的状态。 在实施恢复和灾难计划时,关键是要制定良好的计划和验证,但是出色的实践才是王道。
请与SIOS的销售代表联系,以了解我们的可用性专家和产品如何帮助您制定计划,程序和实践。
回访有关您永远不应避免进行模拟的测试的帖子。
—客户体验副总裁Cassius Rhue
文章转载自SIOS