
并非每个人都知道在何时何地开始实施业务连续性计划。 我通常这样说:当可能的损失高于应对威胁的成本时,是时候采取措施了,成本就足够了。 反之亦然。 如果抵制的成本或多或少是显而易见的,那么估计损失就不是一件容易的事。 我邀请您参加业务影响评估项目(业务影响分析-BIA)的后台,并以一家主要零售商为例制定IT连续性策略。 所以走吧
开始
我们参与了俄罗斯最大的零售商X5零售集团的项目。 该公司管理Pyaterochka,Carousel和Crossroads的网络。
她已经有自己的中断风险管理政策,其中包括:
- 风险保险;
- 形成危机管理;
- 将人们生命和健康的风险降至最低;
- 控制业务可管理性风险;
- 制定IT系统的紧急恢复计划。
根据此策略,集中式IT基础架构需要制定IT服务连续性和灾难恢复计划。 理想的解决方案是建立一个备份数据中心,设置同步复制,设置紧急传输自动化并每小时观看“ H”,IT系统如何移动到备份数据中心并且绿灯亮起,表示对业务没有任何危险。
但是考虑到流程的经济性,该公司建议仅保留最关键的IT系统,如果没有这些系统,商店将无法正常工作,并且会造成重大财务损失,这是在紧急情况下的适当措施。 出现了一个重要问题-哪些系统应恢复多长时间?
客户的IT部门确定了IT系统的分类以及每个系统可接受的恢复时间。 但是,后来决定根据ISO 22301和最佳做法对紧急情况对公司业务(BIA)的影响进行全面评估。
数量和界限
剧院从衣架开始,而BIA从工作范围的定义开始。 为此,您需要检查公司的业务流程,服务,财务报表,与合作伙伴,客户和承包商的关系。 然后确定并协调将落在项目范围内的关键业务流程和服务。 BIA的持续时间和成本取决于数量。 此外,我们的经验表明,您不应将项目扩展超过9个月。
在我们的案例中,客户已经通过选择最重要的交易活动业务流程来确定界限。
面试

一旦确定了BIA的界限和框架,就可以确定要与之进行业务访谈的业务部门和其他部门的利益相关者列表。 从不同部门收集信息对于获得公司流程的客观情况,了解它们的工作方式以及评估“如果...将会发生什么”非常重要。 在此阶段,我们获得有关业务流程如何准确地依赖IT的信息,并建立这些依赖关系的矩阵。 此外,业务代表和对业务流程感兴趣的各方会评估后果,可能的损害和可能的情况。 为此,我们开发了一份特殊的调查表,并采访了约50名受访者(就项目本身进行了50次介绍,进行,接收和处理了所有已完成的调查表)。
业务流程
在采访的同时,我们描述了业务流程,同时考虑到完成单个操作所花费的时间和详尽的深度,足以进行进一步的分析。 为了了解IT系统如何在一天的不同时间和一年中的不同时间影响特定过程,有必要将过程划分为较小的组件和特定的操作。 在此阶段,重要的是要了解我们没有根据GOST或其他方法描述业务流程。 我们不会优化业务流程,并且通常至少在BIA内不会提供改进业务流程的建议。 我们对业务流程进行了如此详细的描述,以使我们能够证明计算损失的方法的合理性,并根据若干标准评估损失。 对于图形描述,将EPC,ARIS和MS Visio标记用作工具。
门槛
为了确定目标恢复的客观时间,必须在岸上商定评估损害的标准以及其阈值。 如果超过了这些阈值,我们将认为损害至关重要,达到阈值的时间间隔将成为目标恢复时间。 建议了两种选择:
- 通过一项标准确定反收购行动-财务损失;
- 通过三个标准确定RTO-财务损失,声誉损失,业务流程可控性损失。
具有一个标准的第一种选择似乎是更可取的,因为任何损失都可以有条件地转化为金钱-主要是要就重新计算公式达成一致。 但是,正如实践所表明的那样,没有人将声誉损失具体地计为财务损失,并且批准这种公式可能会花费不确定的时间。 决定考虑两种方案的恢复时间,在呈现结果的阶段,客户自己将确定哪一种方案更客观地反映了现实。

展望未来,我要说的是,将第一个选项与一个条件一起使用时,事实证明,例如,在“定价”过程中的RTO可以达到10天。 在计算第二个选项时,RTO不会超过24小时。 在任何情况下,管理决定-哪些损失需要考虑,哪些不损失-仍由客户决定。
风险
我们与客户一起确定了操作风险清单。 也就是说,那些影响IT的因素,反过来又影响那些……嗯,您了解的业务流程。 这个阶段很重要,因为紧急情况不是真空状态下的球形马,他们说,如果我们失去IT,对祖国和我们都会发生什么。 风险分为全球风险和局部风险。 对于每个人,都考虑了采访的结果,确定了开发方案及其对公司流程的影响。 显然,如果发生故障,相同的IT系统会影响多个业务流程,但是我们非常担心项目中只有两个流程。 然后,我们根据以下参数评估了索赔:
- 威胁扩散;
- 警报能力;
- 接触时间;
- 发生的可能性;
- 估计的损失。
结果,他们绘制了一个热图,每个应用程序都收到一份评估,以评估企业在停机期间会被烧得多么热。 例如,在单个SAP模块停机4小时后,该公司仍然没有遇到严重问题,但即使热图上收银机软件的停机前几个小时也用红色标记。
有必要弄清楚,风险评估和进一步的排名是在一组专家的帮助下形成的,对于确定客户最紧急的情况是必要的。
或有风险和方案。 数据中心发生火灾:服务器机房已经完全烧毁,“补货”过程中涉及的SAP模块不可用。 这意味着每天直到恢复被烧毁的SAP模块之前,产品范围都会缩小。 首先,这涉及易腐产品,其次,是对高需求产品(例如谷物和面包),其次是家用化学品。 显然,这种情况将导致商店收入减少。 但这并非完全显而易见:在没有其中一种商品的情况下,购买啤酒和香烟的买主很可能什么也买不到。 对于定价过程也是如此。 如果有条件的买家在星期三下午12:00发现折扣,并且下午到达商店,并且“定价”过程不起作用(即没有折扣的价格),则他:
A)不买任何东西(=财务损失);
B)将指控商店欺诈(=声誉损失)
B)向监管机构投诉(=对不正当广告的处罚)。
损耗估算技术
从上面您可能已经了解到,为了甚至计算财务损失,有必要制定一种计算损失的方法和公式,其中要考虑折扣,促销,一天中的时间,旺季(例如12月底的兴奋)。 该技术应包含一个描述性部分(它来自何处以及为什么要乘以加权因子),以及表格和图表,以使您清楚地理解。
该技术还描述了:
- 如何确定业务流程的恢复时间
- 业务流程的恢复时间如何转换为IT系统的RTO / RPO
- 重要性级别和恢复级别-为什么需要这样做。
我们走得更远。
RTO计算
在进行了所有采访之后,描述了业务流程,评估了风险,定义并批准了一种方法,并计算了损失。 由于Pyaterochka,Carousel和Crossroads的业务至少在规模上有所不同-对于每个网络,我们都开发了自己的表格,时间表和损失计算。
对于整个业务流程,当损失超过阈值(请参见阈值)时,将确定恢复时间(请参见方法)。 该恢复时间分配给业务流程中涉及的那些IT系统(请参阅访谈和依赖关系矩阵)。 似乎已经定义了连续性参数-项目已完成(请参阅边界和框架)。 但是仅仅说“该过程应在12小时内恢复”是不够的。 确定当前的工作方式非常重要。 今天可以恢复几个小时的IT系统? 如果当前的恢复时间比目标更长或更长时间,该怎么办? 对于仍然保持理性和专心的人,欢迎加入GAP!
GAP分析和行动计划
作为前面步骤的结果,我们确定了流程和TO TO系统的状态,即理想状态。 在当前阶段,我们确定“现状”的状态。 同时,我们在较小程度上涉及业务流程,并专注于IT组件。 对于客户,我们从紧急情况方面评估了他当前的解决方案。 此外,在这种情况下,没有必要使用计时器进行真正的恢复。 深入细节和足够的桌面测试足以了解目标RTO是无法实现的。
之后,我们提出了一些建议,这些建议既具有一般性(以确保IT连续性),又与IT系统及其体系结构直接相关。 这些是技术解决方案的草图,并粗略估计了其实施成本。 实际上,现在有了决定的基础。 规模的一方面-损失,另一方面-措施成本。
如果某些IT系统未进行GAP分析,或者恢复时间比目标更长,那么我们将创建一个项目计划以实现目标状态,或者根据您的意愿创建路线图,说明项目顺序并进行中期评估以提高组织的可持续性。
此外,我们还为客户开发了用于形成连续性计划和灾难恢复计划的方法学材料和模板。
策略策略
等等,等等,我快完成了。
根据BIA的结果,我们制定了IT连续性策略。 连续性策略描述了两个关键点。
- 考虑哪些影响公司活动的IT风险,哪些没有考虑(即,我们担心并在连续性框架内解决的风险,我们不担心的事物,为此我们进行了事件管理)。
- 我们将采取什么组织,架构,基础设施和其他解决方案来防御威胁。
按照策略,我们用一块石头杀死两只鸟。 首先,公司中的每个人都知道我们将如何以及如何保护自己。 其次,对于非IT专业人士(例如金融业者),IT灾难恢复解决方案预算流程看起来更加透明。 而且,无论听起来多么可悲,该策略都有助于做出正确的管理决策(总有一种选择是不花钱购买灾难恢复,现在我们确切地知道在发生事故时这将如何影响公司)。
接下来是什么? 进一步实施其他业务流程和IT系统的连续性策略和业务影响分析。 制定连续性计划,定期测试这些计划,但这是一个完全不同的故事。
Igor Tyukachev,Jet信息系统设计中心顾问