IT基础架构迁移失败,损坏了13亿银行客户记录。 缺点是缺乏测试,对复杂的IT系统轻描淡写。 Cloud4Y讲述了过去。 2018年,英国
TSB银行意识到两年前与银行集团Lloyds(两家公司于1995年合并)的“离婚”过于昂贵。 TSB仍通过仓促克隆的劳埃德(Lloyds)IT系统与其前合作伙伴保持联系。 最糟糕的是,该银行不得不支付“子女抚养费”,即每年1.27亿美元的执照费扣除。
很少有人喜欢为自己的exe付钱,因此2018年4月22日18:00,TSB开始了旨在改变一切的18个月计划的最后阶段。 计划将数十亿客户记录转移到西班牙公司Banco Sabadell的IT系统中,后者于2015年以22亿美元的价格收购了TSB。
萨瓦德尔银行(Banco Sabadell)首席执行官何塞·奥尤(Jose Olyu)在2017年圣诞节前两周,在巴塞罗那一家享有盛名的会议室举行的节日员工会议上谈到了即将举行的活动。 最重要的迁移工具是Banco Sabadell系统的新版本:Proteo。 甚至专门针对TSB迁移项目将其重命名为Proteo4UK。
在Proteo4UK演示中,Banco Sabadell执行董事Jaime Guardiola Romoharo吹嘘新系统是一个大型项目,在欧洲没有类似产品,已有1000多名专家进行了研究。 而且其实施将极大地推动萨瓦德尔银行在英国的发展。
迁移日定为2018年4月22日。 那是春天中旬的一个安静的星期天晚上。 银行的IT系统被禁用,因为记录已从一个系统转移到另一个系统。 随着星期日晚间恢复对银行帐户的公共访问,人们可以期望银行能够缓慢而顺利地恢复运营。
但是,在Olya和Guardiola Romoharo从Proteo4UK项目的实施阶段开始愉快地播出节目时,负责迁移过程的人员非常紧张。 该项目耗时18个月,严重落后于进度,超出了预算。 没有时间进行其他测试。 但是,将所有公司数据(以及这些数据,回忆,数十亿条记录)转移到另一个系统是一项繁重的工作。
原来,工程师们一点都不紧张。
客户看过太久的网站上的存根电信标准化局打开帐户访问权限20分钟后,完全确定迁移过程顺利进行,第一份问题报告到了。
人们的蓄积突然消失了。 少量购买被错误地记录为数千笔费用。 有些人登录了他们的个人帐户,但没有看到他们的银行帐户,而是看到了完全不同的人的帐户。
下午9点,TSB代表告诉当地金融监管机构(英国金融监管局,FCA),该银行存在问题。 但是FCA已经注意到了这一点:TSB确实搞砸了很多,客户是傻瓜。 而且,当然,他们开始抱怨
社交网络 (如今,在Twitter或Facebook上写几行并不困难)。 23:30,另一个金融监管机构,审慎监管局(PRA)与FCA联系,FCA也觉得有些不对劲。
午夜过后,他们设法联系了银行的一位代表。 并问他们唯一的问题:“到底发生了什么?”
花时间了解了这场悲剧的规模,但现在我们知道,在迁移期间,540万客户的13亿条记录遭到破坏。 至少有一个星期,客户无法通过计算机和移动设备管理他们的资金。 他们没有设法偿还贷款,银行的许多客户在信用记录以及滞纳金中都占有一席之地。
这就是在线TSB客户银行的样子当故障开始出现时,几乎在那之后,银行代表就保证问题是“周期性的”。 三天后,发布声明所有系统均正常。 但是客户继续报告问题。 仅在2018年4月26日,银行首席执行官Paul Pester承认TSB处于“跪下”状态,因为该银行的IT基础设施仍然存在“带宽问题”,不允许大约100万客户使用在线银行服务。
迁移开始两周后,在线银行应用程序仍然报告崩溃,该崩溃生成了与SQL数据库有关的内部错误。
付款困难,特别是商业账户和抵押账户,持续了四个星期。 随处可见的记者发现,在移民危机开始之初,TSB拒绝了劳埃德银行集团的帮助。 总体而言,直到9月3日,人们都发现了与进入在线服务有关的问题以及转移资金的可能性。
一点历史
1967年6月27日,第一台自动取款机在恩菲尔德的巴克莱附近开业。随着客户需求及其对银行的期望不断增长,银行IT系统变得越来越复杂。 大约40至60年前,我们很乐意在工作时间访问银行的当地分行以存放现金或通过收银员提取现金。
帐户中的金额与我们转入银行的现金和硬币直接相关。 可以用笔和纸追踪我们的房屋会计,并且客户无法使用计算机系统。 银行员工将存折和其他媒体中的数据放入可以算钱的设备中。
但是1967年,在伦敦北部首次
安装了自动提款机
,该提款机不在银行的领土上。 这次事件改变了银行业务。 用户便利性已成为金融机构发展的指南。 这帮助银行在与客户及其资金合作方面变得更加复杂。 毕竟,虽然只有银行雇员才可以使用计算机系统,但他们对以前与客户进行交互的“书面”方式感到满意。 只有在有自动取款机和网上银行的情况下,公众才能直接访问银行的IT系统。
自动取款机仅仅是个开始。 很快,人们可以通过简单地通过电话呼叫银行来避免在收银员排队。 这要求将特殊的卡插入读卡器中,该卡能够解密用户按下“ 1”(提款)或“ 2”(存款)键时发送的双音多频(DTMF)信号。
互联网和移动银行使客户更接近支持银行的主要系统。 尽管有各种限制和设置,所有这些系统都必须彼此有效地与大型机交互,检查帐户余额,进行汇款等。
很少有客户会想到信息的难易程度,例如,当您去网上银行查看或更新有关帐户中资金的信息时。 当您进入系统时,该数据将通过一组服务器传输,当您进行交易时,系统会在后端基础结构中复制此数据,然后再进行艰苦的工作-将资金从一个帐户转移到另一个帐户以支付账单,付款并继续订阅。
现在,将此过程乘以数十亿。 根据世界银行通过比尔和梅琳达·盖茨基金会收集的数据,全球
69%的成年人拥有银行帐户。 这些人每个人都必须支付账单。 有人为儿童俱乐部支付抵押贷款或转移资金,有人为Netflix订阅费用或租用云服务器。 所有这些人都使用不止一家银行。
一家银行的许多内部IT系统(移动银行,ATM等)不应该相互影响。 他们需要与巴西,中国和德国的其他银行系统进行交互。 法国的ATM应该可以在玻利维亚某处发行的银行卡上发钞。
金钱一直是全球性的,但此系统从未如此复杂。 使用银行IT系统的方式越来越多,但仍在使用旧的方式。 银行的成功很大程度上取决于其IT基础架构的“可维护性”以及银行应对突发故障的效率,这将使系统处于闲置状态。
没有测试-准备解决问题
萨瓦德尔银行首席执行官Jaime Guardiola(左)对一切都会顺利充满信心。 无法解决。TSB计算机系统不能很好地快速解决问题。 当然会有软件故障,但实际上,由于IT系统过于复杂,银行“破产”了。 根据在大规模中断初期准备的报告,“新应用程序的组合,微服务的扩展使用以及两个活动(活动/活动)数据中心的使用导致工作场所的复杂风险。
一些银行,例如汇丰银行,在全球范围内运作,因此也具有非常复杂的,相互关联的系统。 但是,据兰开斯特(Lancaster)的汇丰(HSBC)IT高管之一说,他们已经过定期测试,迁移和更新。 他将汇丰视为其他银行应如何管理其IT系统的模型:分配人员并花费时间。 但与此同时,他也承认,对于一家较小的银行,尤其是没有移民经验的银行而言,正确地做到这一点是一项非常艰巨的任务。
TSB迁移很困难。 而且,根据专家的说法,银行职员无法在资历方面努力达到这种复杂程度。 此外,他们甚至没有费心检查自己的决定,预先测试迁移。
FCA执行董事安德鲁·贝利(Andrew Bailey)在英国议会就银行业问题发表讲话时证实了这一怀疑。 错误的代码可能仅在TSB中引起了最初的问题,但是全球金融网络的相互连接的系统意味着其错误是永久的并且是不可逆的。 该银行继续在其IT架构的其他地方看到意外错误。 客户收到的消息毫无意义或与他们的问题无关。
回归测试可以通过在生产环境中运行之前识别错误代码来帮助防止灾难,它确实会造成破坏,并产生无法回滚的错误。 但是银行决定越过雷区,他甚至都不知道。 结果是可以预见的。 另一个问题是成本的“优化”。 它表现在什么? 事实是,早先决定取消存储在劳埃德船上的备份,因为它们“吃了”太多钱。
英国银行(以及其他银行)正在努力实现可访问性水平“四个九”,即99.99%。 实际上,这意味着IT系统必须始终可用,并且每年停机时间最多为52分钟。 乍看之下,“三九”制度为99.9%,差别不大。 但是实际上,这意味着每年停机时间达到8小时。 对于银行来说,“四个九”是好的,但是“三个九”不是。
但是,公司每次更改其IT基础架构时,都会承担风险。 毕竟,可能会出问题。 减少更改可以帮助避免问题,而所需的更改则需要进行全面测试。 在这一点上,英国监管机构引起了人们的注意。
避免停机的最简单方法就是减少更改。 但是,每家银行都像其他公司一样,被迫为客户及其自身业务引入越来越多的有用机会,以保持竞争力。 同时,银行仍然有义务照顾客户,保护他们的储蓄和个人数据,为使用服务提供舒适的条件。 事实证明,组织在提供新服务的同时被迫花费大量时间和金钱维护IT基础架构的健康。
根据英国金融监管局发布的数据,从2017年到2018年,英国金融服务部门记录的技术故障数量增加了187%。 故障原因通常是新功能的操作中的问题。 同时,对于银行而言,确保所有服务的连续不间断运行以及几乎即时的交易报告至关重要。 当客户的钱花在半途而废时,他们总是很紧张。 担心金钱的客户总是有麻烦,这是肯定的信号。
TSB破产后几个月(当时该行首席执行官已辞职),英国金融监管机构和英格兰银行
发表了有关运营可持续性
的讨论
文件 。 因此,他们试图提出一个问题,即银行在追求创新方面走了多深,以及它们是否可以保证现有系统的稳定运行。
该文件还提出了对法律的修正案。 这是关于让公司内部的员工对公司的IT系统出现问题负责。 英国国会议员是这样解释的:“当您个人负责任,可以破产或被判入狱时,这将大大改变您的工作态度,包括增加用于可靠性和安全性问题的时间。”
总结
每次更新和修复都取决于风险管理,尤其是涉及数亿美元时。 毕竟,如果出现问题,那么就金钱和声誉而言可能是昂贵的。 这似乎是显而易见的事情。 银行在迁移过程中的失败也给他们带来了很多启示。
应该是。 但是没教。 在2019年11月,TSB再次恢复了投资回报并逐渐提高了声誉,以信息技术领域的
新失败 “吸引”了客户。 对该银行的第二次打击导致一个事实,即为了降低成本,该行将在2020年被迫关闭82个分支机构。 否则,他根本无法节省IT专家的费用。
对IT的简约最终会征税。 TSB报告称,2018年亏损1.34亿美元,而2017年则为利润2.06亿美元。 迁移后的成本包括对客户的赔偿,纠正欺诈性交易(在银行混乱期间交易数量急剧增加)以及第三方专家的协助,费用为4.19亿美元。 该银行的IT提供商也因其在危机中的作用而被支付1.94亿美元。
但是,尽管在TSB银行倒闭后吸取了教训,但中断仍然会发生。 它们是不可避免的。 但是,通过测试和良好的代码,可以显着减少崩溃次数和停机时间。 Cloud4Y通常可以帮助大型公司迁移到云基础架构,它深知快速从一个系统迁移到另一个系统的重要性。 因此,我们可以执行负载测试,并使用多级备份系统以及其他选项,这些选项使您可以在开始迁移之前检查所有可能的内容。
在Cloud4Y博客上阅读还有什么有用的→
咸太阳能→
处于网络安全前沿的测试人员→
大雪花理论→
气球上网→
您是否需要数据中心中的枕头?订阅我们的
电报频道,以免错过其他文章! 我们每周写不超过两次,并且只在商务上写。