数据中心的重大事故:原因和结果

现代数据中心是可靠的,但是任何设备都会不时损坏。 简而言之,我们收集了2018年最重大的事件。



数字技术对经济的影响越来越大,处理的信息量也在增加,新的设施正在建设中,这一切都很好,但效果很好。 不幸的是,自从人们开始在其中放置业务关键型IT基础结构以来,数据中心中断对经济的影响也增加了-这是数字化的必然结果。 我们发布了去年不同国家发生的最明显事故的一小部分。



美国


这个国家是数据中心建设领域公认的领导者。 美国拥有为全球服务提供服务的大型商业和公司数据中心,数量最多,因为事件的后果最为严重。 3月初,由于强劲的旋风,四个Equinix操作员设施面临停电。 这些区域用于Amazon Web Services(AWS)设备,事故导致许多流行服务无法访问:GitHub,MongoDB,NewVoiceMedia,Slack,Zillow,Atlassian,Twilio和mCapital One以及Amazon Alexa虚拟助手受伤。


9月,天气异常袭击了位于德克萨斯州的Microsoft数据中心;然后,由于雷暴天气,整个地区的电源系统都中断了,并且在数据中心从DGU切换到电源时,不知道为什么要关闭冷却系统。 花费了几天的时间来消除事故的后果,尽管由于负载平衡而造成的故障并不严重,但全世界的用户都注意到Microsoft云服务略有下降。


俄罗斯


最严重的事故发生在8月20日,发生在Rostelecom的一个数据中心。 因此,不动产统一州注册局的服务器停止了66个小时,因此必须将它们转移到备份站点。 Rosreestr只能在9月3日恢复通过所有渠道收到的应用程序的处理-该州组织正试图从Rostelecom收回一笔大笔款项,原因是违反了服务水平协议。


2月16日,由于Lenenergo网络的问题,在Xelnet公司(圣彼得堡)的数据中心中打开了备用电源系统。 正弦曲线的短暂中断导致许多服务的工作中断:特别是大型云提供商1cloud遭受了损失,但是对于俄罗斯互联网用户而言,最明显的问题是无法访问VKontakte社交网站。 最有趣的是,花费了大约12个小时才能完全消除短期电源故障的后果。


欧洲联盟


在2018年的欧盟,发生了几起严重事件。 3月,荷航航空运营商的数据中心发生故障:电源切断了10分钟,柴油发电机组的容量不足以使设备运行。 一些服务器断开连接,航空公司不得不取消或推迟几十个航班。


这不是与航空运输有关的唯一事故-已经在4月,Eurocontrol数据中心的电源系统发生了故障。 该组织控制着欧盟飞机的飞行,而专家们消除了事故造成的后果达5个小时,但乘客又不得不忍受航班延误和改期。


由于为金融部门服务的数据中心发生事故,因此出现了非常严重的问题。 在这里进行交易的中断成本通常很高,并且对象的可靠性水平是适当的,但这不能避免事件的发生。 4月18日,北欧NASDAQ股票交易所(芬兰赫尔辛基)在白天无法竞标整个北欧,这是由于在商业数据中心DigiPlex中未经授权启动了气体灭火系统,该系统意外断电了。


6月7日,数据中心的运行中断,迫使伦敦证券交易所(London Stock Exchange,LSE)将交易开始时间推迟了一个小时。 此外,6月在欧洲,由于数据中心故障,国际支付系统VISA的服务全天断开,事件的详细信息没有透露。


日本


2018年夏天,东京正在建设中的亚马逊数据中心地下发生火灾,造成5名工人死亡,至少50人受伤,大火烧毁该设施约5,000 m 2的场所。 调查表明,人为因素成为了火灾的原因:由于乙炔燃烧器处理不当,绝缘被点燃。


失败原因


由于数据中心发生的事故,银行和电信运营商的客户遭受痛苦,云提供商的脱机服务甚至紧急服务的工作都中断,上述事件的清单还远远不够完整。 少量的服务中断会导致严重的损失,而根据Uptime Institute的说法,大多数故障(39%)与电源系统有关。 人为因素排在第二位(24%),空调系统排在第三位(15%)。 数据中心中只有12%的事故可归因于自然现象,而只有10%的事故是由所列原因以外的其他原因造成的。


尽管对可靠性和安全性有严格的标准,但没有为单个对象提供事故保险。 其中大多数是由于电源故障或人为错误造成的。 这两个因素首先应引起数据中心和服务器机房所有者的注意,客户应了解:即使市场领导者也不能保证绝对的可靠性。 如果设备或云服务为关键业务流程提供服务,则应考虑一个备份站点。


图片来源:telecombloger.ru

Source: https://habr.com/ru/post/zh-CN451834/


All Articles