现代数据中心的重大事故主题引起了第一篇文章中未回答的问题-我们决定开发它。

根据Uptime Institute的统计,数据中心的大多数事件与电源系统故障有关-占事件的39%。 他们之后是人为因素-这是另外24%的事故。 第三重要的原因(15%)是空调系统故障,第四位的原因(12%)是自然灾害。 其他麻烦的总份额仅为10%。 在不质疑信誉良好的组织的数据的情况下,我们重点介绍了不同事故中的常见现象,并试图了解是否有可能避免这些事故。 剧透:在大多数情况下是可能的。
接触科学
简而言之,电源只有两个问题:要么本来应该没有接触,要么是不应该接触。 您可以谈论现代不间断电源系统的可靠性很长一段时间,但是它们并不总是可以节省下来的。 以母公司国际航空公司拥有的英国航空公司使用的一个数据中心的案例为例。 希思罗机场附近有两个这样的设施-Boadicea House和Comet House。 在其中的第一个中,2017年5月27日发生了意外断电,导致UPS系统过载和故障。 结果,部分IT设备受到了物理损坏,并且花了三天时间解决了最近的事故。
航空公司不得不取消或重新安排超过一千个航班,约有7.5万人无法按时飞行-1.28亿美元用于补偿,这还不包括恢复功能所需的数据中心成本。 停电原因的故事令人难以理解。 如果您相信国际航空公司总干事威利·沃尔什(Willie Walsh)表示的内部调查结果,则是由于工程师的错误而发生的。 然而,不间断电源系统必须承受这样的关闭-为此,它已安装。 数据中心由外包公司CBRE Managed Services的专家管理,因此英国航空公司试图通过伦敦法院追回损失额。

停电是根据类似的情况发生的:首先,停电是由于供电商的故障,有时是由于恶劣的天气或内部问题(包括人为错误)造成的,然后不间断的供电系统无法应对负载,或者正弦曲线的短暂中断导致许多服务失败,恢复健康留下了时间和金钱的突破。 有可能避免此类事故吗? 当然可以 但是,如果正确设计系统,那么即使是大型数据中心的创建者也无法避免错误。
人为因素
当事件的直接原因是数据中心人员的错误行为时,问题通常(但并非总是)影响IT基础架构的软件部分。 即使在大型公司中也发生此类事故。 2017年2月,由于数据中心团队之一的技术维护团队成员的类型有误,一些Amazon Web Services服务器已断开连接。 调试Amazon Simple Storage Service(S3)云客户的账单流程时发生错误。 该员工试图删除计费系统使用的一定数量的虚拟服务器,但接触到一个更大的集群。

由于工程师的错误,删除了运行重要的Amazon云存储软件模块的服务器。 首先,索引子系统被破坏,其中包含有关元数据和美国地区US-EAST-1中所有S3对象的位置的信息。 该事件还影响了用于存储数据和管理可用存储空间的子系统。 删除虚拟机后,这两个子系统需要完全重启,然后Amazon工程师对公共云存储长时间无法满足客户要求感到惊讶。
由于许多大型资源都在使用Amazon S3,因此影响是广泛的。 故障影响了Trello,Coursera,IFTTT,最令人不快的是标准普尔500指数中大型亚马逊合作伙伴的服务,在这种情况下造成的损失不易计算,但其造成的损失却高达数亿美元。 如您所见,为了禁用最大的云平台服务,只需要一个错误的团队就足够了。 这不是一个孤立的案例,在维护工作期间,Yandex.Cloud服务于2019年5月16日删除了 ru-central1-c区域中至少一次处于``挂起''状态的用户的虚拟机。 在这里,客户数据已经受到影响,其中一些已经不可挽回地丢失了。 当然,人们并不完美,但是现代信息安全系统早就能够在执行特权用户输入的命令之前对其进行控制。 如果您在Yandex或Amazon中实施此类解决方案,则可以避免此类事件。

冷冻冷却
2017年1月,Megafon的Dmitrov数据中心发生重大事故。 然后,莫斯科地区的温度降至-35°C,这导致该设施的冷却系统出现故障。 运营商的新闻服务没有特别提及事件的起因-俄罗斯公司极不愿意谈论其设施发生的事故,就宣传而言,我们远远落后于西方国家。 在社交网络中,有一种说法是关于沿街道铺设的管道中的冷却剂冻结和乙二醇泄漏的。 如果您相信她的话,由于长假,运营服务人员将无法立即接收30吨冷却液,并使用即兴的方式下车,违反了操作系统规则,即兴进行了自然冷却。 严寒加剧了这个问题-一月份,俄罗斯突然发生了冬季,尽管没有人在等待。 结果,工作人员不得不关闭部分服务器机架的电源,因此两天无法使用某些操作员服务。

可能在这里您可以谈论天气异常,但是这种霜冻在首都地区并不罕见。 莫斯科地区的冬季温度可能会下降到较低水平,因此建立数据中心时的期望是在-42°下稳定运行。 多数情况下,由于冷却剂溶液中乙二醇浓度过高和水分过多,导致寒冷天气中的冷却系统出现故障。 管道的安装或系统的设计和测试中存在错误计算的问题,主要与节约的愿望有关。 结果,完全可以避免发生严重的意外事故。
自然灾害
通常,雷暴和/或飓风会破坏数据中心工程基础架构的工作,从而导致服务关闭和/或设备物理损坏。 由恶劣天气引起的事故经常发生。 2012年,桑迪飓风席卷美国西部沿海,并下了大雨。 Peer 1数据中心位于曼哈顿下城的一幢高层建筑中,盐水淹没了地下室,导致其外部电源中断。 该设施的应急发电机位于18楼,其燃料供应受到限制-9/11袭击发生后在纽约引入的规定禁止在高层上存储大量燃料。
燃油泵也发生故障,因为工作人员连续几天拖着柴油手动拖动发电机。 团队的英勇精神使数据中心免于发生严重事故,但这是否有必要? 我们生活在一个拥有氮氧气氛和大量水的星球上。 这里的雷暴和飓风很普遍(尤其是在沿海地区)。 设计人员可能应该考虑与之相关的风险,并构建适当的不间断电源系统。 或者至少选择一个比岛上的高层建筑更适合数据中心的位置。
其余的
Uptime Institute将各种事件区分为这一类,其中很难选择典型事件。 盗窃铜电缆撞到数据中心,输电塔和变电站,汽车,火灾,挖土机破坏了光学器件,啮齿动物(老鼠,兔子甚至是袋熊,通常属于有袋动物),以及业余爱好者练习电线射击-菜单丰富。 断电甚至可能是由偷能源的非法大麻种植园引起的 。 在大多数情况下,事件的肇事者是特定的人,也就是说,当问题有名字和姓氏时,我们将再次与人为因素打交道。 即使乍看之下,事故与技术故障或自然灾害有关,但如果设施的设计和操作正确,也可以避免事故发生。 唯一的例外是由于自然灾害而对数据中心基础架构造成严重损坏或建筑物和结构被毁的情况。 这些确实是不可抗力的情况,所有其他问题都是由计算机和椅子之间的放置引起的-也许这是任何复杂系统中最不可靠的部分。