Google和Telstra停机补偿选项

停机时间(系统无法正常工作的时间)数据中心不仅会造成财务损失,还会损害品牌声誉。许多原因会导致数据中心停机。由于各种缺陷(要素,中央电网的运行中断等),基础设施可能无法应付负载。但是,导致大多数错误的是人为因素,导致数据中心的安全性和可靠性下降。根据对大约一千个数据中心运营商进行调查的WinMagic的统计数据,大多数受访者(31%)认为能够访问服务器场的员工是对逻辑安全性的最严重威胁。有趣的是,黑客攻击仅排名第二(30%)。



由于Google Compute Engine云持续了将近20分钟(鉴于99.9%的正常运行时间,该服务每月不超过45分钟不可用),Google承诺向客户补偿其每月费用的25%。根据在Google Cloud Platform网络资源上发布的新闻稿,失败的根本原因是网络配置更改。当操作员开始更改时,配置管理软件检测到冲突。为了纠正这种情况,系统尝试返回到先前的配置,并偶然发现了一个先前未知的错误,该错误导致了故障。仅在20分钟后才可以“修补”孔,但是问题仍然没有解决。 Google开发人员必须努力优化系统。



澳大利亚电信公司Telstra的数据中心也发生了类似的情况。相同的臭名昭著的人为因素使整个数据中心瘫痪。但是与Google不同,Telstra花费了将近四个小时来修复。电信公司的移动网络已离线。根据《悉尼先驱晨报》的报道,该事件的发生是由于工程师的行为,该工程师使故障网络节点脱机而未首先激活备份节点。这些行为导致移动网络中断,并使许多客户无法进行通信。该问题影响了澳大利亚的许多城市,包括布里斯班,悉尼,墨尔本,阿德莱德和珀斯。在修复过程中,成千上万的人对公司在社交网络上的工作表示不满。



发生了什么之后,出现了几次不太严重的长时间停机。公司管理层决定赔偿给客户带来的不便。Telstra为订户提供了一天的免费无限制移动互联网(免费数据日)。最终,下载了2686 Tb的数据,这自然导致网络拥塞并降低了下载速度。

中心的简单日期会造成财务损失并超过公司的声誉。因此,对于数据中心的运营商,设计人员和建造者来说,尽其所能以最大限度地减少停机时间至关重要。当然,没有人能保证100%的安全性,但是如果您使用现代标准,请在无法预料的情况下制定行动计划,并且不要忘记及时维护-可以将停机时间的风险降到最低。

Source: https://habr.com/ru/post/zh-CN393523/


All Articles