为什么HDD出现故障的可能性降低

硬盘驱动器损坏是数据中心服务器停机的主要原因之一。 但是最近,HDD故障的数量一直在下降。 让我们解释一下为什么会发生这种情况。


/图片William Warby CC BY

回顾一下


二十年前,硬盘驱动器是计算机或服务器的“弱点”之一。 IBM Deskstar驱动器有一个已知的故事,即使短暂使用它也会失败 。 这些光盘被认为是最不可靠的商业HDD之一,因此获得了通用的昵称Deathstar(“死亡之星”)。

Deskstar对硬盘行业投下了长长的阴影。 许多制造商已开始自愿降低其设备保修期限。 在某些情况下,它们从三年减少到一年。 但是随着时间的流逝,出现了新技术,这些技术提高了HDD的可靠性。 根据最大的西方云提供商之一在2018年的一项研究 ,其数据中心硬盘的故障率(AFR)为1.25%。 作为比较:在2016年和2017年,AFR值分别为1.95%和1.77%。

IT行业的专家将硬盘故障数量的减少与驱动器本身和数据中心技术的发展联系在一起。 考虑其中一些解决方案。

氦气室


一些现代硬盘制造商充满氦气。 氦气密度比空气密度低七倍。 该特征减小了作用在运动部件上的摩擦力并减小了气流的力,这影响了读取头的定位精度。 此外,该技术消除了 HDD元素腐蚀风险,因为氦介质中不包含水蒸气。 所有这些都增加了硬盘驱动器的估计使用寿命。

根据几年前进行 HGST 研究 ,根据Netflix,华为和HP的统计数据,氦气磁盘的使用寿命是传统HDD的两倍。 因此,氦气磁盘的销量逐年增长,并且设备本身正越来越多地用于云提供商的数据中心

改善数据中心条件


业界提高HDD专家可靠性的另一个原因是数据中心条件的改善。 硬盘驱动器的使用寿命与其环境温度直接相关。 希捷公司指出 ,最佳温度为30°C。 如果高于50°C或低于5°C,则故障数量将大大增加。

因此,IT公司正在开发新的空调解决方案,以保持服务器机房中的最佳温度。 例如,Facebook为数据中心引入了蒸发冷却技术。 系统用水在特殊的热交换器中冷却,并通过特殊的膜层蒸发。 然后使用这种液体降低引擎室的温度。

除了新的冷却系统,还正在开发解决方案。 特别是基于机器学习。 这样的系统使用传感器来收集数据中心内部和外部的温度数据。 然后,控制模块将使用此信息来设置通风-它通过从街道吸入更多或更少的空气来调节温度。

我们在一篇博客资料中详细介绍了AI系统如何帮助冷却数据中心。

开发“内部”硬盘技术


HDD故障的数量也受湿度影响。 它确定可以安全放置读取头的高度,以免损坏磁性表面。 为了解决这个问题,磁盘制造商正在引入一些技术,这些技术可以根据操作条件来配置磁头块的运动。

这种技术的一个示例是RV传感器或旋转振动传感器。 内置的控制模块使用它们的读数,以特殊的方式改变磁头块的运动性质,以一种特殊的方式振动重新分配给设备主体。 通常,在希捷,东芝和Western Digital设计用于磁盘阵列的驱动器中都可以找到RV传感器。


/图片, 同时丹 PD

关于替代驱动器的可靠性


如今,包括数据中心在内的硬盘驱动器的主要竞争对手是SSD。 据统计,SSD的故障数量少于 HDD。 但是,随着年龄的增长,“固态工人”读取错误的数量增长的速度是以前的两倍。 为解决此问题,SSD制造商正在开发纠错方法,这些方法应可以提高设备的可靠性和使用寿命。

这种方法之一是SSD刷新( 第32页 )。 如果长时间不访问驱动器的各个单元,则它们开始失去电荷。 这可能会导致某些数据丢失。 因此,驱动控制器会不时读取未使用单元中的信息,评估其当前状态并“充电”。

继续用于数据中心的另一项技术是磁带。 在2018年的数据存储趋势报告中,该磁带成为仅次于HDD,SDD和云的第四受欢迎的存储(我们正在谈论用于存储公司数据的各种选项,而不是诸如此类的存储方法)。 使用磁带主要是由于其可靠性:此驱动器上的错误比HDD少四到五个数量级。

同时,仍在开发新技术以延长胶卷的使用寿命。 2017年,IBM和索尼创建了磁带,并磁带上附加了一层“润滑剂”以进行保护。 当磁带以每秒10米的速度移动时,该层降低了磁带损坏的风险。

有更多的实验性存储技术,从理论上讲,其可靠性可以大大超过传统驱动器的性能。 例如, DNA分子预示了作为IT社区中长期载体的巨大潜力。

DNA储存库的创建者计划分子密封在玻璃胶囊中,将其与有害的环境条件隔离。 这将使您能够将编码后的数字数据存储数千年而不会出错。 这种存储介质可能在未来几年成为现实:Microsoft 计划在其一个数据中心中引入DNA存储。

但是,此类解决方案仍处于试验阶段,并未设计为广泛使用。 因此,尽管在数据中心中最流行的信息存储方式之一仍然是硬盘驱动器。 考虑到它们的可靠性不断提高,HDD将在我们身边长期存在。



来自第一个公司IaaS博客的资源:


来自我们的电报频道的帖子:

Source: https://habr.com/ru/post/zh-CN440322/


All Articles