为什么现代SSD使我崩溃



今天,我们一台新的 Linux 文件服务器上的SSD之一已经失效。 这不是我们将要面对的SSD的第一个,也可能不是最后一个死亡,但是,在这种情况下,几乎总是如此,我感到我的神经很顽皮-都是由于SSD故障的性质,它们与“黑匣子”的相似性的结合“以及固态性质。

像大多数其他SSD故障一样,这一事件突然发生了。 磁盘从完美工作状态转变为在50秒钟内完全没有反应的状态,而没有通过SMART或其他任何警告。 在这里,他很高兴地处理读写请求(通过所有外部标志,包括ZFS,它没有抱怨校验和),但是现在SAS端口上没有Crucial MX300。

来自Linux内核的有关IO操作失败的第一条消息出现在20:31:34,并且该驱动器在20:32:15被声明为正式丢失。 但是,实际上,磁盘可能会立即停止响应-我不太了解驱动程序消息。

这些突发的SSD故障让我最困扰的是它们的不可理解性,我无法向自己解释到底出了什么问题。 当硬盘驱动器旋转时,它也可能突然死亡,但是至少您可以对之前发生的情况进行解释-电动机卡住或发生其他物理故障,从而导致突然停止。 SSD坚固而神秘,我无法解释出了什么问题,特别是在驱动器还很年轻并且不应该耗尽闪存寿命的情况下。

当硬盘驱动器在年轻时死亡时,可以想象它没有揭示由此产生的制造缺陷。 从理论上讲,SSD应该不会发生这种情况,因此他的早逝尤其令人担忧。 闪存单元也可能具有不可检测的制造缺陷。

当我对发生的事情一无所知时,我的想法开始沿着焦虑之路走-例如,磁盘在SMART诊断程序中对其健康状况欺骗了我们,实际上它使用了最后一个备用单元,然后它们终止了,或者发生了什么他的固件中存在某种错误,我们不小心涉及到该错误,之后他变成了一块砖头。

我们曾以这种方式使SSD死亡,然后在被拉出并再次卡住时又恢复了生命-它看上去完全健康,这没有激发人们的信心。 但这是另一种类型的SSD。 而且我们还从Crucial MX500 SSD系列中得到了奇怪的错误

此外,当我无法解释SSD失败时,在我看来,每个故障都无法预测。 他们健康吗?明天会死吗? 看来我应该依靠统计数据,也就是说,不会有太多的统计数据会死掉,并且不会太快地死掉,以便可以更改它们。 甚至这种希望都基于这样的假设:故障没有关联-站在旁边的其他人不太可能发生此SSD发生的故障。

这个问题不仅与我们的文件服务器有关-我的家用计算机也有同样的焦虑。 我镜像了所有数据,但是两个SSD发生故障的真正机会是什么?

从理论上讲,我知道SSD应该比旋转的生锈驱动器更可靠。 我们也有许多固态硬盘,它们已经安静地工作了很多年。 但是在经历了如此神秘的突然失败之后,它们似乎不再那么可靠了。 我真的很想让我们对SSD失败发出某种警告,因为使用HD硬盘常常是可能的(例如,我在一台工作的台式计算机上收到了有关HD硬盘的警告-尽管我忽略了它们) 。

Source: https://habr.com/ru/post/zh-CN434702/


All Articles