闪存可靠性:预期和意外。 第3部分。USENIX协会的XIV会议。 文件存储技术

闪存可靠性:预期和意外。 第1部分。USENIX协会的XIV会议。 文件存储技术
闪存可靠性:预期和意外。 第2部分。USENIX协会的XIV会议。 文件存储技术

5.5。 不可恢复的错误和光刻


有趣的是,光刻技术对不可纠正错误的影响不如RBER情况明显,在RBER中,如预期的那样,较小的光刻技术会导致更高的RBER。 例如,图6显示SLC-B模型具有比SLC-A模型更快的纠错率,尽管SLC-B具有更大的光刻(50nm,而SLC-A模型为34nm)。 此外,通常,工作尺寸较小的MLC系列机型(MLC-B机型)的致命错误率没有其他机型高。
实际上,在其生命的前三分之一(PE周期数从0到1000)和生命的后三分之一(> 2200 PE周期)中,该模型的UE频率低于MLC-D模型。 回想一下,所有MLC和SLC驱动器都使用相同的ECC机制,因此,这些后果不能归因于ECC的差异。

通常,与研究RBER的效果相比,我们发现光刻的效果比预期的要小,对不可校正的误差的影响也较小。

5.6。 与无法纠正的错误相比,其他类型的错误的影响


考虑是否存在其他错误,从而增加了无法纠正错误的可能性。

图7显示了在给定的磁盘操作月份中发生致命错误的可能性,具体取决于在上一个操作周期(条纹的黄色)还是在上个月(条纹的绿色)某个时刻在磁盘上发生了各种类型的错误,并进行了比较该概率与下个月发生不可纠正错误的概率(红色条)。

我们看到所有类型的错误都会增加不可纠正错误的可能性。 在这种情况下,最大的增加发生在相对较近的时间(即上个月-图表中的绿色条高于黄色)或以前的错误也是不可纠正的错误时(之前的一个月)。 例如,一个不可纠正错误发生在另一个不可纠正错误之后一个月的概率几乎为30%,而在任何其他月份看到不可纠正错误的概率为2%。 但是最终的写错误,元错误和擦除错误也会使UE的可能性增加5倍以上。


7.取决于各种类型先前错误的存在,每月发生不可纠正的驱动器错误的概率。

因此,先前的错误,特别是先前的不可纠正的错误,将随后发生不可纠正的错误的机会增加了一个数量级以上。

6.硬件故障


6.1。 损坏的块


块是其中执行擦除操作的存储部分。 在我们的研究中,我们区分了驱动器交付给用户时在现场损坏的设备和已经受到工厂损坏的设备。

在我们的研究中,驱动器在读取,写入或擦除的最终错误之后声明该块已损坏,并相应地对其进行了重新分配(也就是说,该块不再使用,并且放置在该块中并且可以还原的任何数据都被重定向到另一个块) 。


标签 4.统计在现场操作条件下出现的损坏块的存在情况,以及在工厂中磁盘制造过程中出现的损坏块的存在情况的统计信息。

表4的上半部分提供了经过现场测试的驱动器中受损单元的统计信息。 顶行显示了10种驱动器型号中每块损坏的驱动器的比例,平均值显示了包含损坏块的驱动器的损坏块的平均数量,底行显示了损坏块的磁盘中损坏块的平均数量。

我们仅考虑了至少在四年前投入生产的驱动器,并且仅考虑了在最初的四年现场测试中出现的那些损坏的模块。 该表的下半部分提供了有关驱动器的统计信息,其中在工厂制造期间出现了损坏的块。

6.1.1。 现场损坏单元的发生


我们得出的结论是,损坏的块是经常发生的:在现场,根据型号的不同,在30%到80%的磁盘中都可以找到它们。 对损坏的驱动器块数量的累积分布函数(CDF)的研究表明,大多数带有损坏块的磁盘只有少数这样的块:带有损坏块的磁盘的坏块的中位数为2到4。但是,取决于型号驱动器的块数大于中位数,那么通常会更多。 图8说明了这种现象。


8.该图显示了损坏块的数量根据最初损坏的块的数量而增加。

图8显示了损坏的驱动块的中位数如何随已损坏的块的数量增加而增加。 蓝色线对应于MLC模型,红色虚线对应于SLC模型。 特别是对于MLC驱动器,我们观察到第二个检测到的损坏块之后损坏块的数量急剧增加,而中位数跃升到200,即发现50%的磁盘上有2个损坏的块,随着时间的推移会出现200个或更多的损坏块。

只要我们无法获得芯片级的错误计数,损坏的块就被认为是数百个,可能是由于芯片本身的故障所致。因此,图8指出,在出现几个损坏的块之后,整个芯片很有可能发生故障。 如果您依靠坏块的先前计算并考虑其他因素(例如年龄,工作量和PE周期),则此结果可作为预测芯片故障的潜在机会。

除了确定坏块的发生频率外,我们还想了解如何检测损坏的块-在写入或擦除操作期间,用户看不见块故障或用户看到最终读取错误并造成数据丢失的风险时。 尽管我们没有有关单个块故障以及如何检测到它们的数据,但我们可以参考观察到的各种类型的错误的频率,这些错误指示了块故障。 返回表2,我们看到,对于所有模型,擦除错误和写入错误的发生频率均比最终读取错误的发生频率低,也就是说,大多数损坏的块都是由于发生不透明错误(即在读取操作期间)而检测到的。

6.1.2。 工厂损坏的单元


上面,我们检查了现场坏块发生的动力学。 在这里,我们注意到几乎所有磁盘(大多数型号的磁盘> 99%)都以损坏的块的形式包含工厂缺陷,并且它们的数量在型号之间差异很大,从2个SLC型号的中位数小于100开始,以更典型的值大于800结束对于其他型号。 工厂损坏块的分布与正态分布相对应,而平均值和中值的值接近。 有趣的是,工厂损坏的设备数量在一定程度上预示了现场其他驱动器问题的出现。 例如,我们注意到,除一个驱动器型号外,所有具有工厂坏块的驱动器中有95%的驱动器在该字段中具有比同一磁盘的平均磁盘更高的新损坏块和最终写入错误的比例。型号。 在某些类型的阅读错误(最终的或非最终的)的发展中,他们也占有较高的份额。 5%百分位中的磁盘的超时错误份额低于平均值。 因此,我们得出了有关坏块的以下结论:块损坏是在30-80%的具有至少一个这样的块的驱动器中观察到的相当普遍的现象。 同时,存在很大的依赖性:如果磁盘上至少包含2-4个损坏的块,那么紧随其后的是数百个损坏块的可能性为50%。 几乎所有磁盘都带有出厂损坏的块,这使我们有理由预测其在现场的发展以及某些其他类型的错误的发展。

6.2。 内存芯片损坏


在我们的研究中,可以相信,如果超过5%的块发生故障,或者在最后一个时间间隔内磁盘错误的数量超过了限制值,则磁盘芯片就会发生故障。 某些工厂闪存驱动器包含备用芯片,因此,如果其中一个发生故障,则驱动器将使用第二个。 在我们的研究中,驱动器具有相同的功能。 损坏的存储芯片不再使用备用芯片,而不再使用,并且驱动器继续工作,而其余芯片的性能下降。

表5的第一行显示了损坏切屑的发生率。 我们发现在运行的前四年中,有2-7%的磁盘出现芯片故障。 那些没有映射损坏芯片机制的驱动器需要维修,然后退回给制造商。


标签 5.在前四年的现场试验中,需要修理并更换有故障芯片的各种型号磁盘的份额。

我们还检查了导致芯片被标记为有缺陷的症状:在所有型号中,约有三分之二的芯片在形成5%的损坏块后被标记为已损坏,并且三分之一的芯片在达到错误天数后被标记为已损坏。

我们注意到,用于这些驱动器的所有闪存芯片的供应商都保证,直到达到PE周期的限制,每个芯片的损坏块数不会超过2%。 因此,三分之二的故障芯片(其中有超过5%的模块发生故障)不符合制造商的保修。

6.3。 维修和更换驱动器


如果出现问题需要技术人员的干预,则必须更换或修理驱动器。 表5的第二行显示了在运行的前4年中某个时间点需要维修的磁盘的百分比。 我们观察到各种型号光盘的维修需求存在显着差异。 对于大多数型号,在某个时间点仅需要维修的机率为9–9%,而某些驱动器型号(例如SLC-B和SLC-C)分别需要维修的机率为30%和26%。 查看维修的相对频率,即驱动器的工作天数与维修案例数的比率(表5中的第三行),我们观察到范围从最坏型号的维修事件之间的几千天到最佳型号的维修之间的15,000天。

我们还检查了重复维修的频率:在整个操作期间,96%的磁盘仅进行了一次维修。 对操作磁盘机群的研究表明,从调试之日起4年内,约有5%的驱动器被不断更换(表5的第四行),而性能最差的型号(MLC-B和SLC-B)中, 10%的驱动器。 在更换的磁盘中,大约有一半用于维修,并且据了解,所有维修中至少有一半会成功。

7. MLC,eMLC和SLC驱动器的比较


诸如eMLC和SLC之类的执行器以较高的价格吸引了消费者市场,除了它们具有最高的耐用性(即大​​量的重写周期)这一事实外,客户还认为这类SSD最高级别的产品具有一般的可靠性和耐用性。 在本文的这一部分中,我们试图评估这种观点的公正性。

返回表3,我们发现相对于RBER而言,相对于SLC磁盘,这一观点是正确的,因为该系数比MLC和eMLC驱动器的系数低一个数量级。 但是,表2和表5显示SLC磁盘的可靠性不是最好的:其更换和维修的频率以及不透明错误的频率均不低于使用其他技术制造的驱动器的类似指标。

EMLC驱动器显示出比MLC高的RBER,即使考虑到最坏情况下MLC驱动器的较低RBER限制可能高达16倍。 但是,这些差异可能是由于比其他技术差异更少的光刻而发生的。 基于以上观察,我们得出结论,SLC驱动器通常不比MLC驱动器更可靠。

8.与硬盘比较


显而易见的问题是,闪存驱动器的可靠性如何与其主要竞争对手HDD的可靠性相比。

我们发现,在更换磁盘的频率方面,闪存驱动器胜出。 根据2007年进行的先前研究,每年更换HDD总数的大约2-9%,这比开始运行4年后更换SSD的4-10%明显多。 但是,就错误率而言,闪存驱动器吸引力不大。 超过20%的闪存驱动器在运行4年之内出现无法恢复的错误,其中30-80%的存储块损坏,而2-7%的芯片发生故障。 来自2007年研究论文之一的数据表明,在过去32个月中,只有3.5%的HDD出现了损坏的扇区。 这是一个相当低的数字,但是考虑到HDD扇区的总数比SSD的块或芯片的数量大一个数量级,并且这些扇区小于块的数量,因此SSD的最坏特性似乎并不那么严重。

总的来说,我们得出的结论是,闪存驱动器在正常使用寿命内的更换频率要比硬盘驱动器低得多。 另一方面,与HDD相比,SSD具有更多不可纠正的错误。

9.该领域的其他研究


基于受控的实验室实验和少量的芯片,对闪存芯片的可靠性进行了大量研究,重点是确定错误的趋势及其来源。 例如,2002-2006年的一些早期工作研究了闪存芯片的保存,编程和读取操作违规行为,而在最近的一些工作中,研究了最新MLC芯片中错误出现的趋势。 我们对闪存驱动器在该领域的行为感兴趣,因此我们的观察结果有时与先前发表的研究结果不同。 例如,我们认为RBER并不是不可纠正错误发生概率的可靠指标,并且RBER随着PE周期线性增长,而不是呈指数增长。

根据Facebook上收集的数据,最近只有一篇关于闪存错误的现场研究报告-“该领域的闪存故障的大规模研究”(MEZA,J.,WU,Q.,KUMAR,S.,MUTLU, O.“对现场闪存故障的大规模研究。”在2015年ACM SIGMETRICS计算机系统测量和建模国际会议论文集中,纽约,2015年,SIGMETRICS '15,ACM,第177-190页) 这和我们的研究相辅相成,因为它们很少重叠。
来自Facebook研究的数据包括快速浏览闪存介质的数量,其中包括非常年轻的磁盘(就其使用而言,与PE周期值的极限相比),它们仅包含有关致命错误的信息,而我们的研究基于时间间隔涵盖磁盘的整个生命周期,并且包括有关各种类型的错误的详细信息,包括可纠正的各种类型的硬件故障以及各种技术的驱动器(MLC,eMLC,SLC)。 因此,我们的研究涵盖了更广泛的错误和故障模式,包括磨损对整个生命周期的影响。

另一方面,Facebook的研究考虑了一些我们没有考虑的因素(温度,总线功耗,DRAM缓冲区的使用)的作用。
我们的研究仅在两个小方面相交,在两种情况下,我们得出的结论略有不同:

  • Facebook的一项研究检查了不可纠正错误的发生率,并将这些错误作为磁盘使用的函数进行了研究。 该研究的作者观察到驱动器的显着“婴儿死亡率”,他们称之为“早期发现”和“早期失败”,而我们没有。 结果的差异既可以通过测试两家公司的驱动器(可能会影响“儿童死亡率”的情况)来解释,也可以通过以下事实来解释:Facebook的研究更多地侧重于磁盘的早期寿命(不考虑磁盘经过数百次PE循环后的关键点)。 PE极限以数万计。 我们的研究本质上是更宏观的,涵盖了驱动器的整个寿命。
  • Facebook的一项研究得出结论,阅读违规错误不会产生重大影响。 我们对这种类型的错误的看法更加不同,表明读取中断不会产生无法纠正的错误,并且读取中断错误的发生频率足以影响现场的RBER。

10.结论


本文提出了许多有关现场闪存可靠性的有趣发现。 其中一些符合公认的假设和期望,而大多数结论是出乎意料的。 下面我们根据研究结果提出结论。

  1. 在20%的磁盘中,有63%的磁盘在运行的前四年中发生了至少一个不可恢复的错误,最常见的是非透明的不可恢复的错误-它们受到磁盘运行1000天中的2到6天的影响。
  2. 在磁盘操作的大多数日子中,至少会发生一个可纠正的错误,但是与不透明错误相比,其他类型的透明错误(即用户看不见的错误)很少见。
  3. 我们发现,标准RBER指标作为磁盘可靠性的指标还不足以预测实际发生的故障。 特别是,较高的RBER不一定会导致较高频率的不可纠正错误。
  4. 我们认为,用于度量UBER致命错误的标准度量标准不够客观,因为我们没有看到UE与读数数量之间的关系。 因此,通过读取位数对无法纠正的错误进行归一化将人为地提高读取操作次数少的磁盘的错误率。
  5. RBER和不可纠正错误的数量都随PE周期的增长而增加,但是低于预期的增长率线性且非指数地发生,而当磁盘超过制造商为操作条件确定的PE周期数的限制时,则没有急剧的跳跃。
  6. 尽管磁盘操作过程中的磨损通常是人们关注的焦点,但应注意的是,无论驱动器的寿命如何,在现场花费的时间都会影响磁盘的可靠性。
  7. 面向企业市场并属于较高产品细分市场的SLC驱动器比属于较低SSD的MLC驱动器更不可靠。
  8. , RBER, , , .
  9. , SSD , HDD, , , , .
  10. . , .
  11. : , 30-80% 2-7% . () , .
  12. , , , , , (, , ). , , .

感谢您与我们在一起。 你喜欢我们的文章吗? 想看更多有趣的资料吗? 通过下订单或将其推荐给您的朋友来支持我们,在我们为您发明的独特模拟入门级服务器上为Habr用户提供30%的折扣: 关于VPS(KVM)E5-2650 v4(6核)的全部真相10GB DDR4 240GB SSD 1Gbps从$ 20还是如何划分服务器? (RAID1和RAID10提供选件,最多24个内核和最大40GB DDR4)。

戴尔R730xd便宜2倍? 只有我们有2台Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100电视在荷兰起价199美元 戴尔R420-2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB-$ 99起! 阅读有关如何构建基础架构大厦的信息。 使用价格为9000欧元的Dell R730xd E5-2650 v4服务器的上等课程?

Source: https://habr.com/ru/post/zh-CN472508/


All Articles