闪存可靠性:预期和意外。 第2部分。USENIX协会的XIV会议。 文件存储技术

闪存可靠性:预期和意外。 第1部分。USENIX协会的XIV会议。 文件存储技术

4.2.2。 RBER和磁盘寿命(不包括PE周期)。


图1显示了RBER与使用期限之间的显着相关性,该相关性等于现场中磁盘操作的月数。 但是,这可能是错误的关联,因为较旧的磁盘可能具有更多的PE,因此RBER与PE周期的互连程度更高。

为了消除老化对PE循环造成的磨损的影响,我们使用PE循环分布的十分位作为容器之间的截止点,将所有操作月份分组为多个容器,例如,第一个容器包含磁盘操作的所有月份,直到PE循环分布的第一个十分位数。进一步。 我们检查了每个容器内PE和RBER周期之间的相关性是微不足道的(因为每个容器仅覆盖了很小的PE周期范围),然后我们分别计算了每个容器RBER与磁盘寿命之间的相关系数。

我们对每种模型分别进行了此分析,因为观察到的任何相关性都不是由于新旧模型之间的差异,而仅仅是由于同一模型的磁盘寿命所致。 我们观察到,即使在如上所述限制了PE周期影响的影响之后,对于所有磁盘模型,该领域中磁盘操作的月数与其RBER之间仍然存在显着相关性(相关系数范围为0.2到0.4)。


3. RBER与新旧驱动器的PE循环次数之间的关系表明,驱动器的寿命会影响RBER值,而与磨损引起的PE循环无关。

我们还通过图形化显示了驱动器寿命的影响,方法是将最长1年的“年轻”年龄的磁盘运行天数与4年以上的磁盘的运行天数分开,然后绘制每个组的RBER对PE循环次数的依赖性。 图3显示了MLC-D驱动器模型的这些结果。 我们看到在整个PE周期的所有值中,旧磁盘组和新磁盘组之间的RBER系数值存在明显差异。

由此得出的结论是,无论是由于PE循环的影响而导致存储单元的磨损,以现场使用磁盘的天数衡量的年龄对RBER都有重要影响。 这意味着其他因素(例如硅老化)在磁盘的物理磨损中起着很大的作用。

4.2.3。 RBER和工作量。


误码被认为是由以下四种机制之一引起的:

  1. 当存储单元随时间丢失数据时的保留错误
    读取干扰错误,其中读取操作会损坏相邻单元的内容;
  2. 写干扰错误,其中读操作会损坏相邻单元的内容;
  3. 当擦除操作不能完全删除单元格的内容时,擦除错误将出现。


与后三种类型(读取干扰,写入干扰,不完全擦除)相关的错误与工作负载相关,因此了解RBER与工作负载之间的相关性有助于我们了解各种错误机制的普遍性。 在最近的一项研究中,“对现场闪存故障进行大规模研究”(MEZA,J.,WU,Q.,KUMAR,S.,MUTLU,O。“对现场闪存故障进行大规模研究。” 2015年ACM SIGMETRICS国际计算机系统测量和建模国际会议论文集,纽约,2015年,SIGMETRICS '15,ACM,第177-190页)得出结论,存储错误在该领域占主导地位,而阅读违规错误非常小。

图1显示了某些模型在给定的磁盘操作月份中的RBER值与当月的读取,写入和擦除操作的数量之间的显着关系(例如,MLC-B模型的相关系数大于0.2,模型的相关系数大于0.6 SLC-B)。 但是,这可能是错误的关联,因为每月的工作量可能与PE循环的总数有关。

我们使用第4.2.2节中描述的相同方法,通过根据以前的PE周期隔离驱动器的运行月份,将工作负荷的影响与PE周期的影响分开,然后分别确定每个容器的相关系数。

我们看到,即使在PE周期有限的情况下,对于MLC-B和SLC-B模型,在给定的磁盘操作月份中,读操作的次数与同一个月中的RBER值之间的相关性得以保留。 我们还重复了类似的分析,其中排除了读取操作对并行写入和擦除操作数量的影响,并得出结论,对于SLC-B模型,RBER与读取操作数量之间的相关性得以保留。

图1还显示了RBER与写和擦除操作之间的相关性,因此我们对读,写和擦除操作重复了相同的分析。 我们得出的结论是,尽管限制了PE循环和读取操作的影响,但RBER值与写入和擦除操作的数量之间没有关系。

因此,在某些磁盘模型中,读取冲突错误会对RBER产生重大影响。 另一方面,没有证据表明RBER受写错误或不完整的擦除错误影响。

4.2.4 RBER和光刻。


对象大小的差异可以部分解释使用相同技术(即MLC或SLC)的磁盘模型的RBER值的差异。 (有关本研究涉及的各种模型的光刻的概述,请参见表1)。

例如,具有34nm光刻技术的2个SLC模型(SLC-A和SLC-D模型)具有RBER,比具有50nm微电子光刻技术的2个模型(SLC-B和SLC-C模型)高一个数量级。 对于MLC模型,只有43nm模型(MLC-B)的RBER中值比其他3种具有50 nm光刻技术的模型高50%。 此外,如图2所示,随着光盘的磨损,这种RBER差异增加了4倍。最后,与MLC驱动器相比,更薄的光刻技术可以解释eMLC驱动器更高的RBER。 总体而言,我们有明确的证据表明光刻技术会影响RBER。

4.2.5。 存在其他错误。


我们研究了RBER与其他类型错误之间的关系,例如致命错误,超时错误等,特别是,一个月后RBER值是否会由于其他类型错误的影响而变得更高。

图1显示,尽管上个月的RBER值使我们可以预测未来的RBER值(相关系数高于0.8),但致命错误与RBER(图1中最右边的一组元素)之间没有显着的相关性。 对于其他类型的错误,相关系数甚至更低(图中未显示)。 在本文的5.2节中,我们继续研究RBER与致命错误之间的关系。

4.2.6。 其他因素的影响。


我们发现证据表明,有一些因素会对RBER产生重大影响,并且无法解释我们收到的数据。 特别是,我们注意到,特定磁盘模型的RBER取决于磁盘部署所在的群集。 图4是一个很好的例子,该图显示了三个不同群集中MLC-D驱动器的RBER对PE周期的依赖性(虚线),以及该模型与RBER相对于磁盘总数的比较(实线)。 我们相信,即使我们限制磁盘寿命或读取操作次数等因素的影响,这些差异仍然存在。

对此因素的一种可能解释是不同集群中工作负载类型的差异,因为我们观察到工作负载具有最高读/写系数的集群具有最高的RBER。


4 a),b)。 RBER的中值取决于三个不同簇中的PE循环以及读/写系数对三个不同簇中PE循环数的依赖性。

例如,图4(b)显示了MLC-D驱动器模型的不同簇的读/写系数。 但是,读/写比率不能解释所有模型的群集之间的差异,因此,可能还有其他因素未考虑我们的数据,例如环境因素或工作负载的其他外部参数。

4.3。 加速耐用性测试期间的RBER。


大多数科学工作,以及以工业规模购买介质时进行的测试,都基于加速耐久性测试的结果来预测设备在现场的可靠性。 我们决定了解这种测试的结果如何与操作固态存储介质的实际经验相对应。
根据加速测试的通用方法对提供给Google数据中心的设备进行的测试结果分析表明,RBER字段值明显高于预期。 例如,对于eMLC-a模型,现场操作光盘的中位RBER(测试结束时PE循环数达到600)为1e-05,而根据初步加速测试的结果,该RBER值应大于PE循环4000次。 这表明基于从实验室测试获得的RBER估计值,很难在野外准确预测RBER值。

我们还注意到,在加速测试期间,某些类型的错误很难重现。 例如,对于MLC-B型号,现场将近60%的驱动器具有无法纠正的错误,而近80%的驱动器具有损坏的块。 但是,在加速耐久性测试期间,在光盘达到PE循环极限的三倍以上之前,六个设备都没有遇到任何不可纠正的错误。 对于eMLC模型,超过80%的磁盘中发生了无法纠正的错误,而在加速测试中,此类错误在达到15,000个PE周期后发生。

我们还回顾了先前研究论文中描述的RBER,该论文基于受控环境中的实验,得出的结论是,值的变化范围非常大。 例如,L.M。 小组和其他人在其2009–2012年工作中指出,磁盘的RBER值接近达到PE周期的极限值。 例如,对于光刻尺寸与我们的工作中使用的光刻尺寸相似(25-50nm)的SLC和MLC器件,RBER值范围从1e-08到1e-03,对于大多数测试的驱动器型号,RB​​ER值接近1e-06。

在我们的研究中,三个达到PE周期限制的磁盘模型的RBER范围从3e-08到8e-08。 即使考虑到我们的数字是下界,在绝对最坏的情况下,它们的值也可以大16倍,或者考虑到95%的RBER,我们获得的值仍然低得多。

通常,虽然现场的实际RBER值高于根据加速耐用性测试得出的预测值,但仍低于其他研究论文中报告并根据实验室计算得出的类似设备的大多数RBER。测试。 这意味着您不应依赖于现场的RBER预测值,该值是根据加速耐久性测试的结果获得的。

5.不可恢复的错误。


鉴于本文第3节已讨论了不可纠正错误(UE)的广泛出现,在本节中,我们将更详细地研究其特征。 我们首先讨论用于衡量UE的度量标准,考虑它们与RBER的关系以及各种因素如何影响UE。

5.1。 为什么UBER系数没有意义。


表征不可纠正错误的标准度量标准是UBER,即不可纠正比特错误的比率,即不可纠正比特错误的数目与读取的总比特数的比率。

该度量标准隐式地假设不可纠正错误的数量以某种方式与读取的位数相关联,这意味着应该用该数量对其进行归一化。

此假设适用于可纠正的错误,可以发现在给定月份中观察到的错误数量与同一时间段内的读取操作数量密切相关(Spearman的相关系数大于0.9)。 这种强相关性的原因是,即使是一个损坏的位,在用ECC进行纠正的同时,针对它的每次读取操作也将继续增加错误数量,因为当检测到错误时,包含损坏位的单元的评估不会立即得到纠正(光盘仅定期重写具有损坏位的页面)。

相同的假设不适用于不可纠正的错误。 无法恢复的错误排除了损坏块的进一步使用,因此,一旦检测到,这样的块将不会影响将来的错误数量。

为了正式确认这一假设,我们使用各种指标来衡量给定磁盘操作月份中读操作的次数与同一时间段内致命错误的次数之间的关系,包括各种相关系数(Pearson,Spearman,Kendall)以及图形的可视化研究。 。 除了不可纠正错误的数量之外,我们还检查了具有不可纠正错误的事件的频率(例如,磁盘在一定时间段内至少发生一次此类事件的可能性)及其与读取操作的关系。
我们没有发现读数与致命错误数之间存在相关性的证据。 对于所有驱动器模型,相关系数都低于0.02,并且该图没有显示UE随着读取操作次数的增加而增加。

在本文的5.4节中,我们认为写入和擦除操作也与不可纠正的错误无关;因此,由写入或擦除操作而非读取操作规范化的UBER替代定义没有意义。

因此,我们得出的结论是,除了在实验人员设置读取操作次数的受控环境中进行测试外,UBER并不是一项重要指标。 如果在现场试验期间将UBER用作度量标准,则它将人为降低读取次数多的驱动器的错误率,并人为增加读取次数少的驱动器的错误率,因为无论读取操作的数量如何,都会发生无法纠正的错误。

5.2。 致命错误和RBER。


RBER的相关性可以通过以下事实来解释:RBER可以作为确定驱动器总体可靠性的一种措施,尤其是根据出现不可纠正错误的可能性来确定。 在他们的工作中,N。Mielke等人在2008年率先确定致命错误的预期发生频率与RBER的关系。 从那时起,许多系统开发人员都使用了类似的方法,例如,根据RBER和ECC的类型来估计不可纠正错误的预期频率。

本部分的目的是表征RBER预测不可纠正错误的程度。 让我们从图5a开始,该图显示了许多第一代驱动器模型的RBER中值相对于其运行期间发生UE不可纠正错误的比例的图表。 应该注意的是,由于缺乏分析信息,表1中未显示该图中所示的16个模型中的某些模型。


5a。 各种驱动器模型的中位RBER与不可校正误差的相关性。


5b。 对于同一模型的不同驱动器,中位RBER与不可纠正的误差之间的相关性。

回想一下,同一代中的所有模型都使用相同的ECC机制,因此模型之间的差异不取决于ECC差异。 我们没有看到RBER与UE事件之间的相关性。 与UE的概率相比,我们为第95个百分位的RBER创建了相同的图,并且再次没有看到任何相关性。

接下来,我们在详细介绍单个磁盘时重复了分析,也就是说,我们试图找出是否有磁盘中RBER值越高,UE频率越高。 例如,图5b显示了每个MLC-c模型驱动器的RBER中值与UE数量的关系图(结果类似于从第95个百分位数的RBER获得的结果)。 同样,我们没有看到RBER和UE之间有任何关联。

最后,我们进行了更准确的时间分析,以确定具有较高RBER的驱动器的运行月份是否对应于UE发生的月份。 图1已经表明,不可纠正错误与RBER之间的相关系数非常低。 我们还尝试了各种绘制UE概率与RBER的关系的方法,但没有发现任何相关的迹象。

因此,我们得出结论,RBER是用于预测UE的不可靠指标。 这可能意味着导致RBER的故障机制与导致发生不可纠正错误(例如,针对整个设备出现的较大问题的独立单元中包含的错误)的机制不同。

5.3。 致命错误和磨损。


由于磨损是闪存的主要问题之一,因此图6显示了每天发生不可纠正的驱动器错误的可能性,具体取决于PE周期。


图6.每天发生不可纠正的驱动器错误的概率,取决于PE周期。

我们注意到,UE的概率随着驱动器的寿命而不断增加。 但是,与RBER的情况一样,增长速度比通常预期的要慢:图表显示UE随PE周期线性而不是指数增长。

我们针对RBER得出的两个结论也适用于UE:首先,达到PE周期的限制后出现错误的可能性没有明显增加,例如,图6中的MLC-D模型的PE周期限制为3000。其次,即使在同一类别中,错误发生的频率在不同模型之间也不同。 但是,这些差异不如RBER大。

最后,为支持我们在5.2节中的发现,我们发现,在同一类模型(MLC与SLC)中,对于给定数量的PE周期,具有最低RBER值的模型不一定是具有UE发生概率最低的模型。 例如,对于3000个PE周期,MLC-D模型驱动器的RBER值比MLC-B模型低4倍,但是,在MLC-D模型中具有相同PE周期数的UE的概率略高于MLC-B模型。


图7.发生不可纠正的驱动器错误的月度概率,取决于对各种先前错误的存在的依赖性。

5.4。 致命错误和工作量。


出于同样的原因,工作负载会影响RBER(请参阅第4.2.3节),因此可以预期,它也会影响UE。 例如,由于我们已经观察到读取违规错误会影响RBER,因此读取操作也会增加发生不可纠正错误的可能性。

我们对工作负载对UE的影响进行了详细研究。 但是,如第5.1节所述,我们没有发现UE与读取操作次数之间的关系。 我们对写入和擦除操作重复了相同的分析,但再次没有发现任何相关性。
请注意,乍一看,您会发现与我们之前的观察结果相矛盾,根据该观点,不可纠正的错误与PE周期相关。 因此,可以预期与写入和擦除操作的数量相关。

PE PE, , . , , / / , , . . / / .

, , .

感谢您与我们在一起。 你喜欢我们的文章吗? 想看更多有趣的资料吗? 通过下订单或将其推荐给您的朋友来支持我们,在我们为您发明的独特模拟入门级服务器上为Habr用户提供30%的折扣: 关于VPS(KVM)E5-2650 v4(6核)的全部真相10GB DDR4 240GB SSD 1Gbps从$ 20还是如何划分服务器? (RAID1和RAID10提供选件,最多24个内核和最大40GB DDR4)。

戴尔R730xd便宜2倍? 只有我们有2台Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100电视在荷兰起价199美元 戴尔R420-2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB-$ 99起! 阅读有关如何构建基础架构大厦的信息。 使用价格为9000欧元的Dell R730xd E5-2650 v4服务器的上等课程?

Source: https://habr.com/ru/post/zh-CN472378/


All Articles