无论RAM的制造商或类型如何,几乎所有计算机内存都包含某种微缺陷。 内存制造商可以花费DIMM成本的10%到15%进行大量的错误测试,但是内存在系统运行期间仍然容易发生崩溃和故障。 从过热到“老化”以及其中存在微缺陷的各种各样的因素都可能导致存储错误。

实际上,随机存取动态内存(DRAM)的错误率比报告报告高几个数量级。 最近一项基于两年多来收集的数据对现场DRAM错误进行的大规模研究表明,大约三分之一的计算机和8%的DIMM每年记录至少一个可纠正的错误(
狂野的DRAM错误:规模实地研究 )。 在某些平台上,几乎50%的系统中发生可纠正的错误(IBID报告),并且平均而言,只有约1.3%的系统遭受不可修复的错误,而对于某些平台,该数字为2-4%。
在标准办公室PC中,内存错误很少会对标准应用程序软件的性能产生不利影响。 但是,在金融世界中进行大量计算的高端系统中,石油和天然气领域的研究,医学成像,媒体制作(渲染和编辑)等任务中,数据完整性是整个系统体系结构的重要组成部分。 在这样的高性能系统中,内存更换是由于组件故障而导致的首批维修之一,而内存错误是最常见的硬件问题之一,可能导致系统崩溃(IBID报告)。

因此,在高性能工作站中检测,报告和防止DIMM错误的能力已成为必需。
鉴于对极端RAM性能的需求很高,戴尔已为Dell Precision工作站申请了一项创新的专有技术专利,该技术可帮助标记和停用不可用的内存。 戴尔的这一独特功能有助于减少系统停机时间,简化IT支持并降低总体维护成本,增加内存寿命并提高用户生产力。
让我们看一下Dell Reliable Memory Technology PRO(RMT PRO)的基本概念,内存错误的一些主要原因以及RMT PRO如何帮助解决这些错误。
内存
随着处理器技术的新进步,总线速度的提高和整体体系结构的改进,计算机系统变得越来越复杂,RAM也必须跟上这些变化。

本质上(非常简化),DRAM芯片是具有开/关状态的元素阵列,当有电时会保持该状态(1或0)。 当电源关闭时,它们返回零状态。 几个芯片在内存子系统中组装在一起,并放置在DIMM(双列直插式内存模块)印刷电路板上。
大多数工作站(例如Dell Precision)都使用称为DDR4 SDRAM的DIMM类型,这是一种随机访问同步动态存储设备。 从本质上讲,与早期版本的内存类型(例如DDR3)相比,DDR4速度更快,具有更高的带宽和更高的内存密度,并且需要更少的电源。
记忆错误
内存错误可能是由多种因素引起的,其结果是一个DRAM位自动切换到相反的状态(例如,从1到0,此时该内存必须保持为1)。 错误可能受诸如过热,内存使用期限,缺陷等因素的影响。研究表明,在DIMM运行的前10个月中,错误级别急剧增加。
这些类型的错误称为可恢复错误:它们会随机损坏位,但不会造成物理损坏,可以通过更新内存状态进行修复。
但是,在许多情况下,会发生无法纠正的错误。 由于DIMM的物理缺陷或其他异常,或者在同一内存块中同时发生两个错误,这是重复的位错误。 不可恢复的内存错误可能导致系统崩溃(需要重新启动)或应用程序(系统级别的Stop Error代码,内核转储或“蓝屏死机”-BSoD)。 经常可纠正的错误警告即将发生的致命错误。 在研究中,当月约有65-80%的不可纠正错误之前是可纠正错误。
错误处理
如今,许多工作站级PC都包含内存奇偶校验算法,简单地说,该算法可确保每次读取数据字节时,发送的数据与接收到的数据匹配。

更复杂的系统使用其他错误纠正和检测方法。 最常见的选项是纠错码(ECC)内存。 它用于服务器和工作站,例如Dell Precision工作站。 实际上,ECC存储器包括附加位和检查存储器奇偶校验的集成存储器控制器,并且在发生单个位错误的情况下,ECC存储器逻辑可以纠正错误并输出纠正后的数据,以便系统继续运行。
ECC可以解决孤立的内存错误,并确保系统稳定运行。 但是,ECC内存无法为单个内存块中的多个错误提供解决方案。 在这些情况下,将发生数据损坏。 在这种情况下,Dell Reliable Memory Technology PRO可以提供帮助。
RMT PRO技术的好处
如果硬盘板物理损坏,则坏扇区将被标记为PC系统无法使用。 但是,在大多数计算机上,包括具有ECC内存的工作站,DIMM上同一内存块中的致命错误或几个可纠正的错误都可能导致系统崩溃。 通常,用户被迫向其支持服务部门报告这种错误,而支持服务部门又必须运行某个诊断程序来检测该错误。 通常,单个故障可能需要更换整个DIMM。
结果是增加了停机时间,降低了生产率,浪费了IT人员时间,需要更换DIMM并可能损坏关键的应用程序文件。

Dell Reliable Memory Technology PRO(RMT PRO)可以解救。
在概念上与硬盘错误纠正技术相似,RMT PRO可以检测DIMM中的致命错误和多位可纠正错误,并修复该问题。 重新启动后,运行诊断程序,打开系统并使用RMT PRO技术替换发生故障的DIMM模块,无需花费大量的停机时间:
- 标记单个DIMM的有缺陷的部分。
- 报告BIOS中出现故障的DIMM的缺陷和位置。
- 从已用系统内存池中删除这些坏单元和少量相邻单元。

简单重启后,RMT PRO使缺陷区域对操作系统不可见。 应用程序和关键系统功能将“绕过”标记的区域并继续工作,而无需更换设备。 一切都会好像没有坏记忆。 这样可以确保操作不中断,减少系统崩溃和应用程序错误的次数。
RMT PRO可以减少硬件成本-内存模块。 由于过度使用或过热(通常是由于高负载)会导致内存性能下降,因此物理错误的数量会增加。 尽管存在“内存不足”的信息,但DIMM上仍保留有信息。 此外,如果需要更换DIMM,则RMT PRO将在BIOS中准确显示导致错误的DIMM,从而加快故障排除和DIMM更换的速度,这有助于减少停机时间并降低服务的总体成本。 因此,RMT PRO技术延长了内存生命周期,并有助于节省资金。

结论
尽管某些错误检测方案(例如ECC内存)可以捕获内存错误,但是许多这些算法仅处理可纠正的错误。 当DIMM中出现物理缺陷或致命错误时,Dell RMT PRO会提供更高级别的检测和纠正缺陷内存的功能。
通过匹配和删除坏扇区,RMT PRO技术使密集型计算应用程序仅访问可用的内存。 由于减少了更换设备和DIMM模块所需的时间,并减少了设备的停机时间,因此可以节省大量时间和金钱。 当数据完整性至关重要时,RMT PRO通过提供可用内存来最大化工作站的生产力和可靠性,从而提供正确的置信度。