Unabhängig vom Hersteller oder RAM-Typ enthält fast der gesamte Computerspeicher Mikrodefekte. Ein Speicherhersteller kann zwischen 10 und 15% der Kosten eines DIMM für umfangreiche Tests auf Fehler ausgeben, aber der Speicher kann während des Systembetriebs immer noch zu Abstürzen und Ausfällen neigen. Eine Vielzahl von Faktoren - von übermäßiger Erwärmung bis hin zu "Alterung" und dem Vorhandensein von Mikrodefekten - können zu Speicherfehlern führen.

Tatsächlich sind die DRAM-Fehlerraten (Random Access Dynamic Memory) um Größenordnungen höher als die Berichte. In einer kürzlich durchgeführten groß angelegten Studie zu Feld-DRAM-Fehlern auf der Grundlage von Daten, die über zwei Jahre gesammelt wurden, verzeichnete etwa ein Drittel aller Maschinen und mehr als 8% der DIMMs mindestens einen korrigierbaren Fehler pro Jahr (
DRAM-Fehler in freier Wildbahn: ein großer Fehler). Feldstudie ). Auf einigen Plattformen traten in fast 50% der Systeme korrigierbare Fehler auf (IBID-Bericht), und im Durchschnitt waren nur etwa 1,3% der Systeme irreparablen Fehlern ausgesetzt, und auf einigen Plattformen lag diese Zahl bei 2 bis 4%.
In Standard-Office-PCs wirken sich Speicherfehler selten nachteilig auf die Leistung von Standardanwendungssoftware aus. In High-End-Systemen mit intensiven Berechnungen in der Finanzwelt ist die Forschung auf dem Gebiet von Öl und Gas, in den Aufgaben der medizinischen Bildgebung, der Medienproduktion (Rendern und Bearbeiten) usw. die Datenintegrität ein wesentlicher Bestandteil der gesamten Systemarchitektur. In solchen Hochleistungssystemen ist der Speicheraustausch einer der ersten Reparaturpunkte aufgrund fehlerhafter Komponenten, und Speicherfehler sind eines der häufigsten Hardwareprobleme, die zu Systemabstürzen führen können (IBID-Bericht).

Daher wird die Fähigkeit, DIMM-Fehler in Hochleistungsarbeitsstationen zu erkennen, zu melden und zu verhindern, zu einer Notwendigkeit.
Angesichts der hohen Nachfrage nach extremer RAM-Leistung hat Dell eine innovative, exklusive Technologie patentiert, die in Dell Precision-Workstations verwendet wird und dabei hilft, unbrauchbaren Speicher zu markieren und außer Betrieb zu setzen. Diese einzigartige Dell-Funktion reduziert Systemausfallzeiten, vereinfacht den IT-Support und senkt die Gesamtwartungskosten, erhöht die Speicherlebensdauer und erhöht die Benutzerproduktivität.
Schauen wir uns die Grundkonzepte von Dell Reliable Memory Technology PRO (RMT PRO) an, einige der Hauptursachen für Speicherfehler, und wie RMT PRO zur Behebung dieser Fehler beiträgt.
Rom
Zusammen mit neuen Fortschritten in der Prozessortechnologie, höheren Busgeschwindigkeiten und Verbesserungen der Gesamtarchitektur werden Computersysteme immer komplexer, und auch der Arbeitsspeicher muss mit diesen Änderungen Schritt halten.

Im Wesentlichen (sehr vereinfacht) sind DRAM-Chips eine Anordnung von Elementen mit Ein / Aus-Zuständen, die diesen Zustand (1 oder 0) beibehalten, wenn Strom vorhanden ist. Wenn die Stromversorgung ausgeschaltet wird, kehren sie in den Nullzustand zurück. Mehrere Chips werden in einem Speichersubsystem zusammengebaut und auf einer Leiterplatte platziert - einem DIMM (Dual Inline Memory Module).
Die meisten Workstations, wie z. B. Dell Precision, verwenden den DIMM-Typ DDR4 SDRAM, ein synchrones dynamisches Speichergerät mit wahlfreiem Zugriff. Im Vergleich zu früheren Versionen von Speichertypen (z. B. DDR3) ist DDR4 im Wesentlichen schneller, hat eine höhere Bandbreite und eine höhere Speicherdichte und erfordert weniger Stromversorgung.
Speicherfehler
Speicherfehler können durch eine große Anzahl von Faktoren verursacht werden, wodurch ein DRAM-Bit automatisch in den entgegengesetzten Zustand wechselt (z. B. von 1 bis 0, wenn während dieses Zyklus der Speicher bei 1 bleiben muss). Fehler können durch Faktoren wie Überhitzung, Speicheralter, Defekte usw. beeinflusst werden. Wie Studien gezeigt haben, steigt die Fehlerquote in den ersten 10 Monaten des DIMM-Betriebs stark an.
Diese Arten von Fehlern werden als behebbare Fehler bezeichnet: Sie beschädigen Bits nach dem Zufallsprinzip, hinterlassen jedoch keinen physischen Schaden und können durch Aktualisieren des Speicherzustands behoben werden.
In vielen Fällen treten jedoch nicht korrigierbare Fehler auf. Dies ist ein wiederholter Bitfehler aufgrund eines physischen Defekts oder einer anderen Anomalie des DIMM oder wenn zwei Fehler gleichzeitig innerhalb desselben Speicherblocks auftreten. Ein nicht behebbarer Speicherfehler kann zu einem Systemabsturz (ein Neustart ist erforderlich) oder einer Anwendung (Stop-Fehlercode auf Systemebene, Kernel-Dump oder „Blue Screen of Death“ - BSoD) führen. Häufig korrigierbare Fehler warnen vor bevorstehenden schwerwiegenden Fehlern. In Studien ging etwa 65-80% der nicht korrigierbaren Fehler im selben Monat ein korrigierbarer Fehler voraus.
Fehlerbehandlung
Heutzutage enthalten viele PCs der Workstation-Klasse Speicherparitätsalgorithmen, die einfach ausgedrückt gewährleisten, dass jedes Mal, wenn ein Datenbyte gelesen wird, die gesendeten Daten mit den empfangenen Daten übereinstimmen.

Komplexere Systeme verwenden andere Methoden zur Fehlerkorrektur und -erkennung. Die häufigste Option ist der ECC-Speicher (Error Correction Code). Es wird in Servern und Arbeitsstationen wie Dell Precision-Arbeitsstationen verwendet. Im Wesentlichen enthält der ECC-Speicher zusätzliche Bits und einen eingebauten Speichercontroller, der die Parität des Speichers überprüft. Im Falle eines Ein-Bit-Fehlers kann die ECC-Speicherlogik den Fehler korrigieren und die korrigierten Daten ausgeben, damit das System weiterarbeitet.
ECC bewältigt die Korrektur isolierter Speicherfehler und sorgt für einen stabilen Betrieb des Systems. Der ECC-Speicher bietet jedoch keine Lösung für mehrere Fehler in einem einzelnen Speicherblock. In diesen Fällen tritt eine Datenbeschädigung auf. In dieser Situation kann Dell Reliable Memory Technology PRO helfen.
Vorteile der RMT PRO-Technologie
Wenn die Festplattenplatte physisch beschädigt ist, wird der fehlerhafte Sektor vom PC-System als unbrauchbar markiert. Auf den meisten Computern, einschließlich Workstations mit ECC-Speicher, kann ein schwerwiegender Fehler oder mehrere korrigierbare Fehler im selben Speicherblock auf dem DIMM zu einem Systemabsturz führen. Der Benutzer ist in der Regel gezwungen, einen solchen Fehler seinem Support-Service zu melden, der seinerseits ein bestimmtes Diagnoseprogramm ausführen muss, um den Fehler zu erkennen. Oft erfordert ein einzelner Fehler den Austausch des gesamten DIMM.
Das Ergebnis sind längere Ausfallzeiten, geringere Produktivität, Zeitverlust des IT-Personals, die Notwendigkeit, DIMMs auszutauschen und mögliche Schäden an wichtigen Anwendungsdateien.

Dell Reliable Memory Technology PRO (RMT PRO) hilft dabei.
Ähnlich wie bei der Festplattenfehlerkorrekturtechnologie erkennt RMT PRO schwerwiegende Fehler und durch Mehrbit korrigierbare Fehler im DIMM und behebt das Problem. Anstelle kostspieliger Ausfallzeiten können Sie beim Neustart eine Diagnose ausführen, das System öffnen und ein ausgefallenes DIMM-Modul durch die RMT PRO-Technologie ersetzen:
- Markiert den defekten Teil eines einzelnen DIMM.
- Meldet den Fehler und die Position des ausgefallenen DIMMs im BIOS.
- Löscht diese fehlerhaften Zellen und eine kleine Anzahl benachbarter Zellen aus dem Pool des verwendeten Systemspeichers.

Nach einem einfachen Neustart macht der RMT PRO den defekten Bereich für das Betriebssystem unsichtbar. Anwendungen und kritische Systemfunktionen umgehen den markierten Bereich und arbeiten weiter, ohne dass Geräte ausgetauscht werden müssen. Alles wird so sein, als ob es nie ein schlechtes Gedächtnis gegeben hätte. Dies stellt einen unterbrechungsfreien Betrieb sicher, reduziert die Anzahl von Systemabstürzen und Anwendungsfehlern.
RMT PRO kann Hardwarekosten senken - Speichermodule. Da sich der Speicher bei starker Beanspruchung oder übermäßiger Hitze (normalerweise aufgrund hoher Last) verschlechtern kann, kann sich die Anzahl der physischen Fehler erhöhen. Trotz des "schlechten Speichers" bleiben Informationen auf dem DIMM. Wenn ein DIMM-Austausch erforderlich ist, zeigt RMT PRO im BIOS genau an, welche DIMMs Fehler verursachen. Dies beschleunigt die Fehlerbehebung und den DIMM-Austausch, wodurch Ausfallzeiten reduziert und die Gesamtkosten des Dienstes gesenkt werden. Somit verlängert die RMT PRO-Technologie den Speicherlebenszyklus und hilft, Geld zu sparen.

Schlussfolgerungen
Obwohl einige Fehlererkennungsschemata, wie z. B. der ECC-Speicher, Speicherfehler abfangen können, behandeln viele dieser Algorithmen nur korrigierbare Fehler. Wenn im DIMM physische Defekte oder schwerwiegende Fehler auftreten, bietet Dell RMT PRO eine zusätzliche Stufe zur Erkennung und Korrektur fehlerhafter Speicher.
Durch das Abgleichen und Löschen fehlerhafter Sektoren ermöglicht die RMT PRO-Technologie, dass intensive Computeranwendungen nur auf nutzbaren Speicher zugreifen. Dies kann zu erheblichen Zeit- und Kosteneinsparungen führen, da weniger Zeit für den Austausch von Geräten und DIMM-Modulen sowie für Ausfallzeiten benötigt wird. Wenn die Datenintegrität von entscheidender Bedeutung ist, bietet RMT PRO das richtige Maß an Vertrauen, indem verfügbarer Speicher bereitgestellt wird, um die Produktivität und Zuverlässigkeit der Workstation zu maximieren.