بغض النظر عن الشركة المصنعة أو نوع ذاكرة الوصول العشوائي ، تحتوي جميع ذاكرة الكمبيوتر تقريبًا على نوع من العيوب الدقيقة. يمكن أن تنفق الشركة المصنعة للذاكرة ما بين 10 و 15٪ من تكلفة DIMM للاختبار الشامل للأخطاء ، ولكن يمكن أن تظل الذاكرة عرضة للتعطل والفشل أثناء تشغيل النظام. يمكن أن تؤدي مجموعة متنوعة من العوامل - من التسخين المفرط إلى "الشيخوخة" ووجود العيوب الدقيقة فيها - إلى أخطاء في الذاكرة.

في الواقع ، معدلات الخطأ في الذاكرة الديناميكية (DRAM) للوصول العشوائي هي أوامر من حجم أكبر من تقارير التقارير. في دراسة حديثة واسعة النطاق لأخطاء DRAM الميدانية استنادًا إلى البيانات التي تم جمعها على مدار عامين ، سجل حوالي ثلث جميع الأجهزة وأكثر من 8٪ من وحدات DIMM خطأ واحدًا على الأقل يمكن تصحيحه سنويًا (
أخطاء DRAM في البرية: دراسة ميدانية ). في بعض الأنظمة الأساسية ، في ما يقرب من 50٪ من الأنظمة ، حدثت أخطاء يمكن تصحيحها (تقرير IBID) ، وفي المتوسط ، كان حوالي 1.3٪ فقط من الأنظمة عرضة لأخطاء لا يمكن إصلاحها ، وبالنسبة لبعض الأنظمة الأساسية ، كان هذا الرقم 2-4٪.
في أجهزة الكمبيوتر المكتبية القياسية ، نادرًا ما تؤثر أخطاء الذاكرة سلبًا على أداء برامج التطبيقات القياسية. ومع ذلك ، في الأنظمة المتطورة ذات الحسابات المكثفة في عالم التمويل ، فإن البحث في مجال النفط والغاز ، في مهام التصوير الطبي ، وإنتاج الوسائط (العرض والتحرير) ، إلخ. يعتبر تكامل البيانات مكونًا أساسيًا في بنية النظام بشكل عام. في هذه الأنظمة عالية الأداء ، يعد استبدال الذاكرة أحد الأماكن الأولى التي يتم إصلاحها بسبب فشل المكونات ، وأخطاء الذاكرة هي واحدة من أكثر مشكلات الأجهزة شيوعًا التي يمكن أن تؤدي إلى أعطال النظام (تقرير IBID).

وبالتالي ، أصبحت القدرة على اكتشاف أخطاء DIMM والإبلاغ عنها ومنعها في محطات العمل عالية الأداء ضرورية.
نظرًا لارتفاع الطلب على أداء ذاكرة الوصول العشوائي المدقع ، فقد حصلت شركة Dell على براءة اختراع لتقنية مبتكرة وحصرية مستخدمة في محطات عمل Dell Precision التي تساعد على وضع علامة على الذاكرة غير القابلة للاستخدام وإيقاف تشغيلها. تساعد ميزة Dell الفريدة هذه على تقليل وقت تعطل النظام وتبسيط دعم تكنولوجيا المعلومات وخفض تكاليف الصيانة الإجمالية وزيادة عمر الذاكرة وزيادة إنتاجية المستخدم.
دعونا نلقي نظرة على المفاهيم الأساسية لتقنية الذاكرة الموثوقة من Dell (RMT PRO) ، وبعض الأسباب الرئيسية لأخطاء الذاكرة ، وكيف يساعد RMT PRO في حل هذه الأخطاء.
ذاكرة الوصول العشوائي
إلى جانب التطورات الجديدة في تكنولوجيا المعالج ، وزيادة سرعات الناقل والتحسينات في الهيكل العام ، أصبحت أنظمة الكمبيوتر أكثر تعقيدًا ، ويجب على ذاكرة الوصول العشوائي مواكبة هذه التغييرات.

بشكل أساسي (مبسط جدًا) ، رقائق DRAM هي مجموعة من العناصر ذات حالات التشغيل / الإيقاف التي تحتفظ بهذه الحالة (1 أو 0) عند وجود طاقة. عندما يتم قطع التيار الكهربائي ، يعودون إلى حالة الصفر. يتم تجميع العديد من الرقائق معًا في نظام ذاكرة فرعي وتوضع على لوحة الدوائر المطبوعة - DIMM (وحدة ذاكرة مزدوجة في الخط).
تستخدم معظم محطات العمل ، مثل Dell Precision ، نوع DIMM المعروف باسم DDR4 SDRAM ، وهو جهاز تخزين ديناميكي متزامن ذي وصول عشوائي. بشكل أساسي ، مقارنة بالإصدارات السابقة من أنواع الذاكرة (مثل DDR3) ، فإن DDR4 أسرع ، ولديها نطاق ترددي أعلى وكثافة ذاكرة أعلى ، وتتطلب إمدادات طاقة أقل.
أخطاء الذاكرة
يمكن أن تحدث أخطاء الذاكرة بسبب عدد كبير من العوامل ، ونتيجة لذلك يتحول بت DRAM واحد تلقائيًا إلى الحالة المعاكسة (على سبيل المثال ، من 1 إلى 0 ، عندما يجب أن تظل الذاكرة خلال هذه الدورة عند 1). يمكن أن تتأثر الأخطاء بعوامل مثل ارتفاع درجة الحرارة ، وعمر الذاكرة ، والعيوب ، وما إلى ذلك. كما أظهرت الدراسات ، في الأشهر العشرة الأولى من تشغيل DIMM ، يزداد مستوى الأخطاء بشكل حاد.
تسمى هذه الأنواع من الأخطاء الأخطاء القابلة للاسترداد: فهي تتلف البتات بشكل عشوائي ، ولكنها لا تترك الضرر المادي ويمكن إصلاحها عن طريق تحديث حالة الذاكرة.
ومع ذلك ، في كثير من الحالات ، تحدث أخطاء غير قابلة للتصحيح. هذا خطأ بت متكرر بسبب عيب مادي أو شذوذ آخر في DIMM ، أو عندما يحدث خطأان في نفس الوقت داخل نفس كتلة الذاكرة. يمكن أن يؤدي خطأ الذاكرة غير القابل للاسترداد إلى تعطل النظام (يلزم إعادة التشغيل) أو تطبيق (رمز Stop Error على مستوى النظام أو تفريغ kernel أو "شاشة الموت الزرقاء" - BSoD). تحذر الأخطاء التي يمكن تصحيحها بشكل متكرر من الأخطاء الفادحة الوشيكة. في الدراسات ، سبقت أخطاء قابلة للتصحيح حوالي 65-80٪ من الأخطاء غير القابلة للتصحيح في نفس الشهر.
معالجة الخطأ
اليوم ، تتضمن العديد من أجهزة الكمبيوتر من فئة محطات العمل خوارزميات تكافؤ الذاكرة التي ، ببساطة ، تضمن أنه في كل مرة يتم فيها قراءة بايت البيانات ، تتطابق البيانات المرسلة مع البيانات المستلمة.

تستخدم الأنظمة الأكثر تعقيدًا طرقًا أخرى لتصحيح الأخطاء واكتشافها. الخيار الأكثر شيوعًا هو ذاكرة رمز تصحيح الأخطاء (ECC). يتم استخدامه في الخوادم ومحطات العمل ، مثل محطات عمل Dell Precision. بشكل أساسي ، تتضمن ذاكرة ECC وحدات بت إضافية ووحدة تحكم مدمجة في الذاكرة تتحقق من تماثل الذاكرة ، وفي حالة حدوث خطأ بت واحد ، يمكن لمنطق ذاكرة ECC تصحيح الخطأ وإخراج البيانات المصححة بحيث يستمر النظام في العمل.
تتواءم ECC مع تصحيح أخطاء الذاكرة المعزولة وتضمن التشغيل المستقر للنظام. ومع ذلك ، لا توفر ذاكرة ECC حلاً للأخطاء المتعددة في كتلة ذاكرة واحدة. في هذه الحالات ، سيحدث تلف البيانات. في هذه الحالة ، يمكن أن تساعدك تقنية Dell Reliable Memory Technology PRO.
فوائد تقنية RMT PRO
في حالة تلف لوحة القرص الصلب ماديًا ، سيتم تمييز القطاع التالف على أنه غير قابل للاستخدام بواسطة نظام الكمبيوتر. ومع ذلك ، في معظم أجهزة الكمبيوتر ، بما في ذلك محطات العمل التي تحتوي على ذاكرة ECC ، يمكن أن يتسبب خطأ فادح أو العديد من الأخطاء التي يمكن تصحيحها في نفس كتلة الذاكرة على DIMM في تعطل النظام. يضطر المستخدم ، كقاعدة عامة ، إلى الإبلاغ عن مثل هذا الخطأ إلى خدمة الدعم الخاصة به ، والتي بدورها يجب عليها تشغيل برنامج تشخيص معين للكشف عن الخطأ. في كثير من الأحيان قد يتطلب فشل واحد استبدال DIMM بأكمله.
والنتيجة هي زيادة وقت التوقف عن العمل ، وانخفاض الإنتاجية ، وضياع وقت موظفي تكنولوجيا المعلومات ، والحاجة إلى استبدال وحدات DIMM واحتمال تلف ملفات التطبيقات الرئيسية.

تأتي تقنية Dell Memory Memory PRO (RMT PRO) الإنقاذ.
مماثلة في المفهوم لتقنية تصحيح أخطاء القرص الصلب ، يكتشف RMT PRO الأخطاء الفادحة والأخطاء المتعددة القابلة للتصحيح في DIMM ويصلح المشكلة. بدلاً من التوقف عن العمل المكلف ، قم بتشغيل التشخيصات ، وفتح النظام ، واستبدال وحدة DIMM الفاشلة بتقنية RMT PRO عند إعادة التشغيل:
- يشير إلى الجزء المعيب من DIMM واحد.
- يبين عيب وموقع DIMM الفاشل في BIOS.
- يحذف هذه الخلايا السيئة وعدد صغير من الخلايا المجاورة من مجموعة ذاكرة النظام المستخدمة.

بعد إعادة تشغيل بسيطة ، يجعل RMT PRO المنطقة المعيبة غير مرئية لنظام التشغيل. ستعمل التطبيقات ووظائف النظام الحرجة على "تجاوز" المنطقة المحددة وستستمر في العمل دون الحاجة إلى استبدال المعدات. كل شيء سيكون كما لو كانت الذاكرة السيئة غير موجودة. وهذا يضمن التشغيل دون انقطاع ، ويقلل من عدد أعطال النظام وأخطاء التطبيق.
يمكن لـ RMT PRO تقليل تكاليف الأجهزة - وحدات الذاكرة. نظرًا لأن الذاكرة يمكن أن تتدهور مع الاستخدام الكثيف أو الحرارة الزائدة (عادة بسبب الحمل العالي) ، يمكن أن يزيد عدد الأخطاء المادية. على الرغم من "الذاكرة السيئة" تبقى المعلومات على DIMM. بالإضافة إلى ذلك ، إذا كان استبدال DIMM مطلوبًا ، فسوف يعرض RMT PRO في BIOS بالضبط أي وحدات DIMM تتسبب في حدوث أخطاء ، وتسريع استكشاف الأخطاء وإصلاحها واستبدال DIMM ، مما يساعد على تقليل وقت التوقف وخفض التكلفة الإجمالية للخدمة. وبالتالي ، فإن تقنية RMT PRO تطيل دورة حياة الذاكرة وتساعد على توفير المال.

الاستنتاجات
على الرغم من أن بعض أنظمة الكشف عن الأخطاء ، مثل ذاكرة ECC ، يمكنها التقاط أخطاء الذاكرة ، إلا أن العديد من هذه الخوارزميات تتعامل فقط مع الأخطاء القابلة للتصحيح. عند حدوث عيوب مادية أو أخطاء فادحة في DIMM ، يوفر Dell RMT PRO مستوى إضافيًا من الكشف عن الذاكرة المعيبة وتصحيحها.
من خلال مطابقة وحذف القطاعات التالفة ، تجعل تقنية RMT PRO من تطبيقات الحوسبة المكثفة الوصول إلى الذاكرة القابلة للاستخدام فقط. يمكن أن يؤدي ذلك إلى تحقيق وفورات كبيرة في الوقت والمال على حد سواء بسبب انخفاض الوقت المطلوب لاستبدال المعدات ووحدات DIMM ، وتقليل وقت تعطل المعدات. عندما يكون تكامل البيانات أمرًا بالغ الأهمية ، يقدم RMT PRO المستوى المناسب من الثقة من خلال توفير الذاكرة المتاحة لزيادة إنتاجية محطة العمل وموثوقيتها.