Teknologi Memori Dell Handal PRO: Mendeteksi dan Mengisolasi Kesalahan Memori

Terlepas dari pabrik atau jenis RAM, hampir semua memori komputer mengandung beberapa jenis mikrodefektif. Pembuat memori dapat menghabiskan antara 10 dan 15% dari biaya DIMM untuk pengujian ekstensif untuk kesalahan, tetapi memori masih rentan terhadap kerusakan dan kegagalan selama operasi sistem. Berbagai macam faktor - dari pemanasan berlebihan hingga "penuaan" dan keberadaan mikrodefektif di dalamnya - dapat menyebabkan kesalahan memori.



Bahkan, tingkat kesalahan memori dinamis akses acak (DRAM) adalah urutan besarnya lebih tinggi dari laporan laporan. Dalam studi skala besar baru-baru ini tentang kesalahan DRAM lapangan berdasarkan data yang dikumpulkan selama dua tahun, sekitar sepertiga dari semua mesin dan lebih dari 8% DIMM mencatat setidaknya satu kesalahan yang dapat diperbaiki per tahun ( kesalahan DRAM di alam: studi lapangan skala ). Pada beberapa platform, di hampir 50% dari sistem, kesalahan dapat diperbaiki terjadi (laporan IBID), dan rata-rata hanya sekitar 1,3% dari sistem mengalami kesalahan yang tidak dapat diperbaiki, dan untuk beberapa platform angka ini adalah 2-4%.

Di PC kantor standar, kesalahan memori jarang mempengaruhi kinerja perangkat lunak aplikasi standar. Namun, dalam sistem kelas atas dengan perhitungan intensif di dunia keuangan, penelitian di bidang minyak dan gas, dalam tugas-tugas pencitraan medis, produksi media (rendering dan editing), dll. Integritas data merupakan komponen penting dari keseluruhan arsitektur sistem. Dalam sistem berkinerja tinggi seperti itu, penggantian memori adalah salah satu tempat pertama untuk memperbaiki karena komponen yang gagal, dan kesalahan memori adalah salah satu masalah perangkat keras yang paling umum yang dapat menyebabkan sistem crash (laporan IBID).



Dengan demikian, kemampuan untuk mendeteksi, melaporkan, dan mencegah kesalahan DIMM di workstation berkinerja tinggi menjadi suatu keharusan.

Mengingat tingginya permintaan untuk kinerja RAM yang ekstrem, Dell telah mematenkan teknologi inovatif dan eksklusif yang digunakan dalam workstation Dell Precision yang membantu menandai dan menonaktifkan memori yang tidak dapat digunakan. Fitur unik Dell ini membantu mengurangi waktu henti sistem, menyederhanakan dukungan TI dan menurunkan biaya perawatan secara keseluruhan, meningkatkan daya tahan memori dan meningkatkan produktivitas pengguna.

Mari kita lihat konsep-konsep dasar Dell Reliable Memory Technology PRO (RMT PRO), beberapa penyebab utama kesalahan memori, dan bagaimana RMT PRO membantu menyelesaikan kesalahan ini.

RAM


Seiring dengan kemajuan baru dalam teknologi prosesor, peningkatan kecepatan bus dan peningkatan dalam arsitektur keseluruhan, sistem komputer menjadi lebih kompleks, dan RAM juga harus mengikuti perubahan ini.



Pada dasarnya (sangat disederhanakan), chip DRAM adalah array elemen dengan status hidup / mati yang mempertahankan status ini (1 atau 0) ketika ada daya. Ketika daya dimatikan, mereka kembali ke kondisi nol. Beberapa chip dirakit bersama dalam subsistem memori dan ditempatkan pada papan sirkuit tercetak - DIMM (modul memori dua jalur).

Sebagian besar workstation, seperti Dell Precision, menggunakan tipe DIMM yang dikenal sebagai DDR4 SDRAM, perangkat penyimpanan dinamis sinkron akses acak. Pada dasarnya, dibandingkan dengan versi jenis memori sebelumnya (mis. DDR3), DDR4 lebih cepat, memiliki bandwidth lebih tinggi dan kepadatan memori lebih tinggi, dan membutuhkan lebih sedikit catu daya.

Kesalahan memori


Kesalahan memori dapat disebabkan oleh sejumlah besar faktor, sebagai akibatnya satu bit DRAM secara otomatis beralih ke status yang berlawanan (misalnya, dari 1 hingga 0, ketika selama siklus ini memori harus tetap pada 1). Kesalahan dapat dipengaruhi oleh faktor-faktor seperti panas berlebih, usia memori, cacat, dll. Seperti yang ditunjukkan oleh penelitian, dalam 10 bulan pertama operasi DIMM, tingkat kesalahan meningkat tajam.

Jenis kesalahan ini disebut kesalahan yang dapat dipulihkan: mereka secara acak merusak bit, tetapi tidak meninggalkan kerusakan fisik dan dapat diperbaiki dengan memperbarui keadaan memori.

Namun, dalam banyak kasus, kesalahan yang tidak dapat diperbaiki terjadi. Ini adalah kesalahan bit yang berulang karena cacat fisik atau anomali DIMM lainnya, atau ketika dua kesalahan terjadi secara bersamaan dalam blok memori yang sama. Kesalahan memori yang tidak dapat dipulihkan dapat menyebabkan sistem crash (reboot diperlukan) atau aplikasi (Stop Error code di tingkat sistem, dump kernel, atau "layar biru kematian" - BSoD). Kesalahan yang sering diperbaiki dapat memperingatkan kesalahan fatal yang akan terjadi. Dalam penelitian, sekitar 65-80% kesalahan yang tidak dapat diperbaiki pada bulan yang sama didahului oleh kesalahan yang dapat diperbaiki.

Menangani kesalahan


Saat ini, banyak PC kelas workstation menyertakan algoritma paritas memori yang, secara sederhana, menjamin bahwa setiap kali byte data dibaca, data yang dikirim cocok dengan data yang diterima.



Sistem yang lebih kompleks menggunakan metode koreksi dan deteksi kesalahan lainnya. Opsi yang paling umum adalah memori kode koreksi kesalahan (ECC). Ini digunakan di server dan workstation, seperti workstation Dell Precision. Bahkan, memori ECC termasuk bit tambahan dan pengontrol memori terintegrasi yang memeriksa paritas memori, dan dalam kasus kesalahan bit tunggal, logika memori ECC dapat memperbaiki kesalahan dan menampilkan data yang diperbaiki sehingga sistem terus bekerja.

ECC berupaya memperbaiki kesalahan memori yang terisolasi dan memastikan pengoperasian sistem yang stabil. Namun, memori ECC tidak memberikan solusi untuk beberapa kesalahan dalam satu blok memori. Dalam kasus ini, korupsi data akan terjadi. Dalam situasi ini, Dell Reliable Memory Technology PRO dapat membantu.

Manfaat Teknologi RMT PRO


Jika pelat hard disk rusak secara fisik, bad sector akan ditandai tidak dapat digunakan oleh sistem PC. Namun, pada sebagian besar komputer, termasuk workstation dengan memori ECC, kesalahan fatal atau beberapa kesalahan yang dapat diperbaiki pada blok memori yang sama pada DIMM dapat menyebabkan sistem crash. Pengguna, sebagai suatu peraturan, dipaksa untuk melaporkan kesalahan semacam itu ke layanan dukungannya, yang, pada gilirannya, harus menjalankan program diagnostik tertentu untuk mendeteksi kesalahan tersebut. Seringkali kegagalan tunggal mungkin memerlukan penggantian seluruh DIMM.

Hasilnya adalah peningkatan waktu henti, pengurangan produktivitas, kehilangan waktu staf TI, kebutuhan untuk mengganti DIMM dan kemungkinan kerusakan pada file aplikasi utama.



Teknologi Memori Andal Handal PRO (RMT PRO) datang untuk menyelamatkan.
Mirip dalam konsep untuk teknologi koreksi kesalahan hard disk, RMT PRO mendeteksi kesalahan fatal dan kesalahan multi-bit yang dapat diperbaiki di DIMM dan memperbaiki masalah. Alih-alih downtime yang mahal, jalankan diagnostik, buka sistem, dan ganti modul DIMM yang gagal dengan teknologi RMT PRO saat reboot:

  • Menandai bagian yang rusak dari DIMM tunggal.
  • Melaporkan kerusakan dan lokasi DIMM yang gagal di BIOS.
  • Menghapus sel-sel jahat ini dan sejumlah kecil sel tetangga dari kumpulan memori sistem yang digunakan.


Setelah reboot sederhana, RMT PRO membuat area yang rusak tidak terlihat oleh sistem operasi. Aplikasi dan fungsi sistem kritis akan "memotong" area yang ditandai dan terus bekerja tanpa perlu mengganti peralatan. Semuanya akan seolah-olah memori buruk tidak pernah ada. Ini memastikan operasi tanpa gangguan, mengurangi jumlah crash sistem dan kesalahan aplikasi.

RMT PRO dapat mengurangi biaya perangkat keras - modul memori. Karena memori dapat memburuk dengan penggunaan berat atau panas berlebih (biasanya karena beban tinggi), jumlah kesalahan fisik dapat meningkat. Meskipun "memori buruk" informasi tetap ada di DIMM. Selain itu, jika penggantian DIMM diperlukan, RMT PRO akan menampilkan di BIOS persisnya DIMM mana yang menyebabkan kesalahan, mempercepat pemecahan masalah dan penggantian DIMM, yang membantu mengurangi waktu henti dan menurunkan biaya keseluruhan layanan. Dengan demikian, teknologi RMT PRO memperpanjang siklus hidup memori dan membantu menghemat uang.



Kesimpulan


Meskipun beberapa skema deteksi kesalahan, seperti memori ECC, dapat menangkap kesalahan memori, banyak dari algoritma ini hanya menangani kesalahan yang dapat diperbaiki. Ketika cacat fisik atau kesalahan fatal terjadi pada DIMM, Dell RMT PRO memberikan tingkat tambahan deteksi dan koreksi memori yang rusak.

Dengan mencocokkan dan menghapus bad sector, teknologi RMT PRO membuat aplikasi komputasi intensif hanya mengakses memori yang dapat digunakan. Hal ini dapat menyebabkan penghematan yang signifikan dalam waktu dan uang karena pengurangan waktu yang diperlukan untuk mengganti modul peralatan dan DIMM, dan untuk mengurangi waktu henti peralatan. Ketika integritas data sangat penting, RMT PRO memberikan tingkat kepercayaan yang tepat dengan menyediakan memori yang tersedia untuk memaksimalkan produktivitas dan keandalan workstation.

Source: https://habr.com/ru/post/id408341/


All Articles