
Hari ini, salah satu SSD di salah satu
server file Linux
baru kami
telah mati. Ini bukan yang pertama dan mungkin bukan kematian terakhir dari SSD yang akan kita hadapi, tetapi, seperti hampir selalu dalam kasus seperti itu, saya merasa saraf saya nakal - dan semua karena kombinasi dari sifat kegagalan SSD, kemiripannya dengan "kotak hitam" "Dan sifat solid state.
Seperti kebanyakan kegagalan SSD lainnya, ini terjadi secara tiba-tiba; disk beralih dari kondisi berfungsi sempurna ke kondisi yang tidak bereaksi sama sekali selama 50 detik tanpa peringatan apa pun melalui SMART atau apa pun. Di sini ia dengan senang hati menangani permintaan baca dan tulis (oleh semua tanda eksternal, termasuk ZFS, yang tidak mengeluh tentang checksum), tetapi sekarang tidak ada MX300 Krusial pada port SAS.
Pesan pertama dari kernel Linux tentang kegagalan operasi IO datang pada 20:31:34, dan drive dinyatakan secara resmi hilang pada 20:32:15. Namun, pada kenyataannya, disk bisa segera berhenti merespons - Saya tidak mengerti pesan driver.
Apa yang paling mengganggu saya tentang kegagalan SSD yang mendadak ini adalah betapa tidak dapat dipahaminya hal itu, dan bahwa saya tidak dapat menjelaskan kepada diri saya sendiri apa yang sebenarnya salah. Ketika hard drive berputar, itu juga bisa tiba-tiba mati, tetapi setidaknya Anda dapat membuat penjelasan tentang apa yang terjadi sebelum ini - motor macet, atau kegagalan fisik lainnya terjadi, yang menyebabkan berhenti tiba-tiba. SSD solid dan misterius, dan saya tidak memiliki penjelasan untuk apa yang salah, terutama ketika disk masih muda dan seharusnya tidak mendekati kelelahan batas masa pakai sel flash.
Ketika HDD mati pada usia muda, orang dapat membayangkan bahwa itu tidak mengungkapkan cacat produksi yang dihasilkan. Secara teoritis, ini seharusnya tidak terjadi dengan SSD, sehingga kematiannya dini sangat mengkhawatirkan. Ada kemungkinan bahwa sel-sel flash mungkin juga memiliki cacat produksi yang tidak terdeteksi.
Dan ketika saya tidak memiliki penjelasan untuk apa yang terjadi, pikiran saya mulai mengikuti jalan kecemasan - seperti fakta bahwa disk menipu kita tentang kesehatannya dalam diagnostik SMART, dan bahwa itu benar-benar menggunakan sel cadangan terakhir, dan kemudian mereka berakhir, atau apa dia memiliki beberapa kesalahan pada firmware, yang secara tidak sengaja kami sentuh, setelah itu ia berubah menjadi batu bata.
Kami memiliki sedemikian rupa sehingga SSD mati dengan cara ini, dan kemudian hidup kembali ketika dicabut dan macet lagi - dan itu terlihat benar-benar sehat, yang tidak menginspirasi kepercayaan. Tapi itu jenis SSD yang berbeda. Dan kami juga mendapat
kesalahan aneh dari seri SSD MX500 Krusial.
Selain itu, ketika saya tidak memiliki penjelasan untuk kegagalan SSD, masing-masing dari mereka tampaknya menjadi bom waktu yang tidak dapat diprediksi. Apakah mereka sehat atau akan mati besok? Sepertinya saya harus mengandalkan statistik, yaitu, tidak terlalu banyak dari mereka akan mati, dan tidak akan melakukannya terlalu cepat sehingga mereka dapat diubah. Dan bahkan harapan ini didasarkan pada asumsi bahwa tidak ada korelasi kegagalan - bahwa apa yang terjadi pada SSD ini tidak mungkin terjadi pada orang lain yang berdiri di sebelahnya.
Dan masalah ini relevan tidak hanya untuk server file kami - Saya memiliki kecemasan yang sama terkait dengan komputer di rumah saya. Saya merefleksikan semua data, tetapi apa peluang nyata kegagalan kedua SSD?
Secara teori, saya tahu bahwa SSD harus jauh lebih andal daripada drive berkarat yang berputar. Kami juga memiliki banyak SSD yang telah bekerja dengan tenang selama bertahun-tahun. Tetapi setelah kegagalan mendadak yang misterius seperti itu, mereka tampaknya tidak lagi dapat diandalkan. Saya benar-benar ingin kita memiliki semacam peringatan tentang kegagalan SSD, karena dengan HD itu cukup sering terjadi (misalnya, saya menerima peringatan seperti itu tentang HD di salah satu komputer desktop yang berfungsi - meskipun saya mengabaikannya) .