
اليوم ، توفي أحد محركات أقراص الحالة الثابتة على أحد
خوادم ملفات Linux
الجديدة . ليست هذه هي أول وفاة وربما لن تكون آخر SSD نواجهها ، لكن ، كما هو الحال دائمًا في مثل هذه الحالات ، شعرت بأعصابي شقية - وكل ذلك بسبب مزيج من طبيعة إخفاقات SSD ، وتشابهها مع "الصندوق الأسود" وطبيعة الحالة الصلبة.
مثل معظم إخفاقات SSD الأخرى ، حدث هذا فجأة ؛ انتقل القرص من حالة العمل بشكل مثالي إلى حالة لا تتفاعل مطلقًا لمدة 50 ثانية دون أي تحذير من خلال SMART أو أي شيء آخر. هنا يتعامل بسعادة مع طلبات القراءة والكتابة (بجميع الإشارات الخارجية ، بما في ذلك ZFS ، التي لم تشتكي من المجموع الاختباري) ، ولكن لا يوجد الآن Crucial MX300 على منفذ SAS.
جاءت الرسالة الأولى من نواة Linux عن فشل عمليات الإدخال / الإخراج في الساعة 20:31:34 ، وتم الإعلان عن فقد محرك الأقراص رسميًا في الساعة 20:32:15. ومع ذلك ، في الواقع ، يمكن أن يتوقف القرص عن الاستجابة على الفور - لا أفهم رسائل برنامج التشغيل تمامًا.
أكثر ما يزعجني أكثر من إخفاقات SSD المفاجئة هذه هو مدى عدم فهمها ، وأنه لا يمكنني أن أشرح لنفسي ما الخطأ الذي حدث بالضبط. عندما يدور القرص الصلب ، يمكن أن يموت أيضًا بشكل مفاجئ ، لكن على الأقل يمكنك تقديم تفسير لما حدث قبل ذلك - حدوث انحشار محرك أو حدوث عطل جسدي آخر ، مما أدى إلى توقف مفاجئ. محركات أقراص الحالة الصلبة صلبة وغامضة ، وليس لدي أي تفسير لما حدث من خطأ ، خاصةً عندما كان محرك الأقراص لا يزال صغيراً ولم يكن يجب أن يقترب من استنفاد حد حياة خلية الفلاش.
عندما يموت محرك الأقراص الصلبة في سن مبكرة ، يمكن للمرء أن يتخيل أنه لم يكشف عن عيوب التصنيع الناتجة. من الناحية النظرية ، لا ينبغي أن يحدث هذا مع محركات أقراص الحالة الصلبة ، لذلك فإن وفاته المبكرة تثير القلق بشكل خاص. من الممكن أن تحتوي خلايا الفلاش أيضًا على عيوب تصنيع غير قابلة للكشف.
وعندما لا يكون لدي تفسير لما يحدث ، تبدأ أفكاري في اتباع مسار القلق - مثل حقيقة أن القرص خدعنا بصحته في تشخيصات SMART ، وأنه استخدم بالفعل الخلايا الاحتياطية الأخيرة ، ثم انتهى ، أو ما كان لديه نوع من الخطأ في البرامج الثابتة ، والتي تطرقنا إليها بطريق الخطأ ، وبعد ذلك تحول إلى لبنة.
كان لدينا مثل أن SSD مات بهذه الطريقة ، ثم عاد إلى الحياة عندما تم سحبه وتمسك مرة أخرى - وبدا بصحة جيدة تمامًا ، والتي لا تلهم الثقة. لكنه كان نوع مختلف من SSD. كما حصلنا على
أخطاء غريبة من سلسلة Crucial MX500 SSD.
بالإضافة إلى ذلك ، عندما لا يكون لدي أي تفسير لفشل SSD ، يبدو لي كل منهم قنبلة موقوتة لا يمكن التنبؤ بها. هل هم بصحة جيدة أم سيموتون غدًا؟ يبدو أنني يجب أن أعتمد على الإحصاءات ، أي أنه لن يموت الكثير منهم ، ولن أفعل ذلك بسرعة كبيرة بحيث يمكن تغييرها. وحتى هذا الأمل يعتمد على افتراض أنه لا يوجد أي ارتباط للفشل - أن ما حدث لهذا SSD من غير المرجح أن يحدث للآخرين يقف بجانبه.
وهذه المشكلة لا تتعلق بخوادم الملفات فقط - لدي نفس القلق المرتبط بجهاز الكمبيوتر المنزلي. أعكس جميع البيانات ، ولكن ما هي الفرص الحقيقية لفشل كل من محركات أقراص الحالة الصلبة؟
من الناحية النظرية ، أنا أعلم أن محركات أقراص الحالة الصلبة يجب أن تكون أكثر موثوقية من محرك الصدئة الدوار. لدينا أيضًا مجموعة من محركات أقراص الحالة الثابتة التي تعمل بهدوء لسنوات عديدة. ولكن بعد هذه الإخفاقات المفاجئة الغامضة ، لم تعد تبدو موثوقة للغاية. أود حقًا أن يكون لدينا نوع من التحذير من فشل SSD ، لأنه مع HD كان في كثير من الأحيان ممكنًا (على سبيل المثال ، تلقيت هذه التحذيرات حول HD في أحد أجهزة كمبيوتر سطح المكتب العاملة - على الرغم من أنني تجاهلتها) .