¿Por qué el SSD moderno me bloquea?



Hoy, uno de los SSD en uno de nuestros nuevos servidores de archivos Linux ha muerto. Esta no es la primera y probablemente la última muerte de SSD que enfrentaremos, pero, como casi siempre en tales casos, sentí que mis nervios eran traviesos, y todo debido a la combinación de la naturaleza de las fallas de SSD, su similitud con la "caja negra". "Y la naturaleza en estado sólido.

Como la mayoría de las otras fallas de SSD, esta ocurrió de repente; el disco pasó de un estado de funcionamiento perfecto a un estado que no reacciona en absoluto durante 50 segundos sin previo aviso a través de SMART o cualquier otra cosa. Aquí maneja felizmente las solicitudes de lectura y escritura (por todos los signos externos, incluido ZFS, que no se quejó de las sumas de verificación), pero ahora no hay Crucial MX300 en el puerto SAS.

El primer mensaje del kernel de Linux sobre el fallo de las operaciones de E / S llegó a las 20:31:34 y la unidad se declaró oficialmente como faltante a las 20:32:15. Sin embargo, en realidad, el disco podría dejar de responder inmediatamente; no entiendo bien los mensajes del controlador.

Lo que más me molesta de estos abruptos fallos de SSD es lo incomprensibles que son y que no puedo explicarme a mí mismo qué salió mal exactamente. Cuando el disco duro está girando, también puede morir repentinamente, pero al menos puede explicar lo que sucedió antes de esto: un motor atascado u otra falla física, lo que provocó una parada repentina. Los SSD son sólidos y misteriosos, y no tengo ninguna explicación de lo que salió mal, especialmente cuando el disco aún era joven y no debería haberse acercado al agotamiento del límite de vida de las células flash.

Cuando el HDD muere a una edad temprana, uno puede imaginar que no reveló los defectos de fabricación resultantes. Teóricamente, esto no debería suceder con los SSD, por lo que su muerte prematura es especialmente preocupante. Es posible que las células flash también tengan defectos de fabricación indetectables.

Y cuando no tengo una explicación de lo que está sucediendo, mis pensamientos comienzan a seguir el camino de la ansiedad, como el hecho de que el disco nos engañó sobre su salud en los diagnósticos SMART, y que en realidad usó las últimas células de repuesto, y luego terminaron, o qué tuvo algún tipo de error en el firmware, que accidentalmente tocamos, luego de lo cual se convirtió en un ladrillo.

Tuvimos tal que el SSD murió de esta manera, y luego volvió a la vida cuando fue retirado y atascado nuevamente, y se veía completamente saludable, lo que no inspira confianza. Pero era un tipo diferente de SSD. Y también obtuvimos errores extraños de la serie Crucial MX500 SSD.

Además, cuando no tengo una explicación para las fallas de SSD, cada una de ellas me parece una bomba de tiempo impredecible. ¿Están sanos o morirán mañana? Parece que debo confiar en las estadísticas, es decir, no muchos de ellos morirán y no lo harán demasiado rápido para que puedan cambiarse. E incluso esta esperanza se basa en la suposición de que no existe una correlación de fallas: que lo que sucedió con este SSD es poco probable que le suceda a otros que están junto a él.

Y este problema es relevante no solo para nuestros servidores de archivos: tengo la misma ansiedad asociada con la computadora de mi casa. Reflejo todos los datos, pero ¿cuáles son las posibilidades reales de falla de ambos SSD?

En teoría, sé que los SSD deberían ser mucho más confiables que un disco giratorio oxidado. También tenemos un montón de SSD que han estado trabajando en silencio durante muchos años. Pero después de tan misteriosos fracasos repentinos, ya no parecen tan confiables. Realmente me gustaría que recibiéramos algún tipo de advertencia sobre la falla de SSD, porque con HD a menudo era posible (por ejemplo, recibí tales advertencias sobre HD en una de las computadoras de escritorio que funcionan, aunque las ignoré) .

Source: https://habr.com/ru/post/es434702/


All Articles