¿Cómo perder el tiempo y los recursos SSD en vano? Fácil y simple

"Las pruebas no se pueden diagnosticar": ¿dónde pondría la coma en esta oración? Esperamos que después de leer este material pueda dar una respuesta clara a esta pregunta sin ningún problema. Muchos usuarios se han encontrado con la pérdida de datos por una razón u otra, ya sea un problema de software o hardware del disco en sí o un impacto físico no estándar en él, si comprende de lo que estamos hablando. Pero no se trata del daño físico que se discutirá hoy. Solo hablaremos de lo que no depende de nuestras manos. ¿Vale la pena probar SSD todos los días / semana / mes o es un desperdicio de sus recursos? ¿Y cómo los pruebas en absoluto? Cuando obtienes ciertos resultados, ¿los entiendes correctamente? ¿Y cómo puede asegurarse simple y rápidamente de que la unidad está en orden o que sus datos están en riesgo?



¿Pruebas o diagnósticos? Hay muchos programas, pero la esencia es una.


A primera vista, el diagnóstico implica pruebas, si piensa globalmente. Pero en el caso de las unidades, ya sea HDD o SSD, todo es un poco diferente. Por prueba, un usuario común significa verificar sus características y comparar los indicadores obtenidos con los declarados. Y bajo el diagnóstico está el estudio de SMART, del que también hablaremos hoy, pero un poco más adelante. El HDD clásico también entró en la foto, lo que, de hecho, no es un accidente ...

Dio la casualidad de que el subsistema de almacenamiento de datos en los sistemas de escritorio es uno de los lugares más vulnerables, ya que la vida útil de las unidades es a menudo menor que la de los otros componentes de una PC, barra de chocolate o computadora portátil. Si antes esto se debía al componente mecánico (las placas giran en los discos duros, los cabezales se mueven) y podrían identificarse algunos problemas sin ejecutar ningún programa, ahora todo se ha vuelto un poco más complicado: no hay crujido dentro del SSD y no puede serlo. Entonces, ¿qué hacen los propietarios de SSD?

Hay muchos programas para probar SSD. Algunos de ellos se han vuelto populares y se actualizan constantemente, otros han sido olvidados por mucho tiempo y otros son tan buenos que los desarrolladores no los han actualizado durante años, simplemente no tiene sentido. En casos severos, puede ejecutar una prueba completa utilizando la Especificación de prueba de rendimiento (PTS) internacional de almacenamiento de estado sólido (SSS), pero no nos precipitaremos al extremo. Inmediatamente, notamos que algunos fabricantes reclaman la misma velocidad de operación, pero de hecho la velocidad puede ser notablemente menor: si la unidad es nueva y está en servicio, entonces tenemos una solución con almacenamiento en caché SLC, donde la velocidad máxima está disponible solo en los primeros gigabytes (o decenas de gigabytes) si la capacidad del disco es más de 900 GB), y luego la velocidad disminuye. Esta es una situación completamente normal. ¿Cómo entender el tamaño del caché y asegurarme de que el problema no sea realmente un problema? Tome un archivo, por ejemplo, con una capacidad de 50 GB y cópielo en la unidad experimental desde medios obviamente más rápidos. La velocidad será alta, luego disminuirá y permanecerá uniforme hasta el final dentro de 50-150 MB / s, dependiendo del modelo SSD. Si el archivo de prueba no se copia de manera desigual (por ejemplo, hay pausas con una caída de velocidad de 0 MB / s), entonces debe pensar en realizar pruebas adicionales y estudiar el estado de la SSD utilizando un software patentado del fabricante.

En la captura de pantalla se presenta un vívido ejemplo del funcionamiento correcto de los SSD con tecnología de almacenamiento en caché SLC:



Aquellos usuarios que usan Windows 10 pueden conocer los problemas sin más acciones: tan pronto como el sistema operativo ve cambios negativos en SMART, advierte sobre esto con una recomendación para hacer copias de seguridad de los datos. Pero volvamos un poco, a saber, a los llamados puntos de referencia. AS SSD Benchmark, CrystalDiskMark, Anvils Storage Utilities, ATTO Disk Benchmark, TxBench y, después de todo, Iometer son nombres familiares, ¿no? Es innegable que cada uno de ustedes con alguna periodicidad lanza estos mismos puntos de referencia para verificar la velocidad del SSD instalado. Si el disco está vivo y bien, entonces vemos, por así decirlo, resultados hermosos que son agradables a la vista y aseguran la tranquilidad del dinero en la billetera. ¿Y qué tipo de números vemos? Con mayor frecuencia, se miden cuatro indicadores: lectura y escritura secuenciales, operaciones de bloque 4K (KB), operaciones de bloque 4K multiproceso y tiempo de respuesta de la unidad. Todos los indicadores anteriores son importantes. Sí, cada uno de ellos puede ser completamente diferente para diferentes unidades. Por ejemplo, para las unidades n. ° 1 y n. ° 2, se declaran las mismas velocidades de lectura y escritura secuenciales, pero las velocidades con bloques 4K pueden diferir en un orden de magnitud: todo depende de la memoria, el controlador y el firmware. Por lo tanto, es simplemente imposible comparar los resultados de diferentes modelos. Para una comparación correcta, solo se permiten unidades completamente idénticas. Todavía existe un indicador como IOPS, pero depende de los otros indicadores enumerados anteriormente, por lo que no deberíamos hablar de esto por separado. A veces, en los puntos de referencia hay indicadores de lectura / escritura aleatoria, pero no tiene sentido considerarlos como los principales.



Y, como puede suponer, los resultados de cada programa pueden mostrar datos diferentes; todo depende de los parámetros de prueba que establezca el desarrollador. En algunos casos, se pueden cambiar para obtener resultados diferentes. Pero si prueba "en la frente", entonces los números pueden ser muy diferentes. Aquí hay otro ejemplo de prueba donde, con la configuración predeterminada, vemos resultados notablemente distinguibles de lectura y escritura secuenciales. Pero también debe prestar atención a la velocidad de trabajar con bloques 4K: aquí todos los programas ya muestran el mismo resultado. En realidad, esta prueba es una de las claves.



Pero, como notamos, solo una de las claves. Sí, y algo más a tener en cuenta: el estado de la unidad. Si trajo un disco de una tienda y lo probó en uno de los puntos de referencia enumerados anteriormente, casi siempre obtendrá las características declaradas. Pero si repite la prueba después de un tiempo, cuando el disco está parcial o casi completamente lleno o estaba lleno, pero eliminó una cierta cantidad de datos de la manera más habitual, los resultados pueden ser muy diferentes. Esto se debe precisamente al principio de funcionamiento de las unidades de estado sólido con datos, cuando no se eliminan de inmediato, sino que solo se marcan para su eliminación. En este caso, antes de escribir nuevos datos (los mismos archivos de prueba de los puntos de referencia), los datos antiguos se eliminan primero. Hablamos de esto con más detalle en el artículo anterior .

De hecho, dependiendo de los escenarios, debe elegir los parámetros usted mismo. Es una cosa: los sistemas domésticos o de oficina que usan Windows / Linux / MacOS, y otra muy distinta: los sistemas de servidor diseñados para realizar ciertas tareas. Por ejemplo, en servidores que trabajan con bases de datos, se pueden instalar unidades NVMe que digieren perfectamente profundidades de cola de al menos 256 y para las cuales 32 o 64 es una charla infantil. Por supuesto, usar los puntos de referencia clásicos enumerados anteriormente, en este caso, es una pérdida de tiempo. Las grandes empresas utilizan scripts de prueba patentados, por ejemplo, basados ​​en la utilidad fio. Aquellos que no necesitan reproducir ciertas tareas pueden usar la metodología internacional SNIA , que describe todas las pruebas y ofrece pseudo-scripts. Sí, tomará un poco de trabajo en ellos, pero puede obtener pruebas completamente automatizadas, de acuerdo con los resultados de los cuales puede comprender el comportamiento del disco: identifique sus fortalezas y debilidades, vea cómo se comporta bajo cargas prolongadas y obtenga una idea del rendimiento cuando trabaje con diferentes bloques de datos .

En cualquier caso, hay que decir que cada fabricante tiene su propio software de prueba. Muy a menudo, el nombre, la versión y los parámetros del punto de referencia elegido por él se agregan en la especificación en letra pequeña en algún lugar a continuación. Por supuesto, los resultados son más o menos comparables, pero las diferencias en los resultados pueden serlo. De esto se deduce, no importa cuán triste pueda sonar, que el usuario debe tener cuidado al realizar la prueba: si el resultado no coincide con el declarado, tal vez se establezcan otros parámetros de prueba, de los cuales depende mucho.

La teoría es buena, pero volvamos al estado real de las cosas. Como ya dijimos, es importante encontrar datos sobre los parámetros de prueba por parte del fabricante de la unidad particular que compró. ¿Lo piensas todo? No, no todos. Mucho depende de la plataforma de hardware: el banco de pruebas en el que se realizan las pruebas. Por supuesto, estos datos también se pueden indicar en la especificación de un SSD en particular, pero esto no siempre sucede. ¿Qué depende de eso? Por ejemplo, antes de comprar un SSD, lees algunas reseñas. En cada uno de ellos, los autores utilizaron los mismos puntos de referencia estándar, que mostraron resultados diferentes. A quien creer Si las placas base y el software (incluido el sistema operativo) fueran los mismos, la pregunta es justa, debe buscar una fuente de información independiente adicional. Pero si las placas o el sistema operativo son diferentes, las diferencias en los resultados pueden considerarse en el orden de las cosas. Otro controlador, otro sistema operativo, otra placa base, así como diferentes unidades de temperatura durante las pruebas, todo esto afecta los resultados finales. Es por esta razón que es casi imposible obtener los números que ve en los sitios web de los fabricantes o en las revisiones. Y por esta misma razón, no tiene sentido preocuparse por las diferencias entre sus resultados y los de otros usuarios. Por ejemplo, los controladores SATA de terceros a veces se implementan en la placa base (para aumentar el número de puertos correspondientes), y con mayor frecuencia tienen peores velocidades. ¡Además, la diferencia puede ser de hasta 25-35%! En otras palabras, para reproducir los resultados reclamados, será necesario observar estrictamente todos los aspectos de la metodología de prueba. Por lo tanto, si los indicadores de velocidad que recibió no corresponden a los declarados, no debe llevar la compra a la tienda el mismo día. A menos, por supuesto, que esta no sea una situación crítica con velocidad mínima y fallas al leer o escribir datos. Además, las velocidades de la mayoría de los SSD cambian a una velocidad peor con el tiempo, deteniéndose en un cierto punto llamado rendimiento estacionario. Entonces la pregunta es: ¿es necesario probar constantemente el SSD al final? Aunque no del todo bien. Eso es mejor: ¿tiene sentido probar constantemente los SSD?

¿Pruebas regulares o monitoreo del comportamiento?


Entonces, si es necesario, volver a casa del trabajo, comenzar a alejar el punto de referencia una vez más? Esto simplemente no es recomendable. Nos guste o no, pero cualquiera de los programas existentes de este tipo escribe datos en la unidad. Algunos más, otros menos, pero escriben. Sí, en comparación con el recurso SSD, el volumen grabado es bastante pequeño, pero lo es. Y las funciones TRIM / Deallocate tomarán tiempo para procesar los datos eliminados. En general, no tiene sentido ejecutar pruebas regularmente o sin nada que hacer. Pero si en el trabajo diario comienza a notar una desaceleración del sistema o software pesado instalado en el SSD, así como bloqueos, BSOD, errores en la escritura y lectura de archivos, entonces ya debería estar desconcertado al identificar la causa del problema. Es posible que el problema esté del lado de otros componentes, pero verificar la unidad es lo más fácil. Esto requerirá software propietario del fabricante de la SSD. Para nuestras unidades: Kingston SSD Manager. Pero antes que nada, haga una copia de seguridad de los datos importantes y solo entonces realice los diagnósticos y las pruebas. Primero, mire el área de salud de SSD. Tiene dos indicadores en porcentaje. El primero es el llamado desgaste de la unidad, el segundo es el uso del área de memoria libre. Cuanto menor sea el valor, más preocupación debería tener. Por supuesto, si los valores disminuyen en un 1-2-3% por año con un uso muy intensivo de la unidad, esta es una situación normal. Otra cosa es si, sin cargas especiales, los valores disminuyen inusualmente rápido. Cerca hay otra área: Resumen de salud. Informa brevemente si se han registrado errores de varios tipos y se indica el estado general de la unidad. También verificamos si hay nuevo firmware. Más precisamente, el programa lo hace por sí mismo. Si hay uno y el disco se comporta de manera extraña (hay errores, el nivel de "salud" se reduce y otros componentes generalmente se excluyen), entonces podemos instalarlo de manera segura.



Si el fabricante de su SSD no se encarga del soporte en forma de software patentado, puede usar uno universal, por ejemplo, CrystalDiskInfo. No, Intel tiene su propio software, la captura de pantalla a continuación es solo un ejemplo :) ¿Qué debo buscar? Por el porcentaje del estado de salud (al menos aproximadamente, pero la situación será clara), por el tiempo total de operación, el número de inclusiones y los volúmenes de datos registrados y leídos. No siempre se mostrarán estos valores, y algunos de los atributos de la lista serán visibles como específicos del proveedor. Más sobre esto más tarde.



Y aquí hay un ejemplo vívido de una unidad que ya ha fallado, que funcionó por un tiempo relativamente corto, pero luego comenzó a funcionar "de vez en cuando". Cuando se encendió, el sistema no lo vio, y después de un reinicio todo estuvo bien. Y esta situación se repitió en orden aleatorio. Lo principal con este comportamiento del disco es hacer una copia de seguridad inmediata de los datos importantes, que, sin embargo, dijimos recientemente. Pero no nos cansaremos de repetir esto. El número de arranques y tiempos de ejecución son completamente inalcanzables. Casi 20 mil días de trabajo. O unos 54 años ...



Pero eso no es todo: ¡eche un vistazo a los valores del software propietario del fabricante! Increíbles valores, ¿verdad? En tales casos, puede ayudar actualizar el firmware a la versión actual. De lo contrario, es mejor contactar al fabricante como parte del servicio de garantía. Y si hay un nuevo firmware, luego de la actualización, no arroje datos importantes al disco, sino que trabaje con cuidado y observe el tema de la estabilidad. Quizás el problema esté resuelto, pero quizás no.



Puedes agregar una cosa más. Algunos usuarios, por costumbre o por ignorancia, utilizan un software que les ha sido familiar durante mucho tiempo, que monitorean el estado de los discos duros clásicos (HDD). Esto se desaconseja encarecidamente, ya que los algoritmos de funcionamiento de HDD y SSD son notablemente diferentes, al igual que el conjunto de comandos del controlador. Esto es especialmente cierto para las unidades SSD NVMe. Algunos programas (por ejemplo, Victoria) recibieron soporte de SSD, pero aún se siguen finalizando (¿y se finalizarán?) En términos de la corrección de la demostración de información sobre los medios conectados. Por ejemplo, solo ha pasado aproximadamente un mes desde el momento en que las lecturas SMART para SSD de Kingston adquirieron al menos alguna forma correcta, e incluso entonces no completamente. Todo esto se aplica no solo al programa mencionado anteriormente, sino también a muchos otros. Es por eso que, para evitar una mala interpretación de los datos, vale la pena usar solo ese software en el que haya confianza: utilidades propietarias de los fabricantes o proyectos grandes y actualizados con frecuencia.

Mantener un ojo en cada celda es audaz. Estúpido pero valiente


Algunos fabricantes implementan en su software la capacidad de verificar las direcciones de cada unidad lógica (LBA) en busca de errores al leer. Durante dichas pruebas, todo el espacio libre de la unidad se utiliza para escribir datos arbitrarios y volver a leerlos para verificar la integridad. Tal exploración puede tomar más de una hora (depende del volumen del disco y el espacio libre en él, así como sus indicadores de velocidad). Esta prueba le permite identificar células malas. Pero no lo hace sin matices. En primer lugar, en el buen sentido, el SSD debe estar vacío para verificar la memoria máxima. Otro problema surge de esto: necesita hacer copias de seguridad y rellenarlas, lo que elimina el recurso de la unidad. En segundo lugar, se gastan aún más recursos de memoria en la prueba misma. Sin mencionar el tiempo dedicado. ¿Y qué aprendemos de los resultados de la prueba? Hay dos opciones, como comprenderá, o habrá celdas rotas o no. En el primer caso, estamos desperdiciando un recurso y tiempo, y en el segundo, estamos desperdiciando un recurso y tiempo. Sí, así es como suena. Las células malas y sin tales pruebas se harán sentir cuando llegue el momento. Por lo tanto, no tiene sentido comprobar cada LBA.

¿Podría dar más detalles sobre SMART?


Todos vieron una vez un conjunto de nombres específicos (atributos) y sus valores mostrados en una lista en la sección correspondiente o directamente en la ventana principal del programa, como se ve en la captura de pantalla anterior. Pero, ¿qué significan y cómo entenderlos? Volvamos un poco para entender qué es qué. En teoría, cada fabricante aporta algo propio al producto para atraer a un comprador potencial con esta singularidad. Pero con SMART resultó un poco diferente.

Según el fabricante y el modelo de la unidad, el conjunto de parámetros puede variar, por lo que los programas universales pueden no conocer ciertos valores, marcándolos como específicos del proveedor. Muchos fabricantes proporcionan documentación de acceso abierto para comprender los atributos de sus unidades: atributo SMART. Se puede encontrar en el sitio web del fabricante.



Es por eso que se recomienda que utilice software propietario que conozca todas las complejidades de los modelos de unidades compatibles. Además, se recomienda utilizar la interfaz en inglés para obtener información confiable sobre el estado de la unidad. A menudo, la traducción al ruso no es del todo correcta, lo que puede generar confusión. Y la documentación en sí, que mencionamos anteriormente, se proporciona con mayor frecuencia en inglés.

Ahora veremos los atributos básicos usando la unidad Kingston UV500 como ejemplo. Para quién es interesante, leemos, para quién no lo es, presionamos PageDown un par de veces y leemos la conclusión. Pero esperamos que aún esté interesado; de todos modos, la información es útil. La construcción del texto puede parecer inusual, pero será más conveniente para todos: no necesitará ingresar palabras-variables adicionales, y será más fácil encontrar las palabras originales en el informe en su disco.

(ID 1) Read Error Rate – .

(ID 5) Reallocated Sector Count – . , , . SSD , . . LBA , , . – . , .

(ID 9) Power On Hours – , .

(ID 12) Power Cycle Count – , ( ).

(ID 170) Used Reserved Block Count – .

(ID 171) Program Fail Count – .

(ID 172) Erase Fail Count – .

(ID 174) Unexpected Power Off Count – ( ) .

(ID 175) Program Fail Count Worst Die – .

(ID 176) Erase Fail Count Worst Die – .

(ID 178) Used Reserved Block Count worst Die – .

(ID 180) Unused Reserved Block Count (SSD Total) – ( , ) .

(ID 187) Reported Uncorrectable Errors – .

(ID 194) Temperature – .

(ID 195) On-the-Fly ECC Uncorrectable Error Count – .

(ID 196) Reallocation Event Count – .

(ID 197) Pending Sector Count – , .

(ID 199) UDMA CRC Error Count – , SATA .

(ID 201) Uncorrectable Read Error Rate – .

(ID 204) Soft ECC Correction Rate – .

(ID 231) SSD Life Left – / .

(ID 241) GB Written from Interface – , .

(ID 242) GB Read from Interface – , .

(ID 250) Total Number of NAND Read Retries – .

, . , , . , : – , – . – . - – , , .

?


, . – . , SSD. , . , , . . . , . – . , -, – . Kingston A400R 256 . TBW 80 (81920 ), – 1 . , , 224 . ? – . 25 , 9 . A1000 150 600 , ! 5- , 960 330 , , , . , ? , – . , . – . Kingston HyperX SSD Manager , que tiene todo lo necesario para la funcionalidad promedio del usuario. Sin embargo, es poco probable que su Kingston o HyperX fallen ... Eso es todo, ¡éxito en todos y larga vida de sus unidades!

PD En caso de problemas con SSD, el plátano todavía no ayuda :(



Para obtener más información sobre los productos Kingston , visite el sitio web de la compañía.

Source: https://habr.com/ru/post/453376/


All Articles