Fiabilidad de flash: esperada e inesperada. Parte 1. XIV conferencia de la asociación USENIX. Tecnologías de almacenamiento de archivos4.2.2 RBER y antigüedad de los discos (excluidos los ciclos de PE).
La Figura 1 muestra una correlación significativa entre RBER y la edad, que es igual a la cantidad de meses de operación del disco en el campo. Sin embargo, esto puede ser una correlación falsa, ya que es probable que los discos más antiguos tengan más PE y, por lo tanto, RBER esté más interconectado con los ciclos de PE.
Para eliminar el efecto de la edad en el desgaste causado por los ciclos de PE, agrupamos todos los meses de operación en contenedores usando los deciles de la distribución del ciclo de PE como un punto de corte entre los contenedores, por ejemplo, el primer contenedor contiene todos los meses de operación del disco hasta el primer decil de la distribución del ciclo de PE, y así sucesivamente más lejos Verificamos que dentro de cada contenedor la correlación entre los ciclos PE y RBER es bastante insignificante (ya que cada contenedor cubre solo un pequeño rango de ciclos PE), y luego calculamos el coeficiente de correlación entre RBER y la edad del disco por separado para cada contenedor.
Realizamos este análisis por separado para cada modelo, porque las correlaciones observadas no son causadas por diferencias entre los modelos más jóvenes y más antiguos, sino exclusivamente por la edad de los discos del mismo modelo. Observamos que, incluso después de limitar el efecto de la influencia de los ciclos de PE como se describió anteriormente, para todos los modelos de disco, todavía había una correlación significativa entre el número de meses de operación del disco en el campo y su RBER (los coeficientes de correlación variaron de 0.2 a 0.4).
Fig. 3. La relación entre RBER y el número de ciclos PE para unidades nuevas y antiguas indica que la antigüedad de la unidad afecta el valor de RBER independientemente de los ciclos PE causados por el desgaste.También visualizamos gráficamente la influencia de la edad de la unidad al separar los días de operación del disco a la edad "joven" de 1 año y los días de operación del disco a partir de la edad de 4 años, después de lo cual trazamos la dependencia del RBER de cada grupo en el número de ciclos de PE. La Figura 3 muestra estos resultados para el modelo de unidad MLC-D. Vemos una diferencia notable en los valores del coeficiente RBER entre grupos de discos antiguos y nuevos en todos los valores de los ciclos de PE.
De esto concluimos que la edad, medida por los días de uso del disco en el campo, tiene un efecto significativo en la RBER, independientemente del desgaste de las células de memoria debido a los efectos de los ciclos de PE. Esto significa que otros factores, como el envejecimiento del silicio, juegan un papel importante en el deterioro físico del disco.
4.2.3 RBER y carga de trabajo.
Se cree que los errores de bit son causados por uno de cuatro mecanismos:
- Errores de retención cuando una celda de memoria pierde datos con el tiempo
Errores de perturbación de lectura, en los que una operación de lectura daña el contenido de una celda vecina; - Escribir errores de perturbación, en los que una operación de lectura daña el contenido de una celda vecina;
- errores de borrado incompletos cuando la operación de borrado no elimina completamente el contenido de la celda.
Los errores relacionados con los últimos tres tipos (perturbación de lectura, perturbación de escritura, borrado incompleto) se correlacionan con la carga de trabajo, por lo que comprender la correlación entre RBER y la carga de trabajo nos ayuda a comprender la prevalencia de varios mecanismos de error. En un estudio reciente, "Un estudio a gran escala de fallas de memoria flash en el campo" (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. "Un estudio a gran escala de fallas de memoria flash en el campo". Las actas de la Conferencia internacional ACM SIGMETRICS 2015 sobre medición y modelado de sistemas informáticos, Nueva York, 2015, SIGMETRICS '15, ACM, pp. 177–190) concluyeron que los errores de almacenamiento predominan en el campo, mientras que los errores de violación de lectura son bastante menores.
La Figura 1 muestra una relación significativa entre el valor RBER en un mes dado de operación del disco y el número de operaciones de lectura, escritura y borrado en el mismo mes para algunos modelos (por ejemplo, un coeficiente de correlación superior a 0.2 para el modelo MLC-B y superior a 0.6 para el modelo SLC-B). Sin embargo, esto puede ser una correlación falsa, ya que la carga de trabajo mensual puede estar relacionada con el número total de ciclos de EP.
Utilizamos la misma metodología descrita en la Sección 4.2.2 para aislar los efectos de la carga de trabajo de los efectos de los ciclos de PE al aislar los meses de funcionamiento del variador en función de los ciclos de PE anteriores, y luego determinamos los coeficientes de correlación por separado para cada contenedor.
Vimos que la correlación entre el número de operaciones de lectura en un mes dado de operación del disco y el valor RBER en el mismo mes se conserva para los modelos MLC-B y SLC-B, incluso con la limitación de los ciclos de PE. También repetimos un análisis similar, donde excluimos el efecto de las operaciones de lectura en el número de operaciones paralelas de escritura y borrado, y concluimos que la correlación entre RBER y el número de operaciones de lectura se conserva para el modelo SLC-B.
La Figura 1 también muestra la correlación entre RBER y operaciones de escritura y borrado, por lo que repetimos el mismo análisis para las operaciones de lectura, escritura y borrado. Llegamos a la conclusión de que, si bien se limitan los efectos de los bucles PE y las operaciones de lectura, no existe una relación entre el valor RBER y el número de operaciones de escritura y borrado.
Por lo tanto, hay modelos de disco donde los errores de violación de lectura tienen un impacto significativo en RBER. Por otro lado, no hay evidencia de que RBER se vea afectado por errores de escritura o errores de borrado incompletos.
4.2.4 RBER y litografía.
Las diferencias en el tamaño de los objetos pueden explicar parcialmente las diferencias en los valores RBER para los modelos de disco que utilizan la misma tecnología, es decir, MLC o SLC. (consulte la Tabla 1 para obtener una descripción general de la litografía de los diversos modelos involucrados en este estudio).
Por ejemplo, 2 modelos SLC con litografía de 34 nm (modelos SLC-A y SLC-D) tienen RBER, que es un orden de magnitud mayor que 2 modelos con litografía microelectrónica de 50 nm (modelos SLC-B y SLC-C). En el caso de los modelos MLC, solo el modelo de 43 nm (MLC-B) tiene una RBER mediana, que es 50% más alta que otros 3 modelos con litografía de 50 nm. Además, esta diferencia de RBER aumenta 4 veces a medida que el disco se desgasta, como se muestra en la Figura 2. Finalmente, una litografía más delgada puede explicar el mayor RBER para las unidades eMLC en comparación con las unidades MLC. En general, tenemos evidencia clara de que la litografía afecta el RBER.
4.2.5 La presencia de otros errores.
Investigamos la relación entre RBER y otros tipos de errores, por ejemplo, errores fatales, errores de tiempo de espera, etc., en particular, si el valor de RBER aumentará después de un mes debido a la influencia de otros tipos de errores.
La figura 1 muestra que, si bien el valor RBER del mes anterior nos permite predecir los valores RBER futuros (coeficiente de correlación superior a 0,8), no existe una correlación significativa entre los errores fatales y RBER (el grupo de elementos en el extremo derecho de la figura 1). Para otros tipos de errores, el coeficiente de correlación es aún más bajo (no se muestra en la figura). Continuamos investigando la relación entre RBER y errores fatales en la sección 5.2 de este artículo.
4.2.6. La influencia de otros factores.
Encontramos evidencia de que hay factores que tienen un impacto significativo en la RBER y que no podrían explicar los datos que recibimos. En particular, notamos que el RBER para un modelo de disco en particular varía según el clúster en el que se implementa el disco. Un buen ejemplo es la Figura 4, que muestra la dependencia de RBER de los ciclos de PE para las unidades MLC-D en tres grupos diferentes (líneas discontinuas) y su comparación con RBER para este modelo en relación con el número total de discos (línea continua). Creemos que estas diferencias persisten incluso cuando limitamos la influencia de factores como la antigüedad del disco o el número de operaciones de lectura.
Una posible explicación de este factor son las diferencias en el tipo de carga de trabajo en diferentes grupos, ya que observamos que los grupos cuya carga de trabajo tiene los coeficientes de lectura / escritura más altos tienen el RBER más alto.
Fig. 4 a), b). Los valores medios de RBER dependen de los ciclos de PE en tres grupos diferentes y la dependencia del coeficiente de lectura / escritura del número de ciclos de PE en tres grupos diferentes.Por ejemplo, la Figura 4 (b) muestra los coeficientes de lectura / escritura de diferentes grupos para el modelo de unidad MLC-D. Sin embargo, la relación lectura / escritura no explica las diferencias entre los grupos para todos los modelos, por lo tanto, puede haber otros factores que nuestros datos no tienen en cuenta, por ejemplo, factores ambientales u otros parámetros externos de la carga de trabajo.
4.3. RBER durante pruebas de durabilidad acelerada.
La mayor parte del trabajo científico, así como las pruebas realizadas al comprar medios a escala industrial, predicen la confiabilidad de los dispositivos en el campo en función de los resultados de las pruebas de durabilidad acelerada. Decidimos entender cómo los resultados de tales pruebas corresponden a la experiencia práctica de operar medios de almacenamiento de estado sólido.
Un análisis de los resultados de las pruebas realizadas de acuerdo con la metodología general de pruebas aceleradas para equipos suministrados a los centros de datos de Google mostró que los valores de campo RBER son significativamente más altos de lo previsto. Por ejemplo, para el modelo eMLC-a, la mediana de RBER para discos operados en el campo (al final de la prueba el número de ciclos de PE alcanzó 600) fue 1e-05, mientras que de acuerdo con los resultados de las pruebas preliminares aceleradas, dicho valor de RBER debería haber correspondido a más de 4000 ciclos de PE. Esto indica que es muy difícil predecir con precisión el valor RBER en el campo en base a las estimaciones RBER obtenidas de las pruebas de laboratorio.
También notamos que algunos tipos de errores son difíciles de reproducir durante las pruebas aceleradas. Por ejemplo, en el caso del modelo MLC-B, casi el 60% de las unidades en el campo tienen errores no corregibles y casi el 80% de las unidades tienen bloques dañados. Sin embargo, durante las pruebas de durabilidad acelerada, ninguno de los seis dispositivos experimentó errores irreparables hasta que los discos alcanzaron más de tres veces el límite del ciclo PE. Para los modelos eMLC, se produjeron errores no corregibles en el campo en más del 80% de los discos, mientras que en las pruebas aceleradas, dichos errores ocurrieron después de alcanzar 15,000 ciclos de PE.
También revisamos el RBER descrito en un trabajo de investigación anterior, que se basó en experimentos en un entorno controlado, y llegamos a la conclusión de que el rango de variación en los valores es extremadamente alto. Por ejemplo, L.M. Los grupos y otros en su trabajo 2009–2012 indican valores RBER para discos que están cerca de alcanzar los valores límite para los ciclos de PE. Por ejemplo, para dispositivos SLC y MLC con un tamaño de litografía similar al utilizado en nuestro trabajo (25-50 nm), el valor RBER varía de 1e-08 a 1e-03, y para la mayoría de los modelos de variadores probados, el valor RBER fue cercano a 1e-06.
En nuestro estudio, tres modelos de disco que alcanzaron el límite del ciclo PE tenían RBER que iban del 3e-08 al 8e-08. Incluso teniendo en cuenta que nuestros números son límites inferiores y, en el peor de los casos, pueden tomar valores 16 veces más grandes, o teniendo en cuenta el percentil 95 RBER, los valores que obtuvimos son aún mucho más bajos.
En general, si bien los valores reales de RBER en el campo son más altos que los valores pronosticados basados en pruebas de durabilidad aceleradas, todavía son más bajos que la mayoría de los RBER para dispositivos similares informados en otros trabajos de investigación, y que se calculan en base al laboratorio pruebas Esto significa que no debe confiar en los valores pronosticados de RBER en el campo, que se obtuvieron sobre la base de los resultados de las pruebas de durabilidad acelerada.
5. Errores irrecuperables.
Dada la ocurrencia generalizada de errores no corregibles (UE), que se discutieron en la sección 3 de este artículo, en esta sección estudiamos sus características con más detalle. Comenzamos discutiendo qué métrica usar para medir los UE, considerar cómo se relacionan con RBER y cómo varios factores influyen en los UE.
5.1. Por qué el coeficiente UBER no tiene sentido.
La métrica estándar que caracteriza los errores no corregibles es el UBER, la relación de errores de bits no corregibles, es decir, la relación entre el número de errores de bits no corregibles y el número total de bits leídos.
Esta métrica supone implícitamente que el número de errores no corregibles está de alguna manera relacionado con el número de bits leídos, lo que significa que este número debería normalizarlo.
Esta suposición es cierta para los errores corregibles, donde se encuentra que el número de errores observados en un mes dado se correlaciona fuertemente con el número de operaciones de lectura durante el mismo período de tiempo (el coeficiente de correlación de Spearman es mayor que 0.9). La razón de una correlación tan fuerte es que incluso un bit dañado, mientras lo corrige con ECC, continuará aumentando el número de errores con cada operación de lectura dirigida a él, ya que la evaluación de la celda que contiene el bit dañado no se corrige inmediatamente cuando se detecta un error (discos solo reescribe periódicamente páginas con bits dañados).
La misma suposición no funciona para errores no corregibles. Un error irrecuperable excluye el uso posterior del bloque dañado, por lo tanto, una vez detectado, dicho bloque no afectará la cantidad de errores en el futuro.
Para confirmar oficialmente esta suposición, utilizamos varias métricas para medir la relación entre el número de operaciones de lectura en un mes dado de operación del disco y el número de errores fatales para el mismo período de tiempo, incluidos varios coeficientes de correlación (Pearson, Spearman, Kendall), así como un estudio visual de los gráficos. . Además del número de errores no corregibles, también examinamos la frecuencia de los incidentes con errores no corregibles (por ejemplo, la probabilidad de que un disco tenga al menos uno de esos incidentes durante un cierto período de tiempo) y su relación con las operaciones de lectura.
No encontramos evidencia de una correlación entre el número de lecturas y el número de errores fatales. Para todos los modelos de unidades, los coeficientes de correlación estaban por debajo de 0.02, y los gráficos no mostraron ningún aumento en UE con un aumento en el número de operaciones de lectura.
En la sección 5.4 de este artículo, consideramos que las operaciones de escritura y borrado tampoco tienen relación con errores no corregibles; por lo tanto, la definición alternativa de UBER, que se normaliza mediante operaciones de escritura o borrado en lugar de operaciones de lectura, no tiene sentido.
Por lo tanto, concluimos que UBER no es una métrica significativa, con la posible excepción de las pruebas en entornos controlados donde el experimentador establece el número de operaciones de lectura. Si UBER se usa como una métrica durante las pruebas de campo, reducirá artificialmente la tasa de error para unidades con un número elevado de lecturas y aumentará artificialmente esta frecuencia para unidades con un número bajo de lecturas, ya que se producen errores no corregibles independientemente del número de operaciones de lectura.
5.2. Errores fatales y RBER.
La relevancia del RBER se explica por el hecho de que sirve como una medida para determinar la confiabilidad general del variador, en particular, en función de la probabilidad de ocurrencia de errores no corregibles. En su trabajo, N. Mielke y otros en 2008 fueron los primeros en determinar la frecuencia esperada de errores fatales en función de RBER. Desde entonces, muchos desarrolladores de sistemas han utilizado métodos similares, por ejemplo, para estimar la frecuencia esperada de errores no corregibles según el RBER y el tipo de ECC.
El propósito de esta sección es caracterizar qué tan bien RBER predice errores no corregibles. Comencemos con la Figura 5a, que muestra los gráficos del valor medio de RBER para varios modelos de unidades de primera generación, en relación con la fracción de los días de su funcionamiento durante los cuales se produjeron errores no corregibles de UE. Cabe señalar que algunos de los 16 modelos que se muestran en el gráfico no se muestran en la Tabla 1 debido a la falta de información analítica.
Fig. 5a. Correlación de la RBER mediana con errores no corregibles para varios modelos de unidades.
Fig. 5b. Correlación de RBER mediana con errores no corregibles para diferentes unidades del mismo modelo.Recuerde que todos los modelos dentro de la misma generación usan el mismo mecanismo ECC, por lo que las diferencias entre los modelos no dependen de las diferencias ECC. No vimos una correlación entre los incidentes de RBER y UE. Creamos el mismo gráfico para el percentil 95 RBER en comparación con la probabilidad de UE y nuevamente no vimos ninguna correlación.
Luego, repetimos el análisis al detallar discos individuales, es decir, tratamos de averiguar si hay discos en los que un valor RBER más alto corresponde a una frecuencia UE más alta. Como ejemplo, la Figura 5b muestra las gráficas del valor medio de RBER para cada unidad de modelo MLC-c versus el número de UE (los resultados son similares a los obtenidos para el 95% de RBER). Nuevamente, no vimos ninguna correlación entre RBER y UE.
Finalmente, realizamos un análisis de tiempo más preciso para determinar si los meses de operación de las unidades con mayor RBER corresponderían a los meses durante los cuales ocurrieron los UE. La Figura 1 ya indicó que el coeficiente de correlación entre errores no corregibles y RBER es muy bajo. También experimentamos con varias formas de graficar la probabilidad de UE en función de RBER y no encontramos ningún signo de correlación.
Por lo tanto, concluimos que RBER es un indicador poco confiable para predecir UEs. Esto puede significar que los mecanismos de falla que conducen al RBER son diferentes de los mecanismos que conducen a la ocurrencia de errores no corregibles (por ejemplo, errores contenidos en celdas individuales versus problemas más grandes que surgen con todo el dispositivo).
5.3. Errores fatales y desgaste.
Dado que el desgaste es uno de los principales problemas con la memoria flash, la Figura 6 muestra la probabilidad diaria de errores de unidad no corregibles dependiendo de los ciclos de PE.
Figura 6. La probabilidad diaria de errores de accionamiento no corregibles dependiendo de los ciclos de PE.Observamos que la probabilidad de UE aumenta continuamente con la edad del disco. Sin embargo, como en el caso de RBER, el aumento es más lento de lo esperado: los gráficos muestran que los UE crecen con los ciclos de PE linealmente y no exponencialmente.
Las dos conclusiones que sacamos para RBER también son aplicables al UE: en primer lugar, no hay un claro aumento en la posibilidad de errores después de alcanzar el límite de los ciclos de PE, por ejemplo, en la Figura 6 para el modelo MLC-D, cuyo límite de ciclo de PE es 3000. In- en segundo lugar, la frecuencia de ocurrencia de errores varía entre los diferentes modelos, incluso dentro de la misma clase. Sin embargo, estas diferencias no son tan grandes como para RBER.
Finalmente, en apoyo de nuestros hallazgos en la Sección 5.2, encontramos que, dentro de la misma clase de modelos (MLC vs. SLC), los modelos con los valores RBER más bajos para un número dado de ciclos PE no son necesariamente aquellos que tienen la probabilidad más baja de ocurrencia de UE. Por ejemplo, para 3000 ciclos PE, las unidades modelo MLC-D tenían valores RBER 4 veces más bajos que los modelos MLC-B, sin embargo, la probabilidad de UE con el mismo número de ciclos PE en los modelos MLC-D fue ligeramente mayor que la de los modelos MLC-B.
Fig. 7. Probabilidad mensual de ocurrencia de errores de accionamiento no corregibles en función de la dependencia de la presencia de errores previos de varios tipos.5.4. Errores fatales y carga de trabajo.
Por las mismas razones por las que la carga de trabajo puede afectar el RBER (ver sección 4.2.3), se puede esperar que también afecte al UE. Por ejemplo, dado que hemos observado que los errores de violación de lectura afectan el RBER, las operaciones de lectura también pueden aumentar la probabilidad de errores no corregibles.
Realizamos un estudio detallado del impacto de la carga de trabajo en los UE. Sin embargo, como se señaló en la sección 5.1, no encontramos la relación entre el UE y el número de operaciones de lectura. Repetimos el mismo análisis para operaciones de escritura y borrado y nuevamente no vimos ninguna correlación.
Tenga en cuenta que a primera vista, puede ver una contradicción con nuestra observación anterior, según la cual los errores no corregibles se correlacionan con los ciclos de EP. Por lo tanto, podría esperarse una correlación con el número de operaciones de escritura y borrado.
PE PE, , . , , / / , , . . / / .
, , .
Gracias por quedarte con nosotros. ¿Te gustan nuestros artículos? ¿Quieres ver más materiales interesantes?
Apóyenos haciendo un pedido o recomendándolo a sus amigos, un
descuento del 30% para los usuarios de Habr en un servidor de nivel de entrada analógico único que inventamos para usted: toda la verdad sobre VPS (KVM) E5-2650 v4 (6 núcleos) 10GB DDR4 240GB SSD 1Gbps desde $ 20 o cómo dividir el servidor? (las opciones están disponibles con RAID1 y RAID10, hasta 24 núcleos y hasta 40GB DDR4).
Dell R730xd 2 veces más barato? ¡Solo tenemos
2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV desde $ 199 en los Países Bajos! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - ¡desde $ 99! Lea sobre
Cómo construir un edificio de infraestructura. clase utilizando servidores Dell R730xd E5-2650 v4 que cuestan 9,000 euros por un centavo?