Transici√≥n a 3D: el impacto de la arquitectura de chips y los algoritmos de grabaci√≥n en la vida √ļtil de SSD


Aunque han pasado 14 a√Īos desde que se introdujo el primer SSD SATA , muchos consumidores todav√≠a se refieren a unidades de estado s√≥lido con bastante escepticismo. La raz√≥n principal de la desconfianza es el recurso de trabajo limitado de la memoria flash, debido a la degradaci√≥n gradual de la estructura de semiconductores de los chips, como resultado de lo cual los dispositivos pierden tarde o temprano su capacidad de registrar y almacenar informaci√≥n. Las especificaciones t√©cnicas detalladas a menudo solo agravan la situaci√≥n: ¬Ņes dif√≠cil para un comprador comprender si el TBW 500 TB mencionado en la descripci√≥n del SSD NAND SATA 3D Digital Blue Western para dos terabytes es mucho o poco? ¬ŅCu√°nto durar√° una unidad de este tipo en condiciones operativas reales y se puede confiar en los archivos m√°s valiosos? Intentemos comprender este problema juntos y hablemos sobre la fiabilidad de la memoria flash moderna.

Hablando estrictamente, la respuesta a la "pregunta principal de la vida, el universo y todo eso" se recibi√≥ en diciembre de 2014, cuando los chicos de la publicaci√≥n de la red TechReport completaron las pruebas de SSD de los consumidores, que dur√≥ un total de un a√Īo. Utilizando los productos HyperX, Corsair, Kingston y Samsung como ejemplos, han demostrado de manera convincente que la vida real de los SSD supera 1 petabyte de doblaje. Dichos vol√ļmenes son casi impensables no solo para el usuario promedio, sino incluso para los creadores de contenido profesionales: la unidad se volver√° moralmente obsoleta mucho antes de que se agoten sus recursos.

Sin embargo, hay un matiz significativo: hace cuatro a√Īos, los chips MLC NAND estaban en uso, capaces de almacenar 2 bits de informaci√≥n en cada celda y fabricados utilizando una tecnolog√≠a de proceso de 25 nan√≥metros. En ese momento, era un buen compromiso entre el SLC altamente confiable (celda de un solo nivel) y el TLC m√°s costoso y econ√≥mico (celda de tres niveles): los chips con celdas de dos bits proporcionaron una densidad de almacenamiento de datos aceptable, soportando hasta 5,000 ciclos de escritura / borrado (en en promedio, esta cifra alcanza los 3 mil). Lo que no se puede decir sobre sus hermanos m√°s cercanos: a pesar de todas las ventajas, que incluyen alta capacidad y bajo costo, los TLC fueron mucho menos resistentes, apenas hab√≠an superado los 1,500 mil ciclos de programaci√≥n / borrado, a pesar de que la mayor√≠a de los microcircuitos planos apenas pueden soportar mil.

El principal culpable de esta situaci√≥n fue la transici√≥n a un proceso de 15 nan√≥metros utilizado en la producci√≥n de chips. Para entender por qu√© sucedi√≥ esto, solo recuerde c√≥mo funciona la memoria NAND. La codificaci√≥n de bits de informaci√≥n ocurre al cambiar la carga en una puerta flotante debido al t√ļnel cu√°ntico de electrones a trav√©s de la capa diel√©ctrica, debido a la alta intensidad del campo el√©ctrico.


Circuito de transistor de puerta flotante

Desde el punto de vista de la f√≠sica, no estamos lidiando con nada m√°s que el fen√≥meno de un colapso reversible similar a una avalancha. Acelerando en un campo el√©ctrico, los electrones reciben suficiente energ√≠a cin√©tica para la ionizaci√≥n por impacto de las mol√©culas diel√©ctricas, lo que resulta en un par de part√≠culas elementales que llevan la carga opuesta, que tambi√©n son aceleradas por un campo el√©ctrico, y el proceso se repite, mientras que el n√ļmero de portadores de carga aumenta exponencialmente (de ah√≠ el nombre ) Es f√°cil adivinar que tales procesos causan un desgaste gradual de las capas diel√©ctricas, como resultado, aumenta la probabilidad de fuga de carga a las celdas vecinas, lo que, a su vez, provoca da√Īos o incluso la p√©rdida completa de datos. Y la transici√≥n a una nueva tecnolog√≠a de proceso solo exacerba la situaci√≥n: una disminuci√≥n en el grosor del diel√©ctrico conduce al hecho de que las c√©lulas fallan mucho antes.

Sin embargo, si el problema fuera solo esto, los consumidores comunes y los usuarios corporativos simplemente no notarían la diferencia entre MLC y TLC, y en las especificaciones técnicas para SSD veríamos cifras mucho más impresionantes. En realidad, una imagen completamente diferente aparece ante nuestros ojos, y la arquitectura de los chips flash y los detalles de su trabajo son la razón de esto: las celdas individuales se combinan en páginas y las páginas en bloques, mientras que la información de grabación solo es posible en páginas en blanco, y su eliminación se lleva a cabo bloque por bloque.

¬ŅQu√© significa esto en la pr√°ctica? Supongamos que tenemos un bloque parcialmente lleno y queremos escribir nuevos datos en √©l. Si su volumen es menor que el espacio libre restante, la grabaci√≥n se produce instant√°neamente, sin ninguna manipulaci√≥n adicional. Si no hay suficiente espacio, entran en juego algoritmos complejos de m√ļltiples etapas. Considere la situaci√≥n en el diagrama a continuaci√≥n.


Así es como se escriben los datos en la memoria flash

Los nuevos datos que queremos registrar ocupan dos páginas en un bloque, pero solo una es realmente gratuita: aunque la página anterior (resaltada en amarillo) fue eliminada por el usuario anteriormente, de hecho, la información registrada no desapareció. Para liberar espacio para nuevos datos, el controlador inicia un procedimiento conocido como recolección de basura, eliminando datos innecesarios y redistribuyendo los existentes. Para hacer esto, todas las páginas, excepto las innecesarias, se copian en el segundo bloque libre, mientras que el primero se borra por completo. Luego, las páginas reales se transfieren de nuevo al primer bloque, se eliminan del segundo, y solo después de eso, los nuevos datos ocupan el lugar que les corresponde.

En el ejemplo anterior, para grabar dos p√°ginas, tuvimos que reescribir completamente 2 bloques dos veces, seis p√°ginas cada uno. De hecho, el proceso de "Recolecci√≥n de basura" se ver√° mucho m√°s complicado y, como resultado, el n√ļmero de ciclos de reescritura ser√° mucho mayor. La imagen real solo se puede estimar conociendo el coeficiente de amplificaci√≥n de escritura, que muestra cu√°ntas veces la carga real en la memoria flash excede la calculada. Este indicador puede ser igual a la unidad solo cuando se graba informaci√≥n en un disco absolutamente limpio y formateado, en todos los dem√°s casos su valor variar√° de 2 a 25. Adem√°s, incluso a primera vista, las unidades id√©nticas pueden diferir significativamente, por lo que dependiendo del modelo del controlador utilizado y las caracter√≠sticas del firmware. Por lo tanto, la tolerancia a fallos de SSD est√° determinada no solo por el tipo de memoria flash, sino tambi√©n por cu√°nto los desarrolladores pudieron optimizar el rendimiento de la capa FTL (capa de traducci√≥n flash).

¬ŅPor qu√© el aumento dram√°tico en la densidad de almacenamiento no afect√≥ la confiabilidad de la memoria 3D NAND?


Entonces, ahora sabemos c√≥mo funciona la memoria flash y qu√© factores determinan la confiabilidad de una unidad SSD. Es hora de descubrir qu√© ventajas ofrece la transici√≥n de chips "planos" a los tridimensionales. En primer lugar, 3D NAND difiere de sus predecesores debido al uso de la "trampa de carga" (Flash de trampa de carga) en lugar de las persianas flotantes familiares. Si en este √ļltimo, el polisilicio con dopantes se usa para almacenar cargas, entonces en CTF es una regi√≥n aislada de material no conductor, m√°s a menudo SiN - nitruro de silicio. Tal enfoque hizo posible minimizar la probabilidad de fuga de carga y, como resultado, aumentar la estabilidad de la celda.

La arquitectura de los chips de memoria tridimensionales también ha sufrido cambios significativos en comparación con su predecesor, ya que ahora cada celda tiene una estructura cilíndrica: la capa externa es una puerta de control y la interna es un aislante. Como las celdas ahora están ubicadas una encima de la otra, forman una pila, dentro de la cual pasa un canal hecho de silicio policristalino. Es fácil entender que la cantidad de capas en un chip determina la cantidad de celdas en la pila.


Dispositivo de celda de chip 3D NAND

Esta estructura hizo posible reducir la interferencia entre las c√©lulas y, por lo tanto, simplificar el algoritmo de grabaci√≥n: dado que no hab√≠a necesidad de verificar el estado de carga, la grabaci√≥n en la c√©lula comenz√≥ en un solo paso. Otro matiz importante: para la producci√≥n de 3D NAND, se utilizan procesos de ejecuci√≥n, a pesar de que la densidad de empaquetamiento de las c√©lulas pudo aumentar significativamente. As√≠, por ejemplo, incluso se produjeron chips de 48 capas (la tercera generaci√≥n de memoria flash tridimensional) utilizando una tecnolog√≠a de proceso de 40 nan√≥metros. Esto hizo posible no solo aumentar su confiabilidad, sino tambi√©n reducir el costo de producci√≥n, ya que las l√≠neas de producci√≥n existentes solo necesitaban una modernizaci√≥n m√≠nima, y ‚Äč‚Äčla necesidad de litograf√≠a en ultravioleta profundo desapareci√≥ por completo.

Hablando espec√≠ficamente sobre los productos de Western Digital, luego en los modernos SSD WD Black SN750 NVMe , cuyo inicio de ventas comenz√≥ el 18 de enero de 2019, se utiliza el TLC 3D NAND BiCS (costo de bits escalable) de 64 capas, hecho con la tecnolog√≠a de proceso de 28 nan√≥metros. Adem√°s de aumentar la densidad de empaque en otras 1,4 veces (el modelo superior ahora tiene una capacidad de 2 TB, que es el doble del tama√Īo del buque insignia de la generaci√≥n anterior), una caracter√≠stica importante de este tipo de chip es el uso de cadenas en forma de U.


Arquitectura 3D NAND BiCS

Dado que ahora el transistor de conmutaci√≥n y la l√≠nea de origen se encuentran en la parte superior del chip, pr√°cticamente no est√°n expuestos a influencias de alta temperatura, que pueden provocar errores durante las operaciones de lectura / escritura, lo que mejora a√ļn m√°s la confiabilidad de las unidades de estado s√≥lido.

¬ŅC√≥mo afectan los algoritmos de grabaci√≥n la vida de un SSD?


Ya escribimos anteriormente que no importa cuán resistente y segura sea la memoria flash, sus recursos se desperdiciarán si los desarrolladores de SSD no se molestan en crear algoritmos de grabación efectivos. Para optimizar este procedimiento, se utilizan dos técnicas muy efectivas: almacenamiento en caché SLC y nivelación de desgaste.

La esencia de la primera es que parte de la matriz de memoria disponible, cuyo tama√Īo depende del volumen total de la unidad (por ejemplo, al desarrollar el SSD WD Blue 3D NAND, procedimos del c√°lculo de 4 GB de cach√© por cada 250 GB de capacidad) se transfiere al modo de operaci√≥n SLC, es decir. , solo se registra un bit de informaci√≥n en cada celda, lo que permite aumentar significativamente su rendimiento y reducir la tasa de desgaste. SLC participa en el registro y la consolidaci√≥n de los datos almacenados en el SSD, lo que permite no solo aumentar la velocidad de las operaciones, sino tambi√©n reducir la tasa de desgaste de la celda. En las versiones actuales de SSD Western Digital, se utiliza la tecnolog√≠a nCache 3.0, cuya √ļltima versi√≥n ha adquirido la funci√≥n directa a TLC, lo que permiti√≥ encontrar un equilibrio entre el almacenamiento en cach√© y la velocidad: los datos se escriben sin pasar por el cach√© cuando est√° lleno o cuando se usa SLC- El buffer no es pr√°ctico. Esto, por un lado, ayud√≥ a descargar el cach√© y, al mismo tiempo, a evitar una ca√≠da dram√°tica en el rendimiento al llenarlo.


Din√°mica de la velocidad de escritura en SSD al llenar el buffer SLC

En cuanto a la tecnología de nivelación del desgaste, ayuda a garantizar que todos los bloques de páginas disponibles se utilicen de la manera más uniforme posible. Como sabe, cualquier sistema operativo utiliza un mecanismo lógico para direccionar bloques de datos (LBA), mientras que el controlador mismo opera con direcciones físicas (PBA), correlacionándolas con las lógicas. Como resultado de esto, no importa dónde se encuentren realmente los fragmentos de los archivos, debido a lo cual es posible escribir un microprograma que garantice que la carga entre las celdas se distribuya de manera uniforme.


La nivelación del desgaste asegura una carga uniforme en las celdas

En el caso general, su algoritmo es el siguiente. Usted compró un SSD nuevo y, aunque hay espacio libre en él, la información se registrará en bloques libres. A medida que opera, comienza a eliminar archivos innecesarios, y el mecanismo de recolección de basura los limpia en segundo plano, sin embargo, se usarán para grabar solo después de que no quede un solo bloque en el disco al menos una vez en el que se escribieron los datos. Por supuesto, en realidad, todo es mucho más complicado, pero el significado no cambia.

Y aquí debería hacerse una nota más importante con respecto a los productos de Western Digital. Cuando decidimos desarrollar el mercado de SSD, podíamos ir de dos maneras: comprar memoria y controladores de terceros, centrándonos solo en el desarrollo y la optimización del firmware, o configurar una producción de ciclo completo. Ejecutar un proyecto así desde cero sería poco práctico, e incluso la compra de SanDisk nos ha costado un centavo. Pero los fondos invertidos superaron por completo: controlando la producción de chips, tuvimos la oportunidad de adaptar los microprogramas a las características de los microcircuitos.

Debe entenderse que escribir bits de informaci√≥n en celdas de memoria flash es un proceso mucho m√°s complicado de lo que parece a primera vista: tiene en cuenta cientos de par√°metros diferentes, el m√°s importante de los cuales es el voltaje requerido para la transferencia de carga y el tiempo de grabaci√≥n. A medida que los chips se desgastan, sus caracter√≠sticas f√≠sicas tambi√©n cambian: para un registro de datos exitoso, se requiere menos voltaje y, al mismo tiempo, se reduce el tiempo necesario de su influencia en la c√©lula. En la mayor√≠a de los SSD, estos par√°metros son constantes, pero en los SSD de Western Digital, por el contrario, cambian din√°micamente a medida que las c√©lulas se desgastan, lo que permite maximizar la vida √ļtil de cada uno de ellos, minimizando el impacto negativo en las estructuras de semiconductores.

QLC 3D NAND - memoria flash de √ļltima generaci√≥n


Si sigue las noticias del mundo de las altas tecnolog√≠as, probablemente sepa que Western Digital est√° dominando activamente la producci√≥n de memoria tridimensional de pr√≥xima generaci√≥n: QLC 3D NAND (el primer anuncio tuvo lugar en junio de 2018). El acr√≥nimo QLC significa celda de cuatro niveles. En otras palabras, se pueden almacenar 16 niveles de carga en una celda, codificando no solo tres, sino cuatro bits de informaci√≥n. En comparaci√≥n con TLC 3D NAND, la densidad de grabaci√≥n en QLC aument√≥ en un 33%: por lo tanto, la capacidad de un chip de 64 capas aument√≥ a 768 Gbps. Pero este no es el l√≠mite: en agosto de 2018 comenzamos el lanzamiento de microcircuitos de 96 capas. Al aumentar el n√ļmero de capas, pudimos obtener un aumento del 50 por ciento en la capacidad y superar la barrera de 1 Tbit: los nuevos chips, llamados 3D NAND BiCS4, pueden acomodar 1,33 Tbit de informaci√≥n, que es de aproximadamente 166 GB. Fue posible lograr una densidad de almacenamiento de datos tan alta combinando dos cristales de 48 capas (hoy es el enfoque m√°s viable econ√≥micamente).


Combinando dos chips de 48 capas en una de 96 capas

La mayor capacidad es potencialmente capaz de reducir el rendimiento de los SSD, pero no debe preocuparse por esto: la nueva memoria flash 3D NAND BiCS4 utiliza cuatro en lugar de dos matrices f√≠sicas, lo que permite optimizar la lectura y escritura de datos mediante operaciones paralelas, y esto, a su vez, Ayudar√° a utilizar de manera m√°s eficiente el cach√© y a controlar el nivel de desgaste de la celda, al tiempo que mantiene la vida √ļtil de los chips QLC a un nivel comparable a las soluciones TLC modernas. Sin embargo, una descripci√≥n de las tecnolog√≠as subyacentes QLC est√° m√°s all√° del alcance de este material y ciertamente merece un art√≠culo separado.

Source: https://habr.com/ru/post/438334/


All Articles