
El verano en Moscú este año, para ser sincero, no fue muy bueno. Comenzó demasiado temprano y rápidamente, no todos lograron reaccionar, y terminó a fines de junio. Por lo tanto, cuando Huawei sugirió que fuera a China, a la ciudad de Chengdu, donde se encuentra su centro de RnD, mirando el pronóstico del tiempo a +34 grados a la sombra, acepté de inmediato. Aún así, mi edad no es la misma y mis huesos necesitan calentarse un poco. Pero quiero señalar que fue posible calentar no solo los huesos, sino también el interior, porque la provincia de Sichuan, en la que, de hecho, Chengdu es famosa por su amor por la comida picante. Pero aún así, este blog no trata sobre viajes, así que volvemos al objetivo principal de nuestro viaje: la nueva línea de sistemas de almacenamiento: Huawei Dorado V6. Este artículo te saludará un poco del pasado, como Fue escrito antes del anuncio oficial, pero publicado solo después del lanzamiento. Y así, hoy miramos todo lo interesante y sabroso que Huawei ha preparado para nosotros.

La nueva línea tendrá 5 modelos. Todos los modelos, excepto 3000V6, pueden estar en dos versiones: SAS y NVMe. La interfaz de disco que puede usar en este sistema, los puertos de back-end y la cantidad de unidades de disco que puede instalar en el sistema dependen de la elección. NVMe utiliza unidades SSD del tamaño de una Palm, que son más delgadas que las unidades SSD SAS clásicas de 2.5 ”y pueden acomodar hasta 36 unidades. La nueva línea es All Flash y no hay configuraciones de disco.

Palm NVMe SSD
En mi opinión, los modelos Dorado 8000 y 18000 parecen ser los más interesantes, Huawei los está posicionando como un sistema de gama alta y, debido a la política de precios de Huawei, contrasta estos modelos de gama media con su segmento de la competencia. Es en estos modelos que me concentraré hoy en mi revisión. Inmediatamente, observo que debido a sus características de diseño, los sistemas de controlador dual más jóvenes tienen una arquitectura ligeramente diferente, diferente de Dorado 8000 y 18000, por lo que no todo lo que hablaré hoy se aplica a los modelos más jóvenes.
Una de las características principales de los nuevos sistemas fue el uso de varios chips de su propio diseño, cada uno de los cuales permite transportar la carga lógica desde el procesador central del controlador y agregar funcionalidad a diferentes componentes.

El corazón de los nuevos sistemas son los procesadores Kunpeng 920, desarrollados con tecnologías ARM y fabricados independientemente por Huawei. Dependiendo del modelo, la cantidad de núcleos varía, su frecuencia y la cantidad de procesadores instalados en cada controlador:
Huawei Dorado V6 8000 - 2CPU, 64 núcleos
Huawei Dorado V6 18000 - 4CPU, 48 núcleos

Huawei desarrolló este procesador en la arquitectura ARM, y hasta donde yo sé, originalmente planeó colocarlo solo en los modelos Dorado 8000 y 18000 más antiguos, como sucedía con algunos modelos V5, pero las sanciones hicieron ajustes a esta idea. Por supuesto, ARM también habló sobre el rechazo de la cooperación con Huawei durante la imposición de sanciones, pero aquí la situación es diferente a la de Intel. Huawei produce estos chips por sí solo, y ninguna sanción puede detener este proceso. La ruptura de las relaciones con ARM amenaza solo con la pérdida de acceso a los nuevos desarrollos. En cuanto al rendimiento, aquí será posible juzgar solo después de realizar pruebas independientes. Aunque vi cómo se eliminó 1M IOPS del sistema Dorado 18000 sin ningún problema, hasta que lo haga con mis propias manos en el estante, no lo creeré. Pero las capacidades en los controladores allí realmente no son suficientes. Los modelos más antiguos están equipados con 4 controladores, cada uno de los cuales tiene 4 procesadores instalados, lo que da un total de 768 núcleos.

Pero les contaré sobre los núcleos incluso más tarde, cuando veamos la arquitectura de los nuevos sistemas, pero por ahora volvamos a otro chip instalado en el sistema. El chip Ascend 310 parece una solución extremadamente interesante (según tengo entendido, el hermano menor Ascend 910, que se presentó recientemente al público). Su tarea es analizar los bloques de datos que llegan al sistema para aumentar el índice de aciertos de lectura. Todavía es difícil decir cómo se mostrará en el trabajo, porque Hoy funciona solo de acuerdo con un patrón dado y no tiene la capacidad de aprender de manera intelectual. La aparición de un modo inteligente se promete en el futuro firmware, muy probablemente a principios del próximo año.
Pasemos a la arquitectura. Huawei ha seguido desarrollando su propia tecnología Smart Matrix, que implementa un enfoque de malla completa para conectar componentes. Pero si en V5 era solo para el acceso de los controladores a los discos, ahora todos los controladores tienen acceso a todos los puertos tanto en el Back-End como en el Front-End.

Gracias a la nueva arquitectura de microservicios, esto también permite equilibrar la carga entre todos los controladores, incluso si solo hay un lun. El sistema operativo para esta línea de matrices fue desarrollado desde cero, y no solo optimizado para usar unidades Flash. Debido al hecho de que todos los controladores tienen acceso a los mismos puertos, en caso de falla o reinicio del controlador, el host no pierde una sola ruta al sistema de almacenamiento y el cambio de ruta se realiza a nivel del sistema de almacenamiento de datos. Al mismo tiempo, el uso de UltraPath en el host no es una necesidad estricta. Otro "ahorro" en la instalación del sistema es un número menor de enlaces necesarios. Y si con el enfoque "clásico" para 4 controladores necesitamos 8 enlaces de 2 fábricas, entonces, en el caso de Huawei, incluso 2 serán suficientes (no estoy hablando ahora sobre la suficiencia del ancho de banda de un enlace).

Como en la versión anterior, se usa un caché global con reflejo. Esto le permite perder hasta dos controladores simultáneamente o tres controladores en serie sin afectar la disponibilidad. Pero vale la pena señalar que no vimos un equilibrio de carga completa entre los 3 controladores restantes en caso de falla de uno, en el stand de demostración. La carga del controlador fallido fue completamente asumida por uno de los restantes. Es posible que para esto sea necesario dejar que el sistema funcione durante más tiempo en esta configuración. En cualquier caso, en mis propias pruebas comprobaré esto con más detalle.
Huawei está posicionando nuevos sistemas como un sistema NVMe de extremo a extremo, pero en este momento la interfaz NVMeOF aún no es compatible, solo FC, iSCSI o NFS. Al final de este o al comienzo del próximo, como otros chips, se nos promete el soporte de RoCE.

Los estantes están conectados a los controladores de la misma manera usando RoCE, y esto tiene un inconveniente: la falta de una conexión de "bucle" de los estantes, como sucedía con SAS. En mi opinión, si bien este es un inconveniente bastante grande, si ha planeado un sistema bastante grande. El hecho es que todos los estantes están conectados en serie, y la falla de uno de los estantes implica la inaccesibilidad completa de todos los demás que lo siguen. En este caso, para garantizar la tolerancia a fallas, tenemos que conectar todos los estantes a los controladores, lo que implica un aumento en el número requerido de puertos de back-end en el sistema.
Y una cosa más que vale la pena mencionar es la actualización no disruptiva (NDU). Como dije anteriormente, Huawei ha implementado un enfoque de contenedor en el funcionamiento del sistema operativo para la nueva línea Dorado, esto permite actualizar y reiniciar los servicios, sin la necesidad de un reinicio completo del controlador. Vale la pena mencionar de inmediato que algunas actualizaciones contendrán actualizaciones del kernel, y en este caso el reinicio clásico de los controladores a veces aún será necesario al actualizar, pero no siempre. Esto reducirá el nivel de influencia de esta operación en el sistema productivo.
En nuestro arsenal, la gran mayoría de los arreglos de la compañía NetApp. Por lo tanto, creo que será bastante lógico si hago una pequeña comparación con los sistemas con los que tengo que trabajar bastante. Este no es un intento de determinar quién es mejor y quién es peor o cuya arquitectura es más ventajosa. Intentaré con sobriedad y sin fanatismo comparar dos enfoques diferentes para resolver el mismo problema de diferentes proveedores. Sí, por supuesto, en este caso, consideraremos los sistemas Huawei en "teoría" y también notaré por separado aquellos momentos que solo están planeados para implementarse en futuras versiones de firmware. ¿Cuáles son las ventajas que veo en este momento:
- El número de unidades NVMe compatibles. NetApp tiene hoy un número de 288, Huawei según el modelo: 1600-6400. Al mismo tiempo, la capacidad máxima utilizable de Huawei es 32PBe, como los sistemas de NetApp (para ser más precisos, tienen 31.64PBe). Y esto a pesar del hecho de que las unidades del mismo volumen son compatibles (hasta 15Tb). Huawei explica este hecho de la siguiente manera: no tuvieron la oportunidad de armar un stand más grande. En teoría, no tienen límite de volumen, pero simplemente no han podido probar este hecho. Pero vale la pena señalar que las capacidades de las unidades flash son muy altas hoy en día, y en el caso de los sistemas NVMe, nos enfrentamos al hecho de que 24 unidades son suficientes para utilizar el sistema de 2 controladores de gama alta. En consecuencia, un aumento adicional en el número de discos en el sistema no solo no proporcionará una ganancia de rendimiento, sino que también afectará negativamente la relación IOPS / Tb. Por supuesto, vale la pena ver cuántas unidades pueden extraer los sistemas de 4 controladores 8000 y 16000, porque Las capacidades y el potencial del Kunpeng 920 aún no están completamente claros.
- Lun tiene un propietario en los sistemas de NetApp. Es decir solo un controlador puede realizar operaciones con la luna, mientras que el segundo solo pasa IO a través de sí mismo. Los sistemas de Huawei, por el contrario, no tienen propietarios y las operaciones con bloques de datos (compresión, deduplicación) pueden ser realizadas por cualquiera de los controladores, así como escritas en discos.
- No hay caída de puerto en caso de falla de uno de los controladores. Para algunos, este momento parece extremadamente crítico. La conclusión es que cambiar dentro del sistema de almacenamiento debería ser más rápido que en el lado del host. Y si en el caso de la misma NetApp, en la práctica hemos revelado un friso del orden de 5 segundos al extraer el controlador y cambiar las rutas, entonces el cambio a Huawei todavía tiene que practicar.
- No es necesario reiniciar el controlador durante la actualización. Estaba especialmente preocupado por esto con el lanzamiento bastante frecuente de nuevas versiones y ramas de firmware para NetApps. Sí, algunas actualizaciones para Huawei aún requerirán un reinicio, pero no todas.
- 4 controladores Huawei por el precio de dos controladores de NetApp. Como dije anteriormente, gracias a la política de precios de Huawei, puede competir con el rango medio con sus modelos de gama alta.
- La presencia de chips adicionales en los controladores del estante y las tarjetas de puerto, que están destinados potencialmente a aumentar la eficiencia del sistema.
Contras y temores en general:
- Conexión directa de los estantes a los controladores o la necesidad de una gran cantidad de puertos de fondo para conectar todos los estantes a los controladores.
- Arquitectura ARM y la presencia de una gran cantidad de chips: qué tan eficientemente funcionará y si habrá suficiente rendimiento.
La mayoría de los miedos y los miedos podrán disipar las propias pruebas de la nueva línea. Espero que poco después del lanzamiento ya aparezcan en Moscú y haya suficientes para obtener rápidamente uno para sus propias pruebas. Hasta ahora, podemos decir que el enfoque de la compañía en su conjunto parece interesante, y la nueva línea se ve muy bien frente a los competidores. la implementación final plantea muchas preguntas, porque Veremos muchas cosas solo al final del año, y tal vez solo en 2020.