Almacenamiento Clase Memoria en almacenamiento: si la necesita aún más rápido

La imagen no expresa la posición de la empresa y es una visión personal del autor, no necesariamente relacionada con el tema de este texto, amen Como probablemente recuerde, NRE lleva mucho tiempo invirtiendo en el tema de nuevos tipos de almacenes de datos (por supuesto, The Machine ) y en la optimización del acceso al almacenamiento (nuestra membresía en el consorcio Gen-Z ).

El objetivo de este movimiento es acelerar el trabajo de las aplicaciones de nuestros clientes. Además, este movimiento es multinivel: mientras se está forjando la arquitectura completamente nueva de los sistemas informáticos de The Machine (la denominada arquitectura centrada en la memoria), entendemos que necesitamos acelerar ahora. Veamos qué se puede hacer hoy y qué aparecerá en HPE mañana. Sugerencia: hablaremos sobre la fuerte aceleración de nuestro almacenamiento 3PAR y Nimble mediante el almacenamiento en caché inteligente y de costo relativamente bajo en la memoria de clase de almacenamiento (SCM) en forma de Intel Optane.

Primero, establecemos los límites del problema en estudio. En esta publicación, no estamos interesados ​​en la informática de alto rendimiento con sus propios detalles y no estamos interesados ​​en tareas que requieran un almacenamiento rápido exclusivamente dentro del servidor. Este último es, sin duda, también un tema para Intel Optane y SCM en general, pero tales tareas son a menudo específicas, poco susceptibles de virtualización y, en consecuencia, de consolidación. Hablaremos sobre tareas y aplicaciones que se llevan bien con los sistemas externos de almacenamiento 3PAR, Nimble o MSA (aunque tampoco tocaremos MSA).

Entonces, ¿cómo puede mejorar el rendimiento de una aplicación virtualizada que funciona con datos en un sistema de almacenamiento externo?
  • Vea lo que está frenando la aplicación ahora. Quizás esto no sea una cuestión de almacenamiento, sino de esperar al procesador, en la lógica interna de trabajar con datos, en solicitudes escritas subóptimas;
  • Si los retrasos son grandes en términos de espera de datos (IO), primero debe verificar si se cumplen todas las recomendaciones para configurar el paquete de controlador de SO de aplicación (SCSI, HBA, etc.)
  • quizás el caso en la SAN (Ethernet, FC);
  • Tal vez todavía está en el sistema de almacenamiento. ¿Dónde en el almacenamiento? En el hardware del controlador (qué hay con el caché, cuál es la carga del procesador), en el sistema operativo y los controladores del controlador, en el bus de datos, en los discos ...

Posible tren de pensamiento: ¡Oh, seguro! ¡Las ruedas! Todo lo demás es complicado y no quiero tocarlo, pero con los discos lo intentaremos. Lo que tenemos, un híbrido, bueno, entonces necesitamos todo flash. ¿Ya tenemos todo flash? ¿Y que es mejor? Vemos publicidad de marcas de renombre:

imagen

Todo está claro, tomamos almacenamiento con "discos NVMe". Espera, cuanto cuesta ? Y necesita comprar un nuevo sistema de almacenamiento, ¿no puedo actualizar mi actual? Bueno, tienes que ...

imagen

¿Pero es posible de otra manera? En NRE creemos que no solo es posible, sino también necesario. Y aquí está el por qué:

imagen

El hecho es que la mayoría de los SSD NVMe en el mercado en este momento son del mismo tipo de medios, NAND-flash, solo conectados al controlador no a través del protocolo Serial Attached SCSI (SAS), sino a través del nuevo protocolo NVMe. El nuevo protocolo es sin duda hermoso, y aquí hay algunos hechos:

  • 64,000 colas disponibles con 64,000 hilos cada una - IOPS sobre el techo
  • controlador directamente a la CPU - menor carga de CPU
  • cada núcleo del procesador ve cada SSD directamente - baja latencia


Al reemplazar completamente el protocolo SCSI desde la aplicación hasta los discos, es posible reducir significativamente la latencia de acceso. Pero, ¿qué nos ofrecen los especialistas en marketing hoy? "Discos NVMe". Es decir toda la cadena hasta el controlador de almacenamiento sigue siendo la misma: SCSI. Y luego el controlador simplemente vuelve a empaquetar SCSI en NVMe y se comunica con los SSD NAND conectados.

El resultado en el cuadro anterior es la ganancia mínima en el retraso. Aunque la ganancia en IOPS pico realmente puede ser muy notable. La analogía tradicional: ¿necesita un automóvil que pueda acelerar rápidamente para adelantar en 5 segundos, o un automóvil que, en condiciones ideales, puede acelerar en 10 minutos a 300 km / h? Ambas opciones son buenas, pero con mayor frecuencia eligen la primera.

La realidad es que la ganancia de NVMe NAND apenas se nota hoy en día para aplicaciones reales y, en nuestra opinión, no vale la pena la diferencia en precio y pérdida de capacidad disponible en comparación con los SSD SAS.

Lo que ofrece HPE en lugar de simplemente reemplazar la "última milla" de SAS a NVMe es el uso de unidades Intel Optane completamente nuevas conectadas a través de NVMe como caché de lectura en nuestros controladores de almacenamiento 3PAR y Nimble.

imagen

(Tanto el aritmómetro como el administrador de la foto se llaman Felix, ¡pero la diferencia es enorme!)

Por qué decidimos ir por este camino:

  • para que podamos ofrecer a nuestros clientes la actualización de los sistemas de almacenamiento ya comprados (específicamente 3PAR 9450, 20450, 20850 y Nimble AF60 y AF80, todos los mejores flash)
    imagen
  • de esta manera muy simple (al agregar una tarjeta de expansión con Optane a bordo a cada controlador) reducimos el retraso máximo en aproximadamente 15 veces y el promedio en un 30-40% (los IOPS también están creciendo, bueno, está bien). Y lo más importante, el retraso no salta de la comercialización " de 0.2 ms!" ad infinitum (el marketing no es nuestro, solo cito), pero se vuelve mucho más estable:
    imagen

    (Valores de retraso basados ​​en pruebas internas de HPE)
  • más específicamente, lo que se puede esperar de tal reducción en la latencia de matriz para su Oracle favorito, por ejemplo: de acuerdo con nuestras pruebas internas, la espera de E / S se reduce en un promedio de 37%, y las selecciones de SQL se aceleran en un 27%.
  • ¿Por qué se lee y no escribe el caché? Porque tanto en 3PAR como en Nimble, desde hace muchos años, DRAM se ha utilizado como caché de escritura (NVRAM no volátil en Nimble). A su vez, es varias veces más rápido que los dispositivos NVMe, y hasta la llegada de Gen-Z o protocolos nuevos similares seguirá siéndolo. Es decir La grabación no es necesaria para acelerar a través de NVMe.
  • ¿Por qué Intel Optane? Porque este es el tipo más nuevo de medio, aunque todavía está detrás de la NAND en densidad, pero en un orden de magnitud más rápido en respuesta. Además, Optane tiene un recurso casi inagotable para reescribir. En general, para los sistemas cargados, los costos de transacción en Optane son mucho más bajos que en NAND NVMe. Y el caché es una capa muy cargada desde todos los lados. Los datos activos se copian desde una capa más lenta (por lo tanto, se necesita un recurso), se leen si no se encuentran datos en el caché NVRAM del controlador (por lo tanto, se requiere una respuesta rápida para que ir más allá del caché NVRAM no parezca un viaje al hipermercado en comparación con con un viaje a la tienda cerca de la casa).
  • ¿por qué no poner discos NVMe después de todo? ¡Asegúrate de ponerlo! Por ejemplo, el chasis de Nimble permite la instalación de tales discos ahora (el plano posterior está listo para esto), pero todavía no vendemos tales discos para Nimble, porque es temprano. SCM-cache ahora ofrece un aumento múltiple en el rendimiento de centavos relativos. Entonces, utilicémoslo mientras el NVMe NAND todavía es más barato, el protocolo NVMe en sí mismo aún se está desarrollando (la ruta múltiple apareció en el estándar solo en marzo de 2018 y aún está muy por detrás de la estabilidad SCSI), y en general, el ecosistema NVMe desde la aplicación hasta los discos todavía está no desarrollado (NVMe sobre la tela fue al jardín de infantes, los fabricantes discuten sobre cómo debería verse, los controladores tienen una funcionalidad mínima para que no sobrescriban demasiado cuando todo se estabiliza).
  • y también porque realmente nos gusta almacenar todo en caché. Aquí hay un ejemplo sobre Nimble:


imagen

Sí, por cierto, ¿estás familiarizado con HPE InfoSight ? Con esta herramienta siempre sabes dónde buscar un retraso. Por ejemplo, así:

imagen

(Si encuentra un retraso, comuníquese con nuestra fe).

Es hora de resumir: si usted es el orgulloso propietario de 3PAR 9000 o 20,000, puede solicitar 3PAR 3D Cache basado en Intel Optane ahora mismo. Si observa detenidamente la matriz Nimble All-flash, tómela, porque Es una base confiable para proteger las inversiones en el futuro. Comience con el SSD SAS NAND ahora, conecte el All Flash Turbo Cache basado en SCM más tarde, luego cambie las unidades a NVMe.

Caché 3PAR y Nimble SCM

Para referencia:

Source: https://habr.com/ru/post/es432306/


All Articles