La situación: las GPU virtuales no son inferiores en rendimiento a las soluciones de hierro

En febrero, se celebró una conferencia de informática de alto rendimiento (HPC) en Stanford. Los representantes de VMware dijeron que cuando se trabaja con la GPU, el sistema basado en el hipervisor ESXi modificado no es inferior en velocidad a las soluciones de metal desnudo.

Hablamos de las tecnologías que permitieron lograr esto.


/ foto Victorgrigas CC BY-SA

Problema de rendimiento


Según los analistas, alrededor del 70% de las cargas de trabajo en los centros de datos están virtualizadas . Sin embargo, el 30% restante todavía funciona en metal desnudo sin hipervisores. Este 30% en su mayor parte consiste en aplicaciones altamente cargadas relacionadas, por ejemplo, con el entrenamiento de redes neuronales y el uso de procesadores gráficos.

Los expertos explican esta tendencia por el hecho de que el hipervisor como una capa intermedia de abstracción puede afectar el rendimiento de todo el sistema. En estudios de hace cinco años, puede encontrar datos sobre una disminución de la velocidad en un 10%. Por lo tanto, las empresas y los operadores de centros de datos no tienen prisa por transferir la carga de HPC a un entorno virtual.

Pero las tecnologías de virtualización están evolucionando y mejorando. En una conferencia hace un mes, VMware dijo que el hipervisor ESXi no afecta negativamente el rendimiento de la GPU. La velocidad de computación puede caer en un tres por ciento, y esto es comparable al metal desnudo.

Como funciona


Para mejorar el rendimiento de los sistemas HPC con GPU, VMware introdujo una serie de cambios en el trabajo del hipervisor. En particular, se deshizo de la función vMotion. Es necesario para el equilibrio de carga y generalmente transfiere máquinas virtuales (VM) entre servidores o GPU. Desactivar vMotion ha llevado al hecho de que cada VM ahora tiene asignado un procesador de gráficos específico. Esto ha ayudado a reducir los costos de intercambio de datos.

Otro componente clave del sistema es la tecnología DirectPath I / O. Permite que el controlador CUDA para computación paralela interactúe directamente con máquinas virtuales, evitando el hipervisor. Cuando necesita ejecutar varias máquinas virtuales en la misma GPU, se activa la solución GRID vGPU. Divide la tarjeta de memoria en varios segmentos (pero los ciclos computacionales no están divididos).

El esquema de operación de dos máquinas virtuales en este caso tendrá el siguiente aspecto:


Resultados y pronósticos


La compañía realizó pruebas de hipervisor mediante la capacitación de un modelo de lenguaje basado en TensorFlow . El "daño" a la productividad fue solo del 3-4%, en comparación con el metal desnudo. Al mismo tiempo, a cambio, el sistema pudo distribuir recursos a pedido en función de las cargas actuales.

El gigante de TI también realizó pruebas de contenedores. Los ingenieros de la compañía entrenaron redes neuronales para reconocer imágenes. Al mismo tiempo, los recursos de una GPU se distribuyeron entre cuatro máquinas virtuales de contenedor. Como resultado, el rendimiento de las máquinas individuales disminuyó en un 17% (en comparación con una única VM que tiene acceso completo a los recursos de la GPU). Sin embargo, el número de imágenes procesadas por segundo se ha triplicado. Se espera que dichos sistemas encuentren aplicación en el campo del análisis de datos y el modelado por computadora.

Entre los posibles problemas que VMware puede encontrar, los expertos señalan un público objetivo bastante reducido. Un pequeño número de empresas está trabajando actualmente con sistemas de alto rendimiento. Aunque Statista señala que para 2021, el 94% de las cargas de trabajo de los centros de datos mundiales se virtualizarán. Según los analistas, el valor del mercado de HPC crecerá de $ 32 a $ 45 mil millones entre 2017 y 2022.


/ foto Punto de acceso global PD

Soluciones similares


Existen varios análogos en el mercado desarrollados por grandes compañías de TI: AMD e Intel.

La primera compañía de virtualización de GPU ofrece un enfoque SR-IOV (virtualización de entrada / salida de raíz única). Esta tecnología proporciona acceso a máquinas virtuales a algunas de las capacidades de hardware del sistema. La solución le permite dividir el procesador de gráficos entre 16 usuarios con sistemas virtualizados de igual rendimiento.

En cuanto al segundo gigante de TI, su tecnología se basa en el hipervisor Citrix XenServer 7. Combina el trabajo de un controlador de GPU estándar y una máquina virtual, lo que permite a este último mostrar aplicaciones 3D y escritorios en los dispositivos de cientos de usuarios.

Tecnología del futuro


Los desarrolladores de GPU virtuales están apostando por la implementación de sistemas de IA y la creciente popularidad de las soluciones de alto rendimiento en el mercado de tecnología empresarial. Esperan que la necesidad de procesar grandes cantidades de datos aumente la demanda de vGPU.

Ahora los fabricantes buscan una manera de combinar la funcionalidad de la CPU y la GPU en un núcleo para acelerar la solución de tareas relacionadas con gráficos, realizar cálculos matemáticos, operaciones lógicas y procesamiento de datos. La aparición en el mercado de estos núcleos en el futuro cambiará el enfoque de la virtualización de recursos y su distribución entre las cargas de trabajo en un entorno virtual y en la nube.



Qué leer sobre el tema en nuestro blog corporativo:


Un par de publicaciones de nuestro canal de Telegram:

Source: https://habr.com/ru/post/443946/


All Articles