A situação: as GPUs virtuais não têm desempenho inferior às soluções de ferro

Em fevereiro, uma conferência de computação de alto desempenho (HPC) foi realizada em Stanford. Os representantes da VMware disseram que, ao trabalhar com a GPU, o sistema baseado no hipervisor ESXi modificado não tem velocidade inferior às soluções bare metal.

Falamos sobre as tecnologias que permitiram isso.


/ foto Victorgrigas CC BY-SA

Problema de desempenho


Segundo analistas, cerca de 70% das cargas de trabalho nos data centers são virtualizadas . No entanto, os 30% restantes ainda trabalham em bare metal sem hipervisores. Esses 30% geralmente consistem em aplicativos altamente carregados, relacionados, por exemplo, ao treinamento de redes neurais e ao uso de processadores gráficos.

Especialistas explicam essa tendência pelo fato de o hipervisor como uma camada intermediária de abstração poder afetar o desempenho de todo o sistema. Em estudos de cinco anos atrás, você pode encontrar dados sobre uma diminuição na velocidade de 10%. Portanto, as empresas e os operadores de data center não têm pressa em transferir a carga do HPC para um ambiente virtual.

Mas as tecnologias de virtualização estão evoluindo e melhorando. Em uma conferência há um mês, a VMware disse que o hipervisor ESXi não afeta adversamente o desempenho da GPU. A velocidade da computação pode cair em três por cento, e isso é comparável ao bare metal.

Como isso funciona


Para melhorar o desempenho dos sistemas HPC com GPUs, a VMware introduziu várias alterações no trabalho do hipervisor. Em particular, ele se livrou da função vMotion. É necessário para o balanceamento de carga e geralmente transfere máquinas virtuais (VMs) entre servidores ou GPUs. Desativar o vMotion levou ao fato de que cada VM agora está atribuída a um processador gráfico específico. Isso ajudou a reduzir os custos de compartilhamento de dados.

Outro componente importante do sistema é a tecnologia DirectPath I / O. Ele permite que o driver CUDA para computação paralela interaja diretamente com máquinas virtuais, ignorando o hipervisor. Quando você precisa executar várias VMs na mesma GPU, a solução GRID vGPU é ativada. Ele divide o cartão de memória em vários segmentos (mas os ciclos computacionais não são divididos).

O esquema de operação de duas máquinas virtuais, neste caso, terá a seguinte aparência:


Resultados e previsões


A empresa realizou testes de hipervisor treinando um modelo de linguagem baseado no TensorFlow . O "dano" à produtividade foi de apenas 3-4%, em comparação com o bare metal. Ao mesmo tempo, em troca, o sistema conseguiu distribuir recursos sob demanda, dependendo das cargas atuais.

A gigante de TI também realizou testes de contêineres. Os engenheiros da empresa treinaram redes neurais para reconhecer imagens. Ao mesmo tempo, os recursos de uma GPU foram distribuídos entre quatro VMs de contêiner. Como resultado, o desempenho de máquinas individuais diminuiu 17% (em comparação com uma única VM que tem acesso total aos recursos da GPU). No entanto, o número de imagens processadas por segundo triplicou. Espera-se que esses sistemas encontrem aplicação no campo da análise de dados e modelagem computacional.

Entre os possíveis problemas que a VMware pode encontrar, os especialistas destacam um público-alvo bastante restrito. Atualmente, um pequeno número de empresas trabalha com sistemas de alto desempenho. Embora Statista observe que, até 2021, 94% das cargas de trabalho dos datacenters mundiais serão virtualizadas. Segundo analistas, o valor do mercado de HPC aumentará de US $ 32 para US $ 45 bilhões entre 2017 e 2022.


/ foto PD de ponto de acesso global

Soluções semelhantes


Existem vários análogos no mercado desenvolvidos por grandes empresas de TI: AMD e Intel.

A primeira empresa de virtualização de GPU oferece uma abordagem SR-IOV (virtualização de entrada / saída de raiz única). Essa tecnologia fornece às VMs acesso a alguns dos recursos de hardware do sistema. A solução permite dividir o processador gráfico entre 16 usuários com sistemas virtualizados de desempenho igual.

Quanto ao segundo gigante de TI, sua tecnologia é baseada no hipervisor Citrix XenServer 7. Ele combina o trabalho de um driver de GPU padrão e de uma máquina virtual, o que permite que o último exiba aplicativos e desktops 3D nos dispositivos de centenas de usuários.

Tecnologia do futuro


Os desenvolvedores de GPUs virtuais estão apostando na implementação de sistemas de IA e na crescente popularidade de soluções de alto desempenho no mercado de tecnologia de negócios. Eles esperam que a necessidade de processar grandes quantidades de dados aumente a demanda por vGPUs.

Agora, os fabricantes estão procurando uma maneira de combinar a funcionalidade da CPU e da GPU em um único núcleo, a fim de acelerar a solução de tarefas relacionadas a gráficos, executando cálculos matemáticos, operações lógicas e processamento de dados. A aparência no mercado desses núcleos no futuro mudará a abordagem da virtualização de recursos e sua distribuição entre cargas de trabalho em um ambiente virtual e em nuvem.



O que ler sobre o tópico em nosso blog corporativo:


Algumas postagens do nosso canal Telegram:

Source: https://habr.com/ru/post/pt443946/


All Articles