En février, une conférence sur le calcul haute performance (HPC) s'est tenue à Stanford. Des représentants de VMware ont déclaré que lors de l'utilisation du GPU, le système basé sur l'hyperviseur ESXi modifié n'était pas inférieur en termes de vitesse aux solutions de métal nu.
Nous parlons des technologies qui ont permis cela.
/ photo Victorgrigas CC BY-SAProblème de performance
Selon les analystes, environ 70% des charges de travail dans les centres de données sont
virtualisées . Cependant, les 30% restants fonctionnent toujours sur du métal nu sans hyperviseurs. Ces 30% sont pour la plupart constitués d'applications très chargées liées, par exemple, à la formation de réseaux de neurones et à l'utilisation de processeurs graphiques.
Les experts expliquent cette tendance par le fait que l'hyperviseur en tant que couche d'abstraction intermédiaire peut affecter les performances de l'ensemble du système. Dans des études d'il y a cinq ans,
vous pouvez trouver des données sur une diminution de la vitesse de 10%. Par conséquent, les entreprises et les opérateurs de centres de données ne sont pas pressés de transférer la charge HPC vers un environnement virtuel.
Mais les technologies de virtualisation évoluent et s'améliorent. Lors d'une conférence il y a un mois, VMware a déclaré que l'hyperviseur ESXi n'affecte pas négativement les performances du GPU. La vitesse de calcul peut chuter de 3%, ce qui est comparable au métal nu.
Comment ça marche
Pour améliorer les performances des systèmes HPC avec GPU, VMware a introduit un certain nombre de changements dans le travail de l'hyperviseur. Il s'est notamment débarrassé de la fonction vMotion. Il est nécessaire pour l'équilibrage de charge et transfère généralement des machines virtuelles (VM) entre des serveurs ou des GPU. La désactivation de vMotion a conduit au fait que chaque machine virtuelle est désormais affectée à un processeur graphique spécifique. Cela a permis de réduire les coûts de partage des données.
Un autre élément clé du système
est la technologie d'E / S DirectPath. Il permet au pilote CUDA pour le calcul parallèle d'interagir directement avec les machines virtuelles, en contournant l'hyperviseur. Lorsque vous devez exécuter plusieurs machines virtuelles sur le même GPU, la solution GRID vGPU est activée. Il divise la carte mémoire en plusieurs segments (mais les cycles de calcul ne sont pas divisés).
Le schéma de fonctionnement de deux machines virtuelles dans ce cas se présente comme suit:
Résultats et prévisions
L'entreprise a
effectué des tests d' hyperviseur
en formant un modèle de langage basé sur
TensorFlow . Les «dommages» à la productivité n'étaient que de 3 à 4% par rapport au métal nu. Dans le même temps, en contrepartie, le système a pu répartir les ressources à la demande en fonction des charges actuelles.
Le géant informatique a également
réalisé des
tests de conteneurs. Les ingénieurs de l'entreprise ont formé des réseaux de neurones pour reconnaître les images. Dans le même temps, les ressources d'un GPU ont été réparties entre quatre VM de conteneurs. En conséquence, les performances des machines individuelles ont diminué de 17% (par rapport à une seule machine virtuelle qui a un accès complet aux ressources GPU). Cependant, le nombre d'images traitées par seconde
a triplé. On s'attend à ce que ces systèmes
trouvent une application dans le domaine de l'analyse des données et de la modélisation informatique.
Parmi les problèmes potentiels que VMware peut rencontrer, les experts identifient
un public cible plutôt restreint. Un petit nombre d'entreprises travaillent actuellement sur des systèmes performants. Bien que Statista
note que d'ici 2021, 94% des charges de travail des centres de données mondiaux seront virtualisés. Selon
les analystes, la valeur du marché HPC passera de 32 à 45 milliards de dollars entre 2017 et 2022.
/ photo Global Access Point PDSolutions similaires
Il existe plusieurs analogues sur le marché qui sont développés par de grandes sociétés informatiques: AMD et Intel.
La première entreprise de virtualisation de GPU
propose une approche SR-IOV (virtualisation d'entrée / sortie à racine unique). Cette technologie permet aux machines virtuelles d'accéder à certaines des capacités matérielles du système. La solution vous permet de diviser le processeur graphique entre 16 utilisateurs avec des systèmes virtualisés à performances égales.
Quant au deuxième géant de l'informatique, sa
technologie est basée sur l'hyperviseur Citrix XenServer 7. Il combine le travail d'un pilote GPU standard et d'une machine virtuelle, ce qui permet à ce dernier d'afficher des applications 3D et des bureaux sur les appareils de centaines d'utilisateurs.
Technologie d'avenir
Les développeurs de GPU virtuels
parient sur la mise en œuvre de systèmes d'IA et la popularité croissante des solutions hautes performances sur le marché des technologies d'entreprise. Ils espèrent que la nécessité de traiter de grandes quantités de données augmentera la demande de vGPU.
Désormais, les fabricants
recherchent un moyen de combiner les fonctionnalités du CPU et du GPU en un seul cœur afin d'accélérer la solution des tâches liées aux graphiques, d'effectuer des calculs mathématiques, des opérations logiques et le traitement des données. L'apparition sur le marché de tels cœurs à l'avenir va changer l'approche de la virtualisation des ressources et de leur répartition entre les charges de travail dans un environnement virtuel et cloud.
Que lire sur le sujet dans notre blog d'entreprise:
Quelques articles de notre chaîne Telegram: