À mesure que l'architecture de l'IA s'améliore et que les coûts baissent, les experts disent que de plus en plus d'entreprises maîtriseront ces technologies, ce qui donnera une impulsion aux innovations et apportera de gros dividendes aux entreprises et aux développeurs d'IA.
Les applications d'IA fonctionnent souvent sur la base d'architectures complètement différentes des applications d'entreprise traditionnelles. À leur tour, les fournisseurs sont prêts à faire beaucoup pour fournir de nouveaux composants dont la demande augmente.

«L'industrie informatique est en pleine mutation - l'intérêt des entreprises pour l'IA donne une impulsion aux innovations qui aideront à maîtriser et à déployer l'IA à n'importe quelle échelle», a déclaré Keith Strier, expert en IA, consultant chez EY. Les investisseurs investissent beaucoup d'argent dans les startups qui optimisent l'IA, et les grands fabricants commencent à proposer non seulement des puces et du stockage, mais aussi les services réseau et cloud nécessaires au déploiement. »
.
Selon lui, la tâche principale des directeurs informatiques consiste désormais à choisir l'architecture d'intelligence artificielle appropriée aux besoins de l'entreprise.
Streer dit que l'IA étant des mathématiques à une échelle sans précédent, la mise en œuvre de cette technologie nécessite des conditions techniques et des outils de sécurité complètement différents de ceux des charges de travail d'entreprise familières. Pour tirer pleinement parti de l'IA, les fournisseurs devront fournir l'infrastructure technique, le cloud et les autres services nécessaires à l'IA, sans lesquels de tels calculs complexes seraient impossibles.
Mais nous y sommes déjà en route, et à l'avenir, il y aura des architectures encore plus avancées de l'intelligence artificielle. Streer estime que fournir la flexibilité, la puissance et la vitesse des architectures informatiques sera non seulement de petites entreprises pour le développement de l'informatique haute performance, mais aussi d'autres représentants de l'industrie de l'informatique haute performance, y compris des startups pour créer des micropuces et des services cloud qui cherchent à établir des normes élevées pour l'IA. l'informatique.
À mesure que de plus en plus de spécialistes et de développeurs dans le domaine de l'IA apparaissent, cette technologie deviendra plus accessible, ce qui donnera une bonne impulsion aux innovations et apportera des dividendes notables - pour les entreprises et les fournisseurs.
Dans l'intervalle, les directeurs informatiques doivent se familiariser avec les difficultés liées à la création d'une architecture d'intelligence artificielle pour une utilisation en entreprise afin d'être prêts à les résoudre.
Développement de puces
La condition la plus importante pour la transition des architectures informatiques traditionnelles à l'IA était le développement de processeurs graphiques, de circuits intégrés logiques programmables (FPGA) et de puces AI spécialisées. La prolifération des architectures basées sur les GPU et les FPGA contribuera à augmenter la productivité et la flexibilité des systèmes informatiques et de stockage, ce qui permettra aux fournisseurs de solutions d'offrir une gamme de services avancés pour les applications d'IA et d'apprentissage automatique.

«Ce sont des architectures de puces qui libèrent de nombreuses fonctionnalités avancées de la charge [telles que la formation à l'IA] et aident à mettre en œuvre une pile améliorée pour l'informatique et le stockage qui offre des performances et une efficacité inégalées», a déclaré Surya Varanasi, fondateur et directeur technique de Vexata Inc., fournisseur de solutions de gestion de données.
Mais alors que les nouveaux microcircuits ne sont pas capables de quelque chose de plus complexe. Afin de sélectionner l'architecture optimale pour les charges de travail de l'IA, il est nécessaire d'effectuer des calculs à grande échelle qui nécessitent un débit élevé et ne peuvent pas se faire sans retards. La clé du succès réside ici dans les réseaux à haut débit. Mais de nombreux algorithmes d'IA doivent attendre que le prochain ensemble de données soit tapé, vous ne devez donc pas perdre de vue le retard.
De plus, lors du franchissement des limites du serveur ou du transfert des serveurs vers le stockage, les données passent par plusieurs protocoles. Pour simplifier ces processus, les experts en données peuvent essayer de localiser les données localement afin qu'un serveur puisse traiter de gros morceaux de données sans en attendre d'autres. Une meilleure intégration entre les GPU et le stockage permet également d'économiser de l'argent. D'autres fournisseurs recherchent des moyens de simplifier la conception des serveurs AI pour garantir la compatibilité afin que les mêmes serveurs puissent être utilisés pour différentes charges de travail.
Mémoire non volatile pour le traitement des charges de travail AI
Au cœur de nombreuses solutions basées sur le GPU se trouve un lecteur à connexion directe (DAS), qui complique grandement l'apprentissage distribué et la formation de conclusions logiques pour l'IA. Par conséquent, l'installation et la gestion de ces lignes de données pour l'apprentissage en profondeur deviennent une tâche complexe et longue.
Pour résoudre ce problème, la mémoire non volatile (NVM) convient, conçue à l'origine pour fournir une connectivité de haute qualité entre les disques SSD et les serveurs d'entreprise traditionnels. Désormais, ce type de mémoire est souvent inclus dans les matrices d'E / S pour optimiser les charges de travail de l'IA.
L'essentiel est que NVMe over Fabrics (NVMeF) - les soi-disant ces interfaces - contribuera à réduire le coût de la conversion entre les protocoles réseau et à contrôler les caractéristiques de chaque type de SSD. Cela permettra aux DSI de justifier le coût des applications d'IA qui utilisent de grands ensembles de données.
Les interfaces NVMeF comportent leurs risques, notamment la nécessité de coûts élevés pour les technologies avancées. En outre, il existe toujours une dépendance vis-à-vis des fournisseurs NVMeF dans ce secteur, de sorte que les directeurs informatiques doivent essayer d'éviter les relations spécifiques au fournisseur lors du choix d'un produit.
Mais la mise en œuvre de NVMeF vous permettra de franchir une nouvelle étape vers l'optimisation de l'architecture d'entreprise de l'intelligence artificielle, estime Varanasi.

«Malgré le fait que l'expansion de l'architecture NVMe over Fabrics à l'échelle industrielle puisse prendre encore un an ou un an et demi, nous avons déjà les principaux composants et les pionniers rapportent déjà des résultats prometteurs», explique Varanasi.
Les DSI désireux de développer des applications d'IA peuvent essayer de créer un pool de stockage partagé optimisé pour l'IA pour NVMeF s'il réussit à remplacer les réseaux de stockage existants à court terme. Mais si vous attendez que NVMeF soit rétrocompatible, vous pouvez perdre beaucoup.
Réduisez le mouvement des données
Lors de la planification des différentes étapes du déploiement de l'IA, vous devez porter une attention particulière au coût du déplacement des données. Les projets d'IA, y compris ceux pour le traitement et la transformation des données, ainsi que pour la formation d'algorithmes, nécessitent d'énormes quantités de données.
Le matériel et les ressources humaines nécessaires pour effectuer ces tâches, ainsi que le temps nécessaire pour déplacer les données elles-mêmes, peuvent rendre les projets d'IA trop coûteux. Si les DSI parviennent à éviter de déplacer des données entre les étapes, il est probable qu'ils seront en mesure de développer une infrastructure d'IA viable qui répond à ces besoins, a déclaré Haris Pozidis, Ph.D., directeur, spécialiste des technologies d'accélération du stockage chez IBM Research. Les fabricants travaillent déjà sur cette question.
Par exemple, IBM expérimente diverses options d'optimisation matérielle et logicielle pour réduire le mouvement des données pour les applications d'IA à grande échelle dans les laboratoires de Zurich. Ces optimisations ont permis de multiplier par 46 les performances du script de test de l'outil d'analyse de clics populaire. Pozidis affirme que l'apprentissage distribué et l'accélération GPU sont au cœur de ce travail, ce qui améliore la prise en charge des structures de données clairsemées.
La concurrence est un autre élément important dans l'accélération des charges de travail de l'IA. Pour la formation distribuée, il est nécessaire d'apporter des modifications aux niveaux matériel et logiciel, ce qui améliorera l'efficacité de traitement des algorithmes de processeur graphique parallèle. Les chercheurs d'IBM ont créé une plate-forme prototype avec parallélisme de données, qui vous permet de faire évoluer et d'apprendre sur de grandes quantités de données qui dépassent la quantité de mémoire sur une machine. Ceci est très important pour les applications à grande échelle. Une nouvelle plate-forme optimisée pour l'apprentissage de la communication et la localisation des données a permis de réduire le mouvement des données.
Au niveau matériel, les chercheurs d'IBM ont utilisé NVMeF pour améliorer l'interconnectivité des composants GPU, CPU et mémoire sur les serveurs, ainsi qu'entre les serveurs et le stockage.

«Les performances des différentes charges de travail de l'IA peuvent être limitées par les goulots d'étranglement du réseau, la bande passante mémoire et la bande passante entre le CPU et le GPU. Mais si vous implémentez des algorithmes et des protocoles de connexion plus efficaces dans toutes les parties du système, vous pouvez faire un grand pas vers le développement d'applications d'IA plus rapides », explique Pozidis.
Compound Computing
Aujourd'hui, la plupart des charges de travail utilisent une base de données préconfigurée optimisée pour une architecture matérielle particulière.

Chad Miley, vice-président des produits et solutions analytiques chez Teradata, explique que le marché s'oriente vers le matériel logiciel, qui permettra aux organisations de répartir intelligemment le traitement entre les GPU et les CPU en fonction de la tâche en cours.
La difficulté réside dans le fait que les entreprises utilisent différents moteurs informatiques pour accéder à différentes options de stockage. Les grandes entreprises préfèrent stocker des données précieuses qui nécessitent un accès régulier, par exemple des informations sur les clients, les finances, la chaîne d'approvisionnement, les produits et d'autres composants, en utilisant des environnements d'entrée-sortie hautes performances. À leur tour, les ensembles de données rarement utilisés, tels que les lectures de capteur, le contenu Web et le multimédia, sont stockés dans un stockage cloud à faible coût.
L'un des objectifs de l'informatique composite est d'utiliser des conteneurs pour optimiser les performances des instances telles que les moteurs SQL, les moteurs de graphes, l'apprentissage automatique et les moteurs d'apprentissage en profondeur qui accèdent aux données réparties sur différents référentiels. Le déploiement de plusieurs moteurs de calcul analytique permet d'utiliser des modèles multiprocesseurs qui utilisent des données de différents moteurs et, en règle générale, donnent de meilleurs résultats.
Les fournisseurs informatiques tels que Dell Technologies, Hewlett Packard Enterprise et Liquid s'éloignent progressivement des architectures traditionnelles qui affectent les charges de travail au niveau informatique. Au lieu de cela, ils cherchent à affecter des charges de travail AI à un système entier composé d'unités de traitement centrales, de GPU, de mémoire et de périphériques de stockage. Pour une telle transition, il est nécessaire de maîtriser de nouveaux composants réseau, ce qui augmente la vitesse et réduit le délai lors de la connexion des différents composants du système.
Par exemple, de nombreux centres de données cloud utilisent Ethernet pour connecter les composants informatiques et le stockage, où le retard est d'environ 15 microsecondes. Le réseau informatique commuté à grande vitesse d'InfiniBand, qui est utilisé dans de nombreuses infrastructures convergentes, peut réduire la latence jusqu'à 1,5 microsecondes. Liquid a créé un ensemble d'outils pour connecter différents nœuds à l'aide de PCI Express (PCIE), ce qui réduit le délai à 150 nanosecondes.
De plus, certains experts suggèrent d'augmenter la quantité de mémoire pour les GPU utilisés pour gérer de grandes charges avec des connexions rapides. Par exemple, la DDR4 est souvent utilisée avec la RAM, ce qui réduit le retard à 14 nanosecondes. Mais cela ne fonctionne que pour de petits segments de quelques pouces.
Little Marrek, fondateur et développeur du service de gestion ClusterOne AI, estime que davantage de travail est nécessaire pour garantir la compatibilité des charges de travail AI dans un environnement logiciel. Malgré le fait que certaines entreprises tentent déjà d'assurer la compatibilité avec Docker et Kubernetes, il est trop tôt pour appliquer la même approche aux GPU.

«En général, exécuter des charges de travail GPU et les surveiller n'est pas facile», explique Marrek. «Il n'y a pas de solution universelle qui permette la surveillance de tous les systèmes.»
Stockage et GPU
Une autre approche consiste à utiliser un processeur graphique pour prétraiter les données afin de réduire la quantité nécessaire pour un type particulier d'analyse, et aider à organiser les données et à leur attribuer des étiquettes. Cela vous permettra de préparer un ensemble de données approprié pour plusieurs GPU impliqués dans le traitement, afin que l'algorithme puisse fonctionner de l'intérieur de la mémoire au lieu de transférer les données des stockages sur des réseaux lents.

«Nous percevons le stockage, l'informatique et la mémoire comme des composants distincts de la solution, qui s'est développée historiquement, et essayons donc d'augmenter les volumes de traitement», a déclaré Alex St. John, directeur technique et fondateur de Nyriad Ltd., une société de logiciels de stockage apparue dans le résultat de la recherche du plus grand radiotélescope du monde - un télescope avec un réseau d'antennes de kilomètre carré (SKA).
Plus les quantités de données sont importantes, plus il est difficile de les déplacer quelque part pour le traitement.
Le télescope SKA avait besoin de grandes quantités d'énergie pour traiter 160 To de données de signaux radio en temps réel, ce qui était le principal obstacle pour les chercheurs. En conséquence, ils ont décidé d'abandonner les stockages RAID qui sont le plus souvent utilisés dans les centres de données et de déployer un système de fichiers en cluster parallèle, tel que BeeGFS, ce qui simplifie la préparation des données pour les charges de travail de l'IA.
Les directeurs informatiques qui travaillent sur la stratégie optimale pour l'architecture d'intelligence artificielle doivent accorder une attention particulière à la convivialité. Si les développeurs, les spécialistes des données et les équipes de développement et d'intégration des opérations peuvent rapidement maîtriser la nouvelle technologie, ils peuvent investir leur temps et leur énergie dans la création d'une logique métier réussie au lieu de résoudre les problèmes de déploiement et les lignes de données.
En outre, les organisations doivent soigneusement réfléchir aux efforts et au temps nécessaires pour intégrer une nouvelle architecture d'IA dans un écosystème existant.
«Avant de mettre en œuvre de nouvelles infrastructures et de planifier d'importantes charges de travail, les DSI doivent évaluer le nombre de ressources épuisables qui seront nécessaires», explique Asaf Someh, fondateur et PDG d'Iguazio.