Google parle d'une croissance exponentielle de l'IA qui modifie la nature même de l'informatique

Le programmeur Google Cliff Young explique comment le développement explosif d'algorithmes d'apprentissage en profondeur coïncide avec l'échec de la loi de Moore, qui a travaillé pendant des décennies sur la règle de base pour la progression des puces informatiques, et rend nécessaire le développement de nouveaux schémas de calcul fondamentalement nouveaux




Le développement explosif de l'IA et des algorithmes d'apprentissage automatique modifie la nature même de l'informatique - comme on dit dans l'une des plus grandes entreprises qui pratiquent l'IA - chez Google. Le programmeur de Google, Cliff Young, a pris la parole à l'ouverture de la conférence d'automne sur les microprocesseurs organisée par le Linley Group, un symposium populaire sur les puces informatiques organisé par la vénérable société de semi-conducteurs.

Young a déclaré que l'utilisation de l'IA est entrée dans la «phase exponentielle» au moment même où la loi de Moore, la règle de base pour le progrès des puces informatiques pendant des décennies, a été complètement inhibée.

"Les temps sont assez nerveux", a-t-il dit pensivement. «Le CMOS numérique ralentit, nous voyons des problèmes avec le processus 10 nm chez Intel, nous les voyons avec le processus 7 nm de GlobalFoundries, et simultanément avec le développement du deep learning, une demande économique émerge.» Le CMOS, une structure complémentaire métal-oxyde-semi-conducteur, est le matériau le plus couramment utilisé pour fabriquer des puces informatiques.

Alors que les puces classiques peuvent à peine augmenter l'efficacité et la productivité, les demandes des chercheurs en IA augmentent, a déclaré Young. Il a donné quelques statistiques: le nombre d'articles scientifiques sur l'apprentissage automatique stockés sur le site de préimpression arXiv, maintenu par l'Université Cornell, double tous les 18 mois. Et le nombre de projets internes axés sur l'IA chez Google, dit-il, double également tous les 18 mois. La nécessité du nombre d'opérations en virgule flottante nécessaires pour traiter les réseaux de neurones utilisés dans l'apprentissage automatique augmente encore plus rapidement - elle double tous les trois mois et demi.

Toute cette croissance des requêtes de calcul est combinée dans la «super-loi de Moore», a déclaré Young, et il l'a appelé «un peu effrayant» et «un peu dangereux» et «quelque chose à craindre».

«D'où vient toute cette croissance exponentielle», a-t-il demandé dans le domaine de l'IA. «En particulier, le fait est que le deep learning fonctionne. Dans ma carrière, j'ai longtemps ignoré l'apprentissage automatique », a-t-il déclaré. "Il n'était pas évident que ces choses pouvaient décoller."

Mais des percées ont rapidement commencé à émerger, telles que la reconnaissance des formes, et il est devenu clair que l'apprentissage en profondeur «est incroyablement efficace», a-t-il déclaré. «Pendant la plupart des cinq dernières années, nous avons été la société qui place l'IA en premier lieu, et nous avons refait la plupart des entreprises basées sur l'IA», de la recherche à la publicité et bien plus encore.



L'équipe de projet Google Brain, un projet de recherche de pointe en IA, a besoin de «machines géantes», a déclaré Young. Par exemple, les réseaux de neurones sont parfois mesurés par le nombre de «poids» qui y sont utilisés, c'est-à-dire les variables appliquées au réseau de neurones et affectent la façon dont il traite les données.

Et si les réseaux neuronaux ordinaires peuvent contenir des centaines de milliers, voire des millions de poids qui doivent être calculés, les chercheurs de Google ont besoin de «machines de poids téra», c'est-à-dire d'ordinateurs capables de calculer des milliards de poids. Parce que "chaque fois que nous doublons la taille du réseau neuronal, nous améliorons sa précision." La règle du développement de l'IA est de devenir de plus en plus grande.

En réponse aux demandes de Google, ils développent leur propre ligne de puces pour le MO, la Tensor Processing Unit. Le TPU et autres sont nécessaires car les processeurs traditionnels et les puces graphiques GPU ne peuvent pas gérer la charge.

«Nous nous sommes retenus pendant très longtemps et avons déclaré qu'Intel et Nvidia sont très bons pour créer des systèmes hautes performances», a déclaré Young. «Mais nous avons franchi cette ligne il y a cinq ans.»

Le TPU après la première apparition en public en 2017 a fait sensation en affirmant qu'en termes de vitesse, il surpasse les puces ordinaires. Google travaille déjà sur le TPU de troisième génération, l'utilise dans ses projets et offre des capacités informatiques à la demande via le service Google Cloud.

L'entreprise continue de fabriquer des TPU de plus en plus grands. Dans sa configuration «héritée», 1024 TPU sont connectés conjointement à un nouveau type de supercalculateur, et Google prévoit de continuer à étendre ce système, selon Young.

«Nous construisons des multi-ordinateurs géants d'une capacité de dizaines de pétaoctets», a-t-il déclaré. «Nous progressons sans relâche dans plusieurs directions en même temps, et les opérations à l'échelle du téraoctet continuent de croître.» De tels projets posent tous les problèmes liés au développement des superordinateurs.

Par exemple, les ingénieurs de Google ont adopté les astuces utilisées dans le légendaire supercalculateur Cray. Ils ont combiné le gigantesque «module de multiplication matricielle», la partie de la puce qui porte la principale charge de calcul pour les réseaux de neurones, avec le «module polyvalent vectoriel» et le «module polyvalent scalaire», comme cela a été fait dans Cray. «La combinaison de modules scalaires et vectoriels a permis à Cray de dépasser tout le monde en termes de performances», a-t-il déclaré.

Google a développé ses propres conceptions arithmétiques innovantes pour la programmation de puces. Une certaine façon de représenter les nombres réels appelée bfloat16 offre une efficacité accrue lors du traitement des nombres dans les réseaux de neurones. Dans le langage courant, il est appelé le «flotteur cérébral».

TPU utilise les puces de mémoire les plus rapides, la mémoire à bande passante élevée ou HBM [mémoire à bande passante élevée]. Il a déclaré que la demande de grandes quantités de mémoire dans la formation des réseaux de neurones augmente rapidement.

«La mémoire est utilisée de manière plus intensive pendant l'entraînement. Les gens parlent de centaines de millions de poids, mais il y a des problèmes dans le traitement de l'activation des "variables d'un réseau neuronal".

Google ajuste également la façon dont les réseaux de neurones sont programmés pour aider à tirer le meilleur parti du fer. «Nous travaillons sur les données du modèle et le parallélisme» dans des projets tels que «Mesh TensorFlow» - une adaptation de la plate-forme logicielle TensorFlow «combinant données et parallélisme à l'échelle du pod».

Young n'a pas divulgué certains détails techniques. Il a noté que la société n'a pas parlé des connexions internes, de la façon dont les données se déplacent le long de la puce - il a simplement noté que "nos connecteurs sont gigantesques". Il a refusé de développer ce sujet, ce qui a fait rire le public.

Young a souligné des domaines encore plus intéressants de l'informatique qui pourraient bientôt nous arriver. Par exemple, il a suggéré que les calculs utilisant des puces analogiques, des circuits qui traitent des données d'entrée sous la forme de valeurs continues au lieu de zéros et de uns, peuvent jouer un rôle important. "Peut-être que nous nous tournerons vers le domaine analogique, en physique, il y a beaucoup de choses intéressantes liées aux ordinateurs analogiques et à la mémoire NVM."

Il a également exprimé son espoir pour le succès des start-ups de puces présentées lors de la conférence: «Il y a des startups très cool ici, et nous avons besoin qu'elles fonctionnent, car les possibilités du CMOS numérique ne sont pas illimitées; Je veux que tous ces investissements se concrétisent. »

Source: https://habr.com/ru/post/fr429794/


All Articles