Chips for ML - parler de nouveaux produits

Nous parlons de nouvelles architectures à la fois de grands fabricants mondiaux et de startups - des puces à échelle de tranche, des processeurs tenseurs et des dispositifs basés sur des graphiques.

Sélection des sujets:



Photos - Jason Leung - Unsplash

Waferscale pour l'apprentissage en profondeur


Dans la production de processeurs classiques, un substrat de silicium est divisé en cristaux individuels. Mais dans le cas des processeurs à échelle de tranche, la tranche de semi-conducteur n'est pas divisée - elle devient une grande puce. En conséquence, les composants sont plus proches les uns des autres et les performances du système augmentent.

Cette approche a été adoptée par les ingénieurs de Cerebras Systems et TSMC, développant une puce pour l'apprentissage en profondeur - Cerebras WSE . Il a été montré lors de la conférence Hot Chips à la fin de l'été. L'appareil est un cristal carré de 21,5 cm de côté composé de 1,2 trillion de transistors, réunis en 400 000 noyaux. Ces cœurs «communiquent» entre eux à l'aide du système propriétaire Swarm avec une bande passante de 100 Pbit / s.

Les développeurs disent que la puce pré- optimise les calculs en filtrant les données nulles dans les opérations matricielles - elles représentent de 50 à 98% de toutes les valeurs. En conséquence, l'apprentissage d'un modèle sur Cerebras est cent fois plus rapide que sur les GPU classiques. Cependant, NYTimes a réagi à de telles déclarations avec une bonne part de scepticisme - des experts indépendants n'ont pas encore testé le matériel.

Les cœurs de calcul Cerebras sont programmables. Ils peuvent être optimisés pour fonctionner avec tous les réseaux de neurones. Il est prévu que la nouvelle puce trouvera une application dans les systèmes cloud et les applications d'apprentissage automatique: des drones aux assistants vocaux. On ne sait pas encore quand la puce sera mise en vente, mais un certain nombre d'entreprises la testent déjà sur les charges de travail.

Silicon Interconnect Fabric (Si-IF) est un autre appareil à l'échelle de la tranche pour les applications MO. Il est en cours de développement dans le laboratoire de l'Université de Californie. Si-IF est un appareil qui combine des dizaines de GPU sur une seule tranche de silicium. Les développeurs ont déjà introduit deux prototypes pour 24 et 40 GPU. Leurs performances sont 2,5 fois supérieures aux capacités des appareils classiques. Ils prévoient d'utiliser le système dans le centre de données.

Processeurs tenseur


En mai 2018, Google a annoncé TPU v3 , la troisième génération de ses processeurs tenseurs pour fonctionner avec la bibliothèque d' apprentissage automatique TensorFlow . On sait peu de choses sur les caractéristiques techniques du nouvel appareil. La version de production sera fabriquée en utilisant une technologie de processus 12 ou 16 nm. Puissance de conception thermique - 200 watts, performances - 105 TFLOPS lorsque vous travaillez avec bfloat 16. Il s'agit d'un système de représentation à virgule flottante 16 bits qui est utilisé dans l'apprentissage en profondeur.

Sur un certain nombre de tâches, les performances de la deuxième génération de Google TPU ont quintuplé les capacités du NVIDIA Tesla V100. Les ingénieurs disent que la troisième génération est huit fois plus puissante que son prédécesseur. Nous avons même dû installer un refroidissement liquide sur les puces.


Photo - Cineca - CC BY

La société prévoit de transférer un certain nombre de ses systèmes vers les nouveaux processeurs tenseurs: assistant vocal, service de traitement de photos et algorithme de classement des requêtes de recherche RankBrain. La société souhaite également construire des supercalculateurs évolutifs basés sur le cloud sur la base du TPU et en offrir un accès ouvert aux scientifiques impliqués dans l'étude des systèmes d'IA. À la fin du printemps, le service a été lancé en mode bêta.

Puces travaillant avec des graphiques complexes


La startup britannique Graphcore a développé une puce pour les tâches d'apprentissage en profondeur - le Colossus IPU (Intelligence Processing Unit). Il contient 1200 cœurs et un ensemble de fonctions transcendantales spécialisées. Chaque cœur traite six threads. Le fer est associé au logiciel Poplar. Il compile des modèles et construit sur leur base des graphiques algorithmiques complexes à plusieurs étapes qui s'exécutent sur des processeurs IPU. Les tests des premiers échantillons Graphcore ont montré qu'ils ont cent fois plus de performances que les GPU traditionnels.

La startup fournit déjà une carte PCI-E pleine taille pour les serveurs. Il a dans sa composition deux puces IPU, fabriquées selon la technologie du procédé 16 nm et composées de 24 milliards de transistors. La puissance de calcul d'un tel appareil est de 125 TFLOPS. Les cartes sont conçues pour fonctionner dans les centres de données des fournisseurs IaaS et les voitures avec pilote automatique. Les fondateurs de la startup disent que plus d'une centaine de clients travaillent avec leurs appareils, mais ils ne nomment pas d'entreprises spécifiques.

La concurrence dans le domaine des dispositifs matériels pour l'apprentissage automatique devient de plus en plus sérieuse. De nouveaux acteurs entrent sur le marché, offrant des architectures innovantes, et d'éminentes sociétés continuent d'augmenter la capacité des solutions existantes. Dans tous les cas, cela entre les mains des propriétaires de centres de données, d'ingénieurs en science des données et d'autres spécialistes développant des systèmes d'intelligence artificielle.


Programme d'affiliation 1cloud.ru . Les utilisateurs de notre cloud peuvent gagner des revenus et réduire le coût de location d'une infrastructure virtuelle.

Par exemple, nous proposons le service Cloud privé . Avec son aide, vous pouvez déployer une infrastructure informatique pour des projets de toute complexité.

Source: https://habr.com/ru/post/fr472230/


All Articles