Wir sprechen über neue Architekturen sowohl von großen globalen Herstellern als auch von Start-ups - Wafer-Scale-Chips, Tensor-Prozessoren und graphbasierte Geräte.
Themenauswahl:
Fotos - Jason Leung - UnsplashWafer für tiefes Lernen
Bei der Herstellung klassischer Prozessoren wird ein Siliziumsubstrat in einzelne Kristalle unterteilt. Bei Wafer-Scale-Prozessoren wird der Halbleiterwafer jedoch nicht geteilt, sondern zu einem großen Chip. Infolgedessen sind die Komponenten näher beieinander und die Systemleistung steigt.
Dieser Ansatz wurde von Ingenieuren von Cerebras Systems und TSMC verfolgt, die einen Chip für tiefes Lernen entwickelten -
Cerebras WSE . Es wurde auf der Hot Chips-Konferenz im Spätsommer gezeigt. Das Gerät
ist ein quadratischer Kristall mit einer Seitenlänge von 21,5 cm. Es besteht aus 1,2 Billionen Transistoren, die in 400.000 Kernen kombiniert sind. Diese Kerne „kommunizieren“ miteinander über das proprietäre Swarm-System mit einer Bandbreite von 100 Pbit / s.
Die Entwickler sagen, dass der Chip
die Berechnungen durch Herausfiltern von Nulldaten in Matrixoperationen voroptimiert - sie machen 50 bis 98% aller Werte aus. Das Erlernen eines Modells auf Cerebras ist daher hundertmal schneller als auf klassischen GPUs. NYTimes
reagierte jedoch mit einem gewissen Anteil an Skepsis auf solche Aussagen - unabhängige Experten haben die Hardware noch nicht getestet.
Cerebras-Rechenkerne sind programmierbar. Sie können für die Arbeit mit beliebigen neuronalen Netzen optimiert werden. Es wird erwartet, dass der neue Chip in Cloud-Systemen und Anwendungen für maschinelles Lernen Anwendung findet: von Drohnen bis zu Sprachassistenten. Es ist noch nicht bekannt, wann der Chip in den Handel kommen wird, aber einige Unternehmen testen ihn bereits auf Workloads.
Silicon Interconnect Fabric (Si-IF) ist ein weiteres Wafer-Scale-Gerät für MO-Anwendungen. Es wird im Labor der University of California entwickelt. Si-IF ist ein Gerät, das Dutzende von GPUs auf einem einzigen Siliziumwafer kombiniert. Die Entwickler haben bereits zwei Prototypen für 24 und 40 GPUs vorgestellt. Ihre Leistung ist 2,5-mal höher als die der klassischen Geräte. Sie planen, das System im Rechenzentrum einzusetzen.
Tensorprozessoren
Im Mai 2018 kündigte Google
TPU v3 an , die dritte Generation seiner Tensorprozessoren für die Arbeit mit der
TensorFlow-Bibliothek für maschinelles Lernen. Über die technischen Eigenschaften des neuen Geräts ist wenig bekannt. Die Serienversion wird in 12- oder 16-nm-Prozesstechnologie hergestellt. Thermische Entwurfsleistung - 200 Watt, Leistung - 105 TFLOPS bei der Arbeit mit bfloat 16. Dies ist ein 16-Bit-Gleitkomma-Darstellungssystem, das beim Deep Learning verwendet wird.
Bei einer Reihe von Aufgaben hat die Leistung des Google TPU der zweiten Generation
die Fähigkeiten des NVIDIA Tesla V100 um das Fünffache
übertroffen . Ingenieure sagen, die dritte Generation sei achtmal leistungsstärker als ihre Vorgängerin. Wir mussten sogar Flüssigkeitskühlung auf den Chips
installieren .
Foto - Cineca - CC BYDas Unternehmen plant, eine Reihe seiner Systeme auf die neuen Tensorprozessoren zu übertragen: Sprachassistent, Fotoverarbeitungsdienst und RankBrain-Algorithmus für das Ranking von Suchanfragen. Das Unternehmen möchte außerdem Cloud-basierte skalierbare Supercomputer auf Basis von TPU bauen und Wissenschaftlern, die an der Untersuchung von KI-Systemen beteiligt sind, den Zugang zu diesen Computern ermöglichen. Im späten Frühjahr wurde der Dienst im Beta-Modus
gestartet .
Chips, die mit komplexen Graphen arbeiten
Das britische Startup Graphcore hat einen Chip für Deep-Learning-Aufgaben entwickelt - die
Colossus IPU (Intelligence Processing Unit). Es enthält 1200 Kerne und eine Reihe spezialisierter
transzendentaler Funktionen . Jeder Kern verarbeitet sechs Threads. Eisen wird mit Pappel-Software gepaart. Es kompiliert Modelle und baut auf ihrer Basis komplexe mehrstufige algorithmische Diagramme auf, die auf IPU-Prozessoren ausgeführt werden. Tests der ersten Graphcore-Beispiele zeigten, dass sie hundertmal mehr Leistung haben als herkömmliche GPUs.
Startup liefert
bereits eine PCI-E-Karte in voller Größe für Server aus. Es hat in seiner Zusammensetzung zwei IPU-Chips, die nach der 16-nm-Prozesstechnologie hergestellt wurden und aus 24 Milliarden Transistoren bestehen. Die Rechenleistung eines solchen Geräts beträgt 125 TFLOPS. Karten funktionieren in Rechenzentren von IaaS-Anbietern und Autos mit Autopilot. Die Gründer des Startups
sagen, dass mehr als hundert Kunden mit ihren Geräten arbeiten, aber sie nennen keine bestimmten Unternehmen.
Der Wettbewerb auf dem Gebiet der Hardwaregeräte für maschinelles Lernen wird immer ernster. Neue Akteure treten in den Markt ein und bieten innovative Architekturen. Namhafte Unternehmen erhöhen weiterhin die Kapazität bestehender Lösungen. In jedem Fall spielt dies Rechenzentrumsbesitzern, Data Science-Ingenieuren und anderen Spezialisten, die Systeme für künstliche Intelligenz entwickeln, in die Hände.
Partnerprogramm 1cloud.ru . Benutzer unserer Cloud können Einnahmen erzielen und die Kosten für die Anmietung einer virtuellen Infrastruktur senken.

Zum Beispiel bieten wir den
Private Cloud Service an. Mit seiner Hilfe können Sie die IT-Infrastruktur für Projekte beliebiger Komplexität bereitstellen.