Estamos hablando de nuevas arquitecturas tanto de los principales fabricantes globales como de nuevas empresas: chips de escamas de wafers, procesadores de tensor y dispositivos basados en gráficos.
Selección de tema:
Fotos - Jason Leung - UnsplashWaferscale para el aprendizaje profundo
En la producción de procesadores clásicos, un sustrato de silicio se
divide en cristales individuales. Pero en el caso de los procesadores de escala de obleas, la oblea de semiconductores no se divide, se convierte en un chip grande. Como resultado, los componentes están más cerca uno del otro y el rendimiento del sistema aumenta.
Este enfoque fue adoptado por ingenieros de Cerebras Systems y TSMC, desarrollando un chip para aprendizaje profundo:
Cerebras WSE . Se
mostró en la conferencia Hot Chips a fines del verano. El dispositivo
es un cristal cuadrado con lados de 21,5 cm. Consta de 1,2 billones de transistores, combinados en 400 mil núcleos. Estos núcleos se "comunican" entre sí utilizando el sistema patentado Swarm con un ancho de banda de 100 Pbit / s.
Los desarrolladores dicen que el chip
optimiza previamente
los cálculos al filtrar los datos cero en las operaciones matriciales; representan del 50 al 98% de todos los valores. Como resultado, aprender un modelo en Cerebras es cien veces más rápido que en las GPU clásicas. Sin embargo, NYTimes
reaccionó a tales declaraciones con una buena dosis de escepticismo: los expertos independientes aún no han probado el hardware.
Los núcleos computacionales de Cerebras son programables. Se pueden optimizar para trabajar con cualquier red neuronal. Se espera que el nuevo chip encuentre aplicación en sistemas en la nube y aplicaciones de aprendizaje automático: desde drones hasta asistentes de voz. Todavía no se sabe cuándo saldrá a la venta el chip, pero varias compañías ya lo están probando en las cargas de trabajo.
Silicon Interconnect Fabric (Si-IF) es otro dispositivo de escala de obleas para aplicaciones MO. Se está
desarrollando en el laboratorio de la Universidad de California. Si-IF es un dispositivo que combina docenas de GPU en una sola oblea de silicio. Los desarrolladores ya han introducido dos prototipos para 24 y 40 GPU. Su rendimiento es 2.5 veces mayor que las capacidades de los dispositivos clásicos. Planean usar el sistema en el centro de datos.
Procesadores tensoriales
En mayo de 2018, Google anunció
TPU v3 , la tercera generación de sus procesadores tensoriales para trabajar con la
biblioteca de aprendizaje automático
TensorFlow . Poco se
sabe sobre las características técnicas del nuevo dispositivo. La versión de producción se
fabricará con tecnología de proceso de 12 o 16 nm. Potencia de diseño térmico: 200 vatios, rendimiento: 105 TFLOPS cuando se trabaja con bfloat 16. Este es un sistema de representación de punto flotante de 16 bits que se utiliza en el aprendizaje profundo.
En una serie de tareas, el rendimiento de la segunda generación de TPU de Google
excedió las capacidades del quíntuple NVIDIA Tesla V100. Los ingenieros dicen que la tercera generación es ocho veces más poderosa que su predecesora. Incluso
tuvimos que instalar refrigeración líquida en los chips.
Foto - Cineca - CC BYLa corporación planea transferir varios de sus sistemas a los nuevos procesadores tensoriales: asistente de voz, servicio de procesamiento de fotos y algoritmo de clasificación de consultas de búsqueda de RankBrain. La compañía también quiere construir supercomputadoras escalables basadas en la nube sobre la base de TPU y acceso abierto a ellas para los científicos involucrados en el estudio de los sistemas de IA. A finales de la primavera, el servicio se
lanzó en modo beta.
Fichas que trabajan con gráficos complejos
La startup británica Graphcore ha desarrollado un chip para tareas de aprendizaje profundo: la
Colossus IPU (Unidad de procesamiento de inteligencia). Contiene 1200 núcleos y un conjunto de
funciones trascendentales especializadas. Cada núcleo procesa seis hilos. El hierro se combina con el software Poplar. Compila modelos y construye sobre su base gráficas algorítmicas complejas de múltiples etapas que se ejecutan en procesadores de IPU. Las pruebas de las primeras muestras de Graphcore mostraron que tienen un rendimiento cien veces mayor que las GPU tradicionales.
El inicio
ya incluye una tarjeta PCI-E de tamaño completo para servidores. Tiene en su composición dos chips de IPU, fabricados de acuerdo con la tecnología de proceso de 16 nm y que consta de 24 mil millones de transistores. La potencia informática de dicho dispositivo es de 125 TFLOPS. Las tarjetas están diseñadas para funcionar en centros de datos de proveedores de IaaS y automóviles con piloto automático. Los fundadores de la startup
dicen que más de un centenar de clientes trabajan con sus dispositivos, pero no nombran empresas específicas.
La competencia en el campo de los dispositivos de hardware para el aprendizaje automático se está volviendo cada vez más grave. Nuevos jugadores ingresan al mercado, ofreciendo arquitecturas innovadoras, y compañías eminentes continúan aumentando la capacidad de las soluciones existentes. En cualquier caso, esto juega en manos de los propietarios de centros de datos, ingenieros de ciencia de datos y otros especialistas que desarrollan sistemas de inteligencia artificial.
Programa de afiliados 1cloud.ru . Los usuarios de nuestra nube pueden obtener ingresos y reducir el costo de alquilar infraestructura virtual.

Por ejemplo, ofrecemos el servicio
Private Cloud . Con su ayuda, puede implementar infraestructura de TI para proyectos de cualquier complejidad.