Chips for ML - habla sobre nuevos productos

Estamos hablando de nuevas arquitecturas tanto de los principales fabricantes globales como de nuevas empresas: chips de escamas de wafers, procesadores de tensor y dispositivos basados ​​en gráficos.

Selección de tema:



Fotos - Jason Leung - Unsplash

Waferscale para el aprendizaje profundo


En la producción de procesadores clásicos, un sustrato de silicio se divide en cristales individuales. Pero en el caso de los procesadores de escala de obleas, la oblea de semiconductores no se divide, se convierte en un chip grande. Como resultado, los componentes están más cerca uno del otro y el rendimiento del sistema aumenta.

Este enfoque fue adoptado por ingenieros de Cerebras Systems y TSMC, desarrollando un chip para aprendizaje profundo: Cerebras WSE . Se mostró en la conferencia Hot Chips a fines del verano. El dispositivo es un cristal cuadrado con lados de 21,5 cm. Consta de 1,2 billones de transistores, combinados en 400 mil núcleos. Estos núcleos se "comunican" entre sí utilizando el sistema patentado Swarm con un ancho de banda de 100 Pbit / s.

Los desarrolladores dicen que el chip optimiza previamente los cálculos al filtrar los datos cero en las operaciones matriciales; representan del 50 al 98% de todos los valores. Como resultado, aprender un modelo en Cerebras es cien veces más rápido que en las GPU clásicas. Sin embargo, NYTimes reaccionó a tales declaraciones con una buena dosis de escepticismo: los expertos independientes aún no han probado el hardware.

Los núcleos computacionales de Cerebras son programables. Se pueden optimizar para trabajar con cualquier red neuronal. Se espera que el nuevo chip encuentre aplicación en sistemas en la nube y aplicaciones de aprendizaje automático: desde drones hasta asistentes de voz. Todavía no se sabe cuándo saldrá a la venta el chip, pero varias compañías ya lo están probando en las cargas de trabajo.

Silicon Interconnect Fabric (Si-IF) es otro dispositivo de escala de obleas para aplicaciones MO. Se está desarrollando en el laboratorio de la Universidad de California. Si-IF es un dispositivo que combina docenas de GPU en una sola oblea de silicio. Los desarrolladores ya han introducido dos prototipos para 24 y 40 GPU. Su rendimiento es 2.5 veces mayor que las capacidades de los dispositivos clásicos. Planean usar el sistema en el centro de datos.

Procesadores tensoriales


En mayo de 2018, Google anunció TPU v3 , la tercera generación de sus procesadores tensoriales para trabajar con la biblioteca de aprendizaje automático TensorFlow . Poco se sabe sobre las características técnicas del nuevo dispositivo. La versión de producción se fabricará con tecnología de proceso de 12 o 16 nm. Potencia de diseño térmico: 200 vatios, rendimiento: 105 TFLOPS cuando se trabaja con bfloat 16. Este es un sistema de representación de punto flotante de 16 bits que se utiliza en el aprendizaje profundo.

En una serie de tareas, el rendimiento de la segunda generación de TPU de Google excedió las capacidades del quíntuple NVIDIA Tesla V100. Los ingenieros dicen que la tercera generación es ocho veces más poderosa que su predecesora. Incluso tuvimos que instalar refrigeración líquida en los chips.


Foto - Cineca - CC BY

La corporación planea transferir varios de sus sistemas a los nuevos procesadores tensoriales: asistente de voz, servicio de procesamiento de fotos y algoritmo de clasificación de consultas de búsqueda de RankBrain. La compañía también quiere construir supercomputadoras escalables basadas en la nube sobre la base de TPU y acceso abierto a ellas para los científicos involucrados en el estudio de los sistemas de IA. A finales de la primavera, el servicio se lanzó en modo beta.

Fichas que trabajan con gráficos complejos


La startup británica Graphcore ha desarrollado un chip para tareas de aprendizaje profundo: la Colossus IPU (Unidad de procesamiento de inteligencia). Contiene 1200 núcleos y un conjunto de funciones trascendentales especializadas. Cada núcleo procesa seis hilos. El hierro se combina con el software Poplar. Compila modelos y construye sobre su base gráficas algorítmicas complejas de múltiples etapas que se ejecutan en procesadores de IPU. Las pruebas de las primeras muestras de Graphcore mostraron que tienen un rendimiento cien veces mayor que las GPU tradicionales.

El inicio ya incluye una tarjeta PCI-E de tamaño completo para servidores. Tiene en su composición dos chips de IPU, fabricados de acuerdo con la tecnología de proceso de 16 nm y que consta de 24 mil millones de transistores. La potencia informática de dicho dispositivo es de 125 TFLOPS. Las tarjetas están diseñadas para funcionar en centros de datos de proveedores de IaaS y automóviles con piloto automático. Los fundadores de la startup dicen que más de un centenar de clientes trabajan con sus dispositivos, pero no nombran empresas específicas.

La competencia en el campo de los dispositivos de hardware para el aprendizaje automático se está volviendo cada vez más grave. Nuevos jugadores ingresan al mercado, ofreciendo arquitecturas innovadoras, y compañías eminentes continúan aumentando la capacidad de las soluciones existentes. En cualquier caso, esto juega en manos de los propietarios de centros de datos, ingenieros de ciencia de datos y otros especialistas que desarrollan sistemas de inteligencia artificial.


Programa de afiliados 1cloud.ru . Los usuarios de nuestra nube pueden obtener ingresos y reducir el costo de alquilar infraestructura virtual.

Por ejemplo, ofrecemos el servicio Private Cloud . Con su ayuda, puede implementar infraestructura de TI para proyectos de cualquier complejidad.

Source: https://habr.com/ru/post/472230/


All Articles