Chips para ML - fale sobre novos produtos

Estamos falando de novas arquiteturas dos principais fabricantes e startups do mundo - chips de escala de wafers, processadores de tensores e dispositivos baseados em gráficos.

Seleção de tópico:



Fotos - Jason Leung - Unsplash

Waferscale para aprendizagem profunda


Na produção de processadores clássicos, um substrato de silício é dividido em cristais individuais. Mas no caso de processadores em escala de bolachas, a bolacha semicondutora não é dividida - ela se torna um chip grande. Como resultado, os componentes estão mais próximos e o desempenho do sistema aumenta.

Essa abordagem foi adotada por engenheiros da Cerebras Systems e TSMC, desenvolvendo um chip para aprendizado profundo - Cerebras WSE . Foi mostrado na conferência Hot Chips no final do verão. O dispositivo é um cristal quadrado com lados de 21,5 cm, composto por 1,2 trilhão de transistores, combinados em 400 mil núcleos. Esses núcleos “se comunicam” entre si usando o sistema Swarm proprietário, com uma largura de banda de 100 Pbit / s.

Os desenvolvedores dizem que o chip pré- otimiza os cálculos filtrando zero dados nas operações da matriz - eles representam de 50 a 98% de todos os valores. Como resultado, aprender um modelo no Cerebras é cem vezes mais rápido do que nas GPUs clássicas. No entanto, o NYTimes reagiu a essas declarações com uma cota saudável de ceticismo - especialistas independentes ainda não testaram o hardware.

Os núcleos computacionais da Cerebras são programáveis. Eles podem ser otimizados para trabalhar com qualquer rede neural. Espera-se que o novo chip encontre aplicações em sistemas em nuvem e aplicativos de aprendizado de máquina: de drones a assistentes de voz. Ainda não se sabe quando o chip estará à venda, mas várias empresas já o estão testando em cargas de trabalho.

O Silicon Interconnect Fabric (Si-IF) é outro dispositivo de escala de bolachas para aplicações MO. Está sendo desenvolvido no laboratório da Universidade da Califórnia. O Si-IF é um dispositivo que combina dezenas de GPUs em uma única pastilha de silício. Os desenvolvedores já introduziram dois protótipos para 24 e 40 GPUs. Seu desempenho é 2,5 vezes maior que os recursos dos dispositivos clássicos. Eles planejam usar o sistema no data center.

Processadores tensores


Em maio de 2018, o Google anunciou o TPU v3 , a terceira geração de seus processadores tensores para trabalhar com a biblioteca de aprendizado de máquina TensorFlow . Pouco se sabe sobre as características técnicas do novo dispositivo. A versão de produção será fabricada usando tecnologia de processo de 12 ou 16 nm. Potência térmica de projeto - 200 watts, desempenho - 105 TFLOPS ao trabalhar com o bfloat 16. Este é um sistema de representação de ponto flutuante de 16 bits usado em aprendizado profundo.

Em várias tarefas, o desempenho da segunda geração do Google TPU excedeu em cinco as capacidades do NVIDIA Tesla V100. Os engenheiros dizem que a terceira geração é oito vezes mais poderosa que seu antecessor. Tivemos até que instalar refrigeração líquida nos chips.


Foto - Cineca - CC BY

A corporação planeja transferir vários de seus sistemas para os novos processadores tensores: assistente de voz, serviço de processamento de fotos e algoritmo de classificação de consultas de pesquisa RankBrain. A empresa também quer construir supercomputadores escaláveis ​​baseados em nuvem com base em TPU e abrir acesso a eles para cientistas envolvidos no estudo de sistemas de IA. No final da primavera, o serviço foi lançado no modo beta.

Chips trabalhando com gráficos complexos


A startup britânica Graphcore desenvolveu um chip para tarefas de aprendizado profundo - o Colossus IPU (Intelligence Processing Unit). Ele contém 1200 núcleos e um conjunto de funções transcendentais especializadas. Cada núcleo processa seis threads. O ferro está emparelhado com o software Poplar. Ele compila modelos e constrói com base em gráficos algorítmicos complexos de vários estágios, executados em processadores IPU. Testes das primeiras amostras do Graphcore mostraram que eles têm cem vezes mais desempenho do que as GPUs tradicionais.

A inicialização já envia uma placa PCI-E de tamanho normal para servidores. Possui em sua composição dois chips IPU, fabricados de acordo com a tecnologia de processo de 16 nm e constituídos por 24 bilhões de transistores. O poder de computação desse dispositivo é de 125 TFLOPS. Os cartões foram projetados para funcionar em data centers de provedores de IaaS e carros com piloto automático. Os fundadores da startup dizem que mais de cem clientes trabalham com seus dispositivos, mas eles não citam empresas específicas.

A concorrência no campo de dispositivos de hardware para aprendizado de máquina está se tornando cada vez mais grave. Novos players entram no mercado, oferecendo arquiteturas inovadoras, e empresas eminentes continuam a aumentar a capacidade das soluções existentes. De qualquer forma, isso está nas mãos de proprietários de data centers, engenheiros de ciência de dados e outros especialistas que desenvolvem sistemas de inteligência artificial.


Programa de afiliados 1cloud.ru . Os usuários de nossa nuvem podem obter receita e reduzir o custo do aluguel da infraestrutura virtual.

Por exemplo, oferecemos o serviço de nuvem privada . Com sua ajuda, você pode implantar a infraestrutura de TI para projetos de qualquer complexidade.

Source: https://habr.com/ru/post/pt472230/


All Articles