Clif Young, programador do Google, explica como o desenvolvimento explosivo dos algoritmos de aprendizado profundo coincide com o fracasso da Lei de Moore, que trabalha há décadas na regra de ouro para o progresso dos chips de computador e força o desenvolvimento de esquemas computacionais fundamentalmente novos.

O desenvolvimento explosivo da IA e dos algoritmos de aprendizado de máquina está mudando a própria natureza da computação - como dizem em uma das maiores empresas que praticam IA - no Google. O programador do Google Cliff Young falou na abertura da conferência de microprocessadores de outono organizada pelo Linley Group, um popular simpósio de chips de computador hospedado pela venerável empresa de semicondutores.
Young disse que o uso da IA entrou na "fase exponencial" no exato momento em que a Lei de Moore, regra geral para o progresso de chips de computador por décadas, foi completamente inibida.
"Os tempos estão muito nervosos", disse ele, pensativo. "O CMOS digital está diminuindo a velocidade, estamos vendo problemas com o processo de 10 nm na Intel, estamos vendo com 7nm na GlobalFoundries e, simultaneamente com o desenvolvimento de aprendizado profundo, uma demanda econômica está surgindo". O CMOS, uma estrutura complementar de óxido de metal-semicondutor, é o material mais comum usado para fabricar chips de computador.
Enquanto os chips clássicos mal conseguem aumentar a eficiência e a produtividade, os pedidos dos pesquisadores de IA estão crescendo, disse Young. Ele forneceu algumas estatísticas: o número de artigos científicos sobre aprendizado de máquina armazenados no site de pré-impressão arXiv, mantido pela Universidade de Cornell, dobra a cada 18 meses. E o número de projetos internos com foco em IA no Google, ele disse, também dobra a cada 18 meses. A necessidade do número de operações de ponto flutuante necessárias para processar as redes neurais usadas no aprendizado de máquina está crescendo ainda mais rapidamente - ela dobra a cada três meses e meio.
Todo esse crescimento em consultas computacionais está sendo combinado com a "super lei de Moore", disse Young, e ele chamou de "um pouco assustador" e "um pouco perigoso" e "algo com que se preocupar".
"De onde veio todo esse crescimento exponencial", no campo da IA, ele perguntou. “Em particular, o ponto principal é que o aprendizado profundo simplesmente funciona. Na minha carreira, há muito tempo ignoro o aprendizado de máquina ”, disse ele. "Não era óbvio que essas coisas poderiam decolar".
Mas então começaram a surgir inovações, como o reconhecimento de padrões, e ficou claro que o aprendizado profundo "é incrivelmente eficaz", disse ele. “Nos últimos cinco anos, fomos a empresa que colocou a IA em primeiro lugar e refizemos a maioria dos negócios com base na IA”, da pesquisa à publicidade e muito mais.

A equipe do projeto Google Brain, um dos principais projetos de pesquisa em IA, precisa de "máquinas gigantes", disse Young. Por exemplo, as redes neurais às vezes são medidas pelo número de "pesos" que são usados nelas, ou seja, as variáveis aplicadas à rede neural e afetam a maneira como processam os dados.
E se as redes neurais comuns podem conter centenas de milhares ou mesmo milhões de pesos que precisam ser calculados, os pesquisadores do Google exigem "máquinas com peso de tera", ou seja, computadores que podem calcular trilhões de pesos. Porque "toda vez que dobramos o tamanho da rede neural, melhoramos sua precisão". A regra do desenvolvimento da IA é aumentar cada vez mais.
Em resposta a pedidos do Google, eles estão desenvolvendo sua própria linha de chips para o MO, a Unidade de Processamento de Tensores. TPU e similares são necessários porque as CPUs tradicionais e os chips gráficos da GPU não conseguem lidar com a carga.
"Nós nos contivemos por um longo tempo e dissemos que a Intel e a Nvidia são muito boas na criação de sistemas de alto desempenho", disse Young. "Mas cruzamos essa linha há cinco anos."
O TPU após a primeira aparição em público em 2017 causou alvoroço ao afirmar que, em termos de velocidade, supera os chips comuns. O Google já está trabalhando na TPU de terceira geração, usando-a em seus projetos e oferecendo recursos de computador sob demanda através do serviço Google Cloud.
A empresa continua a fabricar TPUs cada vez maiores. Em sua configuração "legada", 1024 TPUs são conectadas em conjunto a um novo tipo de supercomputador, e o Google planeja continuar a expandir esse sistema, de acordo com Young.
"Estamos construindo multicomputadores gigantes com capacidade para dezenas de petabytes", disse ele. "Estamos avançando incansavelmente em várias direções ao mesmo tempo, e as operações em escala de terabytes continuam a crescer". Tais projetos levantam todos os problemas associados ao desenvolvimento de supercomputadores.
Por exemplo, os engenheiros do Google adotaram os truques usados no lendário supercomputador Cray. Eles combinaram o gigantesco "módulo de multiplicação de matrizes", a parte do chip que carrega a carga principal da computação para redes neurais, com o "módulo de uso geral vetorial" e o "módulo de uso geral escalar", como foi feito em Cray. "A combinação de módulos escalares e vetoriais permitiu que o Cray superasse todos em termos de desempenho", disse ele.
O Google desenvolveu seus próprios projetos aritméticos inovadores para chips de programação. Uma certa maneira de representar números reais chamados bfloat16 fornece maior eficiência ao processar números em redes neurais. No discurso coloquial, é chamado de "flutuação cerebral".
O TPU usa os chips de memória mais rápidos, a memória de alta largura de banda ou HBM [memória de alta largura de banda]. Ele disse que a demanda por grandes quantidades de memória no treinamento de redes neurais está crescendo rapidamente.
“A memória é usada mais intensamente durante o treinamento. As pessoas falam sobre centenas de milhões de pesos, mas há problemas no processamento da ativação de "variáveis de uma rede neural".
O Google também ajusta a maneira como as redes neurais são programadas para ajudar a tirar o máximo proveito do ferro. “Estamos trabalhando em dados de modelo e paralelismo” em projetos como “Mesh TensorFlow” - uma adaptação da plataforma de software TensorFlow “combinando dados e paralelismo na escala do pod”.
Young não divulgou alguns detalhes técnicos. Ele observou que a empresa não falou sobre conexões internas, sobre como os dados se movem ao longo do chip - ele simplesmente observou que "nossos conectores são gigantescos". Ele se recusou a expandir esse tópico, o que causou risos na platéia.
Young apontou áreas de computação ainda mais interessantes que em breve poderão chegar até nós. Por exemplo, ele sugeriu que cálculos usando chips analógicos, circuitos que processam dados de entrada na forma de valores contínuos, em vez de zeros e uns, podem desempenhar um papel importante. "Talvez nos voltemos para o campo analógico, na física há muitas coisas interessantes relacionadas aos computadores analógicos e à memória NVM".
Ele também expressou esperança no sucesso das startups de chips apresentadas na conferência: “Existem algumas startups muito legais aqui, e precisamos que elas funcionem, porque as possibilidades do CMOS digital não são ilimitadas; Quero que todos esses investimentos sejam acionados.