Uma ideia tirada da física ajuda a IA a trabalhar em dimensões mais altas.

As leis da física não mudam do ponto de vista. No entanto, essa ideia ajuda os computadores a reconhecer certos recursos no espaço curvo de dimensões mais altas.




Os computadores aprendem a dirigir carros, vencer campeões mundiais em jogos de tabuleiro e até escrever prosa. Na maioria das vezes, a revolução da IA ​​é baseada nas capacidades de um tipo de rede neural artificial, cujo esquema é inspirado por camadas interconectadas de neurônios no córtex visual do cérebro dos mamíferos. As chamadas "redes neurais convolucionais" (SNA) mostraram-se surpreendentemente adequadas para encontrar padrões em dados bidimensionais - especialmente em tarefas de visão computacional, como reconhecer palavras manuscritas ou objetos em imagens digitais.

Mas quando aplicada a conjuntos de dados que não são redutíveis à geometria no avião - por exemplo, a modelos de formas irregulares usados ​​em animação por computador em 3D, a apontar nuvens geradas por robomobiles para marcar o mundo ao seu redor - essa arquitetura eficiente de aprendizado de máquina (MO) não é mais funciona tão bem. Em 2016, surgiu uma nova disciplina, a aprendizagem profunda geométrica (GGO), cujo objetivo era levar o SNA além do plano.

Agora, os pesquisadores alcançaram seu objetivo desenvolvendo uma nova plataforma teórica para a construção de NSs capazes de encontrar padrões em qualquer superfície geométrica. Essas redes neurais convolucionais equivalentes a gauge foram desenvolvidas na Universidade de Amsterdã e no laboratório de pesquisa da Qualcomm AI com a participação de pesquisadores como Taco Cohen , Maurice Weiler , Berkai Kitsanoglu e Max Welling . O ESNS pode encontrar padrões não apenas em matrizes bidimensionais de pixels, mas também em esferas e objetos curvos assimetricamente. "Esta plataforma é uma resposta definitiva ao desafio colocado pelo problema do aprendizado profundo em superfícies curvas", disse Welling.

O KESNS já ultrapassou seriamente seus antecessores na detecção de padrões nas simulações do clima global, que são naturalmente conduzidas na esfera. Os algoritmos também podem ser úteis para melhorar a visão de drones e robomobiles que percebem objetos tridimensionais e para detectar padrões em dados coletados de superfícies curvas de formas irregulares do coração, cérebro ou outros órgãos.


Taco Cohen, um dos principais arquitetos do CECNS

A solução para o problema do GO encontrada por pesquisadores fora do avião tem uma conexão profunda com a física. As teorias físicas que descrevem o mundo, como a teoria geral da relatividade de Albert Einstein ou o modelo padrão em física, têm a propriedade de "equivalência de medida". Isso significa que a magnitude do mundo e seu relacionamento não depende de sistemas de referência arbitrários (ou "calibração"); eles permanecem inalterados, independentemente de o observador estar se movendo ou descansando, ou a distância entre os números na régua. As medidas tomadas por diferentes meios devem ser convertidas umas nas outras, a fim de manter a interconexão entre as coisas.

Por exemplo, se medirmos o comprimento de um campo de futebol em jardas e depois em metros, obteremos números diferentes, mas sua diferença será previsível. Dois fotógrafos que tiram fotos de um objeto de dois pontos diferentes receberão imagens diferentes, mas podem ser conectados um ao outro. A equivalência do medidor garante a consistência dos modelos físicos, independentemente do ponto de vista ou das unidades de medida. O KESNS aceita as mesmas suposições sobre dados.

"Eles queriam trazer a idéia da física para a rede neural - quando não há áreas específicas", disse Kyle Kranmer , físico da Universidade de Nova York que aplica MO à física de partículas. "E eles descobriram como fazê-lo."

Fuga de avião


Em 2015, Michael Bronstein , especialista em ciência da computação no Imperial College London, cunhou o termo "aprendizado profundo geométrico" para descrever as primeiras tentativas feitas para deixar o avião e desenvolver o NS capaz de procurar padrões em dados tridimensionais. Logo esse termo - e pesquisa - se enraizou .

Bronstein e seus associados sabiam que ir além do plano euclidiano exigiria a reinvenção de um dos procedimentos computacionais básicos que tornam os NSs tão eficazes no reconhecimento de imagens bidimensionais. Este procedimento, o chamado "Convolução" permite que a camada NS execute uma operação matemática em pequenas seções dos dados de entrada e depois transfira o resultado para a próxima camada de rede.

"Você pode imaginar o pacote como uma janela deslizante", explicou Bronstein. O SNA move muitas dessas janelas de filtro de acordo com os dados, e cada uma delas está procurando um determinado padrão. No caso de uma foto de gato, um SNA treinado pode usar filtros que reconhecem sinais de baixo nível em pixels, como rostos. Esses sinais são transmitidos até as próximas camadas da rede e conduzem convoluções adicionais, escolhendo sinais de um nível mais alto - como olhos, cauda ou orelhas triangulares. Como resultado, o SNS treinado para reconhecer gatos usa os resultados dessas convulsões camada por camada para marcar se existe ou não um gato na foto.


Como o SNS vê:

  1. Os filtros que reconhecem sinais movem-se ao longo da imagem recebida e o grau de coincidência com cada filtro em cada posição é registrado, o que fornece um mapa de sinais.
  2. Após o processamento, as placas de recursos são novamente convoluídas, já usando filtros configurados para recursos de nível superior.
  3. Como resultado, a rede aprende a reconhecer e classificar corretamente as imagens.

No entanto, essa abordagem só funciona no avião. "Quando o avião no qual você precisa analisar está distorcido, você tem problemas", disse Welling.

Envolver-se em uma superfície curva - na geometria isso é chamado de coletor topológico - é como empurrar um pedaço quadrado de papel milimetrado para o globo, tentando transferir com precisão os contornos da costa da Groenlândia para ele. Você não pode espremer papel para a Groenlândia sem esmagá-lo, o que significa que seu desenho ficará distorcido quando você o alisar novamente. Você pode inclinar o papel contra o globo em um ponto e desenhar os contornos, olhando-os através do papel (essa técnica é conhecida como projeção Mercator ), mas também serão obtidas distorções neste caso. Você pode anexar papel milimetrado a um mapa-múndi plano, não a um globo, mas depois copiar as distorções - por exemplo, pense no fato de que toda a borda superior do mapa realmente significa o único ponto do globo, o Polo Norte. E se a variedade não for uma esfera pura como um globo, mas algo mais complexo e errado, como uma forma tridimensional de garrafa ou uma proteína depositada, será ainda mais difícil convencê-la.

Bronstein e colegas encontraram uma solução para o problema de convolução em variedades não euclidianas em 2015. Eles substituíram a estrutura deslizante da janela por uma estrutura que lembra mais uma folha redonda do que um pedaço de papel milimetrado - ela pode ser inclinada contra o globo (ou qualquer superfície curva) sem enrugar, sem rasgar ou esticar.

A alteração das propriedades do filtro deslizante afetou favoravelmente o entendimento do SNA de certas relações geométricas. Por exemplo, a rede poderia entender automaticamente que uma figura tridimensional, curvada de maneiras diferentes - por exemplo, uma pessoa em pé e uma pessoa que levantou uma perna - é um e o mesmo objeto, e não dois completamente diferentes. Além disso, essa mudança melhorou drasticamente o desempenho da Assembléia Nacional. O SNS padrão "usou milhões de exemplos de números, eles precisavam ser treinados por semanas", disse Bronstein. "Usamos cerca de 100 figuras em várias poses e treinamos a rede por cerca de meia hora."

Ao mesmo tempo, Taco Cohen e seus colegas de Amsterdã começaram a abordar esse problema do lado oposto. Em 2015, Cohen, que era então estudante de pós-graduação, não estudou a questão da fuga do avião. Ele estava interessado em um problema de engenharia prático, como considerava: eficiência dos dados, isto é, a questão de como treinar o NS usando menos exemplos, em vez dos milhares ou milhões que normalmente são necessários para isso. "O aprendizado profundo é muito lento", disse Cohen. Isso não cria problemas especiais se você treinar o SNS para reconhecer gatos (dado o suprimento inesgotável de fotos de gatos na Internet). Mas se você está ensinando o SNA a reconhecer algo mais importante, como tumores cancerígenos em uma imagem de tecido pulmonar, é bastante difícil encontrar uma quantidade suficiente de dados de treinamento - medicamente precisos, rotulados corretamente e livres de direitos autorais. E quanto menos exemplos forem necessários para treinar a rede, melhor.

Cohen sabia que uma maneira de aumentar a eficácia dos dados era dar ao NS alguma idéia desses dados com antecedência, por exemplo, que um câncer de pulmão não deixa de ser um tumor se sua imagem for girada ou espelhada. A rede de convolução geralmente precisa aprender essas informações do zero, estudando muitos exemplos do mesmo padrão, apresentados de diferentes formas. Em 2016, Cohen e Welling trabalharam juntos em um artigo descrevendo como codificar algumas dessas suposições no NS na forma de simetrias geométricas. Essa abordagem funcionou tão bem que em 2018, Cohen e Maricia Winkles a resumiram ainda mais, mostrando resultados promissores no reconhecimento de câncer de pulmão em imagens de tomografia computadorizada. O NS deles foi capaz de encontrar evidências visuais da presença da doença usando apenas um décimo dos dados dos quais outras redes neurais foram treinadas.

Pesquisadores de Amsterdã continuaram suas generalizações e acabaram avaliando a equivalência.

Expansão da equivalência


Física e aprendizado de máquina têm algo em comum. De acordo com Cohen, "ambas as áreas estão ocupadas observando e construindo modelos que prevêem os resultados de observações subsequentes". O que é importante, ele disse, é que ambas as áreas constroem modelos de coisas não separadas (dificilmente é útil ter uma descrição para um átomo de hidrogênio e a segunda para o mesmo átomo, apenas invertido), mas de categorias gerais. "E a física, é claro, fez grandes avanços nisso."

Equivariância


Equivariância (ou "covariância", como preferem os físicos) é a suposição em que os físicos se basearam na generalização de seus modelos desde Einstein. "Isso significa apenas que, se você descrever corretamente algum tipo de física, essa descrição deve ser independente do tipo de 'governante' que você usa ou, em geral, que tipo de observador você é", explicou Miranda Chen , físico teórico. da Universidade de Amsterdã, que escreveu com Cohen e outros cientistas um artigo sobre o estudo da relação entre a física e o KESNS. Como o próprio Einstein escreveu em 1916: "As leis gerais da natureza devem ser expressas por equações que funcionam em todos os sistemas de coordenadas".


Miranda Chen, física teórica da Universidade de Amsterdã

As redes neurais convolucionais tornaram-se um dos métodos mais bem-sucedidos na defesa civil devido ao uso de um exemplo simples de um princípio como esse, “equivalência de transferência”. Uma janela de filtro que reconhece um recurso específico da imagem - por exemplo, faces verticais - desliza (ou “envolve”) ao longo de um plano de pixels e registra todos os locais onde essas faces verticais estão localizadas; em seguida, ele cria um "mapa de recursos", marcando esses lugares e o passa para o próximo nível da rede. A criação de mapas de características é obtida devido à equivalência da transferência: a rede neural pressupõe que a mesma característica possa aparecer em qualquer lugar do plano bidimensional e que reconheça a face vertical, estando no canto superior direito ou inferior esquerdo.

“A essência dos NSs equivalentes é pegar essas simetrias óbvias e incorporá-las à arquitetura de rede para que essa propriedade funcione como se fosse de graça”, disse Weiler.

Em 2018, Weiler, Cohen e seu supervisor, Max Welling, expandiram essa "ação livre" para incluir outros tipos de equivalência. Seus "SNAs equivalentes a grupos" podem reconhecer recursos rotacionados ou refletidos em imagens planas sem a necessidade de aprender com variações específicas desses recursos; os SNAs esféricos podem criar mapas de recursos com base em dados localizados na superfície de uma esfera sem distorcê-los quando transformados em projeções planas.

Essa abordagem ainda não era universal o suficiente para trabalhar com dados de uma estrutura irregular de formato irregular - isto é, em quase qualquer objeto no mundo real, de batatas a proteínas, do corpo humano à curvatura do espaço-tempo. Tais variedades não têm simetria "global", com relação à qual a Assembléia Nacional poderia fazer suposições equivocadas: qualquer uma de suas seções é diferente de todas as outras.


Dobragem em superfícies curvas nas quais os SNAs padrão não funcionam. Um filtro com detecção de borda que desliza ao longo de uma superfície, dependendo do caminho, pode ter uma orientação diferente e produzir mapas de recursos diferentes.

O problema é que deslizar um filtro plano sobre uma superfície pode mudar sua orientação, dependendo do caminho específico. Imagine um filtro configurado para reconhecer um padrão simples: um ponto escuro à esquerda e um ponto brilhante à direita. Mova-o em uma superfície plana nas quatro direções e ele sempre será orientado da mesma maneira. Mas a situação está mudando mesmo na superfície da esfera. Se você segurar o filtro 180 graus ao longo do equador da esfera, sua orientação permanecerá - um ponto escuro à esquerda, um ponto claro à direita. No entanto, se você o desenhar no mesmo ponto através do polo norte da esfera, o filtro será virado de cabeça para baixo. Ele não encontrará o mesmo padrão nos dados, não produzirá o mesmo mapa de sinais. Mova o filtro sobre uma variedade mais complexa e, no final, ele poderá apontar em qualquer direção.

O ponto, explicou Welling, é esquecer o rastreamento de alterações na orientação do filtro ao se mover por caminhos diferentes. Em vez disso, você pode selecionar apenas uma orientação (ou calibração) do filtro e determinar uma maneira consistente de converter qualquer outra orientação nele.

O problema é que, embora qualquer calibração possa ser usada na orientação original, a conversão para outras opções deve preservar o padrão original - assim como converter a velocidade da luz de metros por segundo em milhas por hora deve preservar a quantidade física subjacente. Com uma abordagem equivariante dos indicadores, Welling diz: "os próprios números mudam, mas mudam completamente previsivelmente".

Soen, Weiler e Welling codificaram a equivalência de bitola - o mesmo "almoço grátis" - para o seu SNA em 2019. Para fazer isso, eles impuseram restrições matemáticas sobre o que o NS pode "ver" nos dados ao usar a convolução; somente padrões equivariantes de bitola passaram pelas camadas da rede. "De fato, você pode fornecer qualquer superfície" - desde aviões euclidianos a objetos curvados arbitrariamente, incluindo variedades exóticas, como uma garrafa de Klein ou espaço-tempo quadridimensional - "e ele lidará com o GO nesta superfície", disse Veling.

Teoria de trabalho


A teoria KESNS é tão generalizada que inclui automaticamente suposições de abordagens geométricas anteriores ao GO - por exemplo, equivalência rotacional ou filtros em movimento nas esferas. Ele se encaixa até no método anterior de Michael Bronstein, que permitiu ao NS reconhecer uma figura tridimensional, curvada de maneiras diferentes. “A equivalência de bitola é uma plataforma muito ampla. Como um caso especial, inclui o que fizemos em 2015 ”, disse Bronstein.

KESNS teoricamente trabalha em qualquer superfície curva de qualquer dimensão, mas Cohen e seus co-autores verificaram isso em dados climáticos globais, cuja estrutura é esférica. Eles usaram sua plataforma para criar o SNA que reconhece padrões climáticos extremos, como ciclones tropicais, com base em dados de simulação climática. Em 2017, o governo e os cientistas usaram o SNA padrão para determinar a presença de ciclones nesses dados com uma precisão de 74%; No ano passado, o KESNS reconheceu ciclones com uma precisão de 97,9% (também adotou uma abordagem menos generalizada ao GO, desenvolvida especificamente para esferas em 2018 - o resultado para esse sistema foi de 94%).

Maiyur Mudigonda, climatologista do Laboratório Nacional Lawrence Berkeley, que usa a defesa civil em seu trabalho, disse que continuará monitorando o desenvolvimento do CESNS. "Esse aspecto da inteligência humana, o reconhecimento correto de sinais, independentemente de sua orientação no espaço, é o que queremos transferir para a comunidade climática", disse ele. A empresa de chips da Qualcomm, que recentemente contratou Cohen e Welling e comprou a startup que fundou, planeja aplicar a teoria KESNS ao desenvolvimento de algoritmos aprimorados de visão computacional, por exemplo, um drone que pode ver todos os 360 graus de uma só vez (uma visão de mundo semelhante a um peixe) olho ”é naturalmente mapeado para o escopo, como dados climáticos globais).

Enquanto isso, o KESNS está ganhando popularidade entre os físicos - por exemplo, Kranmer planeja fazê-los trabalhar com dados simulando a interação de partículas subatômicas."Estamos analisando dados relacionados a fortes interações nucleares, tentando entender o que está acontecendo dentro do próton", disse Kranmer. Ele disse que os dados são quadridimensionais ", portanto, temos uma opção ideal para o uso de NSs com equivalência de bitola".

Rizi Condor, um ex-físico que agora estuda o KESNS, disse que as aplicações científicas potenciais dessas redes são muito mais importantes do que o uso na IA. "Se você reconhece gatos no YouTube e se reconhece mal virado de cabeça para baixo, isso não é muito bom, mas talvez não seja mortal", disse ele. No entanto, é extremamente importante para os físicos que a rede não reconheça o campo ou a trajetória da partícula incorretamente devido à forma como foram orientadas. "Isso não é uma questão de conveniência", disse Condor, "é muito importante respeitar as simetrias existentes".

No entanto, embora a inspiração para a criação do KESNS tenha sido a matemática, proveniente da física, e possa ser útil para os físicos, Cohen observou que esses NSs não serão capazes de descobrir a nova física por conta própria. "Agora somos capazes de criar redes capazes de processar dados muito exóticos, mas a estrutura desses dados precisa ser conhecida com antecedência", disse ele. Em outras palavras, os físicos podem usar o KESNS porque Einstein já provou que o espaço-tempo pode ser representado como uma variedade curva quadridimensional. A Assembléia Nacional de Cohen não conseguiu "encontrar" essa estrutura sozinha. "Não estamos procurando informações sobre simetrias", disse ele, embora espere que isso seja possível no futuro.

Cohen não pode se alegrar com as conexões entre os vários campos, que ele havia imaginado apenas anteriormente, e agora demonstrou com rigor matemático. "Sempre tive a sensação de que o aprendizado de máquina e a física estão fazendo algo muito semelhante", disse ele. "Esse é um desses milagres que me surpreende: começamos com um problema de engenharia e, à medida que aprimoramos os sistemas, descobrimos mais e mais conexões".

Source: https://habr.com/ru/post/pt485654/


All Articles