IBM ensina a IA a agir como um cérebro humano

imagem

Desde a época da Ornithopera de Da Vinci, as maiores mentes da humanidade se inspiraram no mundo natural. No mundo moderno, nada mudou, e as mais recentes conquistas em aprendizado de máquina e inteligência artificial foram criadas com base no órgão de computação mais avançado: o cérebro humano.

Imitar nossa massa cinzenta não é apenas uma boa idéia para criar IA mais avançada. Isso é absolutamente necessário em seu desenvolvimento futuro. Redes neurais baseadas em aprendizado profundo, como as da AlphaGo , bem como a geração moderna de sistemas de reconhecimento e tradução de padrões , são os melhores sistemas de aprendizado de máquina que desenvolvemos até o momento. Eles são capazes de coisas incríveis, mas ainda enfrentam desafios tecnológicos significativos. Por exemplo, o fato de que eles precisam de acesso direto a grandes conjuntos de dados para aprender uma habilidade específica. Além disso, se você deseja treinar uma rede neural para executar uma nova tarefa, precisa essencialmente apagar sua memória e começar do zero - um processo conhecido como "esquecimento catastrófico".

Compare isso com o cérebro de uma pessoa que está aprendendo gradualmente e não aparece imediatamente formada a partir de uma pilha de dados. Essa é uma diferença fundamental: as IAs baseadas em aprendizado profundo são geradas de cima para baixo, sabendo tudo o que você precisa desde o início, enquanto a mente humana é construída do zero quando lições anteriores aplicáveis ​​a novas experiências são usadas para criar novos conhecimentos.

Além disso, a mente humana é especialmente boa em executar o raciocínio relacional com base na lógica, construindo conexões entre experiências passadas para entender novas situações em tempo real. A IA estatística (ou seja, aprendizado de máquina) é capaz de imitar as habilidades cerebrais no reconhecimento de padrões, mas não funciona ao aplicar a lógica. A IA simbólica, por outro lado, pode usar a lógica (supondo que ele tenha sido treinado nas regras desse sistema de raciocínio), mas geralmente é incapaz de aplicar essa habilidade em tempo real.

Mas e se pudermos combinar a melhor flexibilidade computacional do cérebro humano com os poderosos recursos de processamento de IA? Foi exatamente isso que a equipe do DeepMind tentou fazer. Eles criaram uma rede neural capaz de aplicar o raciocínio relacional às suas tarefas. Funciona da mesma maneira que uma rede de neurônios cerebrais. Enquanto os neurônios usam conexões diferentes entre si para reconhecer padrões: "Nós explicitamente fazemos a rede detectar as relações que existem entre pares de objetos nesse cenário", disse Timothy Lillycrap, cientista da DeepMind, à Science Magazine .

Quando, em junho, ela recebeu uma tarefa sobre questões complexas sobre as posições relativas de objetos geométricos em uma imagem, por exemplo: "Existe um objeto na frente de um objeto azul, ele tem a mesma forma que uma pequena coisa azul à direita de uma bola de metal cinza?" - Ela identificou corretamente o objeto em 96% dos casos. Os sistemas convencionais de aprendizado de máquina deram a solução certa em 42 - 77% dos casos. Até as pessoas passaram no teste em apenas 92% dos casos. É isso mesmo, essa IA híbrida faz um trabalho melhor do que as pessoas que a construíram.

Os resultados foram os mesmos quando a IA apresentou problemas com a palavra. Embora os sistemas convencionais tenham conseguido igualar o DeepMind em questões simples, como “Sarah está certa. Sarah entra em seu escritório. Onde está a bola? " o sistema híbrido de IA estava fora de competição em questões mais complexas, como: “Lily é um cisne. Lily é branca. Greg é um cisne. Qual é a cor de Greg? " O DeepMind respondeu corretamente em 98% dos casos, em comparação com cerca de 45% dos concorrentes.

imagem

O DeepMind até trabalha em um sistema que "lembra" informações importantes e aplica esse conhecimento acumulado a solicitações futuras. Mas a IBM está dando mais dois passos à frente. Em dois trabalhos de pesquisa apresentados na Conferência Colaborativa Internacional de Inteligência Artificial de 2017, realizada em Melbourne, na Austrália, na semana passada, a IBM apresentou dois estudos: um explorando como fornecer "atenção" à IA e o outro explorando a questão da aplicação do processo biológico da neurogênese , isto é, o nascimento e a morte dos neurônios, para sistemas de aprendizado de máquina.

“O treinamento em rede neural geralmente é projetado e é necessário muito trabalho para criar uma arquitetura específica que funcione melhor. É quase um método de tentativa e erro ”, disse Iradget Irina Rish, pesquisadora da IBM. "Seria bom se essas redes pudessem se construir".

O IBM Attention Algorithm informa a rede neural sobre quais entradas fornecem a maior recompensa. Quanto maior a recompensa, mais atenção a rede dará a eles. É especialmente útil em situações em que o conjunto de dados não é estático - isto é, na vida real. "A atenção é um mecanismo baseado em recompensa, não é apenas algo que não está relacionado à tomada de decisões e às nossas ações", disse Rish.

"Sabemos que, quando vemos uma imagem, o olho humano geralmente tem um campo de visão muito pequeno", disse Rish. “Portanto, dependendo da resolução, você vê apenas alguns pixels da imagem [nítidos], mas todo o resto parece desfocado. O fato é que você move rapidamente os olhos, e o mecanismo para montar várias partes em uma imagem na seqüência correta permitirá que você reconheça rapidamente a imagem. ”

imagem

É provável que o primeiro uso da função de atenção seja no reconhecimento de padrões, embora possa ser usado em vários campos. Por exemplo, se você treinar AI usando o conjunto de dados Oxford , que é principalmente imagens arquitetônicas, ele poderá identificar facilmente as paisagens da cidade corretamente. Mas se você lhe mostrar um monte de fotos do campo (campos e flores, etc.), a IA ficará confusa porque ele não sabe o que são flores. E quando você realiza os mesmos testes com pessoas e animais, estimula a neurogênese, pois seus cérebros tentam adaptar o que eles já sabem sobre as cidades às novas paisagens do país.

O mecanismo informa ao sistema o que ele deve focar. Por exemplo, leve o seu médico, ele pode realizar centenas de testes possíveis para você determinar o que está incomodando, mas isso é impossível: a tempo ou a preços razoáveis. Então, que perguntas ela deve fazer e quais testes devem ser feitos para obter o melhor diagnóstico em menos tempo? "É isso que o algoritmo está aprendendo a descobrir", explicou Rich. Ele não apenas determina qual solução leva ao melhor resultado, mas também descobre onde procurar dados. Assim, o sistema não apenas toma decisões mais corretas, mas também as torna mais rápidas, pois não solicita partes do conjunto de dados que não são aplicáveis ​​ao problema atual. Assim como seu médico não toca seus joelhos com um martelo estranho quando você apresenta queixas de dor no peito e falta de ar.

Embora o sistema de atenção seja conveniente para garantir que a rede execute a tarefa, o trabalho da IBM sobre plasticidade neural (quão bem as "memórias" são lembradas) serve para fornecer memória de rede a longo prazo. Na verdade, isso é modelado com base nos mesmos mecanismos de nascimento e morte de neurônios que são observados no hipocampo humano.

Nesse sistema, "você não precisa modelar milhões de parâmetros", explicou Rish. "Você pode começar com um modelo muito menor e, dependendo dos dados que vê, eles se adaptarão".

Quando novos dados são apresentados a ela, o sistema neurogenético da IBM começa a formar novas conexões aprimoradas (neurônios), enquanto algumas das mais antigas e menos úteis serão "cortadas", como Rish colocou. Isso não significa que o sistema exclua literalmente os dados antigos, apenas se torne menos apegado a eles - assim como as suas memórias antigas, em regra, ficam confusas ao longo dos anos, mas aquelas que carregam um estresse emocional significativo permanecem vivas. por muitos anos.

imagem

"A neurogênese é uma maneira de adaptar redes profundas", disse Rish. “Uma rede neural é um modelo, e você pode construir esse modelo a partir do zero, ou pode mudar esse modelo quando necessário, porque você tem várias camadas de neurônios ocultos e pode decidir quantos (neurônios) deseja ter ... dependendo dos dados ".

Isso é importante porque você não deseja a expansão infinita de uma rede neural. Se isso acontecesse, o conjunto de dados se tornaria tão grande que não seria capaz de pagar nem o equivalente digital da hiperimesia. "Isso também ajuda na normalização, para que a IA não 'mude de idéia' sobre os dados", disse Rish.

Juntas, essas conquistas podem ser muito úteis para a comunidade de pesquisa em IA. A equipe de Rish quer trabalhar no que chamam de "atenção interna". Você não apenas escolherá quais dados deseja ver na rede, mas também quais partes da rede deseja usar nos cálculos com base em um conjunto de dados e entradas. Basicamente, o modelo de atenção cobrirá um processo de pensamento ativo e de curto prazo, enquanto parte da memória permitirá que a rede otimize sua função, dependendo da situação atual.

Mas não espere que, no futuro próximo, a IA seja capaz de competir com a mente humana, alerta Richard. “Eu diria pelo menos algumas décadas, mas, novamente, isso é apenas uma suposição. O que estamos fazendo agora, do ponto de vista do reconhecimento de padrões de alta precisão, ainda está muito, muito longe do modelo básico de emoções humanas ”, disse ela. "Nós apenas começamos."



imagem
imagem

Source: https://habr.com/ru/post/pt406893/


All Articles