Por que as IAs de autoaprendizagem têm problemas no mundo real?



Os mais recentes sistemas de inteligência artificial de autoaprendizagem podem aprender um jogo do zero e se tornar campeões de classe mundial. Até recentemente, máquinas que podiam vencer campeões começaram seus estudos estudando a experiência humana. Para derrotar Garry Kasparov em 1997, os engenheiros da IBM enviaram para o Deep Blue as informações acumuladas ao longo de séculos da paixão da humanidade pelo xadrez. Em 2016, a inteligência artificial AlphaGo criada no Google DeepMind superou o campeão Lee Sedola no antigo jogo de tabuleiro Go, tendo estudado milhões de posições de dezenas de milhares de jogos disputados por pessoas. Mas agora, os desenvolvedores de IA estão repensando a abordagem para incorporar o conhecimento humano nos cérebros eletrônicos. Tendência atual: não se preocupe com isso.

Em outubro de 2017, a equipe DeepMind publicou informações sobre um novo sistema para jogar Go - AlphaGo Zero. Ela não estudou festas de pessoas. Em vez disso, ela aprendeu as regras e começou a brincar consigo mesma. Os primeiros movimentos foram completamente aleatórios. Após cada jogo, o sistema analisou o que levou à vitória ou derrota. Depois de um tempo, o AlphaGo Zero começou a brincar com o vencedor bombeado Lee Sedola - AlphaGo. E ela a derrotou com uma pontuação de 100: 0.


Lee Sedol, 18 vezes campeão mundial no jogo de Go, durante uma partida com o AlphaGo em 2016.

Em seguida, os pesquisadores criaram um sistema que se tornou o jogador mais forte da família AlphaGo - o AlphaZero. Em um artigo publicado em dezembro, os desenvolvedores do DeepMind relataram que o AlphaZero, que também começou a aprender do zero, superou o AlphaGo Zero - ou seja, derrotou o bot que derrotou o bot que derrotou o melhor jogador de Go do mundo. E quando ela foi alimentada pelas regras do xadrez, bem como pela versão japonesa deste jogo - shogi , o AlphaZero aprendeu rapidamente a derrotar os algoritmos mais poderosos desses jogos. Os especialistas ficaram surpresos com o estilo agressivo e incomum do jogo. Como observou o grande mestre dinamarquês Peter Heine Nielsen: “Eu sempre fiquei interessado em saber o que aconteceria se os sobrenaturais voassem para a Terra e nos mostrassem como eles podem jogar xadrez. Agora eu sei.

No ano passado, vimos o advento de bots de auto-aprendizagem sobrenaturais em áreas tão diversas quanto o poker ilimitado e o Dota 2.

É claro que as empresas que investem nesses e em sistemas similares têm planos muito mais ambiciosos do que em dominar os campeonatos de jogos. Os pesquisadores esperam usar métodos semelhantes para resolver problemas reais, como a criação de supercondutores que operam à temperatura ambiente ou o uso de princípios de origami para estabelecer proteínas nas moléculas de medicamentos potentes. E, é claro, muitos profissionais esperam criar uma IA de uso geral - o objetivo é vago, mas emocionante, implicando que a máquina será capaz de pensar como uma pessoa e resolver uma variedade de problemas.

Mas, apesar dos grandes investimentos de forças e meios em tais sistemas, não está claro até que ponto eles podem fugir da esfera dos jogos.

Objetivos ideais para um mundo imperfeito


Muitos jogos, incluindo xadrez e Go, são unidos pelo fato de que os jogadores sempre veem todo o layout no campo de jogo. Cada jogador em um determinado momento tem "informações completas" sobre o estado do jogo. Mas quanto mais difícil o jogo, mais você precisa pensar a partir do momento atual. Na realidade, esse geralmente não é o caso. Imagine que você pediu ao computador para fazer um diagnóstico ou conduzir negociações comerciais. Noam Brown , estudante de graduação do Departamento de Ciência da Computação da Universidade Carnegie Mellon: “A maioria dos relacionamentos estratégicos reais usa informações ocultas. Tenho a sensação de que muitos participantes da comunidade de IA ignoram essa circunstância. ”

Brown é especialista no desenvolvimento de algoritmos de jogos de pôquer, e há outras dificuldades nesse jogo: você não vê as cartas de seus rivais. Mas aqui, as máquinas que aprendem a tocar independentemente já atingem alturas altíssimas. Em janeiro de 2017, um programa chamado Libratus, criado por Brown e Tuomas Sandholm , venceu um dos quatro jogadores profissionais no Texas Hold'em ilimitado. No final do torneio de 20 dias, o bot ganhou US $ 1,7 milhão a mais do que seus rivais.

A estratégia multiplayer de StarCraft II é um jogo ainda mais impressionante, implicando uma posse incompleta de informações sobre a situação atual. Aqui, a IA ainda não chegou à Olympus. Isso é impedido pelo grande número de jogadas no jogo, muitas vezes medidas em milhares, e pela alta velocidade de sua execução. Cada jogador - uma pessoa ou uma máquina - a cada clique precisa pensar na variedade ilimitada de desenvolvimentos futuros.

Até agora, a IA não pode competir com os melhores jogadores em termos iguais. Mas os desenvolvedores estão se esforçando para isso. Em agosto de 2017, o DeepMind contou com o apoio da Blizzard Entertainment (que criou o StarCraft II) na criação de ferramentas que devem ajudar os pesquisadores de IA.

Apesar da dificuldade da jogabilidade, a essência do StarCraft II se resume a uma tarefa simples: destruir os inimigos. O mesmo pode ser dito sobre xadrez, Go, poker, Dota 2 e quase qualquer outro jogo. E em jogos você pode ganhar.

Do ponto de vista do algoritmo, a tarefa deve ter uma "função de destino", que deve ser encontrada. Não foi muito difícil quando AlphaZero estava jogando xadrez. Perder é contado como -1, empate - 0, vitória - +1. A função objetivo do AlphaZero era ganhar o máximo de pontos. A função objetivo do bot de pôquer também é simples: ganhar muito dinheiro.


O algoritmo aprende um comportamento complexo - caminhando em uma superfície desconhecida.

Na vida, nem tudo é tão claro. Por exemplo, um veículo não tripulado precisa de uma função objetiva mais específica. Algo como uma declaração cautelosa de seu desejo, o que explica o gênio. Por exemplo: entregue rapidamente os passageiros ao destino correto, observando todas as regras e avaliando adequadamente as vidas humanas em situações perigosas e incertas. Pedro Domingos , especialista em ciência da computação na Universidade de Washington: “Entre outras coisas, a diferença entre um pesquisador maravilhoso e comum de aprendizado de máquina está na maneira como a função objetivo é formulada.”

Pense no Tayb chatbot lançado pela Microsoft em 23 de março de 2016. Seu objetivo era envolver as pessoas, e ele conseguiu. Mas de repente ficou claro que a melhor maneira de maximizar o envolvimento é despejar todos os tipos de insultos. O bot foi desligado menos de um dia depois.

Seu pior inimigo pessoal


Algo permanece inalterado. Os métodos usados ​​pelos modernos robôs dominantes de jogos dependem de estratégias inventadas décadas atrás. Apenas as mesmas saudações do passado, apenas apoiadas pelo poder da computação moderna.

Essas estratégias geralmente são baseadas em aprendizado reforçado, uma metodologia sem intervenção humana. Em vez de um controle meticuloso do algoritmo usando instruções detalhadas, os engenheiros permitem que a máquina explore o ambiente e atinja objetivos por tentativa e erro. Antes do lançamento do AlphaGo e seus descendentes, em 2013, a equipe DeepMind alcançou um resultado sério e importante, usando o treinamento de reforço, ensinando o bot a jogar sete jogos pelo Atari 2600 e em três deles - no nível de especialista.

Sem parar por aí, em 5 de fevereiro, a equipe do DeepMind lançou o IMPALA , um sistema de IA que pode jogar 57 jogos para o Atari 2600, além de outros 30 níveis tridimensionais criados no DeepMind. Nesses níveis, o jogador percorre vários lugares e salas, resolve problemas como abrir portas e apanhar cogumelos. Além disso, a IMPALA transferiu a experiência acumulada entre tarefas, ou seja, cada sessão executada melhorou os resultados da próxima sessão.

Porém, dentro da categoria mais ampla de aprendizado reforçado, os jogos de tabuleiro e multiplayer permitem uma abordagem ainda mais especializada. A pesquisa pode assumir a forma de um jogo em si, quando o algoritmo ganha experiência, lutando com sua própria cópia.

Essa ideia também tem muitos anos. Na década de 1950, o engenheiro da IBM, Arthur Samuel, criou um programa de verificação que estudava parcialmente em jogos jogados entre alfa e beta. E na década de 1990, Gerald Tesauro, também da IBM, criou um jogo de gamão que estabeleceu seu próprio algoritmo. O bot atingiu o nível de um especialista humano, desenvolvendo estratégias não padronizadas, mas eficazes.

Ao jogar sozinho, o algoritmo em cada jogo encontra um concorrente igual. Portanto, mudanças na estratégia levam a resultados diferentes, dada a resposta imediata do algoritmo de cópia. Ilya Sutskever , diretora de pesquisa da OpenAI: “Toda vez que você aprende algo novo, descobre as menores informações sobre o jogo e o ambiente, seu oponente instantaneamente as usa contra você.” Em agosto de 2017, a OpenAI lançou um bot para Dota 2 , que controlava o personagem Shadow Fiend - algo como um demônio necromante - e derrotou os melhores jogadores do mundo em lutas. Outro projeto da empresa: dois algoritmos controlam lutadores de sumô, aprendendo um com o outro as técnicas de luta livre. E durante esse treinamento é impossível estagnar, você deve melhorar constantemente.


O bot criado no OpenAI para o Dota 2 aprendeu independentemente várias estratégias complexas.

Mas a velha idéia de jogar consigo mesmo é apenas um dos ingredientes da superioridade moderna dos bots, que ainda precisam "repensar" sua experiência de jogo. No xadrez, no Go e nos videogames como o Dota 2, existem inúmeras combinações possíveis. Mesmo tendo passado muitas vidas em batalhas com sua sombra em arenas virtuais, a máquina não será capaz de calcular todos os cenários possíveis para elaborar uma tabela de ações e consultá-la quando se encontrar novamente em uma situação semelhante.

Para se manter à tona em um mar de oportunidades, você precisa generalizar, entender a essência. O IBM Deep Blue obteve sucesso graças às fórmulas de xadrez integradas. Armado com a capacidade de avaliar combinações no quadro que nunca havia encontrado antes, o computador ajustou movimentos e estratégias para aumentar a probabilidade de sua vitória. Mas novas técnicas que surgiram nos últimos anos tornaram possível abandonar as fórmulas.

As redes neurais profundas estão ganhando cada vez mais popularidade. Eles consistem em camadas de "neurônios" artificiais, como panquecas em uma pilha. Quando os neurônios de uma camada são acionados, eles enviam sinais para a próxima camada, eles enviam para a próxima e assim por diante. Ao ajustar as conexões entre as camadas, essas redes neurais alcançam resultados fantásticos, transformando os dados de entrada em algum tipo de resultado interconectado, mesmo que a conexão pareça abstrata. Suponha que uma rede neural possa receber uma frase em inglês e que a traduza para turco. Ou você pode tirar fotos dela de um abrigo de animais, e a rede neural encontrará as fotos que retratam gatos. Ou você pode mostrar as regras do jogo de tabuleiro a uma rede neural profunda, e ele calculará a probabilidade de sua vitória. Mas primeiro, como você entende, a rede neural deve aprender com uma amostra de dados rotulados.

As redes neurais brincando consigo mesmas e as redes neurais profundas se complementam bem. As redes de jogos em si geram um fluxo de informações sobre jogos, proporcionando às redes profundas uma fonte de dados teoricamente interminável para treinamento. Por sua vez, redes profundas oferecem uma maneira de absorver a experiência e os padrões adquiridos ao brincar consigo mesmos.

Mas há um truque. Para sistemas que jogam consigo mesmos para gerar dados úteis, eles precisam de um local realista para jogar.

Todos os jogos são disputados, todas as alturas são alcançadas em ambientes onde você pode emular o mundo com vários graus de confiança. E em outras áreas não é tão fácil obter resultados impressionantes.

Por exemplo, veículos não tripulados são difíceis de andar com mau tempo e os ciclistas na estrada interferem bastante. Além disso, os drones podem avaliar incorretamente uma situação não-padrão, mas real, como um pássaro voando diretamente para a câmera do carro. Ou faça um uso menos exótico da IA ​​- um manipulador de braço robótico. Primeiro, ela precisa aprender o básico das ações físicas, para que a mão pelo menos entenda como aprendê-la. Mas, ao mesmo tempo, ela não conhece as peculiaridades de tocar em várias superfícies e objetos; portanto, a máquina precisa praticar para resolver problemas como desaparafusar a tampa da garrafa ou executar um procedimento cirúrgico.

Yoshua Bengio , especialista em aprendizado profundo da Universidade de Montreal: “Em uma situação difícil de simular, o modelo de aprendizado“ brinque com você ”não é muito útil. "Há uma enorme diferença entre um modelo verdadeiramente ideal do ambiente e um modelo de aprendizado", atormentado ", especialmente se o ambiente for complexo".

Vida após os jogos


É difícil dizer exatamente quando a superioridade da IA ​​nos jogos começou. Você pode optar por perder Kasparov ou derrotar Lee Sedola. Muitas vezes a contagem regressiva é de 2011, com a perda de Ken Jennings, campeão do jogo de televisão Jeopardy! , em uma rivalidade de dois dias com o IBM Watson. A máquina foi capaz de entender as palavras e trocadilhos. Os desenvolvedores dotaram o Watson da capacidade de processar o texto que é inerente a nós. O computador pode usar uma dica de frase no idioma inglês para uma palavra, com grande velocidade visualizar documentos relevantes, destacar informações e escolher a melhor resposta.

Mas, ao longo dos anos, as tarefas da vida "comum" ainda não são passíveis de IA. Em setembro de 2017, foi publicado um relatório segundo o qual havia grandes dificuldades na pesquisa e desenvolvimento de métodos pessoais de tratamento do câncer como parte do projeto Watson for Oncology. O computador é muito mais fácil de entender o significado das perguntas no Jeopardy! do que entender a essência do artigo médico.

No entanto, existem várias tarefas reais que são tão especializadas quanto os jogos. Há rumores de que a equipe DeepMind está trabalhando na adaptação do AlphaZero para uso em pesquisa biomédica de dobragem de proteínas. Para isso, os desenvolvedores terão que entender como os aminoácidos que formam proteínas podem ser dobrados em pequenas estruturas tridimensionais, cujas funções dependem da forma. É tão difícil quanto um jogo de xadrez: os químicos conhecem alguns princípios que permitem o cálculo de alguns cenários, mas a abundância de possíveis configurações tridimensionais é tão grande que simplesmente não é realista estudá-las. Mas e se você transformar proteínas em um jogo? Isso é o que eles já fizeram. Desde 2008, centenas de milhares de jogadores experimentaram o jogo online Foldit , no qual foram dados pontos pela estabilidade e viabilidade das estruturas proteicas criadas. Uma máquina pode se treinar da mesma maneira, por exemplo, através de treinamento de reforço, tentando superar os melhores resultados de jogadores humanos.

A aprendizagem por reforço e a auto-brincadeira também podem ajudar a treinar sistemas interativos. Em seguida, os robôs poderão conversar com as pessoas, primeiro aprendendo a falar sozinhas. E, dado o aumento da produtividade e disponibilidade de equipamentos especializados para IA, os engenheiros receberão um incentivo para traduzir cada vez mais tarefas reais na forma de um jogo. É provável que, no futuro, a importância da metodologia "brinque com você" e de outras abordagens que exijam enorme poder computacional apenas aumente.

Mas se nosso principal objetivo é criar uma máquina que possa fazer o mesmo que as pessoas e uma máquina de auto-aprendizado, os campeões de jogos de tabuleiro como o AlphaZero terão possíveis caminhos de desenvolvimento. É necessário perceber a lacuna entre a atividade mental real, a compreensão criativa das idéias e o que vemos hoje no campo da IA. Essa imagem brilhante da inteligência artificial existe, na maioria das vezes, na mente de grandes pesquisadores.

Muitos cientistas que estão cientes do nível de hype oferecem suas próprias classificações. Não há necessidade de superestimar a importância de os robôs jogarem jogos para o desenvolvimento da IA ​​em geral. As pessoas, por exemplo, não são muito boas em brincar. Por outro lado, ferramentas muito simples e especializadas em algumas tarefas podem atingir grandes alturas.

Source: https://habr.com/ru/post/pt411761/


All Articles