Os mais recentes sistemas de IA começam a treinar sem saber nada sobre o jogo e alcançam o nível mundial em poucas horas. Mas os pesquisadores estão lutando com o uso de tais sistemas fora do mundo dos jogos.

Até recentemente, máquinas capazes de envergonhar campeões humanos pelo menos tinham respeito pelo uso da experiência humana para ensinar jogos.
Para derrotar Garry Kasparov no xadrez em 1997, os engenheiros da IBM usaram séculos de sabedoria no xadrez para criar seu próprio computador Deep Blue. Em 2016, o programa AlphaGo do projeto Google DeepMind
derrotou o campeão Lee Sedola no antigo jogo de tabuleiro go, processando milhões de posições de jogos coletadas de dezenas de milhares de jogos entre pessoas.
Mas agora, os pesquisadores de IA estão repensando como seus robôs devem absorver o conhecimento humano. A tendência atual pode ser descrita como "sim, e Deus o abençoe".
Em outubro passado, a equipe DeepMind
publicou os detalhes do novo sistema de jogo, AlphaGo Zero, que não estudava os jogos das pessoas. Ela começou com as regras do jogo e jogou consigo mesma. Os primeiros movimentos foram completamente aleatórios. Após cada jogo, ela aceitou novos conhecimentos sobre o que levou à vitória e o que não levou. Após essas partidas, o AlphaGo Zero atraiu a versão já sobre-humana do AlphaGo que derrotou Lee Sedol. O primeiro venceu o segundo com 100: 0.
Lee Sedol, 18 vezes campeão mundial em go, luta contra o AlphaGo em 2016.A equipe continuou a explorar e criou o próximo jogador brilhante da família AlphaGo, desta vez simplesmente chamado AlphaZero. Em um
artigo publicado no arxiv.org em dezembro, os pesquisadores do DeepMind revelaram como, começando do zero novamente, o AlphaZero treinou e derrotou o AlphaGo Zero - ou seja, derrotou o bot que derrotou o bot que derrotou o melhor jogador do mundo. E quando ela recebeu as regras para o xadrez japonês, o AlphaZero aprendeu rapidamente e conseguiu vencer o melhor de seus algoritmos especialmente criados para este jogo. Especialistas ficaram maravilhados com o estilo agressivo e desconhecido do jogo. "Sempre me perguntei como seria se seres superiores voassem para a Terra e nos mostrassem como jogam xadrez", disse o grande mestre dinamarquês Peter Heine Nielsen em
entrevista à Força Aérea. "Agora eu sei."
No ano passado, vimos outros bots de outros mundos que se mostraram em áreas diferentes como o poker ilimitado e o Dota 2, um popular jogo online no qual heróis de fantasia lutam pelo controle de outro mundo.
Naturalmente, as ambições das empresas que investem dinheiro em tais sistemas vão além do domínio dos campeonatos de jogos. Equipes de pesquisa como a DeepMind esperam aplicar métodos semelhantes a tarefas do mundo real - criando supercondutores que funcionam à temperatura ambiente ou entendendo que origami transformará proteínas em moléculas amigas das drogas. E, é claro, muitos profissionais esperam construir inteligência artificial de uso geral - um objetivo mal definido, mas cativante, para dar à máquina a oportunidade de pensar como uma pessoa e ser flexível na solução de diferentes problemas.
No entanto, apesar de todos os investimentos, ainda não está claro até que ponto as tecnologias atuais podem ir além dos limites do tabuleiro de jogo. "Não tenho certeza de que as idéias por trás do AlphaZero sejam tão fáceis de resumir",
disse Pedro Domingos, cientista da computação da Universidade de Washington. "Os jogos são um tópico muito, muito incomum."
Objetivos ideais para um mundo imperfeito
Uma característica comum de muitos jogos, incluindo xadrez e go - jogadores estão constantemente vendo todas as fichas dos dois lados do tabuleiro. Cada jogador tem o que é chamado de "informação ideal" sobre o estado do jogo. Não importa o quão complicado o jogo, você só precisa pensar em sua posição atual.
Muitas situações do mundo real não podem ser comparadas com isso. Imagine que pedimos ao computador para fazer um diagnóstico ou conduzir negociações comerciais. "A maioria das interações estratégicas no mundo real envolve informações ocultas", diz
Noam Brown , estudante de ciências da computação na Universidade Carnegie Malon. "Parece-me que a maioria da comunidade de IA ignora esse fato."
O poker marrom oferece um desafio diferente. Você não vê as cartas do oponente. Mas aqui, as máquinas que aprendem por meio de um jogo consigo mesmas já atingem alturas sobre-humanas. Em janeiro de 2017, o programa Libratus, criado por Brown e seu curador
Thomas Sandholm ,
venceu quatro jogadores profissionais ilimitados do
Texas Hold'em ao ganhar US $ 1,7 milhão no final do campeonato de 20 dias.
Um jogo ainda mais desanimador com informações imperfeitas é o StarCraft II, outro jogo multiplayer online com um grande número de fãs. Os jogadores escolhem um time, constroem um exército e fazem guerra em um cenário de ficção científica. Mas a paisagem é cercada pela névoa da guerra, por causa da qual os jogadores veem apenas as partes do território em que suas próprias tropas ou edifícios estão localizados. Até a decisão de explorar o território do oponente é cheia de incertezas.
Este é o único jogo que a IA ainda não pode vencer. Os obstáculos são um grande número de opções para jogadas no jogo, que geralmente excedem mil, e a velocidade da tomada de decisões. Cada jogador - uma pessoa ou uma máquina - precisa se preocupar com um grande número de cenários prováveis de desenvolvimento a cada clique do mouse.
Até agora, a IA não pode competir em igualdade de condições com as pessoas nesta área. Mas esse é o objetivo para o desenvolvimento da IA. Em agosto de 2017, a DeepMind
colaborou com a Blizzard Entertainment, a empresa que criou o StarCraft II, para criar ferramentas que, segundo eles, abririam o jogo para pesquisadores de IA.
Apesar de toda a complexidade, o objetivo do StarCraft II é simples de formular: destruir o inimigo. Isso a faz parecer xadrez, ir, pôquer, Dota 2 e quase qualquer outro jogo. Nos jogos você pode ganhar.
Do ponto de vista do algoritmo, as tarefas devem ter uma "função de destino", uma meta para a qual devemos nos esforçar. Quando o AlphaZero jogava xadrez, era fácil. A derrota foi estimada em -1, um empate em 0, uma vitória em +1. A função objetivo do AlphaZero é maximizar pontos. A função objetivo do bot de poker é igualmente simples: ganhar muito dinheiro.
Os caminhantes de computador podem treinar comportamentos complexos, como caminhar em terrenos desconhecidosSituações na vida real não são tão simples. Por exemplo, um robomóvel precisa de uma formação mais refinada da função objetivo - algo semelhante a uma seleção clara de palavras ao descrever seu desejo por um gênio. Por exemplo: entregue rapidamente o passageiro no endereço correto, obedecendo a todas as leis e avaliando adequadamente o custo da vida humana em situações perigosas e incertas. Domingos diz que a formação da função objetivo por parte dos pesquisadores é “uma das coisas que diferencia um grande pesquisador no campo de aprendizado de máquina da média”.
Considere o Tay, o chatbot do Twitter lançado pela Microsoft em 23 de março de 2016. Seu objetivo era envolver as pessoas na conversa, o que ele fez. "O que Tay infelizmente descobriu", disse Domingos, "é que os insultos racistas são a melhor maneira de maximizar o envolvimento das pessoas". Foi
desligado apenas um dia após o início dos trabalhos.
Seu próprio inimigo principal
Algumas coisas não mudam. As estratégias usadas hoje pelos robôs de jogo predominantes foram inventadas décadas atrás. "É uma explosão do passado - eles apenas proporcionam mais poder de computação", diz
David Duveno , especialista em TI da Universidade de Tóquio.
As estratégias geralmente são baseadas em técnicas de aprendizado reforçadas com liberdade de ação. Em vez de se envolver no microgerenciamento, configurando os menores detalhes do algoritmo, os engenheiros permitem que a máquina estude o ambiente para aprender como atingir objetivos por conta própria, por tentativa e erro. Antes do lançamento do AlphaGo e de seus herdeiros, a equipe DeepMind alcançou o primeiro grande sucesso nas manchetes em 2013, quando usou treinamento de reforço para criar um bot que
aprendeu a jogar sete jogos do Atari 2600 e em três deles - no nível de especialista.
Este progresso continuou. Em 5 de fevereiro, o DeepMind lançou o
IMPALA , um sistema de IA capaz de aprender 57 jogos com o Atari 2600 e outros 30 níveis criados pelo DeepMind em três dimensões. O jogador age neles em vários ambientes e atinge objetivos como abrir portas ou apanhar cogumelos. IMPALA parecia transferir conhecimento entre tarefas - o tempo gasto em um jogo melhorou os resultados nos demais.
Mas na categoria mais ampla de aprendizado reforçado, jogos de tabuleiro e multiplayer, uma abordagem mais específica pode ser usada. O estudo deles pode ir na forma de um jogo consigo mesmo, quando o algoritmo atinge superioridade estratégica, competindo repetidamente com uma cópia próxima dele.
Essa ideia tem muitas décadas. Na década de 1950, o engenheiro da IBM, Arthur Samuel,
criou um programa de rascunhos que aprendeu parcialmente a jogar competindo consigo mesmo. Nos anos 90, Gerald Thesaur, da IBM, criou um programa de gamão que contrastava o algoritmo consigo mesmo. O programa alcançou o nível de especialistas, ao mesmo tempo inventando estratégias de jogo incomuns, mas eficazes.
Em um número crescente de jogos, os algoritmos para jogar consigo mesmo são fornecidos com um oponente igual. Isso significa que mudar a estratégia do jogo leva a um resultado diferente, devido ao qual o algoritmo recebe feedback instantâneo. "Toda vez que você descobre algo, quando descobre algo, seu oponente imediatamente começa a usá-lo contra você", diz
Ilya Sutskever , diretora de pesquisa da OpenAI, uma organização sem fins lucrativos que ele fundou com Ilon Mask, dedicado ao desenvolvimento e disseminação de tecnologias de IA e à direção de seu desenvolvimento em uma direção segura. Em agosto de 2017, a organização
lançou um bot para o Dota 2, que controlava um dos personagens do jogo, Shadow Fiend, um demônio necromante, que derrotou os melhores jogadores do mundo em batalhas individuais. Outro projeto do OpenAI empurra as pessoas a simularem uma partida de
sumô , como resultado das quais aprendem luta e truques. Durante um jogo consigo mesmo, "não há tempo para descansar, você precisa melhorar constantemente", disse Sutskever.
Openai
Mas a velha idéia de jogar com você mesmo é apenas um ingrediente dos robôs que prevalecem hoje em dia, eles ainda precisam de uma maneira de transformar a experiência de jogo em uma compreensão mais profunda do assunto. No xadrez, no go e nos videogames como o Dota 2, há mais permutações do que átomos no universo. Mesmo se esperarmos algumas vidas humanas enquanto a IA combater sua sombra em arenas virtuais, a máquina não poderá implementar cada cenário, gravá-lo em uma tabela especial e consultá-lo quando tal situação ocorrer novamente.
Para se manter à tona nesse mar de oportunidades, "você precisa resumir e destacar a essência", diz
Peter Abbil , especialista em TI da Universidade da Califórnia em Berkeley. O Deep Blue da IBM fez isso com uma fórmula de xadrez embutida. Armado com a capacidade de avaliar a força de jogar posições que ela ainda não tinha visto, o programa conseguiu aplicar jogadas e estratégias que aumentam suas chances de ganhar. Nos últimos anos, uma nova técnica permite abandonar completamente essa fórmula. "Agora, de repente, tudo isso é coberto por uma" rede profunda ", disse Abbil.
As redes neurais profundas, cuja popularidade aumentou nos últimos anos, são construídas a partir de camadas de "neurônios" artificiais,
dispostas umas sobre as outras , como uma pilha de panquecas. Quando um neurônio em uma das camadas é ativado, ele envia sinais para um nível mais alto, e aí eles são enviados ainda mais, e assim por diante.
Ao ajustar as conexões entre as camadas, essas redes surpreendentemente lidam com a transformação dos dados de entrada na saída associada, mesmo que a conexão entre eles pareça abstrata. Dê a eles uma frase em inglês e eles podem ser treinados traduzindo-a para turco. Dê a eles fotos de abrigos de animais e eles podem determinar qual deles é para gatos. Mostre a eles o jogo poli, e eles serão capazes de entender a probabilidade de ganhar. Mas, geralmente, essas redes devem primeiro fornecer listas de exemplos marcados nos quais podem praticar.
É por isso que brincar consigo mesmo e redes neurais profundas combinam tão bem entre si. Jogos independentes produzem um grande número de cenários, e a rede profunda possui uma quantidade quase ilimitada de dados para treinamento. E então a rede neural oferece uma maneira de aprender a experiência e os padrões encontrados durante o jogo.
Mas há um problema. Para que esses sistemas forneçam dados úteis, eles precisam de uma plataforma realista para jogos.
"Todos esses jogos, todos esses resultados, foram alcançados sob condições que permitiram simular perfeitamente o mundo", disse
Chelsea Finn, estudante de Berkeley que usa IA para controlar braços robóticos e interpretar dados de sensores. Outras áreas não são tão fáceis de simular.
Os robôs, por exemplo, têm dificuldade em lidar com o mau tempo ou com os ciclistas. Ou eles podem não perceber as possibilidades incomuns encontradas no mundo real - como um pássaro voando diretamente para a câmera. No caso dos braços robóticos, diz Finn, as simulações iniciais forneceram física básica que permitiu ao braço aprender a aprender. Mas eles não conseguem lidar com os detalhes de tocar superfícies diferentes; portanto, tarefas como torcer a tampa da garrafa - ou executar uma operação cirúrgica complexa - exigem experiência adquirida na realidade.
No caso de problemas difíceis de simular, brincar consigo mesmo não será mais tão útil. "Há uma grande diferença entre um modelo de ambiente verdadeiramente perfeito e um modelo exemplar aprendido, especialmente quando a realidade é realmente complexa", escreveu
Yoshua Benggio , pioneiro do aprendizado profundo da Universidade de Montreal. Mas os pesquisadores de IA ainda têm maneiras de seguir em frente.
Vida após os jogos
É difícil identificar o início da superioridade da IA nos jogos. Você pode escolher a perda de Kasparov no xadrez, a derrota de Li Sedol nas mãos virtuais da AlphaGo. Outra opção popular seria o dia de 2011, quando o lendário campeão do jogo
Jeopardy! Ken Jennings perdeu para o IBM Watson. Watson foi capaz de lidar com pistas e trocadilhos. "Congratulo-me com o surgimento de nossos novos senhores de computadores", escreveu Jennings em sua última resposta.
Parecia que Watson tinha habilidades de escritório semelhantes às que as pessoas usam para resolver muitos problemas da vida real. Ele podia perceber a entrada em inglês, processar os documentos associados a ela em um piscar de olhos, buscar informações conectadas e escolher uma melhor resposta. Mas sete anos depois, a realidade continua a representar obstáculos complexos à IA. O
relatório de saúde de Stat em setembro indicava que o herdeiro de Watson, especialista em pesquisa de câncer e diretrizes de tratamento personalizadas para Watson for Oncology, estava tendo problemas.
"Perguntas no jogo Jeopardy! É mais fácil de lidar, porque não precisa de bom senso ", escreveu Bengio, que trabalhou com a equipe do Watson, em resposta a uma solicitação para comparar os dois casos em termos de IA. “Compreender um artigo médico é muito mais difícil. É necessária uma grande quantidade de pesquisa básica. ”
Mas, embora os jogos sejam estritamente especializados, eles se parecem com várias tarefas reais. Os pesquisadores do DeepMind não quiseram responder às perguntas da entrevista, indicando que seu trabalho no AlphaZero está sendo estudado atualmente por especialistas independentes. Mas a equipe sugeriu que essa tecnologia poderia em breve ajudar pesquisadores de biomedicina que desejam entender o dobramento de proteínas.
Para fazer isso, eles precisam entender como os vários aminoácidos que compõem a proteína se
dobram e se dobram em uma pequena máquina tridimensional, cuja funcionalidade depende de sua forma. Essa complexidade é semelhante à do xadrez: os químicos conhecem as leis em tal nível que podem calcular aproximadamente certos cenários, mas há tantas configurações possíveis que você não poderá pesquisar todas as opções possíveis. Mas e se o dobramento de proteínas for um jogo? E isso já foi realizado. Desde 2008, centenas de milhares de pessoas experimentam o jogo online
Foldit , no qual os usuários recebem pontos pela estabilidade e realidade da estrutura proteica que criaram. Uma máquina poderia treinar de maneira semelhante, talvez tentando superar sua melhor conquista anterior com treinamento de reforço.
O aprendizado por reforço e o brincar consigo mesmo podem ajudar a treinar sistemas interativos, sugere Saskaver. Isso pode dar aos robôs que precisam conversar com as pessoas a chance de treiná-las enquanto conversam sozinhos. Dado que o equipamento especializado para IA está se tornando mais rápido e mais acessível, os engenheiros estão recebendo mais incentivos para projetar tarefas na forma de jogos. "Penso que, no futuro, a importância de brincar consigo mesmo e com outras formas de consumir uma grande quantidade de poder de computação aumentará", disse Satskever.
Mas se o objetivo final das máquinas é definir uma repetição de tudo o que uma pessoa é capaz, mesmo o campeão generalizado em jogos de tabuleiro como o AlphaZero ainda tem espaço para crescer. "Eu preciso prestar atenção, pelo menos para mim, à enorme lacuna entre o pensamento real, a exploração criativa de idéias e as capacidades atuais da IA", diz
John Tenenbaum , cientista cognitivo do MTI.
"Essa inteligência existe, mas até agora apenas nas mentes dos grandes pesquisadores de IA".Muitos outros pesquisadores, sentindo o hype em torno de sua área, oferecem seus próprios critérios. “Eu recomendaria não superestimar a importância desses jogos, para IA ou para tarefas de uso geral. As pessoas não são muito boas em jogar o jogo ”, diz Francois Cholet, pesquisador de aprendizado profundo do Google. "Mas lembre-se de que mesmo ferramentas simples e especializadas podem obter muito".