Um passo gigante para uma máquina de xadrez

O incrível sucesso do AlphaZero, um algoritmo de aprendizado aprofundado, inaugura uma nova era de pensamento que pode ter vida curta para os seres humanos.




No início de dezembro, pesquisadores da DeepMind, uma empresa de inteligência artificial de propriedade da Alphabet Inc., uma empresa controladora que também é dona do Google, falou sobre o que está acontecendo na vanguarda do xadrez.

Um ano antes, em 5 de dezembro de 2017, a equipe chegou ao mundo do xadrez ao anunciar seu algoritmo AlphaZero Machine Learning (MO), que conseguiu dominar não apenas o xadrez regular, mas também o shogi japonês e o jogo de ir . O algoritmo começou a funcionar sem nenhum conceito de jogo, exceto as regras básicas. Então ele começou a brincar consigo vários milhões de vezes e aprender com seus erros. Em apenas algumas horas, o algoritmo se tornou o melhor jogador, entre pessoas e computadores, de tudo o que o mundo viu.

Detalhes das realizações do AlphaZero e sua estrutura interna estão atualmente em revisão formal, após o que serão publicados na revista Science . O novo trabalho responde a sérias críticas às declarações originais. Por exemplo, era difícil dizer se o AlphaZero realmente jogou honestamente com seu oponente, o monstro computacional Stockfish. Mas todas essas dúvidas foram dissipadas. Nos últimos 12 meses, o AlphaZero não se tornou mais forte, mas se tornou uma evidência mais convincente de sua superioridade. Ele claramente representa um tipo de mente sem precedentes para pessoas que temos que pensar por muito tempo.

Nos últimos 20 anos, o xadrez por computador percorreu um longo caminho. Em 1997, o programa de xadrez da IBM, Deep Blue, conseguiu vencer o então campeão mundial de homens, Garry Kasparov, em uma partida de seis jogos. Olhando para trás, podemos dizer que não houve mistério nessa conquista. Deep Blue poderia estimar 200 milhões de posições por segundo. Ela nunca se cansou, nunca cometeu um erro e nunca esqueceu o que pensava pouco antes.

De um jeito ou de outro, ela brincava como uma máquina, brutal e materialista. Ela poderia ter pensado melhor que Kasparov, mas não poderia pensar melhor que ele. No primeiro jogo da partida, o Deep Blue aceitou previsivelmente a troca da torre pelo bispo proposta por Kasparov, mas perdeu 16 jogadas depois. A geração de hoje dos programas de xadrez mais fortes do mundo, por exemplo, Stockfish e Komodo, não joga humanamente. Eles gostam de pegar as figuras de outras pessoas. Eles estão construindo um escudo de ferro. Mas, embora joguem mais forte do que qualquer pessoa, essas máquinas de xadrez não têm idéia do jogo. Eles precisam aprender os princípios básicos do xadrez.

Esses princípios, aperfeiçoados por décadas de experiência com grandes mestres humanos, são programados na máquina na forma de funções de avaliação complexas, que observam o que precisa ser alcançado na posição e o que evitar: quanto você precisa valorizar a segurança do rei, a atividade das peças, a colocação de peões, o controle sobre o centro do tabuleiro e assim por diante, e como gerenciar trocas entre essas coisas. As máquinas de xadrez de hoje, para as quais todos esses princípios são estranhos, se comportam como animais rudes: são extremamente rápidos e fortes, mas não têm cérebros.

Mas tudo isso mudou desde o advento do MO. Jogando por conta própria e atualizando suas redes neurais enquanto aprendia com a experiência, o próprio AlphaZero descobriu os princípios do xadrez e rapidamente se tornou o melhor jogador. Não só podia vencer facilmente os mestres entre as pessoas, como também derrotou Stockfish, o campeão de xadrez em computadores. Em uma partida de cem jogos contra uma máquina impressionante, o AlphaZero venceu 28 vezes e 72 vezes reduziu o jogo a um empate sem perder um único.

E a coisa mais desagradável foi que AlphaZero demonstrou pensar. Ela jogou de maneira diferente de qualquer computador, intuitivamente e lindamente, com um estilo de ataque romântico. Ela jogou gambits e assumiu riscos. Em alguns jogos, ela paralisou Stockfish e brincou com ela. Realizando o ataque no 10º jogo , AlphaZero recuou a rainha para o canto do tabuleiro, longe do rei de Stockfish, se comportando de maneira diferente ao atacar o rei.

No entanto, esse retiro estranho acabou sendo tóxico. Não importava como o bacalhau respondesse, ela estava condenada. Era como se AlphaZero estivesse esperando Stockfish descobrir como sua posição era desesperadora, após bilhões de combinações experimentadas, para relaxar e se render pacificamente como um touro abatido na frente de um matador. Grandmasters nunca viram nada parecido. AlphaZero jogou com a graça de um virtuoso e o poder de uma máquina. Foi o primeiro conhecimento superficial de um novo e surpreendente tipo de inteligência.


Garry Kasparov, à esquerda, joga contra o computador IBM Deep Blue no sexto e último jogo da partida, realizado em Nova York em maio de 1997. As figuras atrás do computador foram movidas por Joseph Joan, um engenheiro da IBM.

Quando os criadores introduziram o AlphaZero pela primeira vez, alguns observadores reclamaram que o Stockfish havia sido privado do acesso ao seu conjunto de estréia. Desta vez, mesmo com seu próprio kit, ela foi derrotada. E mesmo quando AlphaZero deu a Stockfish uma vantagem na forma de um aumento de dez vezes no tempo de liquidação, ela ainda a derrotou.

É impressionante que o AlphaZero tenha vencido pensando não mais rápido, mas melhor; ela estudou apenas 60 mil posições por segundo, e não 60 milhões, como o Stockfish. Ela era mais inteligente, sabendo o que pensar e o que ignorar. Tendo descoberto independentemente os princípios do xadrez, o AlphaZero desenvolveu um estilo de jogo que "refletia a verdade" do jogo, em vez de "prioridades e preconceito dos programadores", escreveu Kasparov em um comentário ao artigo na Science.

Agora, a questão é se o MO pode ajudar as pessoas a descobrir verdades semelhantes sobre coisas que realmente importam: os grandes problemas não resolvidos da ciência e da medicina, como a cura para o câncer ou a consciência; mistérios do sistema imunológico, segredos do genoma.

Os primeiros sinais são inspiradores. Em agosto, dois artigos da revista Nature Medicine examinaram a questão da aplicação do MO nos diagnósticos médicos. Em um deles, pesquisadores do DeepMind colaboraram com médicos do Murfield Eye Hospital, em Londres, para desenvolver um algoritmo de aprendizado aprofundado que poderia classificar uma ampla gama de patologias da retina, bem como especialistas em seres humanos. Em oftalmologia, existe uma séria escassez de especialistas que podem interpretar milhões de imagens oculares de diagnóstico obtidas anualmente; Os assistentes de IA seriam inestimáveis.

Outro artigo examinou o algoritmo MO que reconhece a presença de imagens de tomografia computadorizada de pacientes em ambulância, sinais de acidente vascular cerebral, hemorragia intracraniana ou outros problemas neurológicos. Cada minuto conta para vítimas de derrame; quanto mais o atraso do tratamento, pior o resultado. Os neurologistas têm até um ditado: "O tempo é o cérebro". O novo algoritmo marca esses e outros eventos críticos com precisão comparável a especialistas humanos, mas funciona 150 vezes mais rápido. O diagnóstico de alta velocidade permitirá que você traduza os casos mais urgentes para a frente da fila, após o que eles já podem ser avaliados por um radiologista humano.

Irritante no MO é que os algoritmos não podem explicar seus pensamentos. Não sabemos por que eles funcionam, portanto, não sabemos se eles podem ser confiáveis. AlphaZero mostra todos os sinais da descoberta dos princípios importantes do jogo de xadrez, mas não pode compartilhar esse entendimento conosco. Pelo menos ainda não. As pessoas precisam mais do que respostas. Nós precisamos de um entendimento. A partir de agora, esse problema será uma fonte de tensão em nossa interação com os computadores.

De fato, em matemática, isso vem acontecendo há muito tempo. Considere um problema matemático de longa data chamado teorema das quatro cores . Ela alega que, sob certas restrições razoáveis, qualquer mapa dos países em contato pode ser pintado com quatro cores, para que dois países vizinhos tenham cores diferentes.

Embora o teorema tenha sido provado em 1977 usando um computador, nenhuma pessoa pode verificar todas as etapas da prova. Desde então, a prova foi confirmada e simplificada, mas ainda contém partes que exigem cálculos com pesquisa exaustiva, como as usadas pelos antecessores do AlphaZero jogando xadrez. Esse estado de coisas ultrajou muitos matemáticos. Eles não precisavam se convencer da correção do teorema; eles já acreditavam nisso. Eles queriam entender por que era verdade, e essa prova não ajudou em nada.

Mas imagine que chegará o dia, talvez muito em breve, quando o AlphaZero se transformará em um algoritmo de uso mais geral; vamos chamá-lo de AlphaInfinity. Como seu antepassado, ele terá uma mente superior: ele será capaz de produzir excelentes evidências, tão elegantes quanto os jogos que AlphaZero jogou contra Stockfish. E toda prova demonstrará por que o teorema era verdadeiro; O AlphaInfinity não o forçará a aceitar nenhuma evidência feia e complexa.

Para matemáticos e cientistas, esse dia marcaria o início de uma nova era do pensamento. Mas pode ser de curta duração. Quanto mais carros se tornam, ultrapassando pessoas cujos neurônios operam em velocidade de tartaruga em uma escala de milissegundos, mais rápido chegará o dia em que não os acompanharemos. O surgimento do pensamento humano pode rapidamente se transformar em um pôr do sol.

Suponha que existem certos padrões que ainda precisam ser descobertos - na regulação de genes ou no desenvolvimento de câncer; no funcionamento do sistema imunológico; na dança de partículas subatômicas. Suponha que esses padrões possam ser previstos apenas por um intelecto que é muito superior ao nosso. Se o AlphaInfinity pudesse defini-los e entendê-los, nos pareceria um oráculo.

Sentávamos aos pés dela e ouvíamos atentamente. Não entenderíamos por que o oráculo está sempre certo, mas poderíamos verificar seus cálculos e previsões em experimentos e observações e confirmar suas revelações. Na ciência, uma ocupação simbólica de pessoas, nosso papel seria reduzido ao papel de observadores, olhando o que está acontecendo com espanto e confusão.

Talvez um dia nossa falta de pensamento não nos incomode mais. Afinal, o AlphaInfinity poderia curar todas as doenças, resolver todos os problemas científicos e fazer com que todos os outros trens inteligentes seguissem o cronograma. Fizemos um bom trabalho sem pensar muito nos primeiros 300.000 anos de nossa existência como Homo sapiens. Não teremos problemas de memória, teremos orgulho de recordar a era de ouro da mente humana, esse interlúdio glorioso que durou vários milênios, entre um passado sem entendimento e um futuro inexplicável.

Source: https://habr.com/ru/post/pt436598/


All Articles