AlphaZero venceu Stockfish em uma partida de 1.000 jogos

imagem

Em dezembro passado, houve uma onda de notícias sobre o incrível poder de um novo mecanismo de xadrez usando a empresa de inteligência artificial AlphaZero DeepMind. Hoje eles divulgaram resultados surpreendentes para uma versão atualizada deste mecanismo.

Os resultados novamente não deixam dúvidas de que o AlphaZero é um dos mais fortes mecanismos de xadrez do mundo.

AlphaZero atualizado venceu Stockfish 8 em uma nova partida com 1000 jogos com o resultado: 155 vitórias, 6 derrotas, 839 empates.

O AlphaZero também superou o Stockfish em uma série de jogos com controle de tempo desigual, derrotando o mecanismo tradicional, mesmo com uma desvantagem de 10 vezes.

De acordo com o DeepMind, em partidas adicionais, o novo AlphaZero superou a "versão mais recente de desenvolvimento" do Stockfish em 13 de janeiro de 2018, mostrando resultados quase idênticos, como na partida contra o Stockfish 8.

De acordo com o DeepMind, seu mecanismo de aprendizado de máquina também venceu todas as partidas contra a "versão Stockfish, que usa um livro de estréia forte". A adição de um livro de estreia pareceu ajudar Stockfish, que finalmente venceu um número significativo de jogos quando o AlphaZero jogou preto, mas não o suficiente para vencer a partida.

Os resultados foram publicados em um artigo da revista Science e fornecidos por meios selecionados de xadrez .

A partida de 1000 jogos foi realizada no início de 2018. Na partida, AlphaZero e Stockfish receberam três horas de cada jogo, mais um ganho de 15 segundos por turno. Esse controle de tempo provavelmente tornará obsoleto um dos maiores argumentos contra os resultados da partida do ano passado, ou seja, que em 2017, o controle de tempo de um minuto por turno foi uma forte vantagem para o AlphaZero.

Com três horas e um aumento de 15 segundos, esse argumento não faz sentido, pois é uma quantidade enorme de tempo de jogo para qualquer mecanismo de xadrez. Em jogos com tempos desiguais, o AlphaZero dominou mesmo com uma razão de tempo de 10 para 1. O Stockfish começou a ganhar apenas na proporção de 30 para 1.

Os resultados do AlphaZero em jogos com tempos desiguais mostram que ele não é apenas muito mais forte que qualquer mecanismo de xadrez tradicional, mas também usa uma pesquisa de movimentos muito mais eficiente. De acordo com o DeepMind, o AlphaZero usa a pesquisa de árvores em Monte Carlo e explora cerca de 60.000 posições por segundo, em comparação com 60 milhões no Stockfish.

imagem
AlphaZero move a ilustração do algoritmo de busca. Imagem do DeepMind de um artigo na Science.

Segundo o artigo, o algoritmo AlphaZero atualizado é idêntico em três jogos complexos: xadrez, shogi e partida. Esta versão do AlphaZero conseguiu derrotar os melhores mecanismos de computador dos três jogos após horas de auto-treinamento, começando com regras simples.

O DeepMind lançou 210 jogos da partida, que você pode baixar aqui .

A nova versão do AlphaZero se treinou para jogar xadrez, começando pelas regras do jogo, usando métodos de aprendizado de máquina para atualizar constantemente suas redes neurais. De acordo com o DeepMind, 5.000 TPUs (processador tensor do Google, circuito integrado especializado para IA) foram usados ​​para gerar o primeiro conjunto de jogos para jogos independentes e, em seguida, 16 TPUs foram usados ​​para treinar redes neurais.

O tempo total de treinamento em xadrez levou nove horas a partir do zero. Segundo o DeepMind, o novo AlphaZero exigia apenas quatro horas de treinamento para superar o Stockfish; em nove horas, ele estava muito à frente do campeão mundial de xadrez.

Para os jogos em si, o Stockfish usou 44 processadores, enquanto o AlphaZero usou uma máquina com quatro TPUs e 44 núcleos de processador.

imagem
AlphaZero vs. Stockfish resulta em suas estreias mais populares. À esquerda, AlphaZero joga branco; à direita - preto.

Os próprios DeepMind observaram o estilo de reprodução exclusivo de seu programa no artigo:

"Em vários jogos, o AlphaZero sacrificou peças por uma vantagem estratégica de longo prazo, sugerindo que ela possui uma classificação posicional mais contextual do que a classificação baseada em regras usada em programas anteriores de xadrez", disseram os pesquisadores da DeepMind.

A AI também enfatizou a importância de usar a mesma versão do AlphaZero em três jogos diferentes, apresentando-a como uma inovação na inteligência geral do jogo:

"Esses resultados nos aproximam de cumprir as ambições de longa data da inteligência artificial: um sistema de jogo comum que pode aprender a dominar qualquer jogo", disseram os pesquisadores da DeepMind.

Source: https://habr.com/ru/post/pt432370/


All Articles