Vença e vença: a IA vence torneio de poker contra quatro profissionais



A inteligência artificial (sua forma fraca), desenvolvida por representantes da Escola de Informática da Universidade Carnegie Mellon, superou quatro jogadores profissionais de pôquer. Este é um torneio do Texas Hold'em no Rivers Casino, em Pittsburgh. Este é um dos tipos mais populares de pôquer. Durante o torneio, foram jogadas cerca de 120 mil mãos. A AI levou o banco a US $ 1,7 milhão.

Os autores do programa são Thomas Sandholm e Noam Brown. Segundo os desenvolvedores, o pôquer é um jogo cujos participantes não sabem quais cartões todos os outros têm. Por esse motivo, calcular algo é extremamente difícil. Jimmy Chu, um dos participantes do torneio, reclamou que ele e seus colegas subestimaram as capacidades do Libratus: “O bot jogava melhor todos os dias. Ele parece ser uma versão mais habilidosa da nossa.

O torneio em questão foi chamado de " Cérebros vs. Inteligência Artificial: Aumentando a Ante ". Tudo começou em 11 de janeiro. Havia cinco participantes. Um deles é o bot Libratus. Os outros quatro são Jimmy Choo, Dong Kim, Jason Les e Daniel McAulay. A duração total do torneio foi de 20 dias. Todas as quatro pessoas são consideradas os melhores jogadores deste tipo de pôquer no mundo.

Segundo os desenvolvedores, vencer o programa de pôquer é uma das maiores conquistas no campo da inteligência artificial.


Infelizmente, os autores do sistema Libratus não divulgam os recursos de seu trabalho. O princípio de operação do algoritmo é conhecido apenas em termos gerais. No entanto, em um futuro próximo, detalhes técnicos serão divulgados em uma publicação em uma revista científica revisada por pares.

Os desenvolvedores afirmam que o Libratus consiste em três partes. Esse é o núcleo principal, um sistema que rastreia os erros cometidos pelos rivais e a parte que rastreia as fraquezas de si mesmo. Durante o jogo, a terceira parte ajudou a melhorar a capacidade do programa, bem como a melhorar o trabalho das duas primeiras partes. Libratus aprendeu a blefar e a reconhecer blefes dos oponentes. O tempo total de computação foi de aproximadamente 15 milhões de horas principais.

O mais interessante é que os algoritmos do Libratus não são "aprimorados" especificamente para o pôquer ou outros jogos. O programa deve, usando recursos internos, desenvolver seu próprio estilo de jogo. E este trabalho foi baseado nas informações inicialmente fornecidas pelos desenvolvedores - as regras do pôquer.

Quanto ao prêmio em dinheiro, os participantes do torneio receberão US $ 200.000 - esse valor será dividido entre todos os jogadores humanos de acordo com os resultados recebidos. Os desenvolvedores não levarão dinheiro para casa. Tudo isso foi previamente acordado, e o principal para os cientistas que criaram o sistema é a prova de sua eficácia. Segundo a equipe de Carnegie Mellon , os recursos do Libratus podem ser usados ​​para segurança cibernética, em negociações e para fins militares.



Em geral, todos os anos a inteligência artificial supera uma pessoa em todos os novos jogos que antes eram considerados inacessíveis ao computador. Inicialmente, eram damas, depois xadrez, videogame e agora - pôquer. Além disso, é interessante que em todos os casos anteriores todos os participantes tenham informações completas sobre o curso do jogo - você pode ver o campo de jogo e todas as fichas / números. Neste último caso, a informação não está completa, o poker a esse respeito se destaca.

A IA já havia jogado poker, mas eles conseguiram vencer apenas na versão mais simples do jogo - no limit hold'em, com um passo limitado para aumentar as taxas. Mas no poker ilimitado, tudo é muito mais complicado. Aqui você precisa agir com base nas informações sobre seus próprios cartões e nos dados das ações do oponente. Além disso, os oponentes podem blefar, o que complica ainda mais a tarefa.

No hold'em ilimitado, outra plataforma de software - DeepStack - também mostra excelentes resultados. Foi desenvolvido na Universidade de Alberta e os funcionários da universidade, um grupo de pesquisa especial, criam bots de pôquer desde os anos 90 do século passado. O primeiro bot criado aqui foi Loki em 1997. Depois, Poki (1999), PsOpti / Sparbot (2002), Vexbot (2003), Hyperborean (2006), Polaris (2007), Hyperborean No-Limit (2007), Hyperborean Ring (2009), Cepheus (2015) e finalmente , coroa da criação - DeepStack.

Muito se sabe sobre os recursos técnicos deste programa, pois os desenvolvedores publicaram informações sobre ele no início de janeiro deste ano. O DeepStack usa o equilíbrio de Nash. Este é o nome de um conjunto de estratégias diferentes, nas quais nenhum jogador pode aumentar seus ganhos em caso de mudança de estratégia, se outros participantes do jogo não mudarem de estratégia. Além disso, o DeepStack neutraliza as tentativas de usar sua própria estratégia por outros jogadores.

Source: https://habr.com/ru/post/pt401137/


All Articles