O jogador profissional de poker Jason Les fala com o professor Tuomas Sandholm, da Universidade Carnegie Mellon, durante um heads-up com o bot Libratus. Jason perdeu quase um milhão de dólares condicionais para o programa, mais do que qualquer outro profissionalRecentemente, desenvolvedores de sistemas de IA fracos costumam comparar a eficácia de seus programas no confronto de jogos contra seres humanos. Ou seja, simplesmente em jogos. O computador já derrotou o homem de xadrez, xadrez e partir. Nesses jogos, com informações completas a qualquer momento durante o jogo, todos os jogadores têm informações completas sobre o estado do jogo, ou seja, sobre a posição e todos os movimentos possíveis de qualquer um dos jogadores.
Diferentemente de situações determinísticas, em jogos com informações incompletas, parte das informações sobre o estado do jogo fica oculta do jogador - por exemplo, a carta do oponente. Unlimited Texas Hold'em é apenas um desses jogos. Além das cartas do oponente, aqui o elemento de incerteza é adicionado devido ao tamanho arbitrário de cada aposta. Com isso em mente, o número de resultados possíveis é estimado em 10
161 .
Talvez o Texas Hold'em seja o jogo mais popular com informações incompletas no mundo. Bilhões de dólares são jogados online todos os dias. O uso de bots era estritamente proibido antes, e agora os proprietários de salas de pôquer têm um novo motivo para monitorar os processos no computador do jogador, já que o programa Libratus retira de maneira confiável as pilhas de heads-up, mesmo dos melhores profissionais.
A partida vencedora do Libratus contra quatro profissionais de poker
foi realizada de 11 a 30 de janeiro de 2017 como parte da competição
“Brains vs. AI " .
Pilhas do programa Libratus e quatro oponentes durante os 20 dias da competiçãoA IA jogou 120.000 mãos no heads-up e, como resultado, permaneceu em território positivo por US $ 1.766.250 em dólares convencionais. Os próprios jogadores ficaram muito impressionados com o programa do jogo, que habilmente mudou sua estratégia todos os dias, adaptando-se às ações dos jogadores.
É claro que o jogo não era por dinheiro real, então os próprios jogadores estavam um pouco relaxados e não muito responsáveis sobre o jogo do que se estivessem jogando por seu próprio dinheiro. Sim, e eles tiveram que passar horas no computador todos os dias, o que é cansativo fisicamente. No entanto, uma vitória tão confiável do programa não pode deixar de impressionar. Mais de 14 big blinds para cem mãos são lançados. Segundo os desenvolvedores, ganhar uma quantia tão longa com uma probabilidade de 99,7% exclui a influência da sorte, ou seja, essa é realmente uma vitória estatisticamente significativa.
Agora, os desenvolvedores do programa da Universidade Carnegie Mellon publicaram um
artigo científico explicando a arquitetura e os princípios do treinamento em IA, que venceram os profissionais de poker.
Em resumo, para simplificar os cálculos, o programa agrupou
10.161 resultados possíveis por mãos semelhantes (por exemplo, um flush para o rei e um flush para uma dama) e tamanhos de aposta semelhantes. O Libratus consiste em três módulos. A primeira é uma estratégia predefinida detalhada sobre como jogar nas primeiras rodadas (intervalo de mãos para aumentar de cada posição). Além disso, a estratégia não é tão detalhada. A segunda estratégia depende muito do curso do jogo, ou seja, das cartas compradas e do comportamento do oponente, levando em consideração seus intervalos e estatísticas. O terceiro modelo é uma estratégia de jogo especificamente contra oponentes imprevisíveis, ou seja, pessoas. Esta terceira estratégia está sendo constantemente atualizada em tempo real. Se uma pessoa realizou alguma manobra inesperada para o programa, ela a salvou e a inseriu em seu modelo, alterando-a levando em consideração novos dados e melhorando a si mesma.
Segundo os desenvolvedores, o trabalho bem-sucedido em situações com informações incompletas dá à IA uma vantagem, não apenas nos jogos. O fato é que tais situações são onipresentes na vida real. Quase toda a vida humana, quase todas as relações sociais e econômicas são "jogos" com informações incompletas. Portanto, a posse de ferramentas apropriadas é extremamente importante para a sobrevivência bem-sucedida da IA no mundo real. Na prática, esses programas podem ser usados, por exemplo, para desenvolver estratégias eficazes em sistemas de segurança, modelos econômicos, modelos políticos e outros sistemas com informações incompletas.
As técnicas usadas no programa Libratus são amplamente independentes do escopo e, portanto, podem ser usadas em outros aplicativos.
O artigo científico foi
publicado em 17 de dezembro na revista
Science (doi: 10.1126 / science.aao1733,
pdf ).