A IA da Microsoft quebrou o recorde de um homem na Sra. Pac-man



Apesar de sua idade considerável, o jogo Pac-Man , suas várias versões, ainda é muito popular. Os fãs do jogo competem regularmente entre si em quem marcará mais pontos durante a passagem. Os desenvolvedores de IA também estão estudando, melhorando as habilidades de seus sistemas nos jogos que passam.

A equipe de desenvolvimento da startup canadense Maluuba, que foi adquirida anteriormente pela Microsoft, conseguiu criar uma plataforma de software que apresentava resultados extraordinariamente bons ao passar para a sra. Pac-Man, a versão deste jogo para Atari 2600. O programa quebrou todos os recordes estabelecidos anteriormente, ganhando 999.990 pontos.

A propósito, o jogo foi criado em 1982. Então Atari Inc. Lançado o Pac-Man da Namco, sucesso nos jogos arcade. Como na versão original, você deve controlar o protagonista com o joystick. O protagonista deve se mover pelo labirinto, ganhando pontos, evitando fantasmas. O criador do jogo portado é Tod Fry.

Segundo alguns especialistas, o fato de a plataforma de software ter marcado o número máximo de pontos no jogo é uma conquista significativa no campo da inteligência artificial (sua forma fraca). O fato é que outras plataformas de software mostraram resultados muito menos bem-sucedidos - o jogo acabou sendo bastante complicado para a IA. Obviamente, nem todos os desenvolvedores criaram seus projetos com base no registro da Sra. O Pac-Man, mas aqueles que trabalharam nisso, falaram de um grande número de problemas técnicos ao tentar mostrar resultados significativos.

Para alcançar o sucesso, a equipe de Maluuba decidiu dividir o jogo em um grupo de pequenos elementos, buscando uma solução para interagir com cada um deles. Além disso, esses elementos foram distribuídos entre os agentes de IA, cada um dos quais resolveu sua tarefa específica. Doina Prekap, professora da Universidade McGill em Montreal, afirmou que a idéia proposta pelos desenvolvedores merece atenção. Na sua opinião, é assim que o cérebro humano funciona em alguns casos - divide um problema em vários componentes e resolve sucessivamente cada um dos elementos.

Os desenvolvedores chamaram seu método de arquitetura de recompensa híbrida; ele usa mais de 150 agentes de IA, cada um dos quais funciona em paralelo com os outros no processo de aprovação do jogo. Além disso, cada um dos agentes recebe uma "recompensa" pela passagem bem-sucedida de sua própria seção do jogo.

Além dos agentes "pequenos", há outro agente de nível superior que se dedica a reunir todos os dados recebidos de todos os "subordinados". Ele também decide para onde a figura do herói deve se mover. Nesse caso, uma grande quantidade de dados é analisada. O fator principal é a direção do movimento selecionada pelo número máximo de agentes elementares. Por outro lado, se 100 agentes querem ir para a direita para obter um troféu, mas três agentes planejam virar à esquerda, porque notaram um fantasma, o agente principal “escuta” esses três.

Segundo o chefe de desenvolvimento, o sistema começou a mostrar melhores resultados depois que os agentes foram programados para comportamento egoísta. Ou seja, cada um deles toma uma decisão sem olhar para os outros. Mas a decisão geral sobre a direção do movimento do herói é tomada pelo agente principal. Ele avalia vários fatores e comandos para onde ir.


"Esse é um equilíbrio entre, por um lado, a necessidade de interação e, por outro lado, a necessidade de tomar decisões individuais", disse Harm van Seijen, chefe da equipe de pesquisa da Microsoft.

Mas por que geralmente foi decidido escolher Ms. Pac-Man? Escolher este jogo pode parecer estranho para a pessoa comum. Mas os especialistas dizem que não há nada de estranho aqui, uma vez que essa classe de jogos é bastante complicada para a inteligência de máquinas, pois existem muitas situações de "emergência" em uma unidade de tempo, cada uma das quais precisa de sua própria versão do desenvolvimento de eventos. E para encontrar uma solução, você precisa "pensar" quase como uma pessoa, como mencionado acima.

"Muitas empresas estão trabalhando em IA para jogos, desenvolvendo seus próprios projetos, porque a passagem requer muitas qualidades humanas", disse Raul Mehrotra, um dos programadores de Maluuba.

A plataforma de software desenvolvida na Microsoft opera de acordo com um método de aprendizado de máquina chamado aprendizado por reforço. Durante o trabalho, o sistema de teste (agente ou agentes) aprende interagindo com o ambiente. Este, por definição, é um tipo de experimento cibernético. O método de aprendizado reforçado é uma das variedades de ensino com um professor, mas o meio ou seu modelo é o professor. O agente atua no ambiente e, por sua vez, afeta o agente. O feedback surge.

O projeto em si não é uma teoria pura. Segundo os desenvolvedores, a plataforma de software criada pode ser usada em muitas áreas. Por exemplo, você pode atraí-la para trabalhar em uma empresa que vende para prever a dinâmica do fluxo de clientes, a popularidade de mercadorias e outras coisas importantes. O sistema pode trabalhar com tendências gerais e com fatores individuais, incluindo compradores individuais.

Source: https://habr.com/ru/post/pt404575/


All Articles