DeepMind não pode parar: a IA pode jogar a Arena Quake III agora



O DeepMind, que já foi uma divisão da Google Corporation, está desenvolvendo a IA (sua forma fraca) para vários propósitos. Agora, a equipe do DeepMind está ativamente envolvida na criação de várias formas de IA, aprimoradas para jogos, tanto lógicos quanto de desktop e atiradores. Existem muitos jogos - e agora, StarCraft e agora - e o Quake III Arena.

Os desenvolvedores disseram em seu blog que treinaram o sistema de IA para jogar o Quake III Arena da mesma maneira que uma pessoa. Ou seja, o sistema de computador aprendeu a se adaptar às rápidas mudanças nas condições do jogo, incluindo a mudança de níveis e seus elementos. Tradicionalmente, um sistema reforçado era usado no treinamento.

Durante esse tipo de treinamento, o computador recebe uma recompensa ou multa, dependendo de a passagem ter êxito ou não. Normalmente, o problema de um computador é que ele não pode se adaptar às mudanças nas condições rapidamente - assim como uma pessoa. Apesar de as redes neurais terem sido capazes de aprender com seus próprios erros, os jogos de computador são difíceis para eles se o sistema não conhecer as condições iniciais.

O sistema foi treinado para jogar no modo Capture The Flag. Nesse caso, o jogador deve tentar capturar a bandeira do oponente, mas em nenhum caso ele deve permitir que a sua seja capturada. Se qualquer equipe puder capturar e segurar a bandeira do oponente pelo número máximo de vezes em cinco minutos, esse time será o vencedor.

A fim de impedir que a IA simplesmente aprenda os recursos do nível, incluindo a localização de salas, prédios etc., cada vez que a rede neural é forçada a jogar em um novo nível. Nesse caso, a IA desenvolveu sua própria estratégia de jogo sem apertar. O computador observou as ações de outros jogadores, estudou a “geografia” do nível e agiu de acordo com a situação.

Além disso, os desenvolvedores do Deepmind treinaram a IA para jogar com toda a equipe, que consiste em diferentes agentes. Todo o sistema é chamado For The Win (FTW).

Assim, o For The Win (FTW) aprendeu a gerenciar sua equipe, coordenando e direcionando as ações de cada agente. A tarefa, como mencionado acima, é preservar a própria bandeira e capturar a de outra pessoa. Depois que o computador atingiu um certo nível de habilidade, o DeepMind foi oferecido para jogar com jogadores comuns em um torneio especial.


Todas as 40 pessoas participaram. As equipes do torneio eram mistas - ou seja, em uma equipe, poderia haver pessoas e agentes de IA. De acordo com os resultados do jogo, ficou claro que a IA em sua forma pura conquistou mais vitórias do que equipes de pessoas. Em equipes mistas, a IA mostrou um nível mais alto de cooperação do que as pessoas costumam demonstrar. Portanto, o computador, se necessário, servia como escravo ou estava diretamente envolvido no ataque à base inimiga.

Segundo os desenvolvedores, os princípios de trabalho que foram usados ​​para criar o For The Win (FTW) podem muito bem ser usados ​​para reproduzir outros títulos, por exemplo, StarCraft II ou Dota 2.

No início deste mês, o DeepMind demonstrou o processo de aprendizado de IA para a aprovação de jogos da velha escola - no Atari. O princípio do treinamento por reforço também foi usado aqui, e é bastante difícil ensinar a IA a passar em jogos antigos, pois muitas ações do protagonista são muito implícitas.

A base foi tomada o jogo Montezuma's Revenge. Não existe uma tarefa clara, nem uma direção para onde ir, nem um entendimento do que precisa ser reunido ou contra quem falar. Dois métodos foram usados ​​para ensinar o exemplo: TDC (classificação da distância temporal) e CDC (classificação da distância temporal modal).

O computador foi treinado para jogar usando orientações passo a passo em vídeo do YouTube - existem muitas no serviço. Durante a passagem, foram comparados os quadros da gravação em vídeo da passagem dos níveis de IA e seus "professores" do YouTube. Se a comparação mostrasse um alto nível de similaridade, a IA receberia uma recompensa. Como se viu, depois de algum tempo, a IA executa a mesma sequência de ações que a pessoa.

Quanto ao StarCraft, mencionado acima, em 2017, uma pessoa ainda derrotou o carro e seca, com uma pontuação de 4: 0. O profissional de StarCraft, Song Byung-gu, enfrentou quatro bots diferentes de StarCraft.

Source: https://habr.com/ru/post/pt416209/


All Articles