
O DeepMind, que já foi uma divisão da Google Corporation, está desenvolvendo a IA (sua forma fraca) para vários propósitos. Agora, a equipe do DeepMind está ativamente envolvida na criação de várias formas de IA, aprimoradas para jogos, tanto lógicos quanto de desktop e atiradores. Existem muitos jogos - e agora, StarCraft e agora - e o Quake III Arena.
Os desenvolvedores
disseram em seu blog que treinaram o sistema de IA para jogar o Quake III Arena da mesma maneira que uma pessoa. Ou seja, o sistema de computador aprendeu a se adaptar às rápidas mudanças nas condições do jogo, incluindo a mudança de níveis e seus elementos. Tradicionalmente, um
sistema reforçado era usado no treinamento.
Durante esse tipo de treinamento, o computador recebe uma recompensa ou multa, dependendo de a passagem ter êxito ou não. Normalmente, o problema de um computador é que ele não pode se adaptar às mudanças nas condições rapidamente - assim como uma pessoa. Apesar de as redes neurais terem sido capazes de aprender com seus próprios erros, os jogos de computador são difíceis para eles se o sistema não conhecer as condições iniciais.
O sistema foi treinado para jogar no modo Capture The Flag. Nesse caso, o jogador deve tentar capturar a bandeira do oponente, mas em nenhum caso ele deve permitir que a sua seja capturada. Se qualquer equipe puder capturar e segurar a bandeira do oponente pelo número máximo de vezes em cinco minutos, esse time será o vencedor.
A fim de impedir que a IA simplesmente aprenda os recursos do nível, incluindo a localização de salas, prédios etc., cada vez que a rede neural é forçada a jogar em um novo nível. Nesse caso, a IA desenvolveu sua própria estratégia de jogo sem apertar. O computador observou as ações de outros jogadores, estudou a “geografia” do nível e agiu de acordo com a situação.
Além disso, os desenvolvedores do Deepmind treinaram a IA para jogar com toda a equipe, que consiste em diferentes agentes. Todo o sistema é chamado For The Win (FTW).
Assim, o For The Win (FTW) aprendeu a gerenciar sua equipe, coordenando e direcionando as ações de cada agente. A tarefa, como mencionado acima, é preservar a própria bandeira e capturar a de outra pessoa. Depois que o computador atingiu um certo nível de habilidade, o DeepMind foi oferecido para jogar com jogadores comuns em um torneio especial.
Todas as 40 pessoas participaram. As equipes do torneio eram mistas - ou seja, em uma equipe, poderia haver pessoas e agentes de IA. De acordo com os resultados do jogo, ficou claro que a IA em sua forma pura conquistou mais vitórias do que equipes de pessoas. Em equipes mistas, a IA mostrou um nível mais alto de cooperação do que as pessoas costumam demonstrar. Portanto, o computador, se necessário, servia como escravo ou estava diretamente envolvido no ataque à base inimiga.
Segundo os desenvolvedores, os princípios de trabalho que foram usados para criar o For The Win (FTW) podem muito bem ser usados para reproduzir outros títulos, por exemplo, StarCraft II ou Dota 2.
No início deste mês, o DeepMind
demonstrou o processo de aprendizado de IA para a aprovação de jogos da velha escola - no Atari. O princípio do treinamento por reforço também foi usado aqui, e é bastante difícil ensinar a IA a passar em jogos antigos, pois muitas ações do protagonista são muito implícitas.
A base foi tomada o jogo Montezuma's Revenge. Não existe uma tarefa clara, nem uma direção para onde ir, nem um entendimento do que precisa ser reunido ou contra quem falar. Dois métodos foram usados para ensinar o exemplo: TDC (classificação da distância temporal) e CDC (classificação da distância temporal modal).
O computador foi treinado para jogar usando orientações passo a passo em vídeo do YouTube - existem muitas no serviço. Durante a passagem, foram comparados os quadros da gravação em vídeo da passagem dos níveis de IA e seus "professores" do YouTube. Se a comparação mostrasse um alto nível de similaridade, a IA receberia uma recompensa. Como se viu, depois de algum tempo, a IA executa a mesma sequência de ações que a pessoa.
Quanto ao StarCraft, mencionado acima, em 2017, uma pessoa
ainda derrotou o carro e seca, com uma pontuação de 4: 0. O profissional de StarCraft, Song Byung-gu, enfrentou quatro bots diferentes de StarCraft.