O progresso no jogo "A Vingança de Montezuma" foi considerado por muitos como sinônimo de conquistas no estudo de ambientes desconhecidos

Desenvolvemos um método de destilação aleatória em rede (RND) baseado em previsão que incentiva agentes de aprendizado reforçados a explorar o ambiente por curiosidade. Este método excedeu pela primeira vez a média de resultados humanos no jogo de computador "Montezuma's Revenge" (exceto o aplicativo anônimo no ICLR, onde o resultado é pior que o nosso). O RND demonstra eficiência ultramoderna, encontra periodicamente todas as 24 salas e passa o primeiro nível sem demonstração preliminar e sem acesso ao estado básico do jogo.

O método RND estimula a transição de um agente para estados desconhecidos, medindo a complexidade de prever o resultado da sobreposição de uma rede neural aleatória aleatória nos dados do estado. Se a condição não for familiar, é difícil prever o resultado final, o que significa que a recompensa é alta. O método pode ser aplicado a qualquer algoritmo de aprendizado por reforço; é simples de implementar e eficaz para o dimensionamento. Abaixo está um link para a implementação do RND, que reproduz os resultados de nosso artigo.

Texto de um artigo científico , código

Resultados na vingança de Montezuma

Para atingir o objetivo desejado, o agente deve primeiro estudar quais ações são possíveis no ambiente e o que constitui progresso em direção ao objetivo. Muitos sinais de recompensa nos jogos fornecem um currículo, portanto, mesmo estratégias simples de pesquisa são suficientes para atingir a meta. No trabalho inicial com a apresentação do DQN, o jogo Revenge de Montezuma foi o único jogo em que o DQN mostrou o resultado de 0% da pontuação média humana (4700) . É improvável que estratégias simples de inteligência colecionem recompensas e não encontrem mais do que algumas salas no nível. Desde então, o progresso no jogo A Vingança de Montezuma tem sido visto por muitos como sinônimo de avanços no estudo de ambientes desconhecidos.

Progresso significativo foi alcançado em 2016 combinando o DQN com um bônus no balcão, como resultado, o agente conseguiu encontrar 15 quartos e obter a pontuação mais alta de 6600 com uma média de cerca de 3700. Desde então, melhorias significativas no resultado foram alcançadas apenas através de demonstrações de pessoas especializadas ou acessando os estados de base do emulador .

Realizamos um experimento de RND em larga escala com 1024 trabalhadores, obtendo um resultado médio de 10.000 ao longo de 9 partidas e um melhor resultado médio de 14.500 . Em cada caso, o agente encontrou de 20 a 22 quartos. Além disso, em um lançamento menor, mas mais longo (de 10), o resultado máximo é 17.500, o que corresponde a passar no primeiro nível e encontrar todas as 24 salas . O gráfico abaixo compara essas duas experiências, mostrando o valor médio, dependendo dos parâmetros de atualização.

A visualização abaixo mostra o progresso do experimento em uma escala menor. O agente, sob a influência da curiosidade, abre novas salas e encontra maneiras de marcar pontos. Durante o treinamento, essa recompensa externa o obriga a retornar a essas salas mais tarde.

As salas descobertas pelo agente e o resultado médio durante o treinamento. O grau de transparência da sala corresponde a quantas vezes em cada 10 passagens do agente foram detectadas. Vídeo

Estudo de aprendizagem em larga escala baseado na curiosidade

Antes de desenvolver o RND, nós, juntamente com a equipe da Universidade da Califórnia em Berkeley, exploramos o aprendizado sem nenhuma recompensa ambiental. A curiosidade fornece uma maneira mais fácil de ensinar os agentes a interagir com qualquer ambiente, em vez de usar uma função de recompensa especialmente projetada para uma tarefa específica, que ainda não é um fato que corresponde à solução do problema. Em projetos como ALE , Universe , Malmo , Gym , Gym Retro , Unity , DeepMind Lab , CommAI , um grande número de ambientes simulados é aberto para o agente por meio de uma interface padronizada. Um agente que usa uma função de recompensa generalizada que não é específica para um ambiente específico pode adquirir um nível básico de competência em uma ampla variedade de ambientes. Isso permite que ele determine um comportamento útil, mesmo na ausência de recompensas elaboradas.

Texto de um artigo científico , código

Em ambientes de treinamento padrão, com reforço a cada passo discreto, o agente envia a ação ao ambiente e reage, dando ao agente uma nova observação, recompensa pela transição e um indicador do final do episódio. Em nosso artigo anterior, configuramos o ambiente para produzir apenas a seguinte observação. Lá, o agente estuda o modelo preditivo do próximo estado com base em sua experiência e usa o erro de previsão como recompensa interna. Como resultado, ele é atraído pela imprevisibilidade. Por exemplo, uma alteração na conta do jogo é recompensada apenas se a conta for exibida na tela e a alteração for difícil de prever. Um agente, via de regra, encontra interações úteis com novos objetos, pois os resultados dessas interações geralmente são mais difíceis de prever do que outros aspectos do ambiente.

Como outros pesquisadores , tentamos evitar modelar todos os aspectos do ambiente, independentemente de serem relevantes ou não, escolhendo os recursos de observação para modelagem. Surpreendentemente, descobrimos que mesmo funções aleatórias funcionam bem.

O que os agentes curiosos fazem?

Testamos nosso agente em mais de 50 ambientes diferentes e observamos uma série de competências, desde ações aparentemente aleatórias até interação consciente com o ambiente. Para nossa surpresa, em alguns casos, o agente conseguiu passar pelo jogo, apesar de não ter sido informado do gol por meio de uma recompensa externa.

Remuneração interna no início do treinamento

O salto na recompensa interna na primeira passagem do nível

Breakout - salta na recompensa interna quando o agente vê uma nova configuração de blocos em um estágio inicial do treinamento e quando o nível passa pela primeira vez após o treinamento por várias horas.

Pong - treinamos o agente para controlar as duas plataformas simultaneamente e ele aprendeu a manter a bola no jogo, o que levou a lutas prolongadas. Mesmo durante o treinamento contra a IA no jogo, o agente tentou maximizar o jogo, e não vencer.

Boliche - o agente aprendeu a jogar melhor do que outros agentes treinados diretamente para maximizar a recompensa externa. Achamos que isso acontece porque o agente é atraído pelo piscar dificilmente previsível do placar após os lances.

Mario - A recompensa interna está particularmente bem alinhada com o objetivo do jogo: progressão de nível. O agente é recompensado por procurar novas áreas, pois os detalhes da área recém-encontrada não podem ser previstos. Como resultado, o agente descobriu 11 níveis, encontrou salas secretas e até mesmo chefes derrotados.

Problema de TV barulhento

Como jogador de uma máquina caça-níqueis, atraído por resultados aleatórios, o agente às vezes cai na armadilha de sua curiosidade como resultado do "barulhento problema de TV". O agente encontra uma fonte de aleatoriedade no ambiente e continua a observá-la, sempre experimentando uma alta recompensa interna por essas transições. Um exemplo dessa armadilha é assistir a uma televisão que produz ruído estático. Demonstramos isso literalmente, colocando o agente no labirinto do Unity com uma TV que reproduz canais aleatórios.

Agente em um labirinto com uma TV barulhenta

Agente em um labirinto sem uma TV barulhenta

Teoricamente, o problema de uma TV barulhenta é realmente sério, mas ainda esperávamos que em muitos ambientes determinísticos como a Vingança de Montezuma, a curiosidade levasse o agente a encontrar salas e interagir com objetos. Tentamos várias opções para prever o próximo estado com base na curiosidade, combinando um bônus de pesquisa com uma conta de jogo.

Nesses experimentos, o agente controla o ambiente através de um controlador de ruído, que com alguma probabilidade repete a última ação em vez da atual. Essa configuração com ações repetitivas e "aderentes" foi proposta como uma prática recomendada para treinar agentes em jogos totalmente determinísticos, como o Atari, para impedir a memorização. Ações "aderentes" tornam a transição de sala em sala imprevisível.

Destilação de rede aleatória

Como prever o próximo estado é inerentemente suscetível ao problema de uma TV barulhenta, identificamos as seguintes fontes relevantes de erros de previsão:

Fator 1 . O erro de previsão é alto se o preditor falhar na generalização dos exemplos considerados anteriormente. Nova experiência corresponde a um erro de previsão alto.
Fator 2 . O erro de previsão é alto devido à meta de previsão estocástica.
Fator 3 . O erro de previsão é alto devido à falta de informações necessárias para a previsão ou porque a classe do modelo de previsão é muito limitada para atender à complexidade da função objetivo.

Determinamos que o fator 1 é uma fonte útil de erros porque quantifica a novidade da experiência, enquanto os fatores 2 e 3 levam ao problema de uma TV barulhenta. Para evitar os fatores 2 e 3, desenvolvemos o RND - um novo bônus de pesquisa baseado na previsão da entrega de uma rede neural constante e inicializada aleatoriamente no próximo estado, levando em consideração o próximo estado em si .

A intuição sugere que os modelos preditivos apresentam um baixo erro ao prever as condições em que ela foi treinada. Em particular, as previsões do agente sobre a emissão de uma rede neural inicializada aleatoriamente serão menos precisas nos novos estados do que nos estados que o agente costumava conhecer antes. A vantagem de usar o problema de previsão sintética é que ele pode ser determinístico (fator de desvio 2) e, dentro da classe de funções, o preditor pode escolher um preditor da mesma arquitetura da rede de destino (fator de desvio 3). Isso elimina o problema de RND de uma TV barulhenta.

Combinamos o bônus de pesquisa com recompensas externas por meio de uma variante da otimização de política mais próxima - Proximal Policy Optimization ( PPO ), que usa dois valores de valor para dois fluxos de recompensa . Isso permite que você use descontos diferentes para recompensas diferentes e combine recompensas episódicas e não episódicas. Devido a essa flexibilidade adicional, nosso melhor agente geralmente encontra 22 de 24 quartos no primeiro nível na Vingança de Montezuma e às vezes passa no primeiro nível depois de encontrar os dois quartos restantes. O mesmo método demonstra desempenho recorde nos jogos Venture e Gravitar.

A visualização abaixo mostra um gráfico da recompensa interna no episódio de Vingança de Montezuma, onde o agente encontra a tocha pela primeira vez.

A implementação competente é importante

Para selecionar um bom algoritmo, é importante considerar considerações gerais, como a suscetibilidade ao problema de uma TV com ruído. No entanto, descobrimos que mudanças aparentemente muito pequenas em nosso algoritmo simples afetam bastante sua eficácia: de um agente que não pode sair da primeira sala a um agente que passa pelo primeiro nível. Para adicionar estabilidade ao treinamento, evitamos a saturação de características e trouxemos recompensas internas para um intervalo previsível. Também observamos melhorias significativas na eficácia do RND toda vez que encontramos e corrigimos um bug (o nosso favorito incluía zerar aleatoriamente a matriz, o que levou ao fato de que as recompensas externas eram consideradas não episódicas; só percebemos isso depois de pensar na função de valor externo , que parecia suspeitosamente periódico). A correção desses detalhes tornou-se uma parte importante da obtenção de alto desempenho, mesmo ao usar algoritmos conceitualmente semelhantes ao trabalho anterior. Essa é uma das razões pelas quais é melhor escolher algoritmos simples sempre que possível.

Trabalho futuro

Oferecemos as seguintes áreas para pesquisas adicionais:

Análise das vantagens dos diferentes métodos de pesquisa e busca de novas formas de combiná-los.
Treinar um agente curioso em muitos ambientes diferentes sem recompensas e aprender a transferir para um ambiente de destino com recompensas.
Inteligência global, incluindo soluções coordenadas a longo prazo.

Uma nova realização de curiosidade em IA. Treinar com uma recompensa que depende da dificuldade de prever o resultado