Les progrès dans le jeu "Montezuma's Revenge" ont été considérés par beaucoup comme un synonyme de réalisations dans l'étude des environnements inconnusNous avons développé une méthode de distillation en réseau aléatoire (RND) basée sur la prédiction qui encourage les agents d'apprentissage renforcés à explorer l'environnement par curiosité. Cette méthode a pour la première fois dépassé les résultats humains moyens dans le jeu informatique
"Montezuma Revenge" (sauf pour l'
application anonyme de l'ICLR, où le résultat est pire que le nôtre).
RND fait preuve d'une efficacité ultramoderne, trouve périodiquement les 24 chambres et passe le premier niveau sans démonstration préalable et sans accès à l'état de base du jeu.La méthode RND stimule la transition d'un agent vers des états inconnus en mesurant la complexité de prédire le résultat de la superposition d'un réseau neuronal aléatoire aléatoire sur des données d'état. Si la condition n'est pas familière, le résultat final est difficile à prévoir, ce qui signifie que la récompense est élevée. La méthode peut être appliquée à n'importe quel algorithme d'apprentissage par renforcement; elle est simple à mettre en œuvre et efficace pour la mise à l'échelle. Vous trouverez ci-dessous un lien vers la mise en œuvre de RND, qui reproduit les résultats de notre article.
Texte d'un article scientifique , code
Résultats dans Montezuma’s Revenge
Pour atteindre l'objectif souhaité, l'agent doit d'abord étudier quelles actions sont possibles dans l'environnement et ce qui constitue un progrès vers l'objectif. De nombreux signaux de récompense dans les jeux fournissent un programme, donc même des stratégies de recherche simples suffisent pour atteindre l'objectif. Dans le
travail initial avec la présentation de DQN , Montezuma’s Revenge était le
seul jeu où DQN montrait le résultat de 0% du score humain moyen (4700) . Il est peu probable que les stratégies d'intelligence simples collectent des récompenses et ne trouvent pas plus de quelques pièces au niveau. Depuis lors, les progrès dans le jeu Montezuma's Revenge ont été considérés par beaucoup comme synonymes d'avancées dans l'étude d'un environnement inconnu.
Des progrès significatifs ont été réalisés en
2016 en combinant DQN avec un bonus sur le comptoir, ce qui a permis à l'agent de trouver 15 chambres et d'obtenir le score le plus élevé de 6600 avec une moyenne d'environ 3700. Depuis lors,
des améliorations significatives du résultat n'ont été obtenues que grâce à des
démonstrations d'
experts ou en accédant aux états de base de l'
émulateur .
Nous avons mené une expérience RND à grande échelle avec 1024 travailleurs, obtenant un
résultat moyen de 10 000 sur 9 démarrages et un
meilleur résultat moyen de 14 500 . Dans chaque cas, l'agent a trouvé 20 à 22 chambres. De plus, dans un lancement plus petit mais plus long (sur 10), le
résultat maximum est de 17 500, ce qui correspond à passer le premier niveau et à trouver les 24 chambres . Le graphique ci-dessous compare ces deux expériences, montrant la valeur moyenne en fonction des paramètres de mise à jour.

La visualisation ci-dessous montre la progression de l'expérience à plus petite échelle. L'agent, sous l'influence de la curiosité, ouvre de nouvelles salles et trouve des moyens de marquer des points.Au cours de l'entraînement, cette récompense externe l'oblige à y retourner plus tard.
Les pièces découvertes par l'agent et le résultat moyen lors de la formation. Le degré de transparence de la pièce correspond au nombre de fois sur 10 passages de l'agent détecté. VidéoAvant de développer RND, nous, avec le personnel de l'Université de Californie à Berkeley, avons exploré l'apprentissage sans aucune récompense environnementale. La curiosité offre un moyen plus simple d'apprendre aux agents à interagir avec
n'importe quel environnement, plutôt que d'utiliser une fonction de récompense spécialement conçue pour une tâche spécifique, ce qui n'est pas encore un fait qui correspond à la solution du problème. Dans des projets comme
ALE ,
Universe ,
Malmo ,
Gym ,
Gym Retro ,
Unity ,
DeepMind Lab ,
CommAI , un grand nombre d'environnements simulés sont ouverts pour l'agent via une interface standardisée. Un agent utilisant une fonction de récompense généralisée qui n'est pas spécifique à un environnement particulier peut acquérir un niveau de compétence de base dans un large éventail d'environnements. Cela lui permet de déterminer un comportement utile même en l'absence de récompenses élaborées.
Texte d'un article scientifique , code
Dans les paramètres de formation standard avec renforcement à chaque pas de temps discret, l'agent envoie l'action à l'environnement, et il réagit, donnant à l'agent une nouvelle observation, une récompense pour la transition et un indicateur de la fin de l'épisode. Dans notre
article précédent, nous avons configuré l'environnement
pour produire uniquement l' observation suivante. Là, l'agent étudie le modèle de prédiction de l'état suivant sur la base de son expérience et utilise l'erreur de prédiction comme récompense interne. En conséquence, il est attiré par l'imprévisibilité. Par exemple, un changement de compte de jeu n'est récompensé que si le compte est affiché à l'écran et que le changement est difficile à prévoir. Un agent, en règle générale, trouve des interactions utiles avec de nouveaux objets, car les résultats de ces interactions sont généralement plus difficiles à prévoir que d'autres aspects de l'environnement.
Comme d'
autres chercheurs , nous avons essayé d'éviter de modéliser tous les aspects de l'environnement, qu'ils soient pertinents ou non, en choisissant les caractéristiques d'observation pour la modélisation. Étonnamment, nous avons constaté que même les fonctions aléatoires fonctionnent bien.
Que font les agents curieux?
Nous avons testé notre agent dans plus de 50 environnements différents et observé une gamme de compétences allant d'actions apparemment aléatoires à une interaction consciente avec l'environnement. À notre grande surprise, dans certains cas, l'agent a réussi à passer le match, bien qu'il n'ait pas été informé de l'objectif grâce à une récompense externe.
Rémunération interne en début de formation Le saut en récompense interne au premier passage du niveauBreakout - saute dans la récompense interne lorsque l'agent voit une nouvelle configuration de blocs à un stade précoce de la formation et lorsque le niveau passe pour la première fois après une formation de plusieurs heures.
Pong - nous avons formé l'agent à contrôler les deux plates-formes simultanément, et il a appris à garder le ballon dans le jeu, ce qui a entraîné des combats prolongés. Même lors de l'entraînement contre l'IA en jeu, l'agent a essayé de maximiser le jeu et de ne pas gagner.
Bowling - l'agent a appris à mieux jouer le jeu que les autres agents qui ont été formés directement pour maximiser la récompense externe. Nous pensons que cela se produit parce que l'agent est attiré par le clignotement à peine prévisible du tableau de bord après les lancers.
Mario - La récompense interne est particulièrement bien alignée avec l'objectif du jeu: progression de niveau. L'agent est récompensé pour la recherche de nouvelles zones, car les détails de la zone nouvellement trouvée ne peuvent pas être prédits. En conséquence, l'agent a découvert 11 niveaux, trouvé des salles secrètes et même vaincu des boss.
Problème de télévision bruyante
En tant que joueur sur une machine à sous, attiré par des résultats aléatoires, l'agent tombe parfois dans le piège de sa curiosité à cause du «problème de télévision bruyante». L'agent trouve une source de hasard dans l'environnement et continue de l'observer, subissant toujours une récompense interne élevée pour de telles transitions. Un exemple d'un tel piège consiste à regarder une télévision qui produit du bruit statique. Nous le démontrons littéralement en plaçant l'agent dans le labyrinthe Unity avec un téléviseur qui diffuse des chaînes au hasard.
Agent dans un labyrinthe avec une télévision bruyante Agent dans un labyrinthe sans télévision bruyanteThéoriquement, le problème d'une télévision bruyante est vraiment grave, mais nous nous attendions toujours à ce que dans des environnements déterministes comme la vengeance de Montezuma, la curiosité amène l'agent à trouver des pièces et à interagir avec des objets. Nous avons essayé plusieurs options pour prédire le prochain état en fonction de la curiosité, en combinant un bonus de recherche avec un compte de jeu.
Dans ces expériences, l'agent contrôle l'environnement via un contrôleur de bruit qui, avec une certaine probabilité, répète la dernière action au lieu de l'actuelle. Ce paramètre avec des actions répétitives «collantes» a été
proposé comme meilleure pratique pour former des agents à des jeux entièrement déterministes, comme Atari, pour éviter la mémorisation. Les actions «collantes» rendent la transition d'une pièce à l'autre imprévisible.
Distillation de réseau aléatoire
Étant donné que la prédiction de l'état suivant est intrinsèquement sensible au problème d'un téléviseur bruyant, nous avons identifié les sources pertinentes d'erreurs de prédiction suivantes:
- Facteur 1 . L'erreur de prévision est élevée si le prédicteur ne parvient pas à généraliser à partir des exemples précédemment considérés. Une nouvelle expérience correspond à une erreur de prédiction élevée.
- Facteur 2 . L'erreur de prévision est élevée en raison de l'objectif de prévision stochastique.
- Facteur 3 . L'erreur de prévision est élevée en raison du manque d'informations nécessaires à la prévision ou parce que la classe du modèle de prédiction est trop limitée pour s'adapter à la complexité de la fonction objectif.
Nous avons déterminé que le facteur 1 est une source d'erreurs utile car il quantifie la nouveauté de l'expérience, tandis que les facteurs 2 et 3 entraînent le problème d'une télévision bruyante. Pour éviter les facteurs 2 et 3, nous avons développé RND - un nouveau bonus de recherche basé sur la
prédiction de l'émission d'un réseau neuronal constant et initialisé au hasard dans l'état suivant, en tenant compte de l'état suivant lui-même .

L'intuition suggère que les modèles prédictifs ont une faible erreur dans la prévision des conditions dans lesquelles elle a été formée. En particulier, les prédictions de l'agent concernant l'émission d'un réseau de neurones initialisé au hasard seront moins précises dans les nouveaux états que dans les états que l'agent rencontrait souvent auparavant. L'avantage de l'utilisation du problème de prévision synthétique est qu'il peut être déterministe (contourner le facteur 2), et au sein de la classe de fonctions, le prédicteur peut choisir un prédicteur de la même architecture que le réseau cible (contourner le facteur 3). Cela élimine le problème RND d'un téléviseur bruyant.
Nous avons combiné le bonus de recherche avec des récompenses externes grâce à une forme d'optimisation de la politique la plus proche - l'optimisation de la politique
proximale (
PPO ), qui utilise
deux valeurs pour deux flux de récompense . Cela vous permet d'utiliser différentes remises pour différentes récompenses et de combiner des récompenses épisodiques et non épisodiques.
En raison de cette flexibilité supplémentaire, notre meilleur agent trouve souvent 22 des 24 chambres au premier niveau dans Montezuma’s Revenge, et passe parfois le premier niveau après avoir trouvé les deux chambres restantes. La même méthode démontre des performances record dans les jeux Venture et Gravitar.

La visualisation ci-dessous montre un graphique de la récompense interne dans l'épisode de la vengeance de Montezuma, où l'agent trouve d'abord la torche.

Une mise en œuvre compétente est importante
Pour sélectionner un bon algorithme, il est important de prendre en considération des considérations générales, telles que la sensibilité au problème d'un téléviseur bruyant. Cependant, nous avons constaté que des changements apparemment très faibles dans notre algorithme simple affectent considérablement son efficacité: d'un agent qui ne peut pas quitter la première pièce à un agent qui passe par le premier niveau. Pour ajouter de la stabilité à l'entraînement, nous avons évité la saturation des traits et apporté des récompenses internes à une plage prévisible. Nous avons également remarqué
des améliorations significatives de l'efficacité de RND chaque fois que nous trouvions et corrigions un bug (notre préféré incluait la mise à zéro aléatoire du tableau, ce qui conduisait au fait que les récompenses externes étaient considérées comme non épisodiques; nous l'avons réalisé uniquement après avoir pensé à la fonction de valeur externe , qui semblait étrangement périodique). La correction de ces détails est devenue une partie importante de la réalisation de hautes performances même lors de l'utilisation d'algorithmes conceptuellement similaires aux travaux précédents. C'est l'une des raisons pour lesquelles il est préférable de choisir des algorithmes simples dans la mesure du possible.
Travaux futurs
Nous proposons les domaines de recherche suivants:
- Analyse des avantages des différentes méthodes de recherche et recherche de nouvelles façons de les combiner.
- Former un agent curieux dans de nombreux environnements différents sans récompenses et apprendre à transférer dans un environnement cible avec des récompenses.
- Intelligence globale, y compris des solutions coordonnées à long terme.