Fortschritte im Spiel "Montezumas Rache" wurden von vielen als Synonym für Erfolge bei der Erforschung unbekannter Umgebungen angesehen

Wir haben eine prädiktive RND-Methode (Random Network Distillation) entwickelt, die verstärkte Lernagenten dazu ermutigt, die Umwelt durch Neugierde zu erkunden. Diese Methode übertraf zum ersten Mal die durchschnittlichen menschlichen Ergebnisse im Computerspiel "Montezumas Rache" (mit Ausnahme der anonymen Anwendung im ICLR, bei der das Ergebnis schlechter ist als bei uns). RND demonstriert hochmoderne Effizienz, findet regelmäßig alle 24 Räume und passiert das erste Level ohne vorläufige Demonstration und ohne Zugang zum Grundzustand des Spiels.

Die RND-Methode stimuliert den Übergang eines Agenten in unbekannte Zustände, indem die Komplexität der Vorhersage des Ergebnisses der Überlagerung eines zufälligen zufälligen neuronalen Netzwerks mit Zustandsdaten gemessen wird. Wenn der Zustand unbekannt ist, ist das Endergebnis schwer vorherzusagen, was bedeutet, dass die Belohnung hoch ist. Die Methode kann auf jeden Verstärkungslernalgorithmus angewendet werden, ist einfach zu implementieren und für die Skalierung effektiv. Unten finden Sie einen Link zur Implementierung von RND, der die Ergebnisse unseres Artikels wiedergibt.

Text eines wissenschaftlichen Artikels , Code

Ergebnisse in Montezumas Rache

Um das gewünschte Ziel zu erreichen, muss der Agent zunächst untersuchen, welche Aktionen in der Umgebung möglich sind und was den Fortschritt in Richtung des Ziels ausmacht. Viele Belohnungssignale in Spielen bieten einen Lehrplan, sodass bereits einfache Forschungsstrategien ausreichen, um das Ziel zu erreichen. In der ersten Arbeit mit der DQN-Präsentation war Montezumas Revenge das einzige Spiel, in dem DQN das Ergebnis von 0% der durchschnittlichen menschlichen Punktzahl (4700) zeigte . Es ist unwahrscheinlich, dass einfache Intelligenzstrategien Belohnungen sammeln und nicht mehr als ein paar Räume auf dem Level finden. Seitdem wurde der Fortschritt im Spiel Montezumas Rache von vielen als Synonym für Fortschritte bei der Erforschung unbekannter Umgebungen angesehen.

Signifikante Fortschritte wurden 2016 erzielt, indem DQN mit einem Bonus auf dem Schalter kombiniert wurde. Dadurch gelang es dem Agenten, 15 Zimmer zu finden und die höchste Punktzahl von 6600 mit einem Durchschnitt von etwa 3700 zu erzielen. Seitdem werden signifikante Verbesserungen des Ergebnisses nur durch Demonstrationen von Experten oder Experten erzielt durch Zugriff auf die Basiszustände des Emulators .

Wir haben ein groß angelegtes RND-Experiment mit 1024 Arbeitern durchgeführt, wobei ein Durchschnittsergebnis von 10.000 über 9 Starts und ein bestes Durchschnittsergebnis von 14.500 erzielt wurden . In jedem Fall fand der Agent 20-22 Zimmer. Darüber hinaus beträgt das maximale Ergebnis bei einem kleineren, aber längeren Start (von 10) 17.500, was dem Bestehen der ersten Ebene und dem Auffinden aller 24 Räume entspricht . Die folgende Grafik vergleicht diese beiden Experimente und zeigt den Durchschnittswert in Abhängigkeit von den Aktualisierungsparametern.

Die folgende Visualisierung zeigt den Fortschritt des Experiments in kleinerem Maßstab. Der Agent öffnet unter dem Einfluss der Neugier neue Räume und findet Wege, um Punkte zu sammeln. Während des Trainings zwingt ihn diese externe Belohnung, später in diese Räume zurückzukehren.

Die vom Agenten entdeckten Räume und das durchschnittliche Ergebnis während des Trainings. Der Transparenzgrad des Raums entspricht, wie oft von 10 Durchgängen des Agenten es erkannt wurde. Video

Neugierdebasierte groß angelegte Lernstudie

Vor der Entwicklung von RND haben wir zusammen mit Mitarbeitern der University of California in Berkeley das Lernen ohne Umweltbelohnungen untersucht. Neugier bietet eine einfachere Möglichkeit, Agenten die Interaktion mit jeder Umgebung beizubringen, als eine speziell entwickelte Belohnungsfunktion für eine bestimmte Aufgabe zu verwenden, die noch nicht der Lösung des Problems entspricht. In Projekten wie ALE , Universum , Malmö , Fitnessstudio , Fitnessstudio Retro , Unity , DeepMind Lab , CommAI wird eine große Anzahl simulierter Umgebungen für den Agenten über eine standardisierte Schnittstelle geöffnet. Ein Agent, der eine allgemeine Belohnungsfunktion verwendet, die nicht für eine bestimmte Umgebung spezifisch ist, kann in einer Vielzahl von Umgebungen ein grundlegendes Kompetenzniveau erwerben. Dies ermöglicht es ihm, nützliches Verhalten auch ohne aufwändige Belohnungen zu bestimmen.

Text eines wissenschaftlichen Artikels , Code

In Standardtrainingseinstellungen mit Verstärkung zu jedem einzelnen Zeitschritt sendet der Agent die Aktion an die Umgebung und reagiert, wobei er dem Agenten eine neue Beobachtung, eine Belohnung für den Übergang und einen Indikator für das Ende der Episode gibt. In unserem vorherigen Artikel haben wir die Umgebung so eingerichtet , dass nur die folgende Beobachtung erzeugt wird. Dort untersucht der Agent anhand seiner Erfahrung das Prädiktormodell des nächsten Zustands und verwendet den Vorhersagefehler als interne Belohnung. Infolgedessen ist er von Unvorhersehbarkeit angezogen. Beispielsweise wird eine Änderung des Spielkontos nur belohnt, wenn das Konto auf dem Bildschirm angezeigt wird und die Änderung schwer vorherzusagen ist. Ein Agent findet in der Regel nützliche Interaktionen mit neuen Objekten, da die Ergebnisse solcher Interaktionen normalerweise schwieriger vorherzusagen sind als andere Aspekte der Umgebung.

Wie andere Forscher haben wir versucht, die Modellierung aller Aspekte der Umgebung zu vermeiden, unabhängig davon, ob sie relevant sind oder nicht, und die Beobachtungsmerkmale für die Modellierung ausgewählt. Überraschenderweise haben wir festgestellt, dass auch zufällige Funktionen gut funktionieren.

Was machen neugierige Agenten?

Wir haben unseren Agenten in mehr als 50 verschiedenen Umgebungen getestet und eine Reihe von Kompetenzen beobachtet, von scheinbar zufälligen Aktionen bis hin zu bewusster Interaktion mit der Umgebung. Zu unserer Überraschung gelang es dem Agenten in einigen Fällen, durch das Spiel zu kommen, obwohl er nicht durch eine externe Belohnung über das Tor informiert wurde.

Interne Vergütung zu Beginn der Ausbildung

Der Sprung in die interne Belohnung beim ersten Durchgang des Levels

Breakout - Springt in die interne Belohnung ein, wenn der Agent in einem frühen Stadium des Trainings eine neue Konfiguration von Blöcken sieht und wenn das Level nach mehreren Stunden Training zum ersten Mal bestanden wird.

Pong - Wir haben den Agenten geschult, beide Plattformen gleichzeitig zu steuern, und er hat gelernt, den Ball im Spiel zu halten, was zu langwierigen Kämpfen führte. Selbst beim Training gegen KI im Spiel versuchte der Agent, das Spiel zu maximieren und nicht zu gewinnen.

Bowling - Der Agent hat gelernt, das Spiel besser zu spielen als andere Agenten, die direkt geschult wurden, um die externe Belohnung zu maximieren. Wir glauben, dass dies passiert, weil der Agent von dem kaum vorhersehbaren Blinken der Anzeigetafel nach den Würfen angezogen wird.

Mario - Die interne Belohnung passt besonders gut zum Ziel des Spiels: Levelfortschritt. Der Agent wird für die Suche nach neuen Bereichen belohnt, da die Details des neu gefundenen Bereichs nicht vorhergesagt werden können. Infolgedessen entdeckte der Agent 11 Levels, fand geheime Räume und besiegte sogar Bosse.

Lautes TV-Problem

Als Spieler an einem Spielautomaten, der von zufälligen Ergebnissen angezogen wird, gerät der Agent aufgrund des „lauten TV-Problems“ manchmal in die Falle seiner Neugier. Der Agent findet eine Quelle der Zufälligkeit in der Umgebung und beobachtet sie weiterhin, wobei er für solche Übergänge immer eine hohe interne Belohnung erhält. Ein Beispiel für eine solche Falle ist das Fernsehen, das statisches Rauschen erzeugt. Wir demonstrieren dies buchstäblich, indem wir den Agenten mit einem Fernseher, der zufällige Kanäle wiedergibt, in das Unity-Labyrinth stellen.

Agent in einem Labyrinth mit einem lauten Fernseher

Agent in einem Labyrinth ohne lauten Fernseher

Theoretisch ist das Problem eines lauten Fernsehgeräts sehr ernst, aber wir haben dennoch erwartet, dass in vielen deterministischen Umgebungen wie Montezumas Rache die Neugier den Agenten dazu veranlassen würde, Räume zu finden und mit Objekten zu interagieren. Wir haben verschiedene Optionen ausprobiert, um den nächsten Zustand basierend auf Neugier vorherzusagen, indem wir einen Forschungsbonus mit einem Spielkonto kombiniert haben.

In diesen Experimenten steuert der Agent die Umgebung über einen Geräuschregler, der mit einiger Wahrscheinlichkeit die letzte Aktion anstelle der aktuellen Aktion wiederholt. Diese Einstellung mit wiederholbaren „klebrigen“ Aktionen wurde als bewährte Methode für Trainingsagenten in vollständig deterministischen Spielen wie Atari vorgeschlagen, um das Auswendiglernen zu verhindern. "Sticky" -Aktionen machen den Übergang von Raum zu Raum unvorhersehbar.

Zufällige Netzdestillation

Da die Vorhersage des nächsten Zustands von Natur aus anfällig für das Problem eines verrauschten Fernsehgeräts ist, haben wir die folgenden relevanten Ursachen für Vorhersagefehler identifiziert:

Faktor 1 . Der Prognosefehler ist hoch, wenn der Prädiktor die zuvor betrachteten Beispiele nicht verallgemeinert. Neue Erfahrungen entsprechen einem hohen Vorhersagefehler.
Faktor 2 . Der Prognosefehler ist aufgrund des stochastischen Prognoseziels hoch.
Faktor 3 . Der Prognosefehler ist hoch, weil keine Informationen für die Prognose erforderlich sind oder weil die Klasse des Prädiktormodells zu begrenzt ist, um der Komplexität der Zielfunktion zu entsprechen.

Wir haben festgestellt, dass Faktor 1 eine nützliche Fehlerquelle ist, da er die Neuheit der Erfahrung quantifiziert, während die Faktoren 2 und 3 zum Problem eines lauten Fernsehgeräts führen. Um die Faktoren 2 und 3 zu vermeiden, haben wir RND entwickelt - einen neuen Forschungsbonus, der auf der Vorhersage der Ausgabe eines konstanten und zufällig initialisierten neuronalen Netzwerks im nächsten Zustand basiert und den folgenden Zustand selbst berücksichtigt .

Die Intuition legt nahe, dass Vorhersagemodelle einen geringen Fehler bei der Vorhersage der Bedingungen aufweisen, unter denen sie trainiert wurde. Insbesondere sind die Vorhersagen des Agenten über die Ausgabe eines zufällig initialisierten neuronalen Netzwerks in den neuen Zuständen weniger genau als in den Zuständen, die der Agent zuvor häufig getroffen hat. Der Vorteil der Verwendung des synthetischen Prognoseproblems besteht darin, dass es deterministisch sein kann (Faktor 2 umgehen) und der Prädiktor innerhalb der Funktionsklasse einen Prädiktor mit derselben Architektur wie das Zielnetzwerk auswählen kann (Faktor 3 umgehen). Dies beseitigt das RND-Problem eines lauten Fernsehgeräts.

Wir haben den Forschungsbonus mit externen Belohnungen durch eine Variante der engsten Richtlinienoptimierung kombiniert - Proximal Policy Optimization ( PPO ), bei der zwei Wertwerte für zwei Belohnungsflüsse verwendet werden . Auf diese Weise können Sie unterschiedliche Rabatte für unterschiedliche Belohnungen verwenden und episodische und nicht-episodische Belohnungen kombinieren. Aufgrund dieser zusätzlichen Flexibilität findet unser bester Agent häufig 22 von 24 Zimmern auf der ersten Ebene in Montezumas Rache und passiert manchmal die erste Ebene, nachdem er die verbleibenden zwei Zimmer gefunden hat. Die gleiche Methode demonstriert die Rekordleistung in Venture- und Gravitar-Spielen.

Die folgende Visualisierung zeigt eine grafische Darstellung der internen Belohnung in der Episode "Montezumas Rache", in der der Agent zuerst die Fackel findet.

Eine kompetente Umsetzung ist wichtig

Um einen guten Algorithmus auszuwählen, ist es wichtig, allgemeine Überlegungen zu berücksichtigen, z. B. die Anfälligkeit für das Problem eines lauten Fernsehgeräts. Wir haben jedoch festgestellt, dass scheinbar sehr kleine Änderungen an unserem einfachen Algorithmus seine Effektivität stark beeinflussen: von einem Agenten, der den ersten Raum nicht verlassen kann, zu einem Agenten, der die erste Ebene durchläuft. Um dem Training Stabilität zu verleihen, haben wir die Sättigung von Merkmalen vermieden und interne Belohnungen auf einen vorhersehbaren Bereich gebracht. Wir haben auch jedes Mal, wenn wir einen Fehler gefunden und behoben haben, signifikante Verbesserungen in der Effektivität von RND festgestellt (unser Favorit war das zufällige Nullstellen des Arrays, was dazu führte, dass externe Belohnungen als nicht episodisch angesehen wurden; wir haben dies erst erkannt, nachdem wir über die externe Wertefunktion nachgedacht hatten , die verdächtig periodisch aussah). Das Korrigieren dieser Details ist zu einem wichtigen Bestandteil der Erzielung einer hohen Leistung geworden, selbst wenn Algorithmen verwendet werden, die konzeptionell denen früherer Arbeiten ähneln. Dies ist einer der Gründe, warum es am besten ist, wenn immer möglich, einfache Algorithmen zu wählen.

Zukünftige Arbeit

Wir bieten folgende Bereiche für die weitere Forschung an:

Analyse der Vorteile verschiedener Forschungsmethoden und Suche nach neuen Kombinationsmöglichkeiten.
Trainieren Sie einen neugierigen Agenten in vielen verschiedenen Umgebungen ohne Belohnungen und lernen Sie, mit Belohnungen in eine Zielumgebung zu wechseln.
Globale Intelligenz, einschließlich koordinierter Lösungen über lange Zeiträume.

Eine neue Erkenntnis der Neugier in der KI. Training mit einer Belohnung, die von der Schwierigkeit abhängt, das Ergebnis vorherzusagen