Eine neue Erkenntnis der Neugier in der KI. Training mit einer Belohnung, die von der Schwierigkeit abhÀngt, das Ergebnis vorherzusagen


Fortschritte im Spiel "Montezumas Rache" wurden von vielen als Synonym fĂŒr Erfolge bei der Erforschung unbekannter Umgebungen angesehen

Wir haben eine prĂ€diktive RND-Methode (Random Network Distillation) entwickelt, die verstĂ€rkte Lernagenten dazu ermutigt, die Umwelt durch Neugierde zu erkunden. Diese Methode ĂŒbertraf zum ersten Mal die durchschnittlichen menschlichen Ergebnisse im Computerspiel "Montezumas Rache" (mit Ausnahme der anonymen Anwendung im ICLR, bei der das Ergebnis schlechter ist als bei uns). RND demonstriert hochmoderne Effizienz, findet regelmĂ€ĂŸig alle 24 RĂ€ume und passiert das erste Level ohne vorlĂ€ufige Demonstration und ohne Zugang zum Grundzustand des Spiels.

Die RND-Methode stimuliert den Übergang eines Agenten in unbekannte ZustĂ€nde, indem die KomplexitĂ€t der Vorhersage des Ergebnisses der Überlagerung eines zufĂ€lligen zufĂ€lligen neuronalen Netzwerks mit Zustandsdaten gemessen wird. Wenn der Zustand unbekannt ist, ist das Endergebnis schwer vorherzusagen, was bedeutet, dass die Belohnung hoch ist. Die Methode kann auf jeden VerstĂ€rkungslernalgorithmus angewendet werden, ist einfach zu implementieren und fĂŒr die Skalierung effektiv. Unten finden Sie einen Link zur Implementierung von RND, der die Ergebnisse unseres Artikels wiedergibt.

Text eines wissenschaftlichen Artikels , Code



Ergebnisse in Montezumas Rache


Um das gewĂŒnschte Ziel zu erreichen, muss der Agent zunĂ€chst untersuchen, welche Aktionen in der Umgebung möglich sind und was den Fortschritt in Richtung des Ziels ausmacht. Viele Belohnungssignale in Spielen bieten einen Lehrplan, sodass bereits einfache Forschungsstrategien ausreichen, um das Ziel zu erreichen. In der ersten Arbeit mit der DQN-PrĂ€sentation war Montezumas Revenge das einzige Spiel, in dem DQN das Ergebnis von 0% der durchschnittlichen menschlichen Punktzahl (4700) zeigte . Es ist unwahrscheinlich, dass einfache Intelligenzstrategien Belohnungen sammeln und nicht mehr als ein paar RĂ€ume auf dem Level finden. Seitdem wurde der Fortschritt im Spiel Montezumas Rache von vielen als Synonym fĂŒr Fortschritte bei der Erforschung unbekannter Umgebungen angesehen.

Signifikante Fortschritte wurden 2016 erzielt, indem DQN mit einem Bonus auf dem Schalter kombiniert wurde. Dadurch gelang es dem Agenten, 15 Zimmer zu finden und die höchste Punktzahl von 6600 mit einem Durchschnitt von etwa 3700 zu erzielen. Seitdem werden signifikante Verbesserungen des Ergebnisses nur durch Demonstrationen von Experten oder Experten erzielt durch Zugriff auf die BasiszustÀnde des Emulators .

Wir haben ein groß angelegtes RND-Experiment mit 1024 Arbeitern durchgefĂŒhrt, wobei ein Durchschnittsergebnis von 10.000 ĂŒber 9 Starts und ein bestes Durchschnittsergebnis von 14.500 erzielt wurden . In jedem Fall fand der Agent 20-22 Zimmer. DarĂŒber hinaus betrĂ€gt das maximale Ergebnis bei einem kleineren, aber lĂ€ngeren Start (von 10) 17.500, was dem Bestehen der ersten Ebene und dem Auffinden aller 24 RĂ€ume entspricht . Die folgende Grafik vergleicht diese beiden Experimente und zeigt den Durchschnittswert in AbhĂ€ngigkeit von den Aktualisierungsparametern.



Die folgende Visualisierung zeigt den Fortschritt des Experiments in kleinerem Maßstab. Der Agent öffnet unter dem Einfluss der Neugier neue RĂ€ume und findet Wege, um Punkte zu sammeln. WĂ€hrend des Trainings zwingt ihn diese externe Belohnung, spĂ€ter in diese RĂ€ume zurĂŒckzukehren.


Die vom Agenten entdeckten RÀume und das durchschnittliche Ergebnis wÀhrend des Trainings. Der Transparenzgrad des Raums entspricht, wie oft von 10 DurchgÀngen des Agenten es erkannt wurde. Video

Neugierdebasierte groß angelegte Lernstudie


Vor der Entwicklung von RND haben wir zusammen mit Mitarbeitern der University of California in Berkeley das Lernen ohne Umweltbelohnungen untersucht. Neugier bietet eine einfachere Möglichkeit, Agenten die Interaktion mit jeder Umgebung beizubringen, als eine speziell entwickelte Belohnungsfunktion fĂŒr eine bestimmte Aufgabe zu verwenden, die noch nicht der Lösung des Problems entspricht. In Projekten wie ALE , Universum , Malmö , Fitnessstudio , Fitnessstudio Retro , Unity , DeepMind Lab , CommAI wird eine große Anzahl simulierter Umgebungen fĂŒr den Agenten ĂŒber eine standardisierte Schnittstelle geöffnet. Ein Agent, der eine allgemeine Belohnungsfunktion verwendet, die nicht fĂŒr eine bestimmte Umgebung spezifisch ist, kann in einer Vielzahl von Umgebungen ein grundlegendes Kompetenzniveau erwerben. Dies ermöglicht es ihm, nĂŒtzliches Verhalten auch ohne aufwĂ€ndige Belohnungen zu bestimmen.

Text eines wissenschaftlichen Artikels , Code

In Standardtrainingseinstellungen mit VerstĂ€rkung zu jedem einzelnen Zeitschritt sendet der Agent die Aktion an die Umgebung und reagiert, wobei er dem Agenten eine neue Beobachtung, eine Belohnung fĂŒr den Übergang und einen Indikator fĂŒr das Ende der Episode gibt. In unserem vorherigen Artikel haben wir die Umgebung so eingerichtet , dass nur die folgende Beobachtung erzeugt wird. Dort untersucht der Agent anhand seiner Erfahrung das PrĂ€diktormodell des nĂ€chsten Zustands und verwendet den Vorhersagefehler als interne Belohnung. Infolgedessen ist er von Unvorhersehbarkeit angezogen. Beispielsweise wird eine Änderung des Spielkontos nur belohnt, wenn das Konto auf dem Bildschirm angezeigt wird und die Änderung schwer vorherzusagen ist. Ein Agent findet in der Regel nĂŒtzliche Interaktionen mit neuen Objekten, da die Ergebnisse solcher Interaktionen normalerweise schwieriger vorherzusagen sind als andere Aspekte der Umgebung.

Wie andere Forscher haben wir versucht, die Modellierung aller Aspekte der Umgebung zu vermeiden, unabhĂ€ngig davon, ob sie relevant sind oder nicht, und die Beobachtungsmerkmale fĂŒr die Modellierung ausgewĂ€hlt. Überraschenderweise haben wir festgestellt, dass auch zufĂ€llige Funktionen gut funktionieren.

Was machen neugierige Agenten?


Wir haben unseren Agenten in mehr als 50 verschiedenen Umgebungen getestet und eine Reihe von Kompetenzen beobachtet, von scheinbar zufĂ€lligen Aktionen bis hin zu bewusster Interaktion mit der Umgebung. Zu unserer Überraschung gelang es dem Agenten in einigen FĂ€llen, durch das Spiel zu kommen, obwohl er nicht durch eine externe Belohnung ĂŒber das Tor informiert wurde.

Interne VergĂŒtung zu Beginn der Ausbildung

Der Sprung in die interne Belohnung beim ersten Durchgang des Levels

Breakout - Springt in die interne Belohnung ein, wenn der Agent in einem frĂŒhen Stadium des Trainings eine neue Konfiguration von Blöcken sieht und wenn das Level nach mehreren Stunden Training zum ersten Mal bestanden wird.


Pong - Wir haben den Agenten geschult, beide Plattformen gleichzeitig zu steuern, und er hat gelernt, den Ball im Spiel zu halten, was zu langwierigen KĂ€mpfen fĂŒhrte. Selbst beim Training gegen KI im Spiel versuchte der Agent, das Spiel zu maximieren und nicht zu gewinnen.

Bowling - Der Agent hat gelernt, das Spiel besser zu spielen als andere Agenten, die direkt geschult wurden, um die externe Belohnung zu maximieren. Wir glauben, dass dies passiert, weil der Agent von dem kaum vorhersehbaren Blinken der Anzeigetafel nach den WĂŒrfen angezogen wird.


Mario - Die interne Belohnung passt besonders gut zum Ziel des Spiels: Levelfortschritt. Der Agent wird fĂŒr die Suche nach neuen Bereichen belohnt, da die Details des neu gefundenen Bereichs nicht vorhergesagt werden können. Infolgedessen entdeckte der Agent 11 Levels, fand geheime RĂ€ume und besiegte sogar Bosse.

Lautes TV-Problem


Als Spieler an einem Spielautomaten, der von zufĂ€lligen Ergebnissen angezogen wird, gerĂ€t der Agent aufgrund des „lauten TV-Problems“ manchmal in die Falle seiner Neugier. Der Agent findet eine Quelle der ZufĂ€lligkeit in der Umgebung und beobachtet sie weiterhin, wobei er fĂŒr solche ÜbergĂ€nge immer eine hohe interne Belohnung erhĂ€lt. Ein Beispiel fĂŒr eine solche Falle ist das Fernsehen, das statisches Rauschen erzeugt. Wir demonstrieren dies buchstĂ€blich, indem wir den Agenten mit einem Fernseher, der zufĂ€llige KanĂ€le wiedergibt, in das Unity-Labyrinth stellen.

Agent in einem Labyrinth mit einem lauten Fernseher

Agent in einem Labyrinth ohne lauten Fernseher

Theoretisch ist das Problem eines lauten FernsehgerĂ€ts sehr ernst, aber wir haben dennoch erwartet, dass in vielen deterministischen Umgebungen wie Montezumas Rache die Neugier den Agenten dazu veranlassen wĂŒrde, RĂ€ume zu finden und mit Objekten zu interagieren. Wir haben verschiedene Optionen ausprobiert, um den nĂ€chsten Zustand basierend auf Neugier vorherzusagen, indem wir einen Forschungsbonus mit einem Spielkonto kombiniert haben.






In diesen Experimenten steuert der Agent die Umgebung ĂŒber einen GerĂ€uschregler, der mit einiger Wahrscheinlichkeit die letzte Aktion anstelle der aktuellen Aktion wiederholt. Diese Einstellung mit wiederholbaren „klebrigen“ Aktionen wurde als bewĂ€hrte Methode fĂŒr Trainingsagenten in vollstĂ€ndig deterministischen Spielen wie Atari vorgeschlagen, um das Auswendiglernen zu verhindern. "Sticky" -Aktionen machen den Übergang von Raum zu Raum unvorhersehbar.

ZufÀllige Netzdestillation


Da die Vorhersage des nĂ€chsten Zustands von Natur aus anfĂ€llig fĂŒr das Problem eines verrauschten FernsehgerĂ€ts ist, haben wir die folgenden relevanten Ursachen fĂŒr Vorhersagefehler identifiziert:

  • Faktor 1 . Der Prognosefehler ist hoch, wenn der PrĂ€diktor die zuvor betrachteten Beispiele nicht verallgemeinert. Neue Erfahrungen entsprechen einem hohen Vorhersagefehler.
  • Faktor 2 . Der Prognosefehler ist aufgrund des stochastischen Prognoseziels hoch.
  • Faktor 3 . Der Prognosefehler ist hoch, weil keine Informationen fĂŒr die Prognose erforderlich sind oder weil die Klasse des PrĂ€diktormodells zu begrenzt ist, um der KomplexitĂ€t der Zielfunktion zu entsprechen.

Wir haben festgestellt, dass Faktor 1 eine nĂŒtzliche Fehlerquelle ist, da er die Neuheit der Erfahrung quantifiziert, wĂ€hrend die Faktoren 2 und 3 zum Problem eines lauten FernsehgerĂ€ts fĂŒhren. Um die Faktoren 2 und 3 zu vermeiden, haben wir RND entwickelt - einen neuen Forschungsbonus, der auf der Vorhersage der Ausgabe eines konstanten und zufĂ€llig initialisierten neuronalen Netzwerks im nĂ€chsten Zustand basiert und den folgenden Zustand selbst berĂŒcksichtigt .



Die Intuition legt nahe, dass Vorhersagemodelle einen geringen Fehler bei der Vorhersage der Bedingungen aufweisen, unter denen sie trainiert wurde. Insbesondere sind die Vorhersagen des Agenten ĂŒber die Ausgabe eines zufĂ€llig initialisierten neuronalen Netzwerks in den neuen ZustĂ€nden weniger genau als in den ZustĂ€nden, die der Agent zuvor hĂ€ufig getroffen hat. Der Vorteil der Verwendung des synthetischen Prognoseproblems besteht darin, dass es deterministisch sein kann (Faktor 2 umgehen) und der PrĂ€diktor innerhalb der Funktionsklasse einen PrĂ€diktor mit derselben Architektur wie das Zielnetzwerk auswĂ€hlen kann (Faktor 3 umgehen). Dies beseitigt das RND-Problem eines lauten FernsehgerĂ€ts.

Wir haben den Forschungsbonus mit externen Belohnungen durch eine Variante der engsten Richtlinienoptimierung kombiniert - Proximal Policy Optimization ( PPO ), bei der zwei Wertwerte fĂŒr zwei BelohnungsflĂŒsse verwendet werden . Auf diese Weise können Sie unterschiedliche Rabatte fĂŒr unterschiedliche Belohnungen verwenden und episodische und nicht-episodische Belohnungen kombinieren. Aufgrund dieser zusĂ€tzlichen FlexibilitĂ€t findet unser bester Agent hĂ€ufig 22 von 24 Zimmern auf der ersten Ebene in Montezumas Rache und passiert manchmal die erste Ebene, nachdem er die verbleibenden zwei Zimmer gefunden hat. Die gleiche Methode demonstriert die Rekordleistung in Venture- und Gravitar-Spielen.


Die folgende Visualisierung zeigt eine grafische Darstellung der internen Belohnung in der Episode "Montezumas Rache", in der der Agent zuerst die Fackel findet.



Eine kompetente Umsetzung ist wichtig


Um einen guten Algorithmus auszuwĂ€hlen, ist es wichtig, allgemeine Überlegungen zu berĂŒcksichtigen, z. B. die AnfĂ€lligkeit fĂŒr das Problem eines lauten FernsehgerĂ€ts. Wir haben jedoch festgestellt, dass scheinbar sehr kleine Änderungen an unserem einfachen Algorithmus seine EffektivitĂ€t stark beeinflussen: von einem Agenten, der den ersten Raum nicht verlassen kann, zu einem Agenten, der die erste Ebene durchlĂ€uft. Um dem Training StabilitĂ€t zu verleihen, haben wir die SĂ€ttigung von Merkmalen vermieden und interne Belohnungen auf einen vorhersehbaren Bereich gebracht. Wir haben auch jedes Mal, wenn wir einen Fehler gefunden und behoben haben, signifikante Verbesserungen in der EffektivitĂ€t von RND festgestellt (unser Favorit war das zufĂ€llige Nullstellen des Arrays, was dazu fĂŒhrte, dass externe Belohnungen als nicht episodisch angesehen wurden; wir haben dies erst erkannt, nachdem wir ĂŒber die externe Wertefunktion nachgedacht hatten , die verdĂ€chtig periodisch aussah). Das Korrigieren dieser Details ist zu einem wichtigen Bestandteil der Erzielung einer hohen Leistung geworden, selbst wenn Algorithmen verwendet werden, die konzeptionell denen frĂŒherer Arbeiten Ă€hneln. Dies ist einer der GrĂŒnde, warum es am besten ist, wenn immer möglich, einfache Algorithmen zu wĂ€hlen.

ZukĂŒnftige Arbeit


Wir bieten folgende Bereiche fĂŒr die weitere Forschung an:

  • Analyse der Vorteile verschiedener Forschungsmethoden und Suche nach neuen Kombinationsmöglichkeiten.
  • Trainieren Sie einen neugierigen Agenten in vielen verschiedenen Umgebungen ohne Belohnungen und lernen Sie, mit Belohnungen in eine Zielumgebung zu wechseln.
  • Globale Intelligenz, einschließlich koordinierter Lösungen ĂŒber lange ZeitrĂ€ume.

Source: https://habr.com/ru/post/de428776/


All Articles