Hallo Habr!
Wir beschließen selten, hier vor zwei Jahren Übersetzungen von Texten ohne Code und mit klarem akademischen Fokus zu veröffentlichen - aber heute werden wir eine Ausnahme machen. Wir hoffen, dass das Dilemma im Titel des Artikels für viele unserer Leser von Belang ist und dass Sie das Originalwerk bereits gelesen haben oder das grundlegende Werk zu Evolutionsstrategien lesen werden, mit denen dieser Beitrag polemisiert wird. Willkommen bei Katze!

Im März 2017 sorgte OpenAI mit der Veröffentlichung des Artikels „
Evolutionsstrategien als skalierbare Alternative zum verstärkten Lernen “ für Aufsehen in der Deep-Learning-Community. In dieser Arbeit wurden beeindruckende Ergebnisse zugunsten der Tatsache beschrieben, dass das Licht im Training mit Verstärkung (RL) nicht konvergierte, und es ist ratsam, beim Training komplexer neuronaler Netze andere Methoden auszuprobieren. Dann entstand eine Diskussion darüber, wie wichtig verstärktes Lernen ist und wie sehr es den Status einer „obligatorischen“ Technologie beim Lernen zur Lösung von Problemen verdient. Hier möchte ich darüber sprechen, dass Sie diese beiden Technologien nicht als konkurrierend betrachten sollten, von denen eine eindeutig besser ist als die andere. im Gegenteil, sie ergänzen sich letztendlich. Wenn Sie ein wenig darüber nachdenken, was erforderlich ist, um eine
gemeinsame KI und solche Systeme zu schaffen, die während ihrer gesamten Existenz lernen, beurteilen und planen können, werden wir mit ziemlicher Sicherheit zu dem Schluss kommen, dass diese oder jene kombinierte Lösung erforderlich sein wird . Übrigens war es die Natur, die zu der kombinierten Entscheidung kam, die während der Evolution mit der komplexen Intelligenz von Säugetieren und anderen höheren Tieren ausgestattet war.
Evolutionsstrategien
Die Hauptthese des OpenAI-Artikels war, dass sie anstelle des verstärkten Lernens in Kombination mit traditioneller Backpropagation das neuronale Netzwerk erfolgreich trainierten, um komplexe Probleme mithilfe der sogenannten „Evolutionsstrategie“ (ES) zu lösen. Ein solcher ES-Ansatz besteht darin, die Verteilung der Gewichtswerte auf einer Netzwerkskala aufrechtzuerhalten, wobei viele Agenten parallel arbeiten und aus dieser Verteilung ausgewählte Parameter verwenden. Jeder Agent arbeitet in seiner eigenen Umgebung. Nach Abschluss einer bestimmten Anzahl von Episoden oder Phasen einer Episode gibt der Algorithmus eine Gesamtbelohnung zurück, die als Fitness-Score ausgedrückt wird. Angesichts dieses Wertes kann die Verteilung der Parameter auf erfolgreichere Agenten verschoben werden, wodurch weniger erfolgreiche beraubt werden. Millionen Mal, wenn eine solche Operation mit Hunderten von Agenten wiederholt wird, ist es möglich, die Verteilung von Gewichten in einen Bereich zu verschieben, der es uns ermöglicht, eine Qualitätsrichtlinie für Agenten zu formulieren, um ihre Aufgabe zu lösen. In der Tat sind die in diesem Artikel vorgestellten Ergebnisse beeindruckend: Wenn Sie tausend Agenten parallel ausführen, kann die anthropomorphe Bewegung auf zwei Beinen in weniger als einer halben Stunde untersucht werden (während selbst die fortschrittlichsten RL-Methoden mehr als eine Stunde benötigen). Für eine detailliertere Übersicht empfehle ich, einen ausgezeichneten
Beitrag der Autoren des Experiments sowie den
wissenschaftlichen Artikel selbst zu lesen.
Verschiedene Lernstrategien für eine anthropomorphe aufrechte Haltung, die mit der ES-Methode von OpenAI untersucht wurden.Black Box
Der große Vorteil dieser Methode ist, dass sie leicht zu parallelisieren ist. Während RL-Methoden, beispielsweise A3C, den Informationsaustausch zwischen Workflows und dem Parameterserver erfordern, benötigt ES nur Gültigkeitsschätzungen und allgemeine Informationen zur Verteilung von Parametern. Dank dieser Einfachheit umgeht diese Methode moderne RL-Methoden in Bezug auf die Skalierbarkeit. All dies ist jedoch nicht umsonst: Sie müssen das Netzwerk nach dem Prinzip einer Black Box optimieren. In diesem Fall bedeutet die „Black Box“, dass während des Trainings die interne Struktur des Netzwerks vollständig ignoriert wird und nur das Gesamtergebnis (Belohnung für die Episode) verwendet wird. Dies hängt davon ab, ob die Gewichte eines bestimmten Netzwerks von zukünftigen Generationen vererbt werden. In Situationen, in denen wir kein ausgeprägtes Feedback von der Umgebung erhalten - und bei der Lösung vieler traditioneller RL-Aufgaben ist der Belohnungsfluss sehr selten -, wandelt sich das Problem von einer „teilweise Black Box“ zu einer „vollständig Black Box“. In diesem Fall ist es möglich, die Produktivität ernsthaft zu steigern, daher ist ein solcher Kompromiss natürlich gerechtfertigt. "Wer braucht Farbverläufe, wenn sie noch hoffnungslos laut sind?" - Dies ist die allgemeine Meinung.
In Situationen, in denen das Feedback aktiver ist, beginnen ES-Angelegenheiten jedoch schief zu laufen. Das OpenAI-Team beschreibt, wie das einfache Klassifizierungsnetzwerk MNIST mit ES trainiert wurde, und diesmal war das Training 1000-mal langsamer. Tatsache ist, dass das Gradientensignal bei der Klassifizierung von Bildern äußerst informativ ist, wie dem Netzwerk eine bessere Klassifizierung beigebracht werden kann. Daher hängt das Problem weniger mit der RL-Technik als vielmehr mit spärlichen Belohnungen in Umgebungen zusammen, die verrauschte Gradienten erzeugen.
Lösung von Natur aus gefunden
Wenn Sie versuchen, aus dem Beispiel der Natur zu lernen und über Möglichkeiten zur Entwicklung der KI nachzudenken, kann KI in einigen Fällen als
problemorientierter Ansatz dargestellt werden . Letztendlich arbeitet die Natur innerhalb solcher Grenzen, die Informatiker einfach nicht haben. Es besteht die Meinung, dass ein rein theoretischer Ansatz zur Lösung eines bestimmten Problems effektivere Lösungen liefern kann als empirische Alternativen. Dennoch denke ich immer noch, dass es ratsam wäre zu überprüfen, wie ein dynamisches System, das unter Bedingungen bestimmter Einschränkungen (Erde) arbeitet, Wirkstoffe (Tiere, insbesondere Säugetiere) bildet, die zu flexiblem und komplexem Verhalten fähig sind. Während einige dieser Einschränkungen in den simulierten Welten der Datenwissenschaft nicht anwendbar sind, sind andere nur sehr gut.
Nachdem wir das intellektuelle Verhalten von Säugetieren untersucht haben, sehen wir, dass es als Ergebnis des komplexen Zusammenspiels zweier eng miteinander verbundener Prozesse entsteht:
Lernen aus der Erfahrung anderer und
Lernen aus unserer eigenen Erfahrung . Die erste wird oft aufgrund der natürlichen Selektion mit der Evolution identifiziert, aber hier verwende ich einen breiteren Begriff, um Epigenetik, Mikrobiome und andere Mechanismen zu berücksichtigen, die den Erfahrungsaustausch zwischen Organismen gewährleisten, die nicht genetisch miteinander verwandt sind. Der zweite Prozess, das Lernen aus erster Hand, sind alle Informationen, die ein Tier im Laufe seines Lebens aufnehmen kann, und diese Informationen stehen in direktem Zusammenhang mit der Interaktion dieses Tieres mit der Außenwelt. Diese Kategorie umfasst alles vom Lernen, Objekte zu erkennen, bis hin zur Beherrschung der Kommunikation, die dem Bildungsprozess innewohnt.
Grob gesagt können diese beiden in der Natur auftretenden Prozesse mit zwei Optionen zur Optimierung neuronaler Netze verglichen werden. Evolutionsstrategien, bei denen Gradienteninformationen verwendet werden, um Informationen über den Körper zu aktualisieren, kommen dem Lernen aus den Erfahrungen anderer nahe. In ähnlicher Weise sind Gradientenmethoden, bei denen der Empfang einer bestimmten Erfahrung zu der einen oder anderen Änderung des Verhaltens des Agenten führt, vergleichbar mit dem Lernen aus Erfahrung. Wenn Sie über die Vielfalt des intellektuellen Verhaltens oder über die Fähigkeiten nachdenken, die jeder dieser beiden Ansätze bei Tieren entwickelt, ist ein solcher Vergleich ausgeprägter. In beiden Fällen tragen „evolutionäre Methoden“ zur Untersuchung reaktiver Verhaltensweisen bei, die die Entwicklung einer bestimmten Fitness ermöglichen (ausreichend, um am Leben zu bleiben). Das Erlernen des Gehens oder der Flucht aus der Gefangenschaft entspricht in vielen Fällen einem eher „instinktiven“ Verhalten, das bei vielen Tieren auf genetischer Ebene „fest verdrahtet“ ist. Darüber hinaus bestätigt dieses Beispiel, dass evolutionäre Methoden in Fällen anwendbar sind, in denen eine Signalbelohnung äußerst selten ist (wie zum Beispiel die Tatsache einer erfolgreichen Aufzucht eines Jungen). In einem solchen Fall ist es unmöglich, die Belohnung mit einer bestimmten Reihe von Maßnahmen zu korrelieren, die möglicherweise viele Jahre vor dem Einsetzen dieser Tatsache begangen wurden. Wenn wir andererseits den Fall betrachten, in dem ES versagt, nämlich die Klassifizierung von Bildern, dann sind die Ergebnisse bemerkenswert vergleichbar mit den Ergebnissen des Tiertrainings, die während unzähliger verhaltenspsychologischer Experimente erzielt wurden, die über mehr als hundert Jahre durchgeführt wurden.
Tiertraining
Die Methoden des verstärkten Lernens stammen in vielen Fällen direkt aus der psychologischen Literatur zur
operanten Konditionierung , und die operante Konditionierung wurde auf der Grundlage der Tierpsychologie untersucht. Richard Sutton, einer der beiden Gründer des Verstärkungstrainings, hat übrigens einen Bachelor-Abschluss in Psychologie. Im Kontext der operanten Konditionierung lernen Tiere, Belohnung oder Bestrafung mit bestimmten Verhaltensmustern zu assoziieren. Trainer und Forscher können eine solche Assoziation irgendwie mit Belohnungen manipulieren und Tiere dazu bringen, Einfallsreichtum oder bestimmte Verhaltensweisen zu zeigen. Die bei der Untersuchung von Tieren verwendete operative Konditionierung ist jedoch nichts anderes als eine ausgeprägtere Form dieser Konditionierung, auf deren Grundlage Tiere während des gesamten Lebens trainiert werden. Wir erhalten ständig positive Verstärkungssignale aus der Umwelt und passen unser Verhalten entsprechend an. Tatsächlich glauben viele Neurophysiologen und Kognitionswissenschaftler, dass Menschen und andere Tiere sogar eine Ebene höher agieren und ständig lernen, die Ergebnisse ihres Verhaltens in zukünftigen Situationen vorherzusagen, wobei sie auf potenzielle Belohnungen zählen.
Die zentrale Rolle der Prognose im Selbststudium besteht darin, die oben beschriebene Dynamik in höchstem Maße zu verändern. Das Signal, das zuvor als sehr verdünnt angesehen wurde (episodische Belohnung), ist sehr dicht. Theoretisch ist die Situation ungefähr so: Zu jedem Zeitpunkt berechnet das Gehirn von Säugetieren die Ergebnisse basierend auf einem komplexen Strom sensorischer Reize und Handlungen, während das Tier einfach in diesen Strom eingetaucht wird. In diesem Fall gibt das endgültige Verhalten des Tieres ein dichtes Signal, das von der Korrektur der Vorhersagen und der Entwicklung des Verhaltens geleitet werden muss. Das Gehirn nutzt all diese Signale, um Prognosen (und dementsprechend die Qualität der ergriffenen Maßnahmen) für die Zukunft zu optimieren. Einen Überblick über diesen Ansatz gibt das ausgezeichnete Buch „
Surfing Uncertainty “ des Kognitionswissenschaftlers und Philosophen Andy Clark. Wenn solche Überlegungen auf das Training künstlicher Wirkstoffe hochgerechnet werden, zeigt das Verstärkungstraining einen grundlegenden Fehler: Das in diesem Paradigma verwendete Signal ist hoffnungslos schwach im Vergleich zu dem, was es sein könnte (oder sollte). In Fällen, in denen es unmöglich ist, die Signalsättigung zu erhöhen (möglicherweise weil sie per Definition schwach ist oder mit einer geringen Reaktivität verbunden ist), ist es wahrscheinlich besser, eine gut parallelisierte Trainingsmethode zu bevorzugen, z. B. ES.
Besseres Lernen neuronaler Netze
Basierend auf den Prinzipien einer höheren Nervenaktivität, die dem Gehirn von Säugetieren innewohnt, das ständig mit Prognosen beschäftigt ist, konnten in letzter Zeit bestimmte Erfolge beim Verstärkungstraining erzielt werden, wobei nun die Bedeutung solcher Prognosen berücksichtigt wird. Ich kann Ihnen zwei ähnliche Werke empfehlen:
In beiden Artikeln ergänzen die Autoren die typischen Standardrichtlinien für neuronale Netze mit Prognoseergebnissen hinsichtlich zukünftiger Umgebungsbedingungen. Im ersten Artikel wird die Prognose auf eine Vielzahl von Messvariablen angewendet, im zweiten auf Änderungen in der Umgebung und im Verhalten des Agenten als solchem. In beiden Fällen wird das mit einer positiven Verstärkung verbundene spärliche Signal viel gesättigter und informativer, was sowohl ein beschleunigtes Lernen als auch die Assimilation komplexerer Verhaltensmodelle ermöglicht. Solche Verbesserungen sind nur verfügbar, wenn mit Methoden gearbeitet wird, die das Gradientensignal verwenden, nicht jedoch mit Methoden, die nach dem Prinzip der "Black Box" arbeiten, wie beispielsweise ES.
Darüber hinaus sind Lern- und Gradientenmethoden aus erster Hand viel effektiver. Selbst in den Fällen, in denen es möglich war, ein bestimmtes Problem mit der ES-Methode zu untersuchen, anstatt ein Verstärkungstraining zu verwenden, wurde der Gewinn dadurch erzielt, dass viel mehr Daten in die ES-Strategie einbezogen wurden als mit RL. Wenn wir in diesem Fall über die Prinzipien des Tiertrainings nachdenken, stellen wir fest, dass sich das Ergebnis des Trainings an einem fremden Beispiel nach vielen Generationen manifestiert, während manchmal ein einziges Ereignis, das durch die eigene Erfahrung erlebt wird, ausreicht, damit das Tier die Lektion für immer lernen kann. Ein solches
Training ohne Beispiele passt zwar noch nicht vollständig in herkömmliche Gradientenmethoden, ist jedoch viel verständlicher als ES. Es gibt zum Beispiel Ansätze wie die
episodische neuronale Steuerung , bei denen Q-Werte während des Trainingsprozesses gespeichert werden, wonach das Programm mit ihnen überprüft wird, bevor Aktionen ausgeführt werden. Es stellt sich eine Gradientenmethode heraus, mit der Sie lernen können, Probleme viel schneller als zuvor zu lösen. In dem Artikel über die episodische neuronale Kontrolle erwähnen die Autoren den menschlichen Hippocampus, der auch nach einer einmal erlebten Erfahrung Informationen über das Ereignis speichern kann und daher eine
entscheidende Rolle im Rückrufprozess spielt. Solche Mechanismen erfordern den Zugriff auf die interne Organisation des Agenten, was im ES-Paradigma per Definition ebenfalls unmöglich ist.
Warum also nicht kombinieren?
Wahrscheinlich hätte der größte Teil dieses Artikels den Eindruck hinterlassen können, dass ich darin RL-Methoden befürworte. Tatsächlich glaube ich jedoch, dass auf lange Sicht die beste Lösung eine Kombination beider Methoden wäre, so dass jede in den Situationen verwendet wird, in denen sie am besten geeignet ist. Offensichtlich gewinnt ES bei vielen reaktiven Richtlinien oder in Situationen mit sehr spärlichen Signalen positiver Verstärkung, insbesondere wenn Sie über die Rechenleistung verfügen, mit der Sie massenparalleles Training durchführen können. Auf der anderen Seite sind Gradientenmethoden mit verstärktem Lernen oder Lehrerausbildung nützlich, wenn uns ein umfassendes Feedback zur Verfügung steht und die Lösung des Problems schnell und mit weniger Daten erlernt werden muss.
Wenn wir uns der Natur zuwenden, stellen wir fest, dass die erste Methode im Wesentlichen den Grundstein für die zweite legt. Aus diesem Grund haben Säugetiere während der Evolution ein Gehirn entwickelt, das ein äußerst effizientes Lernen aus dem Material komplexer Signale aus der Umwelt ermöglicht. Die Frage bleibt also offen. Vielleicht helfen uns evolutionäre Strategien dabei, effektive Lernarchitekturen zu erfinden, die für Gradientenlernmethoden nützlich sind. Schließlich ist die von der Natur gefundene Lösung in der Tat sehr erfolgreich.