Die KI, die versucht, Probleme zu vermeiden, lernte komplexes Verhalten


Reinforcement Learning nutzt hĂ€ufig Neugier als Motivation fĂŒr KI. Ihn zwingen, neue Empfindungen zu suchen und die Welt zu erforschen. Aber das Leben ist voller unangenehmer Überraschungen. Sie können von einer Klippe fallen und aus der Sicht der Neugier wird es immer sehr neue und interessante Empfindungen sein. Aber offensichtlich nicht das, wonach man streben soll.


Die Entwickler aus Berkeley stellten die Aufgabe fĂŒr den virtuellen Agenten auf den Kopf: Nicht die Neugier machte die Hauptmotivation aus, sondern der Wunsch, Neuheiten auf alle FĂ€lle zu vermeiden. Aber "nichts tun" war schwieriger als es sich anhört. In einer sich stĂ€ndig verĂ€ndernden Umgebung musste die KI komplexes Verhalten lernen, um neue Empfindungen zu vermeiden.


Reinforcement Learning unternimmt zaghafte Schritte, um eine starke KI aufzubauen. Und wĂ€hrend alles auf sehr geringe Dimensionen beschrĂ€nkt ist, erscheinen buchstĂ€blich die Einheiten, in denen der virtuelle Agent (vorzugsweise vernĂŒnftigerweise) agieren muss, von Zeit zu Zeit neue Ideen, wie das Training der kĂŒnstlichen Intelligenz verbessert werden kann.


Aber nicht nur Lernalgorithmen sind kompliziert. Die Umwelt wird auch schwieriger. Die meisten BestÀrkungslernumgebungen sind sehr einfach und motivieren den Agenten, die Welt zu erkunden. Es kann ein Labyrinth sein, das vollstÀndig umgangen werden muss, um einen Ausweg zu finden, oder ein Computerspiel, das bis zum Ende abgeschlossen sein muss.


Aber auf lange Sicht streben Lebewesen (vernĂŒnftig und nicht so) nicht nur danach, die Welt um sie herum zu erkunden. Aber auch, um all das Gute zu bewahren, das in ihrem kurzen (oder nicht so kurzen) Leben steckt.


Dies wird Homöostase genannt - der Wunsch des Körpers, einen konstanten Zustand aufrechtzuerhalten. In der einen oder anderen Form ist dies allen Lebewesen gemeinsam. Entwickler aus Berkeley geben ein so merkwĂŒrdiges Beispiel: Alle Errungenschaften der Menschheit sollen im Großen und Ganzen vor unangenehmen Überraschungen schĂŒtzen. Zum Schutz vor einer immer grĂ¶ĂŸer werdenden Entropie der Umwelt. Wir bauen HĂ€user, in denen wir eine konstante Temperatur aufrechterhalten, die vor WetterĂ€nderungen geschĂŒtzt ist. Wir benutzen Medizin, um stĂ€ndig gesund zu sein und so weiter.


Man kann damit streiten, aber in dieser Analogie steckt wirklich etwas.


Die Jungs stellten die Frage: Was passiert, wenn die Hauptmotivation fĂŒr die KI darin besteht, Neuheiten zu vermeiden? Minimieren Sie mit anderen Worten das Chaos als objektive Lernfunktion.


Und sie haben den Agenten in eine sich stÀndig verÀndernde gefÀhrliche Welt gebracht.




Die Ergebnisse waren interessant. In vielen FĂ€llen hat ein solches Lernen das lehrplanbasierte Lernen ĂŒbertroffen und kommt dem Lernen mit einem Lehrer in Bezug auf die QualitĂ€t meistens nahe. Das heißt, zu spezialisiertem Training, um ein bestimmtes Ziel zu erreichen - um das Spiel zu gewinnen, gehe durch das Labyrinth.


Das ist natĂŒrlich logisch, denn wenn Sie auf einer einstĂŒrzenden BrĂŒcke stehen, mĂŒssen Sie sich stĂ€ndig von der Kante entfernen, um weiterhin auf ihr zu stehen (um die Konstanz aufrechtzuerhalten und neue SturzgefĂŒhle zu vermeiden). Lauf mit aller Kraft davon, um still zu stehen, wie Alice sagte.



TatsÀchlich gibt es in jedem Algorithmus zum Lernen der VerstÀrkung einen solchen Moment. Weil der Tod im Spiel und das schnelle Ende der Episode mit einer negativen Belohnung bestraft werden. Oder, abhÀngig vom Algorithmus, indem Sie die maximale Belohnung reduzieren, die ein Agent erhalten könnte, wenn er nicht kontinuierlich von der Klippe fÀllt.



Aber in einem solchen Umfeld, in dem die KI keine anderen Ziele verfolgt als den Wunsch, Neuheiten zu vermeiden, scheint es, als wĂŒrde sie zum ersten Mal beim verstĂ€rkten Lernen eingesetzt.


Interessanterweise lernte der virtuelle Agent mit dieser Motivation, viele Spiele zu spielen, die ein Ziel haben, um zu gewinnen. Zum Beispiel Tetris.



Oder die Umgebung von Doom, in der Sie fliegenden FeuerbĂ€llen ausweichen und auf sich nĂ€hernde Gegner schießen mĂŒssen. Weil viele Aufgaben als Aufgaben zur Aufrechterhaltung der Konstanz formuliert werden können. FĂŒr Tetris ist dies der Wunsch, das Feld leer zu halten. FĂŒllt sich der Bildschirm stĂ€ndig? Oh je, was wird passieren, wenn es bis zum Ende gefĂŒllt ist? Nein, nein, wir brauchen kein solches GlĂŒck. Zu viel Schock.


Von der technischen Seite ist es ganz einfach angeordnet. Wenn ein Agent einen neuen Status erhĂ€lt, bewertet er, wie vertraut dieser Status ist. Das heißt, wie viel der neue Staat in der Verteilung des Staates enthalten ist, den er zuvor besucht hat. Der Agent wird umso vertrauter, je höher die Belohnung ist. Und die Aufgabe der Lernpolitik (all das sind die Begriffe aus dem Reinforcement Learning, wenn jemand sie nicht kennt) besteht darin, Maßnahmen zu wĂ€hlen, die zum Übergang in den vertrautesten Zustand fĂŒhren wĂŒrden. Außerdem wird jeder neue Status verwendet, um die Statistiken bekannter Status zu aktualisieren, mit denen neue Status verglichen werden.


Interessanterweise lernte ich im Verlauf der KI spontan zu verstehen, dass neue ZustÀnde das beeinflussen, was als Neuheit angesehen wird. Und dass Sie vertraute ZustÀnde auf zwei Arten erreichen können: entweder in einen bereits bekannten Zustand. Oder gehen Sie in einen Zustand, der das Konzept der Persistenz / Vertrautheit der Umgebung aktualisiert , und der Agent wird in einem neuen, durch seine Handlungen gebildeten, vertrauten Zustand sein.


Dies zwingt den Agenten, komplexe koordinierte Aktionen durchzufĂŒhren, wenn auch nur, um nichts im Leben zu tun.


Paradoxerweise fĂŒhrt dies zu einem Analogon der Neugierde des gewöhnlichen Lernens und zwingt den Agenten, die Welt um ihn herum zu erkunden. Plötzlich gibt es irgendwo einen Ort, der noch sicherer ist als hier und jetzt? Dort können Sie sich vollkommen der Faulheit hingeben und absolut nichts tun, um Probleme und neue Empfindungen zu vermeiden. Es wĂ€re keine Übertreibung zu sagen, dass solche Gedanken wahrscheinlich jedem von uns einfielen. Und fĂŒr viele ist dies eine echte treibende Kraft im Leben. Obwohl im wirklichen Leben keiner von uns damit zu tun hatte, dass Tetris bis zum Rand aufgefĂŒllt wurde, war dies natĂŒrlich nicht der Fall.


Um ehrlich zu sein, ist dies eine komplizierte Geschichte. Aber die Praxis zeigt, dass es funktioniert. Die Forscher verglichen diesen Algorithmus mit den neugierigsten Vertretern: ICM und RND . Der erste ist ein wirksamer Mechanismus der Neugier, der beim Lernen mit VerstĂ€rkung bereits zum Klassiker geworden ist. Der Agent strebt nicht einfach nach neuen ungewohnten und damit interessanten ZustĂ€nden. Die Unbekanntheit der Situation in solchen Algorithmen wird dadurch abgeschĂ€tzt, ob der Agent sie vorhersagen kann (in den frĂŒheren gab es buchstĂ€blich ZĂ€hler fĂŒr besuchte ZustĂ€nde, aber jetzt ist alles auf die integrale SchĂ€tzung hinausgegangen, die das neuronale Netzwerk liefert). Aber in diesem Fall hĂ€tten die sich bewegenden BlĂ€tter auf den BĂ€umen oder das weiße Rauschen im Fernsehen fĂŒr einen solchen Agenten eine unendliche Neuheit und ein unendliches GefĂŒhl der Neugierde hervorgerufen. Weil er niemals alle möglichen neuen ZustĂ€nde in einer völlig zufĂ€lligen Umgebung vorhersagen kann.


Daher sucht ein Agent in ICM nur nach den neuen ZustĂ€nden, die er mit seinen Aktionen beeinflussen kann. Kann AI weißes Rauschen im Fernsehen beeinflussen? Nein. So uninteressant. Und kann es den Ball beeinflussen, wenn Sie ihn bewegen? Ja Es ist also interessant, mit dem Ball zu spielen. Dazu verwendet ICM eine sehr coole Idee mit dem Inverse Model, mit dem das Forward Model verglichen wird. Weitere Details in der Originalarbeit .


RND ist eine neuere Entwicklung des Neugiermechanismus. Was in der Praxis ICM ĂŒbertroffen hat. Kurz gesagt, das neuronale Netzwerk versucht, die Ausgaben eines anderen neuronalen Netzwerks vorherzusagen, das durch zufĂ€llige Gewichte initiiert wird und sich nie Ă€ndert. Es wird angenommen, dass das aktuelle neuronale Netzwerk umso hĂ€ufiger in der Lage ist, zufĂ€llig initiierte Ausgaben vorherzusagen, je vertrauter die Situation ist (die dem Eingang beider neuronaler Netze zugefĂŒhrt wird, aktuell und zufĂ€llig initiiert). Ich weiß nicht, wer das alles erfindet. Einerseits möchte ich einer solchen Person die Hand geben und andererseits einen Kick fĂŒr solche Verzerrungen geben.


Aber auf die eine oder andere Art und Weise und mit dem Gedanken der Aufrechterhaltung der Homöostase und dem Versuch, Neuheiten zu vermeiden, wurde in der Praxis in vielen FÀllen ein besseres Endergebnis erzielt als mit einem Lehrplan, der auf ICN oder RND basiert. Was spiegelt sich in den Grafiken wider?



Hier muss jedoch klargestellt werden, dass dies nur fĂŒr die Umgebungen gilt, die die Forscher in ihrer Arbeit verwendet haben. Sie sind gefĂ€hrlich, zufĂ€llig, laut und mit zunehmender Entropie. Es kann wirklich rentabler sein, nichts in ihnen zu tun. Und nur gelegentlich bewegt es sich aktiv, wenn ein Feuerball in Ihnen fliegt oder die BrĂŒcke hinter Ihnen zusammenbricht. Forscher aus Berkeley bestehen jedoch offenbar aufgrund ihrer schwierigen Lebenserfahrung darauf, dass solche Umgebungen dem komplexen wirklichen Leben viel nĂ€her kommen als bisher im VerstĂ€rkungstraining. Nun, ich weiß es nicht, ich weiß es nicht. In meinem Leben werden FeuerbĂ€lle von Monstern, die in mich hineinfliegen, und unbewohnte Labyrinthe mit einem einzigen Ausgang mit ungefĂ€hr der gleichen HĂ€ufigkeit gefunden. Es ist jedoch nicht zu leugnen, dass der vorgeschlagene Ansatz trotz seiner Einfachheit erstaunliche Ergebnisse erbracht hat. Vielleicht sollten in Zukunft beide AnsĂ€tze sinnvoll kombiniert werden - Homöostase mit Erhalt der langfristigen positiven Konstanz und Neugier fĂŒr aktuelle Umweltstudien.


Link zur Originalarbeit

Source: https://habr.com/ru/post/de481484/


All Articles