
Gedankenexperiment
Stellen Sie sich vor, Sie sind in einem fremden Raum aufgewacht. Dies ist kein gemütliches Schlafzimmer, in dem Sie eingeschlafen sind, sondern eine schwach beleuchtete Zelle mit einem kühlen, feuchten Boden. Gebrochener Putz an den Wänden. Und der einzige Ein- und Ausgang ist angeblich eine massive Eisentür, die von innen mit einem Vorhängeschloss verschlossen ist. Etwas höher an der Wand befindet sich ein vergittertes Fenster, durch das etwas Licht fällt. Wenn Sie sich umgesehen hätten, wären Sie zu dem Schluss gekommen, dass Sie gefangen sind, das wäre völlig vernünftig. Es sieht schrecklich aus.
Aber wird es dich befriedigen? Wahrscheinlich nicht. Sie werden den Raum etwas genauer erkunden wollen, vielleicht das Vorhängeschloss ziehen, um seine Zuverlässigkeit zu testen. Oder möchten Sie die Festigkeit dieser verputzten Wände testen. Vielleicht ein paar harte Treffer und du machst ein Loch, durch das du raus kannst? Oder haben diese Gitter am Fenster so große Öffnungen, dass Sie herausklettern können? Die Interaktion mit der Umgebung liefert Ihnen viel mehr Informationen als die passive Beobachtung. Vision mag eine Hypothese sein, aber das Testen erfordert eine echte Interaktion mit der Umwelt.
Konzept der Konzepte
Inhalt und Schlussfolgerung sind Konzepte.
Hund ist auch ein Konzept. Sowie
Laufen ,
Wald ,
Schönheit ,
Grün oder
Tod . Konzepte sind Abstraktionen, die wir von der alltäglichen Interaktion mit der Welt unterscheiden. Sie bilden die wiederverwendbaren Bausteine des Wissens, die Menschen benötigen, um die Welt zu verstehen.
Wenn wir ein konzeptionelles Verständnis von etwas haben, bedeutet dies, dass wir etwas Erfahrung mit dieser Sache haben, wir haben es irgendwie gemeistert. Im Fall von Inhalten bedeutet diese Erfahrung, dass wir Containerobjekte in der Welt identifizieren können, die etwas enthalten können, sie von „Nicht-Containern“ trennen, einige Dinge hineinstecken, sie zurücknehmen und vorhersehen können, was passieren wird. wenn wir irgendwie mit ihnen interagieren. Wir können sogar neue Dinge betrachten und verstehen, ob sie möglicherweise etwas in sich enthalten können oder umgekehrt - ob sie in ein anderes Thema eingeschlossen werden können.
Die Hauptansätze des konzeptuellen Verständnisses in der KI, einschließlich Deep-Learning-Systemen, die auf Datensätzen wie
ImageNet trainiert wurden, haben anscheinend einige dieser Fähigkeiten, aber es fehlt ihnen ein tieferes Verständnis - die Erfahrung, die aus der Interaktion resultiert. Durch die Wahrnehmung eines Bildes oder sogar eines Videos können diese Ansätze möglicherweise bestimmen, ob sich ein bestimmter Typ eines „Behälters“ darauf befindet, beispielsweise eine Tasse, ein Haus oder eine Flasche, und auch bestimmen, wo sich dieses Objekt im Bild befindet. Aber sie werden mit ziemlicher Sicherheit scheitern, wenn sie auf einen unerforschten Typ eines solchen Objekts stoßen. Eine Aufforderung, sich irgendwo zu platzieren, hat in einem solchen System nur ein völliges Missverständnis, da sie das Konzept eines Containerobjekts mit einer Reihe visueller Zeichen korreliert, aber den Begriff des Inhalts in etwas nicht aktiv versteht.
Konzepte aus der sensomotorischen Erfahrung
Henri Poincaré war einer der ersten, der die Rolle sensomotorischer Darstellungen für das menschliche Verständnis betonte. In seinem Buch Science and Hypothesis argumentierte er, dass ein unbewegliches Wesen das Konzept des dreidimensionalen Raums niemals beherrschen könne. Vor nicht allzu langer Zeit schlugen mehrere Kognitionswissenschaftler vor, dass konzeptionelle Repräsentationen aus der Integration von Wahrnehmung und Handeln entstehen. Zum Beispiel definieren
O'Regan und Noë sensomotorische Erfahrungen als "eine Regelstruktur, die sensorische Veränderungen definiert, die durch verschiedene motorische Aktionen hervorgerufen werden", und passive Beobachtung als "eine Art, die Welt zu erkunden, die auf dem Wissen über sensomotorische Erfahrungen beruht".
Noë fügt hinzu, dass "Konzepte eine Art Ansatz für die Verwaltung der Umgebung sind."
Trotz der Tatsache, dass die Bedeutung der sensomotorischen Erfahrung in der kognitiven Gemeinschaft anerkannt wurde, führten diese Ideen dazu, dass nur wenige spezifische Rechenmodelle ihre Rolle bei der Bildung von Konzepten untersuchten. In dem
Artikel , den wir auf der AAAI-18 vorgestellt haben, haben wir ein Rechenmodell gezeigt, das Konzepte durch Interaktion mit der Umgebung untersucht.
Was haben wir getan?
Wir wollten die beiden Hauptfähigkeiten des konzeptionellen Verständnisses erkennen und untersuchen: die Fähigkeit, ein Konzept aktiv zu erkennen und Schlussfolgerungen zu ziehen oder auf dieses Konzept zu reagieren. Darüber hinaus wollten wir Situationen untersuchen, in denen interaktive Fähigkeiten passiven Ansätzen vorzuziehen sind, und verstehen, wie die Verwendung bereits untersuchter einfacher Konzepte dazu beitragen kann, komplexere zu untersuchen.
Wir haben zunächst ein spezielles virtuelles Trainingsgelände für die Erforschung aktiver Konzepte entwickelt, eine Umgebung, die wir
PixelWorld nennen (verfügbar auf
Github ). In dieser Welt sind die Dinge etwas einfacher angeordnet als in der realen. Dies ist ein diskretes zweidimensionales Feld, das einen Pixelagenten und ein oder mehrere Objekte eines anderen Typs enthält, die ebenfalls aus Pixeln bestehen (z. B. Linien, Punkte oder Container).
Der Agent hat eine ziemlich einfache Implementierung: Er nimmt nur den Raum von 3 × 3 Zellen um sich herum wahr und kann sich nach oben, unten, links, rechts bewegen oder anhalten und einige Informationen senden. Eine solche Implementierung erfordert das Studium selbst der grundlegendsten Ideen über die Welt, sowohl des Konzepts eines Objekts als auch des Konzepts von Interaktionskonzepten. Trotz der Tatsache, dass dies wie eine übermäßige sensorische Deprivation erscheint, können wir uns durch die Eliminierung einer reichhaltigen visuellen Wahrnehmung auf die Rolle konzentrieren, facettenreiches Verhalten in eine sinnvolle Sicht auf die Welt umzuwandeln.
Wir haben Agenten in zwei verschiedenen Aufgaben geschult. Die erste Aufgabe bestand darin, die Umgebung zu erkunden und zu melden, ob die Umgebung das erforderliche Konzept hat. Zum Beispiel ein Container. Und es wurde belohnt, wenn die Antwort richtig war. Die zweite Aufgabe bestand darin, Maßnahmen in Bezug auf dieses Konzept zu ergreifen. Stellen Sie sich zum Beispiel in diesen Container. Dies wurde belohnt, wenn er die Aufgabe korrekt erfüllte und meldete. Dafür haben wir Verstärkungstraining eingesetzt.
Zum Beispiel haben wir dem Agenten beigebracht, zu bestimmen, wann er in einem Objekt in einer horizontalen Ebene eingeschlossen war. Die folgende Animation zeigt dieses Verhalten: Der Agent prüft, ob rechts eine Wand vorhanden ist, und prüft dann, ob links eine Wand vorhanden ist. Sobald beide Tests erfolgreich bestanden wurden, meldet er, dass er „in Haft“ ist.

Wir haben den nächsten Agenten geschult, dasselbe zu verstehen, wenn er bereits von zwei Objekten an den Seiten umgeben ist: einem festen Behälter und einem Behälter mit einem Loch. Die Animation zeigt, dass der Agent in das richtige Objekt gelangt und prüft, ob es sich um einen festen Container handelt. Es erkennt ein Loch und klettert dann in den linken Behälter, um am Ende zu signalisieren, dass es sich in Haft befindet.

Wir können genauer verstehen, was der Agent tut, indem wir die Aufzeichnungen seiner Handlungen analysieren:

Die obige Abbildung zeigt jede vom Agenten in der oben gezeigten Animation ausgeführte Aktion. Jedes Feld stellt eine Aktion dar, die Zeit erhöht sich von links nach rechts. "AB", "RECHTS", "AUF" und "LINKS" sind die Hauptaktionen des Agenten, und jede Zeile von "SMC" stellt einen Sonderfall der sensomotorischen Interaktion dar, die der Agent ausführen kann. SMC (
sensomotorische Eventualitäten - ca. übersetzt ) Kann als kleines Programm dargestellt werden, das bei Ausführung eine Folge grundlegender Aktionen verwendet, bis der Agent beschließt, eines von zwei Signalen zu stoppen und zu senden, die beide Erfolge bedeuten ("SIG1", grün). oder Niederlage ("SIG0", rot). Jedes dieser SMCs entstand als Agent, der geschult wurde, um ein einfacheres konzeptionelles Problem zu lösen. Zum Beispiel wurde „SMC 3“ darauf trainiert, in einen Container zu klettern, wenn er sich anfänglich links auf dem Boden befand. Dies ist das erste, was der Agent in der Animation von Schritt 0 bis 11 ausführt. Auf diese Weise kann der Agent komplexe Aufgaben ausführen, z. B. eine endgültige Schlussfolgerung über die Schlussfolgerung ziehen und eine Folge entsprechender SMCs auf niedriger Ebene ausführen.
Danach haben wir unsere Konzepte über den Begriff der Schlussfolgerung hinaus erweitert und Konzepte aufgenommen, die sich auf einem Objekt oder links von zwei Objekten befinden:


Die Schulung dieser Agenten in nur einer Umgebung würde nicht ausreichen, da zum Verständnis, welche Aspekte der Umgebung mit Konzepten zusammenhängen und welche nicht, viele verschiedene Umgebungen erforderlich sind. Das Vorhandensein so vieler Arten von Umgebungen ermöglicht es uns auch, die Arten zu bestimmen, in denen ein aktiver Ansatz und die Wiederverwendung von zuvor entwickeltem Verhalten von passiven Ansätzen profitieren würden.
Um diesem Bedarf gerecht zu werden, haben wir eine spezielle Art der Aufzeichnung angewendet, die auf Logik erster Ordnung basiert, um Datenarrays für Experimente vorzubereiten. Dabei wurden logische Ausdrücke verwendet, um Medien zu generieren und sie in Bezug auf das in ihnen dargestellte Konzept zu markieren. Wir haben 96 solcher Arrays erstellt, die in Trainingsblöcken von einfachen bis zu komplexen Konzepten organisiert sind. Sowohl das Aufzeichnungssystem als auch die oben genannten Umgebungen sind in der PixelWorld-Version enthalten.
Was wir haben
Wir verglichen unseren aktiven Ansatz mit dem passiven unter Verwendung eines Faltungsnetzwerks, das darauf trainiert ist, anhand einer statischen Wahrnehmung der gesamten Umgebung festzustellen, ob ein Konzept vorhanden ist. Bei Konzepten, die „Schlussfolgerung“ verwenden, ist der interaktive Ansatz dem Faltungsnetzwerk deutlich überlegen. Bei Konzepten mit verschiedenen Objekten unterschiedlicher Formen und räumlicher Beziehungen haben wir festgestellt, dass das Faltungsnetzwerk in einigen Fällen besser funktioniert, in anderen jedoch schlechter. Es sollte beachtet werden, dass passive Ansätze per Definition nicht mit der Umgebung interagieren können. In diesem Fall war daher nur eine statische Erkennung des Konzepts zu erwarten. Nur unser proaktiver Ansatz kann in Umgebungen erfolgreich sein, in denen ein Verständnis für eine Interaktion oder Beziehung zum Konzept erforderlich ist.
Wir fanden auch heraus, dass die Wiederverwendung von Verhalten die Ergebnisse für beide Aufgaben (Erkennung und Interaktion) verbesserte, wobei die offensichtlichsten Ergebnisse in den Fällen erzielt wurden, in denen die Konzepte mehrere Objekte enthielten oder komplexe Sequenzen im Verhalten erforderten.
Schlussfolgerungen
Unsere Arbeit zeigt, dass interaktive sensomotorische konzeptionelle Darstellungen formalisiert und assimiliert werden können. Während die in diesem Artikel reflektierten Experimente dazu beitrugen, die Rolle der Interaktion allgemein zu identifizieren, könnte ihre Kombination mit dem Ansatz des
generativen Bildverarbeitungssystems nützlich sein, um die Konzepte der realen Welt zu untersuchen. Darüber hinaus würde die Kombination sensomotorischer Darstellungen mit Techniken wie „
Schemanetzwerken “ dem Agenten eine interne Darstellung der Außenwelt ermöglichen, die er für die Simulation und Planung verwenden kann.
Obwohl außer Kontrolle geratene künstliche Intelligenz ein Thema ist, das am besten für Science-Fiction-Filme übrig bleibt, glauben wir, dass das Extrahieren von Konzepten aus sensomotorischen Interaktionen einer der Schlüssel ist, um über die modernen passiven Techniken der künstlichen Intelligenz hinauszugehen.