Buch (des Seins?). Reflexionen über die Natur des Geistes. Teil II



Ein Wort zu den Prozessen, oder wir sind alle ein bisschen empfängnisverhütend .

Fortsetzung der Überlegungen zum natürlichen und künstlichen Geist (KI), Teil 1 ist da

Frage zum Nachfüllen : Wohnt eine Person jetzt? Nicht wenn wir die Straße entlang gehen und die Welt um uns herum direkt betrachten, handeln wir mehr oder weniger in Echtzeit ... Obwohl in der Realität - soweit wir das sehen - die üblichen Erkennungs- / Klassifizierungsmechanismen bestehen werden - wird dies alles neu sein, aber immer noch der Vergangenheit angehören. Das heißt Lebt ein Mensch in der Vergangenheit?

Zum Beispiel: Sie gehen die Straße entlang und sehen einen Hund. Oder ein Auto. In jedem Fall sind diese Informationen, wenn wir über den Moment sprechen, bereits veraltet. Wenn wir mit Daten arbeiten, die alle unsere kognitiven Mechanismen durchlaufen haben (und das Gehirn ist weit entfernt vom schnellsten Rechner!), Werden wir einfach nicht mit der Welt mithalten können! Der Hund greift an oder umgekehrt - er rennt davon, und Ihr Wunsch, ihn hinter das Ohr zu klopfen, bleibt unerfüllt, und das Auto schlägt Sie nieder oder fährt an Ihnen vorbei, obwohl Sie dieses bestimmte Auto „erwischen“ wollten.

Aber Gott sei Dank passiert das nicht, und hier ist der Grund: Das Gehirn arbeitet anders. Die Wahrnehmungseinheit ist kein Objekt oder gar eine Gesamtheit von Objekten, sondern Prozesse. Der Hund rennt. Zu dir oder von dir. Oder läuft nicht, sondern lügt zum Beispiel. Das Auto steht auch (auf dem Parkplatz) oder bewegt sich in eine bestimmte Richtung. In jedem Fall nehmen Sie einen Prozess wahr, der eine gewisse Zeitspanne und dementsprechend eine gewisse Entwicklung in der Zukunft hat. Wenn ich sage, dass wir Ereignisse wahrnehmen, die sich in der Zeit entfalten - das ist keine Redewendung. Führen Sie ein Experiment durch - machen Sie ein Dutzend Fotos (d. H. Momentaufnahmen der Realität) und beschreiben Sie, was Sie sehen. Hier sind ein paar Leute im Raum, sie streiten sich, oder hier geht ein Mann die Straße entlang, oder hier sitzt er - sieht fern und liest ein Buch. Das sind alles zeitaufwändige Prozesse! Sie nehmen die Sofortbesetzung als etwas wahr, das eine Länge hat. Sie wissen nicht, wie Sie es anders machen sollen, weil das Gehirn so funktioniert: Es ist darauf trainiert, Prozesse zu erkennen, keine unterschiedlichen Objekte auf der Bühne. Genau wie nicht die Augen-Nase-Mund, sondern das Gesicht im Komplex (hallo, Faltungs-Neuronale Netze).

Die Welt besteht aus Prozessen, nicht aus Objekten. Wenn Sie fragen, was ein Apfel ist , werden die meisten Erwachsenen sagen, dass es sich um eine Frucht / Frucht handelt , und Kinder werden sagen, dass es sich um Lebensmittel handelt . Aber beide sind eine Prozessbeschreibung, denn der erste bedeutet, dass dieser Apfel auf einem Baum wächst und dem Baum zur Vermehrung dient, und der zweite, dass er essbar ist . Weder das eine noch das andere ist mit den unmittelbaren Zeichen des Apfels verbunden - Form, Farbe, Größe ... Weil die Zeichen es Ihnen ermöglichen, ihn zu identifizieren, aber nicht zu verwenden oder zu verstehen, wo er in der Welt verwendet wird Identifizieren Sie genau die Prozesse.

Wenn wir eine typische Debatte über die Natur der Zeit führen, dann geht es bei den klassischen Postulaten um die Unveränderlichkeit der Vergangenheit (außerhalb des Zeitreisekontexts), die Bedeutung der Gegenwart (es gibt nur einen Moment ...;)) und die Zukunft, die es noch nicht gibt, was bedeutet, dass sie geändert werden kann. Wenn wir über die objektive Realität sprechen, kann es durchaus sein, dass es so ist. Ein Mensch lebt jedoch in seinem eigenen subjektiven Modell der Welt, und dort ist fast das Gegenteil der Fall!

Die Vergangenheit ist alles andere als unveränderlich, wie wir möchten. Eine Person, die ständig neue Informationen erhält, rekonstruiert die Vergangenheit, um Widersprüche zu beseitigen ( Sie dachten, Pjotr ​​Stepanych sei auf einem Symposium aus dem Strip-Club ausgetreten ... Das heißt, er, ein Entertainer, ging nicht und allgemein ... ). Gleichzeitig ist Ihre subjektive Zukunft in vielerlei Hinsicht konstant ( was auch immer es ist, aber am Freitag habe ich Bier und Fußball! ). Nicht nur, dass Sie mit einem bestimmten Ziel in der Zukunft die Prozesskette nicht nur in umgekehrter Reihenfolge aufbauen. ( Um Direktor eines großen Unternehmens zu werden, müssen Sie einen Abschluss von einer renommierten Universität mit einem Diplom machen. Dazu müssen Sie zuerst das Einheitliche Staatsexamen ablegen, den Marsch unterrichten Lektionen! ), aber es ist auch sehr wahrscheinlich, dass Sie zurückkehren ( hatten wir keine Freunde / Bekannten, die jetzt aufgestiegen sind und Kontakt aufgenommen haben und einem Kind mit einer Universität helfen könnten ) - was ist keine Erfindung? ;)

Ich war jedoch etwas abgelenkt. Das Wichtigste, worauf ich mich konzentrieren wollte, sind die Prozesse . Ich bin zutiefst davon überzeugt, dass die potenzielle KI nicht auf dem Foto oder sogar im Video trainiert werden muss. Das Faltungsnetzwerk hat zwei Ebenen (Minimum) - und in der Tat sind dies zwei verschiedene Netzwerke: Eine ist darauf trainiert, bestimmte grafische Muster im Rohbild zu finden, die zweite befasst sich mit der Ausgabe der ersten - d.h. mit bereits verarbeiteten und aufbereiteten Informationen. Um erfolgreich mit der Welt der KI interagieren zu können, müssen Sie dasselbe tun: Auf einer (weit von der ersten) Ebene muss es ein Netzwerk geben, das eine zeitgesteuerte Karte der Prozesse erhält. Mit den Begriffen „Anfang“ und „Ende“, „Bewegung“, „Transformation“, „Fusion“ und „Trennung“ sollte das Netzwerk lernen, zu arbeiten.

Ich bin mir ziemlich sicher, dass diejenigen, die an KI-Spielen wie Alpha Go beteiligt sind, dies auf die eine oder andere Weise verstehen. Vielleicht sind die Ansätze dort etwas anders, aber das Wesentliche ist dasselbe: Die aktuelle Situation auf dem Brett (und in der Entwicklung für die letzten paar Züge) wird dahingehend analysiert, was überhaupt passiert. Und je nachdem, wie viel passiert, was passiert, werden Ihre eigenen Züge ausgewählt.

Es ist sehr schwierig, über Strategie / Verhalten zu sprechen, wenn das Eingangsbild von Sensoren stammt. Und umgekehrt - ein vorbereiteter Vektor, der eine vollständige Ausrichtung des aktuellen Feldzustands in Spielen mit vollständigen Informationen enthält (zähle das vollständige Bild der Welt), ist eine realisierbare Aufgabe, wie die Praxis zeigt. Wenn jedoch das Faltungsnetzwerk der ersten Ebenen die Objekte identifiziert und die nächsten Ebenen diese Objekte dynamisch analysieren und die Prozesse identifizieren (zum Beispiel aus dem Training bekannt), die die zuvor erhaltenen Daten ergänzen, dann scheint es möglich, damit zu arbeiten ...

Fragen an Experten:

Wie realistisch ist es angesichts der aktuellen Entwicklungen bei neuronalen Netzen, Folgendes zu tun:

Am Eingang steht beispielsweise ein kontinuierliches Videosignal, ggf. Stereo. Optional: mit mehreren Freiheitsgraden (die Möglichkeit, die Kamera beliebig oder nach Schema zu drehen). Bei Bedarf kann das Videosignal jedoch durch andere räumliche Wahrnehmungsmethoden ergänzt / ersetzt werden - vom Sonar bis zum Lidar.

Genau genommen ...
Am Eingang kann sich jeder Echtzeit- Stream befinden - zumindest Sprache / Text, zumindest Währungskurse, aber ... Bei dem betrachteten Prozess ist es für mich einfacher, mich auf die einzige Stichprobe von Gründen zu verlassen, die mir für das direkte Studium zur Verfügung stehen - meine eigenen! ) Und in dieser "Probe" ist der Sinneskanal außer Konkurrenz!

Ausgabe:

  1. Tiefenkarte (wenn die Kamera statisch ist) oder Umgebungskarte. Räume (dynamische Kamera / Lidar usw.);

    Wofür
    Es ist notwendig, wenn wir eine echte räumliche Anordnung von Objekten haben wollen, um ihre Interaktion zu bewerten. In diesem Fall ist das Bild von der Kamera nur eine zweidimensionale Projektion eines größeren Raums, und zusätzliche Transformationen sind erforderlich.
  2. Auswahl einzelner Objekte (unter Berücksichtigung der Tiefen- / Raumkarte und nicht nur / nicht so sehr der sichtbaren Konturen);
  3. Hervorheben von sich bewegenden Objekten (Geschwindigkeit / Beschleunigung, Zeichnen / Vorhersagen einer Flugbahn (?));
  4. Hierarchische Klassifizierung von Objekten nach wiederherstellbaren Attributen (Form / Abmessungen / Farbe / Bewegungsnuancen / Komponenten (?)). Das heißt im Wesentlichen Abrufen von Metriken für den Hilbert-Raum .

    über Hierarchie
    Vielleicht ist das Wort "Hierarchisch" in diesem Fall nicht ganz angemessen. Ich möchte betonen, dass es jederzeit möglich ist, Metriken so zu wählen, dass der Heming-Abstand zwischen ihnen es uns ermöglicht, zwei verschiedene Mengen von Metriken als ein Konzept zu betrachten. Wie "rotes Auto" und "blauer Bus" sollte zum Beispiel das Konzept "Fahrzeug" verallgemeinert werden.

Wichtig: Das System ist nach Möglichkeit nicht vortrainiert. Das heißt Einige grundlegende Dinge können festgelegt werden (zum Beispiel ein Faltungsnetzwerk der ersten Ebene, um Konturen / Geometrie hervorzuheben), aber Sie müssen lernen, Objekte auszuwählen und sie später selbst zu erkennen.

  • Und schließlich die Konstruktion eines Sweeps (basierend auf den Absätzen 1.4, d. H. Einer räumlichen Karte unter Berücksichtigung von Metriken) in der Zeit (gegenwärtig ist in diesem Stadium der direkt beobachtete Zeitraum sichtbar) mit dem Ziel, die Punkte 2-4, s zu analysieren Zur Identifizierung von: Prozessen / Ereignissen (die im Wesentlichen zeitliche Änderungen in Abschnitt 3 darstellen) und ihrer Clusterklassifizierung (Abschnitt 4).

Noch einmal: Aus dem Bild der Sensoren extrahieren wir zunächst die Beschreibung der Welt in einer besser vorbereiteten Form, die gemäß den wiederherstellbaren Attributen gekennzeichnet und nicht in Pixel, sondern in Objekte unterteilt ist. Dann erweitern wir die Welt, bestehend aus Objekten in der Zeit und übermitteln das resultierende "Bild der Welt" an den Eingang des nächsten Netzwerks, das damit wie mit den vorherigen Ebenen mit einem Touch-Bild arbeitet. Wo die Konturen der Objekte auffielen, werden nun die "Konturen" der laufenden Prozesse unterschieden. Die relative Position von Objekten im Raum ähnelt der kausalen Beziehung von Prozessen in der Zeit ... Irgendwie.

Vermutlich sollte das System danach in der Lage sein, Prozesse an ihren Teilen zu erkennen (als identifizierbares Bild, das nur ein Fragment enthält, oder als Fortsetzung des Textes gemäß dem Modell ) und infolgedessen das Modell zeitlich vorwärts und rückwärts zu prognostizieren und zu erweitern Klausel 5 ist in beide Richtungen unbegrenzt. Vermutlich hat das System auch eine Vorstellung von den zusammengesetzten Prozessen und kann umfangreichere, globale und folglich implizite, verborgene Prozesse aufdecken, die Teil der identifizierten globalen, aber nicht direkt wahrgenommenen Prozesse sind, die von mehreren verwandten lokalen Prozessen ausgeführt werden.

Gut und zuletzt: Haben Sie einen festen Zustand des Systems in der Zukunft (wo nur wichtige Elemente der Hilbert-Metriken festgelegt sind, mit einer freien Interpretation des Rests, nicht signifikanten Werten) - kann das Netzwerk den Rest „erraten“?

Nun, d.h. Wenn es sich um ein Bild handelte, in dem nur zwei nicht verbundene Fragmente angegeben wurden - kann ein an einem Beispiel trainiertes Netzwerk ein "konsistentes" Vollbild vervollständigen? Die Probe ist in diesem Fall die gleichen Zeitintervalle vom Experiment, die Fragmente sind der aktuelle und gegebene Zustand. Ergebnis: eine konsistente „Geschichte“, die das eine mit dem anderen verbindet ...

Es scheint mir, dass dies bereits eine sehr wesentliche Grundlage für weitere Experimente sein wird:

  • Einbeziehung der eigenen Handlungen in die „Geschichte“, falls möglich / erforderlich
  • die Priorität von „regelmäßigen“ Ursache-Wirkungs-Mustern gegenüber unkontrollierten stochastischen Emissionen (Roulette-Problem)
  • eine Art von Neugier, d.h. aktives Erkennen von Mustern durch Handeln ... etc

PS: Ich gebe voll zu, dass ich gerade ein Fahrrad erfunden habe und dass erfahrene Leute diese Prinzipien seit langem in der Praxis anwenden. ;) In diesem Fall bitte ich dich, "deine Nase zu stecken" in die entsprechende Entwicklung. Und es wird absolut wundervoll sein, wenn die grundlegenden Probleme dieses Ansatzes detailliert beschrieben oder begründet werden, warum er im Prinzip nicht funktioniert.

PPS Mir ist bewusst, dass der Text grob ist, und der Gedanke springt von einem zum anderen, aber ich wollte wirklich ein paar Leuten diese Fragen stellen (Abschnitt „Frage für Experten“), und dies ist schwierig, ohne zumindest eine Präsentation zu tun. Der vorherige Text (und ich las ihn jetzt noch einmal und stellte fest, dass er sehr schwer zu verstehen ist) erfüllte seine Aufgabe: Ich erhielt mehrere Diskussionen, die für mich wertvoll waren ... Ich hoffe auch diesmal! ;)

UPD: Trotz der Minuspunkte - die Diskussion ist weitergegangen, worüber ich mich sehr freue!

UPD2: Liste von Links zu einem Thema, die von verschiedenen Personen zu verschiedenen Zeiten gegeben wurden oder die ich selbst gefunden habe:

  1. Über Segmentierung, beliebt: Tausend ...
  2. Und wenn durch Stereovision verstärkt? Eins , zwei und sagen wir mal drei ...
  3. Das war alles über OpenCV, reine Mathematik, ohne Neuronen. Und du kannst es kombinieren , oder so ... Und doch.
  4. Wenn gemäß dem Satz von Methoden des zuvor erwähnten Objekts das Objekt ausgewählt wird, kann ein Satz von Zeichen zum Verfolgen in der Zukunft schnell gebildet werden ...
  5. Warum müssen Sie nach anderen Ansätzen suchen, wenn es großartiges Reinforcement-Lernen gibt ?
  6. Ein vorab geschultes Netzwerk, das Aktionen im Video hervorhebt ... Es ist schwer zu sagen, wie zutreffend dies in unserem Fall ist, aber es ist interessant!

Source: https://habr.com/ru/post/de485006/


All Articles