Das neuronale Netz sagt 1 Sekunde der Zukunft in der Fotografie voraus


Das für die Videoverarbeitung optimierte generative kontradiktorische neuronale Netzwerk kann zeigen, was in der nächsten Sekunde passieren wird. Die

Fähigkeit, die nahe Zukunft vorherzusagen, ist eine wichtige Fähigkeit für jede Person. Die Geschwindigkeit der menschlichen Reaktion reicht nicht aus, um in Echtzeit auf umgebende Ereignisse zu reagieren. Daher sagen wir sie in einem konstanten Modus mit einer Wahrscheinlichkeit von nahezu 100% voraus. Die Athleten wissen, wohin der Ball fliegen wird. Geschäftsleute wissen, wann der Gesprächspartner nach einem Handschlag greift. Wir prognostizieren die Flugbahn von Autos auf der Straße und die nächsten Aktionen von Menschen mit Gesichtsausdrücken und Gegenständen in ihren Händen.

Künstliche Intelligenz muss auch die Zukunft kennen. Er muss verstehen, welche Ereignisse zu welchem ​​Ergebnis führen, um offensichtliche Versehen zu vermeiden und seine Handlungen zu planen. Eine Gruppe von Forschern ausDas Computer Science and Artificial Intelligence Laboratory (CSAIL) des Massachusetts Institute of Technology lehrt das neuronale Netzwerk, die Zukunft vorherzusagen, indem es in Millionen von Videos trainiert wird.

Ein trainiertes neuronales Netzwerk in einem einzelnen statischen Rahmen (Fotos) versucht, zukünftige Ereignisse vorherzusagen. Das Programm ist durch eine Bildgröße von 64 × 64 Pixel und eine Vorhersagedauer von 32 Bildern begrenzt, dh ungefähr eine Sekunde der Zukunft.

Wenn man die Zukunft kennt, kann man die Gegenwart besser verstehen. Dies ist die grundlegende Fähigkeit, die jeder in der realen Welt funktionierende Roboter besitzen sollte. Wenn man eine Person mit einer Gabel und einem Messer in der Hand vor einem Teller mit Essen beobachtet, sollte man klar vorhersagen, dass diese Person bald anfangen wird zu essen. Ohne ein solches Verständnis kann der Roboter nicht effizient funktionieren - Sie möchten nicht, dass der Roboter den Stuhl aufnimmt und zur Seite bewegt, wenn Sie auf einem Stuhl sitzen? Nein, er muss verstehen, was in einer Sekunde passieren wird und nichts berühren. Oder umgekehrt, bewegen Sie den Stuhl schnell genau an die Stelle, an der die Person sitzt.

Im Moment fehlt selbst den fortschrittlichsten KI-Systemen die grundlegende Fähigkeit, die nahe Zukunft vorherzusagen. Daher ist diese Studie so wichtig. Ähnliche Arbeiten werden von Forschungsgruppen an der New York University und auf Facebook durchgeführt, aber ihre neuronalen Netze produzieren nur wenige Bilder aus der Zukunft oder zeigen, dass sie zu verschwommen sind.

Das bei CSAIL entwickelte Programm sagt die banalsten und offensichtlichsten Ereignisse ziemlich genau voraus. Zum Beispiel sagt sie anhand eines Fotos eines Zuges auf einem Bahnsteig dessen Bewegung voraus.

Beispiele für die Vorhersage von Ereignissen anhand von Fotos. Beispiele für die Bewegung von Menschen, Tieren, Naturphänomenen, Transport

In einer wissenschaftlichen Studie lösen Entwickler das grundlegende Problem, das Szenario zu untersuchen, wie sich Ereignisse im Rahmen zeitlich entfalten. Offensichtlich ist eine solche Aufgabe für formale Anmerkungen sehr schwierig. Daher wurde das neuronale Netzwerk direkt auf das fertige Material trainiert - auf Millionen von Videos ohne semantische Anmerkungen. Dieser Ansatz hat bestimmte Vorteile, da die KI offline lernen kann, indem sie nur beobachtet, was um sie herum passiert, und eine große Menge an Videomaterial im Internet verarbeitet.

Das trainierte neuronale Netzwerk wurde dann beauftragt, kleine Videos in einem einzigen statischen Rahmen zu erzeugen. Um ein realistisches Ergebnis zu erzielen, verwendeten die Autoren der Studie ein generatives kontradiktorisches Netzwerk (GAN). Ein neuronales Netzwerk erzeugt Video, und das zweite Diskriminatornetzwerk lernt, gefälschtes Video von dem realen zu unterscheiden, und blockiert Fälschungen. Wie der Diskriminator erfährt, muss der Netzwerkgenerator zunehmend realistische Videos erzeugen, um den Test zu bestehen.


Das generative Modell verwendet zwei Streams, die den Vordergrund und den Hintergrund getrennt simulieren, um sie voneinander zu trennen und die Bewegung des Objekts klar zu unterscheiden.



Mit der Zeit kann ein solches Programm einer Person in verschiedenen Situationen effektiver helfen. Zum Beispiel kann ein Roboter vorhersagen, wann eine Person fallen wird - und verhindern, dass sie fällt. Der digitale Assistent im Auto lernt, die Handlungen des Fahrers durch die Bewegung der Hände und Augen vorherzusagen, um einen Unfall zu vermeiden.

Alle Videos, auf denen das neuronale Netzwerk trainiert wurde, sowie der Quellcode des Programms werden öffentlich veröffentlicht . Der generative gegnerische neuronale Netzwerkcode befindet sich auf GitHub . Mit den Daten für das Training (ca. 10,5 Terabyte Videomaterial) können Sie das Experiment selbst wiederholen. Alternativ stehen bereits geschulte Modelle zum Download zur Verfügung (1 GB im Archiv).

Schulungsvideos wurden von Flickr Foto- und Video-Hosting aufgenommen, wo sie unter einer kostenlosen Lizenz stehen. Dies sind Themenszenen: Strandveranstaltungen, Golfspiele, Bahnhöfe und Babys in Krankenhäusern.



Zwei Millionen Videos sind nur zwei Jahre Videomaterial. "Dies ist sehr gering im Vergleich zu der Menge an Videoinformationen, die durch das Gehirn eines 10-jährigen Kindes geleitet wurden, oder im Vergleich zu der Menge an Informationen, die während des Evolutionsprozesses der Entwicklung des Lebens auf der Erde verarbeitet wurden", gibt Carl Vondrick zu, einer der Autoren des Wissenschaftlichen Arbeit.

Dies ist jedoch nur der Anfang. Die KI unternimmt die ersten Schritte, aber Sie müssen irgendwo anfangen. In Zukunft wird das neuronale Netzwerk auf längeren Fragmenten des Videos trainiert. Die Autoren hoffen, dass die KI angesichts der Einschränkungen der Gesetze der Physik und der Eigenschaften von Objekten allmählich die Auswahl möglicher Optionen für die Zukunft einschränken wird. Experimente zeigen, dass das neuronale Netzwerk sie absorbieren kann. Allmählich lernt das Programm, eine weiter entfernte Zukunft vorherzusagen, und nicht nur 1 Sekunde. Es ist wahrscheinlich, dass zusätzliche Module damit verbunden werden, wie z. B. Persönlichkeitserkennung, Lippenlesen, Kriminalitätsvorhersage im Gesicht einer Person usw.

Wissenschaftlicher Artikel veröffentlichtauf dem Gelände des Massachusetts Institute of Technology. Die Studie wird dank der Finanzierung durch die US National Science Foundation und der Zuschüsse von Google für zwei von drei Mitgliedern des Forschungsteams fortgesetzt. Der Bericht wurde für die 29. Konferenz über Neuroinformationsverarbeitungssysteme (NIPS 2016) vorbereitet , die vom 5. bis 10. Dezember in Barcelona stattfinden wird.

Source: https://habr.com/ru/post/de399667/


All Articles