Der DeepStereo-Algorithmus klebt Google Street View-Aufnahmen in flüssige Videos



Die Google-Forscher John Flynn, Ivan Nyulander, James Filbin und Noah Sneyvli haben einen Algorithmus entwickelt, mit dem Bilder aus dem Street View-Panoramablickdienst zu reibungslosen Videos mit kaum wahrnehmbaren Artefakten kombiniert werden können. Der Algorithmus heißt DeepStereo, ein Beispiel für seine Funktionsweise ist oben dargestellt. Die wahrscheinliche Verwendung der erstellten Technologie umfasst die Erstellung einfacher Animationen, Bildverarbeitung, Kino und virtueller Realität.

Es ist nicht immer möglich, einen bestimmten Ort nur anhand von Karten oder digitalen Fotos angemessen zu bewerten. Ein Blick auf die Straße aus einer Höhe knapp über der menschlichen Höhe hilft Diensten wie Google Street View. Aber das sind Fotos, die in das Panorama geklebt sind, keine Videos.

Wenn Sie eine Animation erstellen müssen, in der Sie sich von einzelnen Aufnahmen vorwärts bewegen, funktioniert die Entscheidung, die Bildsequenz einfach zu verlieren, nicht - sie wird sich als zu schnell herausstellen, da sich die Bilder mit einer Frequenz von mindestens 24 Bildern pro Sekunde ändern. Wenn Sie auf einer breiten, flachen Straße oder Autobahn fahren, können Sie eine gute Animation im Zeitlupenstil erstellen. Google Street View bietet jedoch Panoramen von Museen und kunstvollen Straßen. Zeitraffer nach einem schnellen Rahmenwechsel funktionieren hier nicht. Benötigen Sie fehlende Bilder zwischen den Aufnahmen. Der erstellte Algorithmus ist daran beteiligt.

Das Forscherteam nutzte das umfassende Wissen des Unternehmens, um den Algorithmus zu trainieren. Am Eingang befindet sich eine Reihe von Bildern von einigen Punkten, und das Ziel besteht darin, neue Rahmen von anderen Punkten zu erstellen. Die genaue Lösung dieses Problems erfordert die Erstellung eines 3D-Umgebungsmodells, was aufgrund von Hindernissen meist unmöglich ist. Die Herausforderung ist nicht neu. Einige frühere Methoden weisen Probleme auf, die zu Lücken in der Nähe der Barrieren, Aliasing und Unschärfe führen. Besondere Schwierigkeiten verursachen Bäume und andere Objekte, deren einzelne Elemente die Sicht beeinträchtigen können.



Flynns neue Methode verwendet Computer Vision Training, damit er verstehen kann, welche Objekte sich in den fehlenden Frames befinden sollten. Für das Training wurden Bildersätze eines fahrenden Autos verwendet. Forscher sagen, dass das Volumen der Basis für das Training 100.000 Bildersätze betrug.

Anschließend wurden Tests mit Sequenzen von drei Aufnahmen aus Google Street View durchgeführt. Der Algorithmus war gezwungen, zwei extreme Bilder zu verarbeiten und eine Variante des Zwischenprodukts zu präsentieren. Vergleich mit dem Original erlaubt, die Arbeit zu bewerten.

Das Endergebnis des DeepStereo-Teams ist glaubwürdig. Auf den ersten Blick ist es nicht so einfach, sich von echter Fotografie zu unterscheiden. Bemerkenswerte Artefakte sind ein leichter Auflösungsverlust und das Verschwinden feiner Strukturen im Vordergrund. Objekte mit einer komplexen Struktur, die ihre eigenen Details überlappen, können verschwommen erscheinen. Der Algorithmus kann auch keine Oberflächen erstellen, die nicht in den Originalbildern enthalten sind. Sich bewegende Objekte (Fußgänger, Autos) werden absichtlich verwischt, um einen Bewegungseffekt zu erzeugen.

Für das Rendern ist eine beeindruckende Rechenleistung erforderlich. Um nur ein Bild mit einer Auflösung von 512 × 512 Pixel zu erstellen, sind ca. 12 Minuten Betrieb eines Mehrkernsystems mit unbenannten technischen Eigenschaften erforderlich. Das Erstellen von Bildern mit höherer Auflösung erfordert zu viel RAM. Die Forscher äußern ihre Hoffnungen auf eine Optimierung des Algorithmus mit der Möglichkeit, die Renderzeit bei Verwendung von Grafikkartenprozessoren auf einige Minuten oder sogar Sekunden zu reduzieren. In Zukunft ist die Funktionsweise des Algorithmus auf der GPU mit erheblicher Verfeinerung sogar in Echtzeit möglich.

Basierend auf dem Text der Studie und dem MIT Technology Review . arXiv: 1506.06825 [cs.CV]

Source: https://habr.com/ru/post/de381787/


All Articles