In unserem Leben kann es viele Momente geben, die in Zeitlupe auf der Kamera aufgezeichnet werden müssen - die ersten Schritte eines Kindes, die erste Reise zum Meer, der Trick eines geliebten Hundes. Mit einem modernen Smartphone können Sie mit einer Frequenz von 240 Bildern pro Sekunde oder höher aufnehmen. In diesem Modus können Sie jedoch nicht ständig aufnehmen. Es ist nicht genügend Speicher vorhanden, und der Akku wird schnell entladen. Das von Nvidia erstellte neuronale Netzwerk arbeitet mit bereits aufgenommenen Videos und verwandelt sie in Zeitlupe.
Forscher von Nvidia haben ein umfassendes Lernsystem entwickelt, mit dem Videos mit 30 Bildern pro Sekunde zu Zeitlupenvideos verarbeitet werden können. Sie verwendeten die PyTorch Deep Learning Library und Nvidia Tesla V100 GPUs. Das System wurde mit 11.000 Videos von Alltags- und Sportaktivitäten trainiert, die mit einer Frequenz von 240 Bildern pro Sekunde aufgenommen wurden. Dank dessen begann sie, Zwischenschüsse vorherzusagen. Um die Genauigkeit der Technologie zu testen, verwendeten die Forscher eine separate Videodatenbank.
Mit dieser Technologie können Sie Videos viel flüssiger und weniger verschwommen machen als bei normalen Verlangsamungen. Die Bildrate steigt auf 480 pro Sekunde. Um die Ergebnisse zu demonstrieren, verglich das Team die Zeitlupenvideos, die von den Video-Bloggern von
The Slo Mo Guys aufgenommen wurden, mit denselben Videos, die auf neue Weise verlangsamt wurden.
Das erste neuronale Netzwerk wertet den Videostream aus - die Struktur von Bewegung, Objekten, Oberflächen und Kanten in der Szene. Sie macht es vorwärts entlang der Timeline und in umgekehrter Reihenfolge für zwei Eingaberahmen. Das System sagt dann voraus, wie sich die Pixel von einem Bild zum nächsten bewegen, und erstellt 2D-Vektoren dieser Bewegungen.
Dann funktioniert das zweite neuronale Netzwerk, das die Sichtbarkeitskarte vorhersagt - schließt diejenigen Pixel aus, die von Objekten blockiert werden müssen, um Artefakte zu entfernen. Und das System verzerrt mit Hilfe aller empfangenen Daten die neuen Frames zwischen den beiden Ausgängen, um einen reibungslosen Übergang zu gewährleisten.
Im Video können Sie die Ergebnisse vergleichen. Natürlich gibt es Unterschiede zwischen künstlich erstellten Zeitlupenvideos und dem Original, das ursprünglich mit einer hohen Bildrate aufgenommen wurde. Dies macht sich besonders im Vergleich zu Slo Mo Guys bemerkbar, die in 54 Sekunden in einen Pool springen. Aber wenn es nichts zu vergleichen gäbe, wäre es schwierig, ein echtes Video von einem „gefälschten“ zu unterscheiden.
Das Team weiß noch nicht, wie es seine Entwicklung kommerzialisieren soll. Ihrer Meinung nach ist es noch lange nicht ideal und erfordert viele Ressourcen, auch vorübergehend. Es ist wahrscheinlich, dass eine solche Technologie, selbst wenn sie als Produkt implementiert ist, nicht auf dem Gerät des Benutzers ausgeführt wird - die Berechnungen werden in der Cloud durchgeführt.

Im April
zeigten Experten von Nvidia
eine weitere Technologie, die dem Bild neue Fragmente hinzufügt - die Rekonstruktion von Fotografien. Mit dieser Methode können Sie ein Objekt aus dem Bild entfernen. Anschließend ersetzt das System das leere Fragment durch einen realistischen Hintergrund und fügt nach dem Entfernen aus dem Foto Augen und andere Teile des Gesichts hinzu.
In Vorbereitung auf das Training des neuronalen Netzwerks erstellten die Forscher mehr als 55.000 Masken aus zufälligen Streifen und Löchern unterschiedlicher Größe. Weitere 25.000 neue Masken wurden verwendet, um die Richtigkeit der Ergebnisse nach dem Training zu überprüfen.
Während des Trainings wurden den Bildern Masken überlagert, damit das neuronale Netzwerk lernen konnte, wie die fehlenden Pixel rekonstruiert werden.
Die wissenschaftliche Arbeit von Super SloMo: Hochwertige Schätzung mehrerer Zwischenbilder für die Videointerpolation wird auf der Preprint-Website arXiv.org veröffentlicht:
arXiv: 1712.00080 .