Nvidia a appris au réseau neuronal à ralentir la vidéo

Dans notre vie, il peut y avoir de nombreux moments qui doivent être enregistrés sur l'appareil photo au ralenti - les premiers pas d'un enfant, le premier voyage à la mer, le tour d'un chien bien-aimé. Un smartphone moderne vous permet de filmer à une fréquence de 240 images par seconde ou plus, mais vous ne pourrez pas enregistrer constamment dans ce mode - il n'y aura pas assez de mémoire et la batterie se déchargera rapidement. Le réseau de neurones créé par Nvidia fonctionne avec des vidéos déjà capturées, les transformant en ralenti.


Les chercheurs de Nvidia ont créé un système d'apprentissage en profondeur pour traiter des vidéos à 30 images par seconde en vidéos au ralenti. Ils ont utilisé la bibliothèque d'apprentissage en profondeur PyTorch et les GPU Nvidia Tesla V100. Le système a été formé à l'aide de 11 000 vidéos d'activités quotidiennes et sportives, tournées à une fréquence de 240 images par seconde. Grâce à cela, elle a commencé à prédire les tirs intermédiaires. Pour tester la précision de la technologie, les chercheurs ont utilisé une base de données vidéo distincte.

La technologie vous permet de rendre les vidéos beaucoup plus fluides et moins floues que dans le cas de ralentissements normaux. La fréquence d'images passe à 480 par seconde. Pour démontrer les résultats, l'équipe a comparé les vidéos au ralenti tournées par les blogueurs vidéo The Slo Mo Guys avec les mêmes vidéos ralenties d'une nouvelle manière.

Le premier réseau neuronal évalue le flux vidéo - la structure du mouvement, les objets, les surfaces et les bords de la scène. Elle le fait vers l'avant le long de la chronologie et dans l'ordre inverse pour deux images d'entrée. Le système prédit ensuite la façon dont les pixels se déplaceront d'une image à l'autre, créant des vecteurs 2D de ces mouvements.

Ensuite, le deuxième réseau de neurones fonctionne, qui prédit la carte de visibilité - exclut les pixels qui doivent être bloqués par des objets afin de supprimer les artefacts. Et le système à l'aide de toutes les données reçues déforme les nouvelles trames entre les deux sorties pour assurer une transition en douceur.

Dans la vidéo, vous pouvez comparer les résultats. Bien sûr, il existe des différences entre les vidéos au ralenti créées artificiellement et l'original, tourné à l'origine à une fréquence d'images élevée. Cela est particulièrement visible par rapport aux Slo Mo Guys sautant dans une piscine en 54 secondes. Mais s'il n'y avait rien à comparer, il serait difficile de distinguer une vraie vidéo d'une «fausse».

L'équipe ne sait pas encore comment commercialiser leur développement. À leur avis, il est encore loin d'être idéal et nécessite beaucoup de ressources, y compris temporaires. Il est probable que même si une telle technologie est implémentée en tant que produit, elle ne fonctionnera pas sur l'appareil de l'utilisateur - les calculs se feront dans le cloud.



En avril, des experts de Nvidia ont montré une autre technologie qui ajoute de nouveaux fragments à l'image - reconstruction de photographies. La méthode vous permet de supprimer un objet de l'image, après quoi le système remplacera le fragment vide par un arrière-plan réaliste, ainsi que d'ajouter des yeux et d'autres parties du visage après les avoir supprimés de la photo.

En préparation de la formation du réseau neuronal, les chercheurs ont créé plus de 55 000 masques à partir de rayures aléatoires et de trous de différentes tailles. 25 000 nouveaux masques ont été utilisés pour vérifier l'exactitude des résultats après la formation.

Pendant l'entraînement, des masques ont été superposés aux images pour aider le réseau neuronal à apprendre à reconstruire les pixels manquants.


Les travaux scientifiques de Super SloMo: estimation de haute qualité de plusieurs images intermédiaires pour l'interpolation vidéo sont publiés sur le site de préimpression arXiv.org: arXiv: 1712.00080 .

Source: https://habr.com/ru/post/fr414953/


All Articles