En nuestra vida puede haber muchos momentos que deben grabarse en cámara lenta: los primeros pasos de un niño, el primer viaje al mar, el truco de un perro querido. Un teléfono inteligente moderno le permite disparar a una frecuencia de 240 fotogramas por segundo o más, pero no podrá grabar constantemente en este modo: no habrá suficiente memoria y la batería se agotará rápidamente. La red neuronal creada por Nvidia funciona con videos ya capturados, convirtiéndolos en cámara lenta.
Los investigadores de Nvidia han creado un sistema de aprendizaje en profundidad para procesar videos a 30 cuadros por segundo en videos de cámara lenta. Utilizaron la biblioteca de aprendizaje profundo PyTorch y las GPU Nvidia Tesla V100. El sistema fue entrenado usando 11,000 videos de la actividad diaria y deportiva, filmados a una frecuencia de 240 cuadros por segundo. Gracias a esto, ella comenzó a predecir tiros intermedios. Para probar la precisión de la tecnología, los investigadores utilizaron una base de datos de video separada.
La tecnología le permite hacer videos mucho más suaves y menos borrosos que en el caso de desaceleraciones normales. La velocidad de fotogramas aumenta a 480 por segundo. Para demostrar los resultados, el equipo comparó los videos en cámara lenta tomados por los video bloggers de
The Slo Mo Guys con los mismos videos que se desaceleraron de una manera nueva.
La primera red neuronal evalúa la transmisión de video: la estructura de movimiento, objetos, superficies y bordes de la escena. Lo hace hacia adelante a lo largo de la línea de tiempo y en el orden inverso para dos cuadros de entrada. Luego, el sistema predice cómo se moverán los píxeles de un cuadro a otro, creando vectores 2D de estos movimientos.
Luego, la segunda red neuronal funciona, que predice el mapa de visibilidad, excluye aquellos píxeles que deben ser bloqueados por objetos para eliminar artefactos. Y el sistema con la ayuda de todos los datos recibidos distorsiona las nuevas tramas entre las dos salidas para garantizar una transición sin problemas.
En el video, puedes comparar los resultados. Por supuesto, hay diferencias entre los videos de cámara lenta creados artificialmente y el original, originalmente filmado a una velocidad de cuadro alta. Esto es especialmente notable en comparación con los Slo Mo Guys que saltan a una piscina en 54 segundos. Pero si no hubiera nada con lo que comparar, sería difícil distinguir un video real de uno falso.
El equipo aún no sabe cómo comercializar su desarrollo. En su opinión, todavía está lejos de ser ideal y requiere muchos recursos, incluidos los temporales. Es probable que incluso si dicha tecnología se implementa como un producto, no se ejecutará en el dispositivo del usuario; los cálculos se realizarán en la nube.

En abril, expertos de Nvidia
mostraron otra tecnología que agrega nuevos fragmentos a la imagen: la reconstrucción de fotografías. El método le permite eliminar un objeto de la imagen, después de lo cual el sistema reemplazará el fragmento vacío con un fondo realista, así como agregar ojos y otras partes de la cara después de eliminarlos de la foto.
En preparación para entrenar la red neuronal, los investigadores crearon más de 55 mil máscaras a partir de rayas aleatorias y agujeros de varios tamaños. Se usaron otras 25 mil nuevas máscaras para verificar la precisión de los resultados después del entrenamiento.
Durante el entrenamiento, se superpusieron máscaras en las imágenes para ayudar a la red neuronal a aprender cómo reconstruir los píxeles faltantes.
El trabajo científico de Super SloMo: Estimación de alta calidad de múltiples cuadros intermedios para video interpolación se publica en el sitio de preimpresión arXiv.org:
arXiv: 1712.00080 .