A Nvidia ensinou a rede neural a desacelerar o vídeo

Em nossa vida, pode haver muitos momentos que precisam ser gravados na câmera em câmera lenta - os primeiros passos de uma criança, a primeira viagem ao mar, o truque de um cão amado. Um smartphone moderno permite gravar com uma frequência de 240 quadros por segundo ou mais, mas você não poderá gravar constantemente nesse modo - não haverá memória suficiente e a bateria será descarregada rapidamente. A rede neural criada pela Nvidia trabalha com vídeos já capturados, transformando-os em câmera lenta.


Pesquisadores da Nvidia criaram um sistema de aprendizado aprofundado para processar vídeos a 30 quadros por segundo em vídeos em câmera lenta. Eles usaram a biblioteca de aprendizado profundo do PyTorch e as GPUs Nvidia Tesla V100. O sistema foi treinado usando 11.000 vídeos de atividades cotidianas e esportivas, filmados a uma frequência de 240 quadros por segundo. Graças a isso, ela começou a prever tiros intermediários. Para testar a precisão da tecnologia, os pesquisadores usaram um banco de dados de vídeo separado.

A tecnologia permite que você faça vídeos muito mais suaves e menos embaçados do que no caso de lentidão normal. A taxa de quadros aumenta para 480 por segundo. Para demonstrar os resultados, a equipe comparou os vídeos em câmera lenta gravados pelos blogueiros de vídeo do Slo Mo Guys com os mesmos vídeos desacelerando de uma nova maneira.

A primeira rede neural avalia o fluxo de vídeo - a estrutura do movimento, objetos, superfícies e arestas da cena. Ela faz isso adiante na linha do tempo e na ordem inversa para dois quadros de entrada. O sistema prevê como os pixels se moverão de um quadro para o próximo, criando vetores 2D desses movimentos.

Em seguida, a segunda rede neural funciona, que prevê o mapa de visibilidade - exclui os pixels que devem ser bloqueados pelos objetos para remover artefatos. E o sistema, com a ajuda de todos os dados recebidos, distorce os novos quadros entre os dois resultados para garantir uma transição suave.

No vídeo, você pode comparar os resultados. Obviamente, existem diferenças entre os vídeos em câmera lenta criados artificialmente e os originais, originalmente gravados com uma alta taxa de quadros. Isso é especialmente notável quando comparado ao Slo Mo Guys pulando em uma piscina em 54 segundos. Mas se não houvesse nada para comparar, seria difícil distinguir um vídeo real de um "falso".

A equipe ainda não sabe como comercializar seu desenvolvimento. Na opinião deles, ainda está longe do ideal e requer muitos recursos, inclusive temporários. É provável que, mesmo que essa tecnologia seja implementada como produto, ela não seja executada no dispositivo do usuário - os cálculos ocorrerão na nuvem.



Em abril, especialistas da Nvidia mostraram outra tecnologia que adiciona novos fragmentos à imagem - reconstrução de fotografias. O método permite remover um objeto da imagem, após o qual o sistema substituirá o fragmento vazio por um fundo realista, além de adicionar olhos e outras partes do rosto após removê-los da foto.

Em preparação para o treinamento da rede neural, os pesquisadores criaram mais de 55 mil máscaras a partir de faixas e buracos aleatórios de vários tamanhos. Outras 25 mil novas máscaras foram usadas para verificar a precisão dos resultados após o treinamento.

Durante o treinamento, as máscaras foram sobrepostas nas imagens para ajudar a rede neural a aprender como reconstruir os pixels ausentes.


O trabalho científico do Super SloMo: Estimativa de alta qualidade de múltiplos quadros intermediários para interpolação de vídeo é publicado no site de pré-impressão arXiv.org: arXiv: 1712.00080 .

Source: https://habr.com/ru/post/pt414953/


All Articles