
Os pesquisadores aprenderam a editar vídeos
colocando palavras e frases na boca de uma pessoa em um vídeo . A tecnologia processa o vídeo de forma que pareça muito natural e orgânico; você pode perceber o falso apenas se suspeitar de edição.
O novo algoritmo foi criado por uma equipe conjunta de pesquisadores de Stanford, Instituto Max Planck, Princeton e Adobe. A edição consiste apenas na criação do texto que a pessoa do vídeo deve pronunciar. O restante do trabalho é realizado pela rede neural. É difícil perceber uma farsa porque as expressões faciais e os padrões de movimentos do “alto-falante” são preservados, a tecnologia permite mascarar traços de interferência.
Para conseguir isso, os criadores do algoritmo o ensinaram a analisar o vídeo. A rede neural seleciona os gestos necessários, elementos de expressões faciais e palavras com a articulação e, em seguida, combina os quadros individuais para que o vídeo modificado pareça intacto. O resultado é, de fato, um modelo de computador que executa as ações necessárias para o proprietário da tecnologia.
Os movimentos dos lábios, língua, todos os elementos articulatórios são originais, a rede neural os "corta" do vídeo original. Depois disso, o vídeo não parece muito natural, pois contém um grande número de cortes e pausas. Portanto, a tecnologia "suaviza" a opção resultante para que pareça o mais natural possível.
Antes do uso, a rede neural precisa ser treinada - precisa “alimentar” pelo menos 40 minutos de vídeo com a pessoa ou pessoas cuja fala será substituída. É verdade que isso é relevante apenas para vídeos em inglês, uma vez que existem apenas 44 fonemas em inglês; portanto, é muito mais fácil treinar uma rede neural usando o inglês como exemplo do que o russo ou o japonês. No entanto, com o tempo, essa tecnologia pode ser usada para editar vídeos com pessoas que falam outros idiomas. Abaixo está um vídeo que serve como uma demonstração dos recursos da tecnologia descrita.
Obviamente, este trabalho levanta várias questões. Um deles é a segurança da informação e da mídia. Se alguma palavra puder ser colocada na boca de qualquer pessoa e o resultado parecer muito natural, a tecnologia é perigosa? Os autores do desenvolvimento afirmam que sim, ele pode ser usado por atacantes. Mas, por exemplo, os editores gráficos existem há muito tempo, com a ajuda deles você também pode fingir qualquer coisa, mas o mundo e nós continuamos a existir com ele.
Além disso, os autores dizem que entendem que a mesma tecnologia pode ser usada por políticos sem escrúpulos. Este último será capaz de evitar a necessidade de fazer discursos na frente da câmera se eles forem substituídos por "cabeças falantes" formadas a partir de discursos anteriores capturados em vídeo.
Para detectar uma falsificação, os autores da idéia sugerem o uso de marca d'água especializada e algumas outras técnicas que possibilitarão o reconhecimento da falsificação.
Obviamente, é fácil provar o fato de modificar o vídeo se houver um vídeo original. Além disso, os autores planejam desenvolver métodos para proteger o conteúdo da mídia adicionando "impressões digitais" à versão original, que são fáceis de detectar e entender se o vídeo é original ou falso.
O texto completo do estudo pode ser
encontrado aqui .