Já ouviu falar de "deepfakes"? A IA, que cobre o rosto de uma pessoa no corpo de outra, foi usada para substituir Harrison Ford por Nicholas Cage em inúmeros videoclipes, bem como para propósitos mais hediondos: as celebridades apareceram na pornografia e na propaganda sem seu conhecimento. Agora, para o bem ou para o mal, pesquisadores da Universidade Carnegie Mellon desenvolveram um sistema novo, mais poderoso e versátil.
É chamado de "Reciclar-GAN". Este é um sistema para transformar o conteúdo de um vídeo ou fotografia à semelhança de outro, aprendendo exclusivamente a partir de dados não alocados (treinamento sem professor). “A tarefa de alterar o conteúdo e preservar o estilo do original tem muitos usos, por exemplo, aplicar movimentos e expressões faciais de uma pessoa a outra, treinar robôs usando o método“ faça como eu ”, dizem os pesquisadores, ou converter vídeos em preto e branco em vídeos coloridos.”
Até agora, até os métodos mais avançados de transformação eram voltados para rostos humanos e, segundo os pesquisadores, “eram quase impossíveis de aplicar em outras áreas”, além de “eles trabalham muito mal com rostos parcialmente ocultos”. Outros métodos usam a transformação quadro a quadro, que exige rotulagem manual trabalhosa e alinhamento de dados.

O Recycle-GAN usa redes generativas de oposição (GANs) e "marcadores de espaço-tempo para" vincular "duas fotos ou vídeos. (Os GANs são modelos que consistem em um gerador que tenta enganar o discriminador, produzindo resultados cada vez mais realistas a partir dos dados de entrada.) Ao treinar em vídeo com as pessoas, eles criam vídeos com momentos esquivos, como covinhas nas bochechas que se formam quando você sorri. e movimento labial.
"Sem nenhuma intervenção e conhecimento básico relacionado às especificidades do vídeo, nossa abordagem é capaz de aprender simplesmente usando vídeos de assunto acessíveis à Internet da Internet", escreve a equipe de desenvolvimento
O Recycle-GAN é capaz de muito mais do que transmitir expressões faciais. Os pesquisadores o usaram para alterar as condições climáticas em um vídeo, convertendo a calma total em um dia ventoso. Eles imitaram flores desabrochando e morrendo e sintetizaram um nascer do sol convincente a partir de um vídeo na Internet.
Os resultados dos testes são muito bons: o sistema conseguiu enganar 15 sujeitos em 28,3% dos casos, mas a equipe acredita que os produtos de versões futuras do sistema podem ser mais confiáveis se levarem em conta a velocidade de reprodução, por exemplo, o quanto as pessoas dizem mais rápido ou mais devagar no vídeo
“Uma transferência de estilo plausível deve levar em conta até a diferença de tempo resultante da reprodução de fala / conteúdo”, escreveu a equipe. "Acreditamos que a melhor arquitetura espaço-temporal de uma rede neural pode resolver esse problema no futuro próximo".
Não é de surpreender que os deepfakes continuem sendo um tópico quente e debatido. Os serviços publicamente disponíveis tornam sua criação relativamente fácil e não há base legal para proteger as vítimas desses vídeos.
Reddit, Pornhub, Twitter e outros se posicionaram contra eles, e os pesquisadores (mais recentemente ingressando no Departamento de Defesa dos Estados Unidos) continuam procurando maneiras de detectar falhas profundas. Mas, como disse recentemente Eric Goldman, professor de direito da Universidade de Santa Clara e diretor do Instituto de Alta Tecnologia, é melhor "se preparar para viver em um mundo onde fotos e vídeos reais e falsos nos cercarão".