👩🏼‍🎤 🍽️ 👨🏿‍✈️ Criei meu próprio dipfake em duas semanas e US $ 552 💇🏼 🐮 🧝

Ao criar este vídeo, eu aprendi muito

A tecnologia Dipfake usa redes neurais profundas para substituir de forma convincente uma pessoa por outra em vídeo. Essa tecnologia tem um potencial óbvio para uso malicioso e está se tornando mais comum. Quanto às conseqüências sociais e políticas dessa tendência, muitos bons artigos já foram escritos.

E este não é um deles. Em vez disso, examinarei mais de perto essa tecnologia: como o software diphey funciona? Quão difícil é criá-los e quão bons são os resultados?

Decidi que era melhor responder a essas perguntas criando meu próprio vídeo de mergulho. Os editores me deram alguns dias para jogar com o software e US $ 1000 para pagar pela computação em nuvem. Após algumas semanas, obtive o resultado apresentado no vídeo no início do artigo. Comecei com um vídeo de Mark Zuckerberg discursando no Congresso e substituí o rosto dele por Tenente Comandante Data (Brent Spiner) de Star Trek: The Next Generation. Um total de US $ 552 foi gasto.

O vídeo não foi perfeito. Todos os detalhes do rosto dos Dados não são transmitidos e, se você observar com atenção, os artefatos são visíveis nas bordas.

Ainda assim, é notável que um recém-chegado como eu possa criar um vídeo convincente, de forma rápida e barata. Há todos os motivos para acreditar que a tecnologia dipfeyk nos próximos anos só ficará melhor, mais rápida e mais barata.

Neste artigo, vou guiá-lo pela mão no meu caminho do dipfake. Explicarei todas as etapas necessárias para criar um vídeo deepfake. Ao longo do caminho, explicarei como essa tecnologia funciona e quais limitações ela possui.

Dipfeyks precisam de muita energia e dados de computação

Chamamos esses vídeos de diphakes ["falsificações profundas"] porque são criados usando redes neurais profundas. Na última década, os cientistas da computação descobriram que as redes neurais estão se tornando mais poderosas com a adição de camadas adicionais de neurônios. Mas, para liberar todo o potencial das redes neurais profundas, você precisa de muitos dados e enorme poder de computação.

O mesmo vale para os dipfakes. Para este projeto, aluguei uma máquina virtual com quatro poderosas placas gráficas. E mesmo com todos esses cavalos, levei quase uma semana para treinar meu modelo.

Eu também precisava de uma montanha de imagens de Mark Zuckerberg e Data. Eu consegui um vídeo com 38 segundos de duração, mas para o treinamento eu precisava de vídeos muito mais longos, Zuckerberg e Data.

Para fazer isso, baixei vários vídeos contendo seus rostos: 14 clipes com clipes de Star Trek e nove com Mark Zuckerberg. Entre os últimos, havia relatos formais, várias entrevistas na TV e até um vídeo em que Zuckerberg preparava um churrasco no quintal.

Carreguei todos esses clipes no iMovie e apaguei os quadros que não continham os rostos de Zuckerberg e Data. Também cortei em pedaços as passagens mais longas. Um programa dipfake precisa não apenas de um grande número de imagens, mas de um grande número de imagens diferentes. Precisávamos fotografar rostos de ângulos diferentes, com expressões diferentes e com iluminação diferente. Um vídeo de uma hora em que Zuckerberg lê o relatório não pode produzir fotos mais valiosas do que um segmento de cinco minutos, uma vez que é gravado do mesmo ângulo, na mesma luz e mostra a mesma expressão facial. Então, cortei algumas horas de vídeo em 9 minutos com Data e em até 7 minutos com Zuckerberg.

Faceswap: um pacote de software para criar dipfakes

Então é hora de usar o software para dipheyka. No começo, tentei usar o programa DeepFaceLab e consegui criar um vídeo bastante difícil. Depois, pedi conselhos no fórum SFWdeepfakes e algumas pessoas me aconselharam no Faceswap. As pessoas observaram que este programa possui mais recursos, melhor documentação e melhor suporte online. Eu decidi seguir o conselho deles.

O Faceswap é executado no Linux, Windows e Mac. O pacote possui ferramentas para trabalhar em todas as etapas da criação de um dipfake, desde a importação dos vídeos originais até a criação de um vídeo dipfake finalizado. O software não é intuitivo, mas com ele vem um material de treinamento detalhado que cobre todas as etapas do processo. O material foi escrito pelo criador do Faceswap, Matt Torah, que também me ajudou bastante a conversar no canal Deepfake do Discord.

O Faceswap requer uma poderosa placa gráfica. Eu sabia que o meu MacBook Pro não aguentava. Pedi aos técnicos de nosso escritório editorial que me alugassem uma máquina virtual para Linux de um provedor líder de serviços em nuvem. Comecei com uma máquina virtual com uma GPU Nvidia K80 e 12 GB de memória de vídeo. Alguns dias depois, mudei para um modelo com duas GPUs e depois para 4 GPUs. Ela tinha quatro GPUs Nvidia T4 Tensor Core com 16 Gb de memória cada (e outras 48 CPU e 192 RAM, que estavam praticamente inativas).

Após duas semanas de trabalho, recebi uma fatura de US $ 522. Claro, gastei uma quantia bastante grande para a conveniência de alugar um computador. A Torá me disse que, no momento, a opção de hardware mais lucrativa para um dipfake é uma placa Nvidia GTX 1070 ou 1080 com 8 GB de memória. Esse cartão usado vale várias centenas de dólares. Uma placa 1080 não ensina uma rede neural tão rápido quanto quatro das minhas GPUs, mas se você estiver pronto para esperar algumas semanas, obterá resultados semelhantes.

O fluxo de trabalho no Faceswap consiste em três etapas básicas:

Extração: corte o vídeo em quadros, encontre rostos em cada quadro, exiba imagens bem alinhadas e cuidadosamente cortadas de cada rosto.
Treinamento: use as imagens obtidas para treinar a rede neural dipfake. Tira uma imagem do rosto de uma pessoa e produz uma imagem do rosto de outra pessoa com a mesma expressão, iluminação e na mesma posição.
Transformação: aplique o modelo treinado na etapa anterior a um vídeo específico para fornecer um dipfake. Depois de treinar o modelo, ele pode ser aplicado a qualquer vídeo em que essas pessoas estejam presentes em cujas faces ele foi treinado.

Para cada uma das três etapas, é necessária uma quantidade de tempo completamente diferente da pessoa e da máquina. O software de recuperação de imagem é executado por vários minutos, mas pode levar horas para uma pessoa verificar os resultados. O software registra todos os rostos de cada imagem, além de alguns falsos positivos. Para obter bons resultados, uma pessoa precisa passar por todos os resultados, removendo rostos desnecessários e tudo o que o software levou para uma pessoa.

A aprendizagem é fácil de configurar e praticamente não requer envolvimento humano. No entanto, pode levar dias ou até semanas de tempo no computador para obter bons resultados. Comecei a treinar meu modelo final em 7 de dezembro e funcionou até 13 de dezembro. É possível que, após mais uma semana de trabalho, a qualidade do meu dipfake melhore. E também usei meu monstro na nuvem com quatro placas gráficas avançadas. Se você trabalha no seu computador com uma única GPU de menor potência, pode levar várias semanas para treinar um bom modelo.

A etapa final, transformação, é rápida para uma pessoa e um computador. Ao receber um modelo adequadamente treinado, você pode entregar vídeos dipfake em menos de um minuto.

Como funcionam os diphakes

Antes de descrever o processo de aprendizado do Faceswap, você precisa explicar como a tecnologia subjacente funciona.

No coração do Faceswap - e outros pacotes de software líderes para a criação de diphakes - está o codificador automático. Esta é uma rede neural treinada para receber uma imagem de entrada e produzir uma imagem idêntica. Essa habilidade em si pode não ser tão útil, mas, como veremos mais adiante, é um elemento essencial no processo de criação de um dipfake.

O codificador automático é estruturado de acordo com o princípio de dois funis conectados por uma extremidade estreita. De um lado da rede, há um codificador que recebe uma imagem e a comprime em um pequeno número de variáveis. No modelo que usei no Faceswap, esses são 1024 números de ponto flutuante de 32 bits. Do outro lado da rede neural está um decodificador. Ele pega essa representação compacta, conhecida como “espaço latente”, e tenta expandi-la, tendo recebido a imagem inicial.

Limitar artificialmente a quantidade de dados transmitidos do codificador para o decodificador faz com que essas duas redes desenvolvam uma representação compacta do rosto humano. Um codificador é algo como um algoritmo de compactação com perdas que tenta salvar o máximo possível de informações sobre um rosto, limitando a quantidade de armazenamento. O espaço latente deve de alguma forma extrair detalhes importantes, por exemplo, em que direção o sujeito está olhando, seus olhos estão abertos ou fechados, ele está sorrindo ou franzindo a testa.

É importante que o codificador automático precise salvar apenas os recursos do rosto que mudam com o tempo. Ele não precisa armazenar coisas inalteradas, como cor dos olhos ou formato do nariz. Se ele tiver olhos azuis em todas as fotografias de Zuckerberg, seu decodificador de rede aprenderá a desenhar automaticamente seu rosto com olhos azuis. Não há necessidade de colocar as informações em um espaço latente apertado que não muda durante a transição de uma imagem para outra. Como veremos mais adiante, o fato de os codificadores automáticos terem atitudes diferentes em relação às características faciais constantes e variáveis é extremamente importante para sua capacidade de emitir difusores de frequência.

Cada algoritmo para treinar uma rede neural precisa de alguma maneira de avaliar a qualidade da rede para que ela possa ser aprimorada. Em muitos casos, isso é feito por meio de treinamento com o professor, quando a pessoa fornece a resposta correta para cada elemento do conjunto de dados de treinamento. Os codificadores automáticos funcionam de maneira diferente. Como eles estão simplesmente tentando reproduzir seus próprios dados de entrada, o software de treinamento pode avaliar automaticamente a qualidade do trabalho. No jargão do aprendizado de máquina, isso é chamado de aprendizado sem professor.

Como qualquer rede neural, os auto-codificadores no Faceswap são treinados usando retropropagação. O algoritmo de treinamento alimenta uma imagem específica na rede neural e examina quais pixels na saída não correspondem à entrada. Em seguida, ele calcula quais neurônios da última camada deram a maior contribuição para os erros e corrige levemente os parâmetros de cada neurônio, a fim de obter melhores resultados.

Em seguida, esses erros se propagam de volta à camada anterior, onde os parâmetros de cada neurônio são corrigidos novamente. Os erros se propagam dessa maneira mais para trás até que cada um dos parâmetros da rede neural - tanto o codificador quanto o decodificador - seja corrigido.

Em seguida, o algoritmo de treinamento alimenta outra imagem da rede e todo o processo é repetido novamente. Podem ser necessárias centenas de milhares de repetições para criar um codificador automático que reproduza bem sua própria entrada.

O software Dipfake funciona treinando simultaneamente dois codificadores automáticos, um para o rosto original e o segundo para o novo. Durante o processo de treinamento, cada codificador automático recebe imagens de apenas uma pessoa e ele é treinado para produzir imagens muito semelhantes às originais.

Há, no entanto, um problema: ambas as redes usam o mesmo codificador. Os decodificadores - neurônios do lado direito da rede - permanecem separados e cada um deles é treinado para mostrar uma face diferente. Mas os neurônios no lado esquerdo da rede têm parâmetros comuns que mudam toda vez que qualquer um dos codificadores automáticos é treinado. Quando a rede Zuckerberg é treinada na face Zuckerberg, isso altera metade da rede pertencente ao codificador e na rede de Dados. Cada vez que a rede da Data é treinada na face da Data, o codificador Zuckerberg herda essas alterações.

Como resultado, dois codificadores automáticos têm um codificador comum que pode "ler" o rosto de Zuckerberg ou o rosto de Data. O objetivo do codificador é usar a mesma representação de coisas como o ângulo da cabeça ou a localização das sobrancelhas, independentemente de ele ter recebido uma foto de Zuckerberg ou uma foto de dados na entrada. E isso, por sua vez, significa que quando você aperta seu rosto com o codificador, pode descompactá-lo usando qualquer decodificador.

Portanto, tendo treinado alguns codificadores automáticos dessa maneira, resta um passo simples para criar um falso falso: você troca os decodificadores. Você está codificando uma foto de Zuckerberg, mas usando o decodificador de dados na etapa de decodificação. O resultado é uma fotografia reconstruída de Data - mas com a mesma posição da cabeça e expressão facial da fotografia original de Zuckerberg.

Lembre-se de que mencionei que o espaço latente captura as características faciais variáveis de uma pessoa - expressão, direção da visão, a localização das sobrancelhas - e coisas constantes como a cor dos olhos ou o formato da boca fornece o decodificador. Isso significa que, se você codificar a imagem de Zuckerberg e decodificá-la usando o decodificador de dados, obterá um rosto com recursos permanentes de dados - por exemplo, um formato de rosto - mas com a expressão e orientação da face original de Zuckerberg.

Ao aplicar essa técnica a quadros sucessivos de um vídeo com Zuckerberg, você obtém um novo vídeo em que o rosto de Data realiza os mesmos movimentos - sorri, pisca, vira a cabeça -, o que Zuckerberg fez no vídeo original.

Esta situação é simétrica. Ao treinar uma rede neural para receber uma foto de Zuckerberg e emitir uma foto de Data, você a treina simultaneamente para receber uma foto de Data e emitir uma foto de Zuckerberg. A ferramenta de conversão de vídeo do Faceswap - o último passo no processo de criação de um dipfake - inclui uma caixa de seleção útil "trocar modelos", permitindo ao usuário trocar decodificadores. Como resultado, em vez de substituir o rosto de Data no lugar do rosto de Zuckerberg, o programa faz o contrário, produzindo vídeos muito engraçados como este:

Dados de treinamento

Na prática, obter bons resultados ao criar um dipfake não é fácil.

Como mencionei, recebi sete minutos de vídeo para Data e nove minutos para Zuckerberg. Depois, usei a ferramenta de extração de imagem Faceswap para cortar o vídeo e obter imagens cortadas dos rostos dos dois homens. O vídeo contém cerca de 30 quadros por segundo, mas extraí apenas a cada sexto - essa prática é recomendada na documentação do Faceswap. Isso ocorre porque uma variedade de imagens significa mais do que apenas seu número, e salvar cada quadro levaria a um grande número de imagens muito semelhantes.

A ferramenta de extração Faceswap produziu muitos falsos positivos. Ele também encontrou rostos reais no fundo de algumas fotos. Durante algumas horas, apaguei manualmente todas as fotos extraídas que não pertenciam a nenhum dos meus dois assuntos experimentais. Como resultado, obtive 2598 imagens do rosto de Data e 2224 imagens do rosto de Zuckerberg.

E, naquele momento, finalmente, chegou a hora de seguir para o treinamento de modelos reais. Agora, o Faceswap vem com 10 algoritmos dipfake diferentes, que oferecem suporte a tamanhos de imagem diferentes e exigem poder de computação diferente. Entre os mais despretensiosos, há um modelo "leve" que trabalha com imagens de rosto com tamanho não superior a 64 pixels. Pode ser executado em uma máquina com no máximo 2 GB de memória de vídeo. Outros modelos trabalham com imagens de 128, 256 ou até 512 pixels de tamanho - no entanto, exigem muito mais memória de vídeo e mais tempo de treinamento.

Comecei a treinar o modelo DFL-SAE, derivado de algoritmos do DeepFaceLab. No entanto, houve um aviso na documentação do Faceswap de que este modelo sofre de um "vazamento de identidade" no qual alguns recursos de um rosto podem se infiltrar em outro. Pareceu-me que vi algo parecido com isso em alguns dos primeiros vídeos de teste, então um dia depois mudei para o modelo Villain, que funciona com imagens de 128 pixels. O manual do Faceswap o descreve como muito exigente na VRAM e como "uma boa opção para quem deseja obter um modelo de resolução mais alta sem ajustar nenhum parâmetro".

Então eu esperei. E ele esperou. O processo de aprendizado ainda não havia terminado quando meu prazo chegou na sexta-feira - e após seis dias de treinamento. Naquela época, meu modelo produzia um bom dipfake. A velocidade do progresso diminuiu, mas é possível que eu tivesse um resultado melhor se tivesse mais uma semana de tempo no computador.

O Faceswap está bem adaptado para trabalhos de computação longos. Se você iniciar a equipe de treinamento a partir da interface gráfica, a interface do programa atualiza regularmente a tela de visualização, onde é possível ver exemplos de como o software cria retratos de Data e Zuckerberg. Se você preferir realizar um treinamento na linha de comando, isso também é possível. A interface do Faceswap possui um útil botão "gerar" que fornece o comando exato que você precisa executar para treinar o modelo com as configurações atuais feitas na interface.

Quão bom foi o dipfake?

No processo de aprendizado, o Faceswap exibe constantemente uma estimativa numérica da "perda" para cada um dos dois codificadores automáticos. Essas estimativas mostram quão bem o codificador automático de Zuckerberg pode reproduzir as fotos de Zuckerberg - e quão bem o codificador automático de Data pode reproduzir as fotos de Data. E esses números ainda estavam diminuindo quando eu parei de aprender na sexta-feira, embora a velocidade do progresso tenha diminuído significativamente.

Naturalmente, é importante para nós o quão bem o decodificador de Data pode transformar o rosto de Zuckerberg em Data. Não sabemos como deve ser o "resultado final", portanto, é impossível medir a qualidade do trabalho em números exatos. O melhor que podemos fazer é revisar o vídeo e decidir se ele parece realista.

O vídeo acima mostra a qualidade do dipfake nas quatro etapas do processo de aprendizado. Os vídeos de 10 e 12 de dezembro mostram o modelo de vilão parcialmente treinado. O vídeo de 6 de dezembro no canto superior esquerdo é um teste inicial com um modelo diferente. O canto inferior direito é o resultado final. No processo de treinamento, os detalhes de seu rosto se tornaram mais claros e mais críveis.

Em 9 de dezembro, após três dias de treinamento, publiquei um vídeo preliminar no canal interno da redação em Slak. O vídeo foi semelhante ao que está localizado no canto superior esquerdo. Nosso guru do design, Aurich Lawson, reagiu sarcasticamente a ele.

“Em geral, parece ruim”, ele escreveu, acrescentando que “não parece convincente. Estou esperando por um desses vídeos que não parecem falsos. "

Penso que nas suas críticas existe um núcleo racional. Fiquei surpreso com a rapidez com que o Faceswap foi capaz de criar imagens de rostos que se pareciam muito com Brent Spiner, mais do que Zuckerberg. No entanto, se você observar de perto, verá os sinais característicos da fraude digital.

Em alguns quadros, a fronteira entre o rosto falso de Data e a cabeça de Zuckerberg não parece muito certa. Às vezes, a sobrancelha de Zuckerberg espreita por baixo do rosto de Data. Em outros lugares, as bordas do rosto falso são cobertas com alguns pixels nas orelhas de Zuckerberg. Pode ser possível corrigir esses problemas com a composição no pós-processamento manual de uma pessoa - mas alguém precisará rolar o vídeo quadro a quadro e corrigir a máscara de cada um.

No entanto, um problema mais fundamental é que os algoritmos diphfake ainda não são capazes de reproduzir os mínimos detalhes dos rostos humanos o suficiente. Isso é bastante óbvio quando você olha para os vídeos inicial e final em paralelo. O Faceswap surpreendentemente bem transmitiu a estrutura geral do rosto de Data. Mas mesmo depois de uma semana de treinamento, o rosto parece desfocado e não há detalhes importantes suficientes nele. Por exemplo, o software para dipheykas dificilmente consegue lidar com o desenho de dentes humanos. Às vezes, os dentes ficam claramente visíveis e, no próximo quadro, desaparecem, deixando escuridão.

Uma das principais razões para isso é porque a tarefa Faceswap fica exponencialmente mais complicada com resoluções mais altas. Os codificadores automáticos fazem um bom trabalho com imagens de 64x64 pixels. Mas reproduzir os detalhes mais finos das imagens de 128x128 pixels - para não mencionar imagens de 256 pixels ou mais - já é muito mais difícil. Talvez essa seja uma das razões pelas quais os difusores mais impressionantes têm um ângulo de visão bastante amplo, sem close de rostos.

No entanto, você não deve considerar isso uma limitação fundamental da tecnologia diphake. Nos próximos anos, os pesquisadores poderão desenvolver tecnologias que possam superar essas limitações.

Freqüentemente, a base do software para um dipheyka é erroneamente descrita como redes generativas-adversárias (GSS) ou redes neurais que permitem ao software "representar"pessoas , objetos ou paisagens inexistentes . De fato, o dipfeyki trabalha usando autoencoders. No entanto, os últimos avanços na tecnologia GSS sugerem que os dipfakes ainda têm espaço para melhorias.

O GSS, que apareceu pela primeira vez em 2014, só podia produzir imagens grosseiras e de baixa resolução. Mas, recentemente, os pesquisadores descobriram como criar um GSS que produz imagens fotorrealistas com tamanho de até 1024 pixels. As técnicas específicas usadas nesses trabalhos científicos podem não ser aplicáveis à criação de um diphake, mas é fácil imaginar como alguém desenvolverá uma tecnologia semelhante para codificadores automáticos - ou talvez uma arquitetura de rede neural completamente nova projetada para substituir faces.

Perspectiva Dipfake

O aumento da popularidade dos dipfakes é obviamente alarmante. Até recentemente, as pessoas podiam facilmente gravar um vídeo com uma pessoa pelo valor de face. O advento do software dipheyka e de outras ferramentas digitais nos deixou céticos em relação aos vídeos agora. Se virmos um vídeo em que uma pessoa reivindica algo escandaloso - ou retira-se - devemos considerar a possibilidade de alguém falsificar esse vídeo para desacreditar essa pessoa.

No entanto, meu experimento enfatiza as limitações da tecnologia dipfake - pelo menos em sua forma atual. É necessário amplo conhecimento e esforço para criar uma face virtual totalmente convincente. Não tive sucesso e não tenho certeza se alguém já foi capaz de produzir um vídeo dipfake que é realmente indistinguível do real.

Além disso, hoje ferramentas como o Faceswap lidam apenas com alterações de rosto. Eles não mudam a testa, cabelos, braços e pernas. E mesmo que o rosto seja perfeito, será possível determinar o vídeo dipfake com base em elementos que não parecem corretos.

No entanto, essas limitações da tecnologia dipfake podem desaparecer. Em alguns anos, o software poderá aprender a produzir vídeos que não podem ser distinguidos dos reais. O que então?

Nesse caso, será útil lembrar que outros tipos de mídia há muito são fáceis de falsificar. A tarefa trivial seria tirar uma captura de tela de um e-mail, onde alguém escreve algo que ele realmente não escreveu. E isso não levou a um aumento no número de pedreiras quebradas devido a e-mails fraudulentos, nem desacreditou as capturas de tela das cartas como evidência usada em discussões públicas.

Mas as pessoas sabem que os e-mails podem ser falsificados e estão procurando por confirmação adicional nesses casos. Que cadeia de eventos atraiu a atenção do público para as cartas? Outras pessoas receberam cópias deste e-mail no momento em que deveria ser escrito? O suposto autor da carta reconheceu sua autoria ou alegou falsificação? As respostas a essas perguntas ajudam as pessoas a decidirem com que seriedade podem levar uma carta publicada.

Você pode ser enganado uma vez

O mesmo acontece com os vídeos. Talvez haja um breve período de tempo em que os enganadores possam destruir a carreira de uma pessoa postando um vídeo em que ele diz ou faz algo ultrajante. Mas em breve a sociedade aprenderá a tratar vídeos com ceticismo, a menos que o videoclipe possua qualquer tipo de evidência documental, testemunhas ou outros fatores de apoio.

Acho que isso funcionará mesmo nos casos dos abusos mais ultrajantes da tecnologia diphey: inserir o rosto de uma pessoa em um vídeo pornográfico. Isso é obviamente desrespeitoso e inaceitável. Mas as pessoas temem que esses vídeos possam destruir sua reputação e carreira. Eu acho que não é assim.

De fato, na Internet você pode encontrar imagens completas de personalidades famosas (principalmente mulheres) cujas cabeças estão presas aos corpos de estrelas porno com a ajuda do Photoshop. O sofrimento das mulheres é compreensível. Mas o público não conclui automaticamente que essas mulheres posam nuas - sabemos sobre a existência do Photoshop e sobre a possibilidade de criar fotos falsas.

O mesmo vale para a pornografia profunda. Obviamente, não é bom fazer pornô falso com a sua participação. Mas o lançamento de um vídeo dipfake com algum tipo de pessoa não terá um efeito tão devastador quanto um vídeo real de sexo. Na ausência de evidências da autenticidade do vídeo, o público concluirá que é falso.

Matt Torah, autor do Faceswap, conta que essa consideração foi um dos componentes de sua motivação para criar o pacote. Ele acredita que o software para mudar as pessoas será inevitavelmente desenvolvido. Ele espera que, ao criar uma ferramenta amigável para mudar as pessoas de código aberto, ele ajude a remover o véu de sigilo com essa tecnologia e informe o público sobre suas capacidades e limitações. E isso, por sua vez, nos ajudará a chegar rapidamente ao ponto em que o público ficará cético em relação a vídeos que podem ser falsos.

A longo prazo, arriscamos que o pêndulo das relações públicas mude demais para o outro lado, e a possibilidade de criar dipfakes destrua a crença no poder evidencial dos vídeos. Alguns políticos já adotaram o hábito de rejeitar as críticas da mídia como "notícias falsas". Essa tática se tornará mais eficaz com a crescente conscientização da sociedade sobre a tecnologia dos dipfakes.

Criei meu próprio dipfake em duas semanas e US $ 552