🔓 🤘🏽 💓 J'ai créé mon propre dipfake en deux semaines et 552 $ 🐸 🐕 👩‍🏫

En créant cette vidéo, j'ai beaucoup appris

La technologie Dipfake utilise des réseaux de neurones profonds pour remplacer de manière convaincante une personne par une autre en vidéo. Cette technologie présente un potentiel évident d'utilisation malveillante, et elle devient de plus en plus courante. Concernant les conséquences sociales et politiques de cette tendance, de nombreux bons articles ont déjà été écrits.

Et ce n'est pas l'un d'eux. Au lieu de cela, j’examinerai de plus près cette technologie: comment fonctionne le logiciel diphey? Est-il difficile de les créer et à quel point les résultats sont-ils bons?

J'ai décidé qu'il était préférable de répondre à ces questions en créant ma propre vidéo dip. Les éditeurs m'ont donné quelques jours pour jouer avec le logiciel et 1000 $ pour payer le cloud computing. Après quelques semaines, j'ai obtenu le résultat présenté dans la vidéo au début de l'article. J'ai commencé avec une vidéo de Mark Zuckerberg s'adressant au Congrès et j'ai remplacé son visage par le Lieutenant Commander Data (Brent Spiner) de Star Trek: The Next Generation. Un total de 552 $ a été dépensé.

La vidéo n'était pas parfaite. Tous les détails du visage de Data ne sont pas transmis, et si vous regardez de près, des artefacts sont visibles sur les bords.

Pourtant, il est tout à fait remarquable qu'un nouveau venu comme moi puisse créer une vidéo convaincante, et ce, rapidement et à moindre coût. Il y a tout lieu de croire que la technologie dipfeyk dans les années à venir ne fera que s'améliorer, plus vite et moins cher.

Dans cet article, je vais vous guider par la main dans mon parcours dipfake. Je vais vous expliquer toutes les étapes à suivre pour créer une vidéo deepfake. En cours de route, je vais expliquer comment cette technologie fonctionne et quelles sont ses limites.

Les dipfeyks ont besoin de beaucoup de puissance de calcul et de données

Nous appelons ces vidéos diphakes [«fausses profondes»] parce qu'elles sont créées en utilisant des réseaux de neurones profonds. Au cours de la dernière décennie, les informaticiens ont découvert que les réseaux de neurones deviennent plus puissants avec l'ajout de couches supplémentaires de neurones. Mais pour libérer le plein potentiel des réseaux de neurones profonds, vous avez besoin de beaucoup de données et d'une énorme puissance de calcul.

Il en va de même pour les dipfakes. Pour ce projet, j'ai loué une machine virtuelle avec quatre puissantes cartes graphiques. Et même avec tous ces chevaux, il m'a fallu près d'une semaine pour entraîner mon mannequin.

J'avais aussi besoin d'une montagne d'images de Mark Zuckerberg et Data. J'ai eu une vidéo de 38 secondes, mais pour m'entraîner, j'avais besoin de vidéos beaucoup plus longues, à la fois Zuckerberg et Data.

Pour ce faire, j'ai téléchargé un tas de vidéos contenant leurs visages: 14 clips avec des clips de Star Trek et neuf clips avec Mark Zuckerberg. Parmi ces derniers figuraient des reportages officiels, plusieurs interviews à la télévision et même une vidéo dans laquelle Zuckerberg préparait un barbecue dans sa cour.

J'ai téléchargé tous ces clips sur iMovie et supprimé des images qui ne contenaient pas les visages de Zuckerberg et de Data. J'ai également coupé en morceaux les passages les plus longs. Un programme dipfake a besoin non seulement d'un grand nombre d'images, mais d'un grand nombre d'images différentes. Nous avions besoin de photographier des visages sous différents angles, avec des expressions différentes et sous un éclairage différent. Une vidéo d'une heure dans laquelle Zuckerberg lit le rapport ne peut pas produire de clichés plus précieux qu'un segment de cinq minutes, car il est tourné sous le même angle, sous la même lumière et montre la même expression faciale. J'ai donc recadré quelques heures de vidéo à 9 minutes avec Data et jusqu'à 7 minutes avec Zuckerberg.

Faceswap: un logiciel pour créer des dipfakes

Ensuite, il est temps d'utiliser le logiciel pour dipheyka. Au début, j'ai essayé d'utiliser le programme DeepFaceLab et j'ai pu créer une vidéo assez grossière. Puis j'ai demandé conseil sur le forum SFWdeepfakes, puis quelques personnes m'ont conseillé sur Faceswap. Les gens ont noté que ce programme a plus de fonctionnalités, une meilleure documentation et un meilleur support en ligne. J'ai décidé de suivre leurs conseils.

Faceswap fonctionne sur Linux, Windows et Mac. Le package contient des outils pour travailler à toutes les étapes de la création d'un dipfake, de l'importation des vidéos originales à la création d'une vidéo dipfake terminée. Le logiciel n'est pas intuitif, mais il est accompagné d'un matériel de formation détaillé qui couvre toutes les étapes du processus. Le matériel a été écrit par le créateur de Faceswap, Matt Torah, qui m'a également beaucoup aidé à discuter sur la chaîne Deepfake de Discord.

Faceswap nécessite une carte graphique puissante. Je savais que mon MacBook Pro ne pouvait pas le supporter. J'ai demandé aux techniciens de notre rédaction de me louer une machine virtuelle pour Linux auprès d'un fournisseur leader de services cloud. J'ai commencé avec une machine virtuelle avec un GPU Nvidia K80 et 12 Go de mémoire vidéo. Quelques jours plus tard, je suis passé à un modèle avec deux GPU, puis à 4 GPU. Elle avait quatre GPU Nvidia T4 Tensor Core avec 16 Go de mémoire chacun (et encore 48 CPU et 192 RAM, qui étaient pour la plupart inactifs).

Après deux semaines de travail, j'ai reçu une facture de 522 $. Bien sûr, j'ai dépensé une somme assez importante pour la location d'un ordinateur. La Torah m'a dit qu'en ce moment, l'option matérielle la plus rentable pour un dipfake est une carte Nvidia GTX 1070 ou 1080 avec 8 Go de mémoire. Une telle carte utilisée vaut plusieurs centaines de dollars. Une carte 1080 n'enseigne pas un réseau de neurones aussi vite que quatre de mes GPU, mais si vous êtes prêt à attendre quelques semaines, vous obtiendrez des résultats similaires.

Le workflow dans Faceswap se compose de trois étapes de base:

Extraction: coupez la vidéo en images, trouvez des visages dans chaque image, affichez des images bien alignées et soigneusement recadrées de chaque visage.
Entraînement: utilisez les images obtenues pour entraîner le réseau neuronal dipfake. Il prend une image du visage d'une personne et produit une image du visage d'une autre personne avec la même expression, l'éclairage et la même position.
Transformation: appliquez le modèle formé à l'étape précédente à une vidéo spécifique pour donner un dipfake. Après avoir formé le modèle, il peut être appliqué à n'importe quelle vidéo dans laquelle ces personnes sont présentes sur les visages desquelles il a été formé.

Pour chacune des trois étapes, un temps complètement différent est requis de la personne et de la machine. Le logiciel de récupération d'images fonctionne pendant plusieurs minutes, mais il peut prendre des heures à une personne pour vérifier les résultats. Le logiciel note tous les visages de chaque image, ainsi que quelques faux positifs. Pour obtenir de bons résultats, une personne doit passer par tous les résultats, en supprimant les visages inutiles et tout ce que le logiciel a pris pour une personne.

L'apprentissage est facile à mettre en place et ne nécessite pratiquement aucune implication humaine. Cependant, cela peut prendre des jours, voire des semaines, pour obtenir de bons résultats. J'ai commencé à entraîner mon modèle final le 7 décembre, et cela a fonctionné jusqu'au 13 décembre. Il est possible qu'après une autre semaine de travail, la qualité de mon dipfake s'améliore. Et j'ai également utilisé mon monstre cloud avec quatre cartes graphiques avancées. Si vous travaillez sur votre ordinateur avec un seul GPU de moindre puissance, cela peut prendre plusieurs semaines pour former un bon modèle.

La dernière étape, la transformation, est rapide pour une personne et un ordinateur. En recevant un modèle correctement formé, vous pouvez livrer des vidéos dipfake en moins d'une minute.

Comment fonctionnent les diphakes

Avant de décrire le processus d'apprentissage Faceswap, vous devez expliquer comment fonctionne la technologie sous-jacente.

Au cœur de Faceswap - et d'autres progiciels de premier plan pour créer des diphasés - se trouve l'auto-encodeur. Il s'agit d'un réseau neuronal formé pour recevoir une image d'entrée et produire une image identique. Cette compétence en elle-même n'est peut-être pas si utile, mais, comme nous le verrons plus tard, c'est un élément clé du processus de création d'un dipfake.

L'encodeur automatique est structuré selon le principe de deux entonnoirs reliés par une extrémité étroite. D'un côté du réseau se trouve un encodeur qui reçoit une image et la compresse en un petit nombre de variables. Dans le modèle que j'ai utilisé dans Faceswap, il s'agit de 1024 nombres à virgule flottante 32 bits. De l'autre côté du réseau neuronal se trouve un décodeur. Il prend cette représentation compacte, dite «espace latent», et essaie de l'agrandir après avoir reçu l'image initiale.

En limitant artificiellement la quantité de données transmises de l'encodeur au décodeur, ces deux réseaux développent une représentation compacte du visage humain. Un encodeur est quelque chose comme un algorithme de compression avec perte qui essaie d'enregistrer autant d'informations que possible sur un visage tout en limitant la quantité de stockage. L'espace latent doit en quelque sorte extraire des détails importants, par exemple, dans quelle direction le sujet regarde, ses yeux sont ouverts ou fermés, il sourit ou fronce les sourcils.

Il est important que l'auto-encodeur ne doive enregistrer que les traits du visage qui changent avec le temps. Il n'a pas besoin de stocker des choses inchangées telles que la couleur des yeux ou la forme du nez. S'il a les yeux bleus dans chaque photographie de Zuckerberg, alors son décodeur réseau apprendra à dessiner automatiquement son visage aux yeux bleus. Il n'est pas nécessaire d'entasser des informations dans un espace latent restreint qui ne change pas pendant la transition d'une image à une autre. Comme nous le verrons plus loin, le fait que les auto-encodeurs ont des attitudes différentes face aux caractéristiques faciales constantes et changeantes est extrêmement important pour leur capacité à émettre des diphfakes.

Chaque algorithme de formation d'un réseau de neurones a besoin d'un moyen d'évaluer la qualité du réseau afin qu'il puisse être amélioré. Dans de nombreux cas, cela se fait par le biais d'une formation avec l'enseignant, lorsque la personne fournit la bonne réponse pour chaque élément à partir de l'ensemble des données de formation. Les encodeurs automatiques fonctionnent différemment. Puisqu'ils essaient simplement de reproduire leurs propres données d'entrée, le logiciel de formation peut juger automatiquement de leur qualité de travail. Dans le jargon de l'apprentissage automatique, cela s'appelle l'apprentissage sans professeur.

Comme tout réseau de neurones, les auto-encodeurs de Faceswap sont formés à l'aide de la rétropropagation. L'algorithme d'apprentissage alimente une image spécifique dans le réseau neuronal et examine quels pixels de la sortie ne correspondent pas à l'entrée. Il calcule ensuite lequel des neurones de la dernière couche a le plus contribué aux erreurs et corrige légèrement les paramètres de chaque neurone afin qu'il donne de meilleurs résultats.

Ensuite, ces erreurs se propagent à la couche précédente, où les paramètres de chaque neurone sont à nouveau corrigés. Les erreurs se propagent ainsi plus loin en arrière jusqu'à ce que chacun des paramètres du réseau neuronal - à la fois le codeur et le décodeur - soit corrigé.

Ensuite, l'algorithme de formation alimente une autre image du réseau, et l'ensemble du processus est répété à nouveau. Des centaines de milliers de ces répétitions peuvent être nécessaires pour créer un encodeur automatique qui reproduit bien sa propre entrée.

Le logiciel Dipfake fonctionne en entraînant simultanément deux auto-encodeurs, un pour le visage d'origine et le second pour le nouveau. Pendant le processus de formation, chaque encodeur automatique reçoit des images d'une seule personne et il est formé pour produire des images très similaires à l'original.

Il y a cependant un hic: les deux réseaux utilisent le même encodeur. Les décodeurs - les neurones du côté droit du réseau - restent séparés, et chacun d'eux est formé pour donner un visage différent. Mais les neurones du côté gauche du réseau ont des paramètres communs qui changent chaque fois que l'un des auto-encodeurs est entraîné. Lorsque le réseau Zuckerberg est formé sur la face Zuckerberg, cela change la moitié du réseau appartenant à l'encodeur et dans le réseau pour les données. Chaque fois que le réseau de Data est formé sur le visage de Data, l'encodeur Zuckerberg hérite de ces changements.

Par conséquent, deux auto-encodeurs ont un encodeur commun qui peut «lire» le visage de Zuckerberg ou le visage de Data. Le but de l'encodeur est d'utiliser la même représentation de choses telles que l'angle de la tête ou l'emplacement des sourcils, qu'il ait reçu une photo de Zuckerberg ou une photo de Data en entrée. Et cela, à son tour, signifie que lorsque vous serrez votre visage avec l'encodeur, vous pouvez le déballer à l'aide de n'importe quel décodeur.

Donc, après avoir formé quelques auto-encodeurs de cette manière, il reste une étape simple de création d'un faux-dip: vous échangez des décodeurs. Vous encodez une photo Zuckerberg, mais utilisez le décodeur de données à l'étape de décodage. Le résultat est une photographie reconstruite de Data - mais avec la même position de la tête et la même expression faciale que la photographie originale de Zuckerberg.

Rappelez-vous, j'ai mentionné que l'espace latent capture les caractéristiques faciales variables d'une personne - expression, direction de la vue, emplacement des sourcils - et des choses constantes comme la couleur des yeux ou la forme de la bouche donne le décodeur. Cela signifie que si vous encodez l'image Zuckerberg, puis la décodez à l'aide du décodeur de données, vous obtiendrez un visage avec des fonctionnalités de données permanentes - par exemple, une forme de visage - mais avec l'expression et l'orientation de la face Zuckerberg d'origine.

En appliquant cette technique aux images successives d'une vidéo avec Zuckerberg, vous obtenez une nouvelle vidéo où le visage de Data effectue les mêmes mouvements - sourit, clignote, tourne la tête - que Zuckerberg a fait dans la vidéo originale.

Cette situation est symétrique. Lorsque vous entraînez un réseau de neurones pour recevoir une photo de Zuckerberg et émettre une photo de Data, vous l'entraînez simultanément pour recevoir une photo de Data et émettre une photo de Zuckerberg. L'outil de conversion des vidéos de Faceswap - la dernière étape du processus de création d'un dipfake - comprend une case à cocher «swap models», permettant à l'utilisateur d'échanger les décodeurs. En conséquence, au lieu de remplacer le visage de Data à la place du visage de Zuckerberg, le programme fait le contraire, produisant des vidéos très drôles comme celle-ci:

Données d'entraînement

En pratique, obtenir de bons résultats lors de la création d'un dipfake n'est pas facile.

Comme je l'ai mentionné, j'ai obtenu sept minutes de vidéo pour Data et neuf minutes pour Zuckerberg. Ensuite, j'ai utilisé l'outil d'extraction d'image Faceswap pour couper la vidéo et obtenir des images recadrées des visages des deux hommes. La vidéo contient environ 30 images par seconde, mais je n'en ai extrait qu'une fois sur six - cette pratique est recommandée dans la documentation Faceswap. En effet, une variété d'images signifie plus que leur nombre, et l'enregistrement de chaque image entraînerait un grand nombre d'images très similaires.

L'outil d'extraction Faceswap a produit beaucoup de faux positifs. Il a également trouvé de vrais visages à l'arrière-plan de certains plans. Pendant quelques heures, j'ai supprimé manuellement toutes les photos extraites qui n'appartenaient à aucun de mes deux sujets expérimentaux. En conséquence, j'ai obtenu 2598 images du visage de Data et 2224 images du visage de Zuckerberg.

Et à ce moment, enfin, il était temps de passer à une véritable formation de modèle. Maintenant Faceswap est livré avec 10 algorithmes dipfake différents qui prennent en charge différentes tailles d'image et nécessitent différentes puissances de calcul. Parmi les plus sans prétention, il existe un modèle «léger» qui fonctionne avec des images de visage de 64 pixels maximum. Il peut être exécuté sur une machine avec pas plus de 2 Go de mémoire vidéo. D'autres modèles fonctionnent avec des images de 128, 256 ou même 512 pixels - cependant, ils nécessitent beaucoup plus de mémoire vidéo, ainsi que plus de temps d'entraînement.

J'ai commencé à former le modèle DFL-SAE, dérivé d'algorithmes de DeepFaceLab. Cependant, il y avait un avertissement dans la documentation Faceswap que ce modèle souffre d'une «fuite d'identité» dans laquelle certaines caractéristiques d'une face peuvent s'infiltrer dans une autre. Il m'a semblé que j'avais vu quelque chose comme ça dans quelques-unes des premières vidéos de test, donc un jour plus tard, je suis passé au modèle Villain, qui fonctionne avec des images à 128 pixels. Le manuel Faceswap le décrit comme très exigeant en VRAM, et comme "un bon choix pour ceux qui veulent obtenir un modèle de résolution plus élevée sans ajuster aucun paramètre".

Alors j'ai attendu. Et il a attendu. Le processus d'apprentissage n'était pas encore terminé lorsque ma date limite est venue vendredi - et ce après six jours de formation. A cette époque, mon modèle a produit un très bon dipfake. La vitesse de progression a ralenti, mais il est possible que j'aurais obtenu un meilleur résultat si j'avais eu une autre semaine de temps informatique.

Faceswap est bien adapté pour les longs travaux informatiques. Si vous démarrez l'équipe de formation à partir de l'interface graphique, l'interface du programme met régulièrement à jour l'écran de prévisualisation, où vous pouvez voir des exemples de la façon dont le logiciel crée des portraits de Data et Zuckerberg. Si vous préférez effectuer une formation à partir de la ligne de commande, cela est également possible. L'interface Faceswap possède un bouton «générer» utile qui donne la commande exacte que vous devez exécuter pour entraîner le modèle avec les paramètres actuels définis dans l'interface.

Quelle était la qualité du dipfake?

Dans le processus d'apprentissage, Faceswap affiche en permanence une estimation numérique de la «perte» pour chacun des deux auto-encodeurs. Ces estimations montrent dans quelle mesure l’encodeur automatique de Zuckerberg peut lire les photos de Zuckerberg - et dans quelle mesure l’encodeur automatique de Data peut lire les photos de Data. Et ces chiffres étaient toujours en baisse lorsque j'ai arrêté d'apprendre vendredi, bien que la vitesse de progression se soit considérablement ralentie.

Bien sûr, en fait, il est important pour nous dans quelle mesure le décodeur de Data peut transformer le visage de Zuckerberg en Data. Nous ne savons pas à quoi devrait ressembler le «résultat final», il est donc impossible de mesurer la qualité du travail en nombre exact. Le mieux que nous puissions faire est d'examiner la vidéo et de décider si elle semble réaliste.

La vidéo ci-dessus montre la qualité du dipfake aux quatre étapes du processus d'apprentissage. Les vidéos des 10 et 12 décembre montrent le modèle Villain partiellement entraîné. La vidéo du 6 décembre en haut à gauche est un premier test avec un modèle différent. Le coin inférieur droit est le résultat final. Au cours de l'entraînement, les détails de son visage sont devenus plus clairs et plus crédibles.

Le 9 décembre, après trois jours de formation, j'ai publié une vidéo préliminaire sur la chaîne interne de la rédaction de Slak. La vidéo était similaire à ce qui se trouve dans le coin supérieur gauche. Notre gourou du design, Aurich Lawson, a réagi avec sarcasme.

"En général, cela semble mauvais", a-t-il écrit, ajoutant qu'il "ne semble pas convaincant. J'attends une de ces vidéos qui ne semblent pas fausses. "

Je pense que dans sa critique il y a un noyau rationnel. J'ai été surpris de la rapidité avec laquelle Faceswap a pu créer des images de visages qui ressemblaient beaucoup à Brent Spiner, plus qu'à Zuckerberg. Cependant, si vous regardez attentivement, vous verrez les signes caractéristiques de la fraude numérique.

Sur certaines images, la frontière entre le faux visage de Data et la tête de Zuckerberg ne semble pas tout à fait correcte. Parfois, le sourcil de Zuckerberg jette un coup d'œil sous le visage de Data. Dans d'autres endroits, les bords du faux visage sont couverts de quelques pixels sur les oreilles de Zuckerberg. Il peut être possible de résoudre ces problèmes avec la composition en post-traitement manuel par une personne - mais quelqu'un devra faire défiler la vidéo image par image et ajuster le masque pour chacun.

Cependant, un problème plus fondamental est que les algorithmes dipfake ne sont pas encore capables de reproduire suffisamment bien les moindres détails des visages humains. Cela est assez évident lorsque vous regardez les vidéos de début et de fin en parallèle. Faceswap a étonnamment bien traduit la structure globale du visage de Data. Mais même après une semaine d'entraînement, le visage est flou et ne contient pas suffisamment de détails importants. Par exemple, les logiciels pour dipheykas peuvent difficilement faire face au dessin des dents humaines. Parfois, les dents deviennent clairement visibles et dans le cadre suivant, elles disparaissent, laissant la noirceur.

L'une des principales raisons en est que la tâche Faceswap devient exponentiellement plus compliquée avec des résolutions plus élevées. Les encodeurs automatiques font un bon travail avec des images 64x64 pixels. Mais reproduire les détails les plus fins des images 128x128 pixels - sans parler des images de 256 pixels ou plus - est déjà beaucoup plus difficile. C'est peut-être l'une des raisons pour lesquelles les diphtèques les plus impressionnants ont un angle de vision assez large, sans gros plans de visages.

Cependant, vous ne devez pas considérer cela comme une limitation fondamentale de la technologie diphasique. Dans les années à venir, les chercheurs pourraient très bien développer des technologies capables de surmonter ces limites.

Souvent, la base d'un logiciel pour une dipheyka est décrite à tort comme des réseaux génératifs-accusatoires (GSS), ou de tels réseaux de neurones qui permettent au logiciel de "représenter"personnes , objets ou paysages inexistants . En fait, dipfeyki fonctionne avec des encodeurs automatiques. Cependant, les dernières avancées de la technologie GSS suggèrent que les dipfakes peuvent encore être améliorés.

Le GSS, qui est apparu pour la première fois en 2014, ne pouvait produire que des images grossières à basse résolution. Mais récemment, les chercheurs ont découvert comment créer un GSS qui produit des images photoréalistes jusqu'à 1024 pixels. Les techniques spécifiques utilisées dans ces travaux scientifiques peuvent ne pas être applicables pour créer un diphake, mais il est facile d'imaginer comment quelqu'un développera une technologie similaire pour les auto-encodeurs - ou peut-être une architecture de réseau de neurones complètement nouvelle conçue pour remplacer les visages.

Perspective dipfake

La montée en popularité des dipfakes est évidemment alarmante. Jusqu'à récemment, les gens pouvaient facilement prendre une vidéo avec une personne à sa valeur nominale. L'avènement du logiciel dipheyka et d'autres outils numériques nous a conduit au scepticisme à propos des vidéos maintenant. Si nous voyons une vidéo dans laquelle une personne prétend quelque chose de scandaleux - ou se déshabille - nous devrions envisager la possibilité que quelqu'un ait falsifié cette vidéo afin de discréditer cette personne.

Cependant, mon expérience met l'accent sur les limites de la technologie dipfake - au moins dans sa forme actuelle. Des connaissances et des efforts approfondis sont nécessaires pour créer un visage virtuel pleinement convaincant. Je n'ai pas réussi, et je ne suis pas sûr que quelqu'un ait déjà pu produire une vidéo dipfake qui soit vraiment indiscernable de la vraie.

De plus, aujourd'hui, des outils comme Faceswap ne traitent que les changements de visage. Ils ne changent pas le front, les cheveux, les bras et les jambes. Et même si le visage est parfait, il sera possible de déterminer la vidéo dipfake en fonction d'éléments qui ne semblent pas corrects.

Cependant, ces limitations de la technologie dipfake peuvent disparaître. Dans quelques années, le logiciel pourra apprendre à produire des vidéos indissociables des vraies. Et alors?

Dans ce cas, il sera utile de se rappeler que d'autres types de supports sont depuis longtemps faciles à simuler. La tâche triviale serait de prendre une capture d'écran d'un e-mail, où quelqu'un écrit quelque chose qu'il n'a pas réellement écrit. Et cela n'a pas entraîné une augmentation du nombre de carrières irrégulières en raison de courriels frauduleux, ni discrédité des captures d'écran de lettres comme preuves utilisées dans les discussions publiques.

Mais les gens savent que les e-mails peuvent être truqués et recherchent une confirmation supplémentaire dans de tels cas. Quelle chaîne d'événements a attiré l'attention du public sur les lettres? D'autres personnes ont-elles reçu des copies de cet e-mail au moment où il était censé être écrit? L'auteur présumé de la lettre a-t-il reconnu sa paternité ou revendique-t-il un faux? Les réponses à ces questions aident les gens à décider dans quelle mesure ils peuvent prendre au sérieux une lettre publiée.

Vous pouvez être dupe une fois

Il en va de même pour les vidéos. Peut-être y aura-t-il une brève période de temps où les trompeurs peuvent détruire la carrière d'une personne en publiant une vidéo où elle dit ou fait quelque chose de scandaleux. Mais bientôt, la société apprendra à traiter les vidéos avec scepticisme, à moins que le clip vidéo ne contienne des preuves documentaires, des témoins ou d'autres facteurs à l'appui.

Je pense que cela fonctionnera même dans les cas d'abus les plus scandaleux de la technologie diphey: insérer le visage d'une personne dans une vidéo pornographique. C'est évidemment irrespectueux et inacceptable. Mais les gens craignent que ces vidéos ne détruisent leur réputation et leur carrière. Je pense que ce n'est pas le cas.

En effet, sur Internet, vous pouvez trouver des images complètes de personnalités célèbres (principalement des femmes) dont la tête est attachée au corps des stars du porno à l'aide de Photoshop. La souffrance des femmes est compréhensible. Mais le public ne conclut pas automatiquement que ces femmes ont posé nues - nous connaissons l'existence de Photoshop et la possibilité de créer de fausses photos.

Il en va de même pour la pornographie profonde. Évidemment, ce n'est pas bon de faire du faux porno avec votre participation. Mais la sortie d'une vidéo dipfake avec une sorte de personne n'aura pas un effet aussi dévastateur qu'une vraie vidéo de sexe. En l'absence de preuve de l'authenticité de la vidéo, le public conclura qu'elle est fausse.

Matt Torah, l'auteur de Faceswap, me dit que cette considération a été l'une des composantes de sa motivation pour créer le package. Il pense que des logiciels pour changer les gens seront inévitablement développés. Il espère qu'en créant un outil convivial pour changer les gens de l'open source, il contribuera à éliminer le voile du secret avec cette technologie et à informer le public de ses capacités et de ses limites. Et cela, à son tour, nous aidera à arriver rapidement au point où le public sera sceptique quant aux vidéos qui pourraient se révéler fausses.

À long terme, nous risquons que le pendule des relations publiques oscille trop dans l'autre sens, et la possibilité de créer des dipfakes détruira la croyance en la force probante des vidéos. Certains politiciens ont déjà pris l'habitude de rejeter la critique des médias comme une «fausse nouvelle». Cette tactique deviendra plus efficace avec une sensibilisation accrue du public à la technologie dipheik.

J'ai créé mon propre dipfake en deux semaines et 552 $