Les chercheurs de Carnegie Mellon ont créé les «deepfakes» les plus crédibles

Avez-vous déjà entendu parler de "deepfakes"? AI, qui impose le visage d'une personne sur le corps d'une autre, a été utilisée pour remplacer Harrison Ford par Nicholas Cage dans d'innombrables clips vidéo, ainsi qu'à des fins plus odieuses: des célébrités sont apparues dans le porno et la propagande à leur insu. Maintenant, pour le meilleur ou pour le pire, les chercheurs de l'Université Carnegie Mellon ont développé un nouveau système plus puissant et polyvalent.


Il s'appelle le "Recycle-GAN". Il s'agit d'un système permettant de transformer le contenu d'une vidéo ou d'une photographie à l'image d'une autre, en apprenant exclusivement à partir de données non allouées (formation sans professeur). "La tâche de changer le contenu tout en préservant le style de l'original a de nombreuses utilisations, par exemple, imposer les mouvements et les expressions faciales d'une personne à une autre, former des robots en utilisant la méthode" do as I ", disent les chercheurs, ou convertir des vidéos en noir et blanc en couleur."

Jusqu'à présent, même les méthodes de transformation les plus avancées visaient les visages humains et, selon les chercheurs, «elles étaient pratiquement impossibles à appliquer dans d'autres domaines», en plus «elles fonctionnent très mal avec des visages partiellement cachés». D'autres méthodes utilisent la transformation image par image, ce qui nécessite un étiquetage manuel et un alignement des données laborieux.

image

Recycle-GAN utilise des réseaux antagonistes génératifs (GAN) et des «marqueurs spatio-temporels» pour «lier» deux images ou vidéos. (Les GAN sont des modèles constitués d'un générateur qui tente de «tromper» le discriminateur en produisant des résultats de plus en plus réalistes à partir des données d'entrée.) Lors de la formation sur la vidéo avec des personnes, ils créent des vidéos avec des moments aussi insaisissables que des fossettes sur les joues qui se forment lorsque vous souriez et le mouvement des lèvres.

«Sans aucune intervention et connaissance de base liées aux spécificités de la vidéo, notre approche est capable d'apprendre simplement en utilisant des vidéos de sujets accessibles au public sur Internet», écrit l'équipe de développement

Recycle-GAN est capable de bien plus que de transmettre des expressions faciales. Les chercheurs l'ont utilisé pour changer les conditions météorologiques dans une vidéo en convertissant le calme total par une journée venteuse. Ils ont imité des fleurs épanouies et mourantes et ont synthétisé un lever de soleil convaincant à partir d'une vidéo sur Internet.


Les résultats des tests sont assez bons: le système a réussi à tromper 15 sujets dans 28,3% des cas, mais l'équipe estime que les produits des futures versions du système peuvent être plus crédibles s'ils prennent en compte la vitesse de lecture, par exemple, combien de personnes plus rapides ou plus lentes disent dans la vidéo

"Un transfert de style plausible devrait pouvoir prendre en compte même la différence de temps résultant de la reproduction de la parole / du contenu", a écrit l'équipe. «Nous pensons que la meilleure architecture spatio-temporelle d'un réseau de neurones peut résoudre ce problème dans un avenir proche.»


Sans surprise, les deepfakes restent un sujet brûlant et très débattu. Les services accessibles au public facilitent leur création et il n'existe aucune base juridique pour protéger les victimes de ces vidéos.

Reddit, Pornhub, Twitter et d'autres ont pris position contre eux, et les chercheurs (rejoignant plus récemment le Département de la défense des États-Unis) continuent de chercher des moyens de détecter les deepfakes. Mais, comme Eric Goldman, professeur à la faculté de droit de l'Université de Santa Clara et directeur de l'Institut de haute technologie, l'a récemment déclaré, il est préférable "de se préparer à vivre dans un monde où des photos et des vidéos réelles et fausses nous entoureront."

Source: https://habr.com/ru/post/fr420541/


All Articles