
Les chercheurs ont appris à monter des vidéos en
mettant des mots et des phrases dans la bouche d'une personne sur une vidéo . La technologie traite la vidéo de telle manière que tout semble très naturel et organique, vous ne pouvez remarquer le faux que si vous suspectez un montage.
Le nouvel algorithme a été créé par une équipe conjointe de chercheurs de Stanford, du Max Planck Institute, de Princeton et d'Adobe. Le montage consiste uniquement à créer le texte que la personne de la vidéo doit prononcer. Le reste du travail est effectué par le réseau neuronal. Il est difficile de remarquer un faux car les expressions faciales et les schémas de mouvements du «locuteur» sont préservés, la technologie permet de masquer les traces d'interférences.
Pour ce faire, les créateurs de l'algorithme lui ont appris à analyser la vidéo. Le réseau neuronal sélectionne les gestes nécessaires, les éléments des expressions faciales et des mots avec articulation, puis combine les images individuelles pour que la vidéo modifiée soit intacte. Le résultat est, en fait, un modèle informatique qui effectue les actions nécessaires pour le propriétaire de la technologie.
Les mouvements des lèvres, de la langue, tous les éléments articulatoires sont originaux, le réseau neuronal les «coupe» de la vidéo originale. Après cela, la vidéo ne semble pas trop naturelle, car elle contient un grand nombre de coupures et de pauses. Par conséquent, la technologie «adoucit» l'option résultante afin qu'elle soit aussi naturelle que possible.
Avant utilisation, le réseau neuronal doit être formé - il doit «alimenter» au moins 40 minutes de vidéo avec la ou les personnes dont la parole sera remplacée. Certes, cela ne concerne que les vidéos en anglais, car il n'y a que 44 phonèmes en anglais, il est donc beaucoup plus facile de former un réseau de neurones en utilisant l'anglais comme exemple que le russe ou le japonais. Cependant, au fil du temps, cette technologie peut être utilisée pour éditer des vidéos avec des personnes qui parlent d'autres langues. Ci-dessous, une vidéo qui sert de démonstration des capacités de la technologie décrite.
Bien entendu, ce travail soulève un certain nombre de questions. L'un d'eux est la sécurité de l'information et des médias. Si des mots peuvent être mis dans la bouche d'une personne et que le résultat semble très naturel, la technologie est-elle dangereuse? Les auteurs du développement affirment que oui, il peut être utilisé par des attaquants. Mais, par exemple, les éditeurs graphiques existent depuis très longtemps, avec leur aide, vous pouvez aussi truquer n'importe quoi, mais le monde et nous continuons d'exister avec lui.
De plus, les auteurs disent qu'ils comprennent que la même technologie peut être utilisée par des politiciens sans scrupules. Ces derniers pourront éviter d'avoir à prononcer des discours devant la caméra s'ils sont remplacés par des «têtes parlantes» formées à partir de discours antérieurs captés en vidéo.
Afin de détecter un faux, les auteurs de l'idée suggèrent d'utiliser un filigrane spécialisé et quelques autres techniques qui permettront de reconnaître la contrefaçon.
Bien sûr, le fait de modifier une vidéo est facile à prouver s'il existe une vidéo originale. De plus, les auteurs prévoient de développer des méthodes de protection du contenu multimédia en ajoutant des «empreintes digitales» à la version originale, faciles à détecter et à comprendre si la vidéo est originale ou fausse.
Le texte intégral de l'étude est
disponible ici .