
Die Forscher lernten, wie man Videos bearbeitet, indem
man einem Video Wörter und Sätze in den Mund einer Person steckt . Die Technologie verarbeitet das Video so, dass es sehr natürlich und organisch aussieht. Sie können die Fälschung nur bemerken, wenn Sie den Verdacht haben, sie zu bearbeiten.
Der neue Algorithmus wurde von einem gemeinsamen Forscherteam aus Stanford, dem Max-Planck-Institut, Princeton und Adobe entwickelt. Die Bearbeitung besteht nur darin, den Text zu erstellen, den die Person aus dem Video aussprechen soll. Der Rest der Arbeit wird vom neuronalen Netzwerk erledigt. Es ist schwierig, eine Fälschung zu bemerken, da Mimik und Bewegungsmuster des „Sprechers“ erhalten bleiben. Die Technologie ermöglicht das Maskieren von Interferenzspuren.
Um dies zu erreichen, brachten ihm die Entwickler des Algorithmus das Analysieren von Videos bei. Das neuronale Netzwerk wählt die erforderlichen Gesten, Elemente von Gesichtsausdrücken und Wörtern mit Artikulation aus und kombiniert dann die einzelnen Frames, sodass das modifizierte Video intakt aussieht. Das Ergebnis ist in der Tat ein Computermodell, das die für den Technologiebesitzer erforderlichen Aktionen ausführt.
Die Bewegungen der Lippen, der Zunge und aller Artikulationselemente sind original, das neuronale Netzwerk „schneidet“ sie aus dem Originalvideo. Danach sieht das Video nicht allzu natürlich aus, da es eine große Anzahl von Schnitten und Pausen enthält. Daher „glättet“ die Technologie die resultierende Option, damit sie so natürlich wie möglich aussieht.
Vor der Verwendung muss das neuronale Netzwerk trainiert werden - es muss mindestens 40 Minuten Video mit der Person oder den Personen „füttern“, deren Sprache ersetzt wird. Dies ist zwar nur für englischsprachige Videos relevant, da es auf Englisch nur 44 Phoneme gibt, sodass das neuronale Netzwerk am Beispiel der englischen Sprache viel einfacher zu erlernen ist als Russisch oder Japanisch. Mit der Zeit kann diese Technologie jedoch verwendet werden, um Videos mit Personen zu bearbeiten, die andere Sprachen sprechen. Unten sehen Sie ein Video, das als Demonstration der Fähigkeiten der beschriebenen Technologie dient.
Natürlich wirft diese Arbeit eine Reihe von Fragen auf. Eine davon ist die Informations- und Mediensicherheit. Wenn Worte in den Mund einer Person gesteckt werden können und das Ergebnis sehr natürlich aussieht, ist die Technologie dann gefährlich? Die Autoren der Entwicklung behaupten, dass es von Angreifern verwendet werden kann. Aber zum Beispiel gibt es Grafikeditoren schon sehr lange. Mit ihrer Hilfe können Sie auch alles fälschen, aber die Welt und wir existieren weiterhin damit.
Darüber hinaus sagen die Autoren, dass sie verstehen, dass die gleiche Technologie von skrupellosen Politikern verwendet werden kann. Letztere können vermeiden, dass Reden vor der Kamera gehalten werden müssen, wenn sie durch „sprechende Köpfe“ ersetzt werden, die aus früheren auf Video aufgenommenen Reden bestehen.
Um eine Fälschung zu erkennen, schlagen die Autoren der Idee vor, ein spezielles Wasserzeichen und einige andere Techniken zu verwenden, die es ermöglichen, die Fälschung zu erkennen.
Natürlich ist die Tatsache der Videomodifikation leicht zu beweisen, wenn es ein Originalvideo gibt. Darüber hinaus planen die Autoren, Methoden zum Schutz von Medieninhalten zu entwickeln, indem der Originalversion „digitale Fingerabdrücke“ hinzugefügt werden, die leicht zu erkennen und zu verstehen sind, ob das Video original oder gefälscht ist.
Den vollständigen Text der Studie finden
Sie hier .