Ich habe in zwei Wochen mein eigenes Dipfake erstellt und $ 552

Durch das Erstellen dieses Videos habe ich viel gelernt



Die Dipfake- Technologie verwendet tiefe neuronale Netze , um eine Person in Video überzeugend durch eine andere zu ersetzen. Diese Technologie kann offensichtlich böswillig eingesetzt werden und wird immer häufiger eingesetzt. In Bezug auf die sozialen und politischen Folgen dieses Trends wurden bereits viele gute Artikel verfasst.

Und das ist keiner von ihnen. Stattdessen werde ich mir diese Technologie genauer ansehen: Wie funktioniert Diphey-Software? Wie schwierig ist es, sie zu erstellen, und wie gut sind die Ergebnisse?

Ich entschied, dass es am besten ist, diese Fragen zu beantworten, indem ich mein eigenes Dip-Video erstellte. Die Redaktion gab mir ein paar Tage Zeit, um mit der Software zu spielen, und 1000 Dollar, um für Cloud Computing zu bezahlen. Nach ein paar Wochen habe ich das Ergebnis im Video am Anfang des Artikels präsentiert bekommen. Ich begann mit einem Video, in dem Mark Zuckerberg mit dem Kongress sprach, und ersetzte sein Gesicht durch Lieutenant Commander Data (Brent Spiner) von Star Trek: The Next Generation. Insgesamt wurden 552 US-Dollar ausgegeben.

Das Video war nicht perfekt. Alle Details des Gesichts von Data werden nicht übertragen, und wenn Sie genau hinsehen, sind Artefakte an den Rändern sichtbar.

Es ist dennoch bemerkenswert, dass ein Neuling wie ich ein überzeugendes Video erstellen kann, und zwar so schnell und kostengünstig. Es gibt allen Grund zu der Annahme, dass die Dipfeyk-Technologie in den kommenden Jahren nur noch besser, schneller und billiger wird.

In diesem Artikel werde ich Sie auf meinem falschen Weg an der Hand führen. Ich werde jeden Schritt erklären, den Sie ausführen müssen, um ein Deepfake-Video zu erstellen. Unterwegs werde ich erklären, wie diese Technologie funktioniert und welche Einschränkungen sie hat.

Dipfeyks benötigen viel Rechenleistung und Daten


Wir nennen diese Videos Diphakes, weil sie mit Hilfe von tiefen neuronalen Netzen erstellt wurden. In den letzten zehn Jahren haben Informatiker festgestellt, dass neuronale Netze durch das Hinzufügen zusätzlicher Schichten von Neuronen immer leistungsfähiger werden. Um das volle Potenzial der tiefen neuronalen Netze auszuschöpfen, sind jedoch viele Daten und eine enorme Rechenleistung erforderlich.

Gleiches gilt für Dipfakes. Für dieses Projekt habe ich eine virtuelle Maschine mit vier leistungsstarken Grafikkarten gemietet. Und trotz all dieser Pferde habe ich fast eine Woche gebraucht, um mein Modell zu trainieren.

Ich brauchte auch einen Berg von Bildern von Mark Zuckerberg und Data. Ich habe ein Video mit einer Länge von 38 Sekunden bekommen, aber zum Training brauchte ich viel längere Videos, sowohl Zuckerberg als auch Data.

Dazu habe ich eine Reihe von Videos mit ihren Gesichtern heruntergeladen: 14 Clips mit Clips von Star Trek und neun Clips mit Mark Zuckerberg. Unter den letzteren befanden sich offizielle Berichte, mehrere Interviews im Fernsehen und sogar ein Video, in dem Zuckerberg in seinem Garten ein Barbecue vorbereitete.

Ich habe all diese Clips auf iMovie hochgeladen und Frames gelöscht, die nicht die Gesichter von Zuckerberg und Data enthielten. Ich habe auch die längsten Passagen in Stücke geschnitten. Ein Dipfake-Programm benötigt nicht nur eine große Anzahl von Bildern, sondern auch eine große Anzahl verschiedener Bilder. Wir brauchten Gesichter aus verschiedenen Blickwinkeln, mit unterschiedlichen Gesichtsausdrücken und unterschiedlicher Beleuchtung. Ein einstündiges Video, in dem Zuckerberg den Bericht liest, kann nicht wertvoller sein als ein fünfminütiges Segment, da es aus dem gleichen Winkel, im gleichen Licht und mit dem gleichen Gesichtsausdruck aufgenommen wird. Also habe ich ein paar Stunden Video auf 9 Minuten mit Data und bis zu 7 Minuten mit Zuckerberg beschnitten.

Faceswap: ein Softwarepaket zum Erstellen von Dipfakes


Dann ist es Zeit, die Software für dipheyka zu verwenden. Zuerst habe ich das Programm DeepFaceLab ausprobiert und konnte ein ziemlich grobes Video erstellen. Dann habe ich im SFWdeepfakes-Forum um Rat gefragt, und dann haben mich ein paar Leute bei Faceswap beraten. Die Leute stellten fest, dass dieses Programm mehr Funktionen, eine bessere Dokumentation und eine bessere Online-Unterstützung bietet. Ich beschloss, ihrem Rat zu folgen.

Faceswap läuft unter Linux, Windows und Mac. Das Paket enthält Tools, mit denen Sie in allen Phasen der Erstellung eines falschen Videos arbeiten können, vom Importieren der Originalvideos bis zum Erstellen eines fertigen falschen Videos. Die Software ist nicht intuitiv zu bedienen, es wird jedoch ein detailliertes Schulungsmaterial mitgeliefert, das alle Schritte des Prozesses abdeckt. Das Material wurde von Matt Torah, dem Erfinder von Faceswap, geschrieben, der mir auch beim Chatten auf Discords Deepfake-Kanal sehr geholfen hat.

Faceswap benötigt eine leistungsstarke Grafikkarte. Ich wusste, dass mein MacBook Pro damit nicht umgehen konnte. Ich bat die Techniker unserer Redaktion, mir eine virtuelle Maschine für Linux von einem führenden Anbieter von Cloud-Diensten zu leihen. Ich habe mit einer virtuellen Maschine mit einer Nvidia K80-GPU und 12 GB Videospeicher begonnen. Einige Tage später wechselte ich zu einem Modell mit zwei GPUs und dann zu 4 GPUs. Sie hatte vier Nvidia T4 Tensor Core-GPUs mit jeweils 16 GB Arbeitsspeicher (und weitere 48 CPUs und 192 RAM, die größtenteils im Leerlauf waren).

Nach zwei Wochen Arbeit erhielt ich eine Rechnung über 522 US-Dollar. Klar, ich habe ziemlich viel für die Bequemlichkeit ausgegeben, einen Computer zu mieten. Die Torah sagte mir, dass die derzeit rentabelste Hardwareoption für eine Fälschung eine Nvidia GTX 1070- oder 1080-Karte mit 8 GB Speicher ist. Eine solche gebrauchte Karte ist mehrere hundert Dollar wert. Eine 1080-Karte lehrt ein neuronales Netzwerk nicht so schnell wie vier meiner GPUs. Wenn Sie jedoch bereit sind, einige Wochen zu warten, erhalten Sie ähnliche Ergebnisse.

Der Workflow in Faceswap besteht aus drei grundlegenden Schritten:

  • Extraktion: Schneiden Sie das Video in Frames, suchen Sie nach Gesichtern in jedem Frame und zeigen Sie gut ausgerichtete und sorgfältig zugeschnittene Bilder von jedem Gesicht an.
  • Training: Verwenden Sie die erhaltenen Bilder zum Training des vorgetäuschten neuronalen Netzwerks. Es nimmt ein Bild des Gesichts einer Person auf und erzeugt ein Bild des Gesichts einer anderen Person mit demselben Ausdruck, derselben Beleuchtung und derselben Position.
  • Transformation: Wenden Sie das im vorherigen Schritt geschulte Modell auf ein bestimmtes Video an, um eine Tauchfälschung zu erzielen. Nach dem Training des Modells kann es auf jedes Video angewendet werden, in dem sich Personen befinden, auf deren Gesicht es trainiert wurde.

Für jeden der drei Schritte wird von der Person und der Maschine eine völlig andere Zeit benötigt. Die Bildwiederherstellungssoftware läuft einige Minuten, es kann jedoch Stunden dauern, bis eine Person die Ergebnisse überprüft hat. Die Software merkt sich alle Gesichter in jedem Bild sowie eine ganze Reihe von Fehlalarmen. Um gute Ergebnisse zu erzielen, muss eine Person alle Ergebnisse durchgehen und unnötige Gesichter und alles, was die Software für eine Person benötigte, entfernen.

Das Lernen ist einfach einzurichten und erfordert praktisch keine menschliche Beteiligung. Es kann jedoch Tage oder sogar Wochen dauern, bis gute Ergebnisse erzielt werden. Ich fing am 7. Dezember an, mein letztes Modell zu trainieren, und es funktionierte bis zum 13. Dezember. Es ist möglich, dass sich nach einer weiteren Arbeitswoche die Qualität meines Dipfakes verbessert. Außerdem habe ich mein Cloud-Monster mit vier fortschrittlichen Grafikkarten verwendet. Wenn Sie an Ihrem Computer mit einer einzelnen GPU mit geringerer Leistung arbeiten, kann es viele Wochen dauern, bis ein gutes Modell trainiert ist.

Der letzte Schritt, die Transformation, ist sowohl für eine Person als auch für einen Computer schnell. Mit einem entsprechend geschulten Modell können Sie in weniger als einer Minute gefälschte Videos liefern.

Wie funktionieren Diphakes?


Bevor Sie den Faceswap-Lernprozess beschreiben, müssen Sie erklären, wie die zugrunde liegende Technologie funktioniert.

Das Herzstück von Faceswap - und anderen führenden Software-Paketen zur Erstellung von Diphakes - ist der Auto-Encoder. Dies ist ein neuronales Netzwerk, das darauf trainiert ist, ein Eingabebild zu empfangen und ein identisches Bild zu erzeugen. Diese Fertigkeit an sich mag nicht so nützlich sein, aber wie wir später sehen werden, ist sie ein Schlüsselbaustein bei der Erstellung eines Dipfakes.



Der Auto-Encoder ist nach dem Prinzip zweier durch ein schmales Ende verbundener Trichter aufgebaut. Auf einer Seite des Netzwerks befindet sich ein Encoder, der ein Bild empfängt und auf eine kleine Anzahl von Variablen komprimiert. In dem Modell, das ich in Faceswap verwendet habe, sind dies 1024 32-Bit-Gleitkommazahlen. Auf der anderen Seite des neuronalen Netzwerks befindet sich ein Decoder. Er nimmt diese kompakte Darstellung, die als "latenter Raum" bekannt ist, und versucht sie zu erweitern, nachdem er das ursprüngliche Bild erhalten hat.

Durch die künstliche Begrenzung der vom Codierer zum Decodierer übertragenen Datenmenge entwickeln diese beiden Netzwerke eine kompakte Darstellung des menschlichen Gesichts. Ein Encoder ist so etwas wie ein verlustbehafteter Komprimierungsalgorithmus, der versucht, so viele Informationen über ein Gesicht wie möglich zu speichern und gleichzeitig die Speicherkapazität zu begrenzen. Der latente Raum muss irgendwie wichtige Details extrahieren, zum Beispiel, in welche Richtung das Subjekt schaut, seine Augen offen oder geschlossen sind, er lächelt oder die Stirn runzelt.

Es ist wichtig, dass der Auto-Encoder nur die Merkmale des Gesichts speichert, die sich mit der Zeit ändern. Er muss keine unveränderten Dinge wie Augenfarbe oder Nasenform speichern. Wenn er auf jedem Foto von Zuckerberg blaue Augen hat, lernt sein Netzwerkdecoder, sein Gesicht automatisch mit blauen Augen zu zeichnen. Es ist nicht erforderlich, Informationen in einen engen latenten Raum zu stopfen, der sich beim Übergang von einem Bild zum anderen nicht ändert. Wie wir später sehen werden, ist die Tatsache, dass Auto-Encoder unterschiedliche Einstellungen zu konstanten und sich ändernden Gesichtsmerkmalen haben, äußerst wichtig für ihre Fähigkeit, Diphfakes auszugeben.

Jeder Algorithmus zum Trainieren eines neuronalen Netzwerks benötigt eine Möglichkeit, die Qualität des Netzwerks zu bewerten, damit es verbessert werden kann. In vielen Fällen erfolgt dies durch Training mit dem Lehrer, wenn die Person die richtige Antwort für jedes Element aus dem Trainingsdatensatz bereitstellt. Auto-Encoder arbeiten anders. Da sie lediglich versuchen, ihre eigenen Eingabedaten zu reproduzieren, kann die Trainingssoftware ihre Arbeitsqualität automatisch beurteilen. Im Fachjargon des maschinellen Lernens wird dies als Lernen ohne Lehrer bezeichnet.

Wie jedes neuronale Netzwerk werden Autoencoder in Faceswap mit Backpropagation trainiert. Der Trainingsalgorithmus speist ein bestimmtes Bild in das neuronale Netzwerk ein und überprüft, welche Pixel in der Ausgabe nicht mit der Eingabe übereinstimmen. Dann berechnet er, welches der Neuronen der letzten Schicht den größten Beitrag zu den Fehlern geleistet hat, und korrigiert die Parameter jedes Neurons geringfügig, um bessere Ergebnisse zu erzielen.

Dann breiten sich diese Fehler zurück zur vorherigen Schicht aus, wo die Parameter jedes Neurons erneut korrigiert werden. Fehler breiten sich auf diese Weise weiter aus, bis alle Parameter des neuronalen Netzwerks - sowohl der Codierer als auch der Decodierer - korrigiert sind.

Dann liefert der Trainingsalgorithmus ein weiteres Bild des Netzwerks, und der gesamte Vorgang wird erneut wiederholt. Hunderttausende solcher Wiederholungen sind möglicherweise erforderlich, um einen automatischen Codierer zu erstellen, der seine eigene Eingabe gut reproduziert.



Die Dipfake-Software trainiert gleichzeitig zwei Auto-Encoder, einen für das ursprüngliche und einen für das neue Gesicht. Während des Trainingsprozesses erhält jeder Auto-Encoder Bilder von nur einer Person, und er wird darauf trainiert, Bilder zu erzeugen, die dem Original sehr ähnlich sind.

Es gibt jedoch einen Haken: Beide Netzwerke verwenden denselben Encoder. Decoder - Neuronen auf der rechten Seite des Netzwerks - bleiben getrennt, und jeder von ihnen ist darauf trainiert, ein anderes Gesicht zu geben. Die Neuronen auf der linken Seite des Netzwerks haben jedoch gemeinsame Parameter, die sich jedes Mal ändern, wenn einer der Autocodierer trainiert wird. Wenn das Zuckerberg-Netzwerk auf dem Zuckerberg-Gesicht trainiert wird, ändert dies die Hälfte des Netzwerks, das zum Encoder und zum Netzwerk für Daten gehört. Jedes Mal, wenn das Netzwerk von Data auf das Gesicht von Data trainiert wird, übernimmt der Zuckerberg-Encoder diese Änderungen.

Infolgedessen verfügen zwei Auto-Encoder über einen gemeinsamen Encoder, der entweder das Gesicht von Zuckerberg oder das von Data „lesen“ kann. Der Encoder dient dazu, die gleiche Darstellung von Dingen wie den Winkel des Kopfes oder die Position der Augenbrauen zu verwenden, unabhängig davon, ob er am Eingang ein Foto von Zuckerberg oder ein Foto von Data erhalten hat. Und dies bedeutet wiederum, dass Sie Ihr Gesicht, wenn Sie es mit dem Encoder zusammengedrückt haben, mit jedem Decoder auspacken können.



Nachdem Sie also ein paar Auto-Encoder auf diese Weise trainiert haben, bleibt ein einfacher Schritt zum Erstellen eines Dip-Fake: Sie tauschen Decoder aus. Sie codieren ein Zuckerberg-Foto, verwenden jedoch im Decodierungsschritt den Datendecoder. Das Ergebnis ist ein rekonstruiertes Foto von Data - jedoch mit derselben Kopfposition und demselben Gesichtsausdruck wie das Originalfoto von Zuckerberg.

Denken Sie daran, ich erwähnte, dass der latente Raum die unterschiedlichen Gesichtszüge einer Person erfasst - Ausdruck, Blickrichtung, Position der Augenbrauen - und solche konstanten Dinge wie die Farbe der Augen oder die Form des Mundes, die dem Decoder gegeben sind. Dies bedeutet, dass Sie, wenn Sie das Zuckerberg-Bild codieren und anschließend mit dem Datendecoder decodieren, ein Gesicht mit permanenten Datenmerkmalen erhalten, z. B. einer Gesichtsform, jedoch mit dem Ausdruck und der Ausrichtung des ursprünglichen Zuckerberg-Gesichts.

Wenn Sie diese Technik auf aufeinanderfolgende Einzelbilder eines Videos mit Zuckerberg anwenden, erhalten Sie ein neues Video, in dem Datas Gesicht dieselben Bewegungen ausführt - lächelt, blinkt, dreht den Kopf -, die Zuckerberg im Originalvideo ausgeführt hat.

Diese Situation ist symmetrisch. Wenn Sie ein neuronales Netzwerk trainieren, um ein Foto von Zuckerberg zu erhalten und ein Foto von Data zu erstellen, trainieren Sie es gleichzeitig, um ein Foto von Data zu erhalten und ein Foto von Zuckerberg zu erstellen. Das Tool zum Konvertieren von Videos aus Faceswap - der letzte Schritt bei der Erstellung eines Dipfake - enthält ein nützliches Kontrollkästchen zum Austauschen von Modellen, mit dem der Benutzer Decoder austauschen kann. Infolgedessen ersetzt das Programm nicht das Gesicht von Data, sondern das Gesicht von Zuckerberg, und erzeugt so sehr lustige Videos wie diese:


Trainingsdaten


In der Praxis ist es nicht einfach, gute Ergebnisse beim Erstellen eines Dipfakes zu erzielen.

Wie gesagt, ich habe sieben Minuten Video für Data und neun Minuten für Zuckerberg bekommen. Dann habe ich das Faceswap-Tool zum Extrahieren von Bildern verwendet, um das Video auszuschneiden und zugeschnittene Bilder der Gesichter beider Männer zu erhalten. Das Video enthält ungefähr 30 Bilder pro Sekunde, aber ich habe nur alle sechs extrahiert - diese Vorgehensweise wird in der Faceswap-Dokumentation empfohlen. Dies liegt daran, dass eine Vielzahl von Bildern mehr bedeutet als nur ihre Anzahl, und das Speichern jedes Einzelbilds würde zu einer großen Anzahl sehr ähnlicher Bilder führen.

Das Faceswap-Extraktionswerkzeug erzeugte eine ganze Reihe von Fehlalarmen. Er fand auch echte Gesichter im Hintergrund einiger Aufnahmen. Einige Stunden lang löschte ich manuell alle extrahierten Fotos, die keinem meiner beiden Versuchstiere gehörten. Als Ergebnis erhielt ich 2598 Bilder von Datas Gesicht und 2224 Bilder von Zuckerbergs Gesicht.

Und in diesem Moment war es endlich an der Zeit, zu einem echten Modelltraining überzugehen. Jetzt wird Faceswap mit 10 verschiedenen Dipfake-Algorithmen ausgeliefert, die unterschiedliche Bildgrößen unterstützen und unterschiedliche Rechenleistungen erfordern. Zu den unprätentiösesten gehört ein „leichtes“ Modell, das mit Gesichtsbildern mit einer Größe von nicht mehr als 64 Pixeln arbeitet. Es kann auf einem Computer mit nicht mehr als 2 GB Videospeicher ausgeführt werden. Andere Modelle arbeiten mit Bildern mit einer Größe von 128, 256 oder sogar 512 Pixeln. Sie benötigen jedoch viel mehr Videospeicher sowie mehr Einarbeitungszeit.

Ich habe angefangen, das DFL-SAE-Modell zu trainieren, das von den Algorithmen von DeepFaceLab abgeleitet wurde. In der Faceswap-Dokumentation wurde jedoch gewarnt, dass dieses Modell unter einem „Identitätsleck“ leidet, bei dem einige Merkmale eines Gesichts in ein anderes eindringen können. Ich hatte den Eindruck, dass ich so etwas in ein paar ersten Testvideos gesehen habe. Einen Tag später wechselte ich zum Villain-Modell, das mit 128-Pixel-Bildern arbeitet. Das Faceswap-Handbuch beschreibt es als sehr anspruchsvoll für VRAM und als "eine gute Wahl für diejenigen, die ein Modell mit höherer Auflösung erhalten möchten, ohne irgendwelche Parameter anzupassen".

Dann habe ich gewartet. Und er wartete. Der Lernprozess war noch nicht zu Ende, als meine Deadline am Freitag kam - und das nach sechs Tagen Training. Zu dieser Zeit hat mein Modell ein ziemlich gutes Dipfake produziert. Die Geschwindigkeit des Fortschritts verlangsamte sich, aber es ist möglich, dass ich ein besseres Ergebnis erzielt hätte, wenn ich noch eine Woche Computerzeit gehabt hätte.

Faceswap eignet sich gut für lange Computerarbeiten. Wenn Sie das Trainingsteam über die grafische Oberfläche starten, aktualisiert die Programmoberfläche regelmäßig den Vorschaubildschirm, auf dem Sie Beispiele dafür sehen können, wie die Software Porträts von Data und Zuckerberg erstellt. Wenn Sie das Training lieber von der Kommandozeile aus durchführen möchten, ist dies ebenfalls möglich. Die Faceswap-Oberfläche verfügt über eine nützliche Schaltfläche zum Generieren, die den genauen Befehl angibt, den Sie zum Trainieren des Modells mit den aktuellen Einstellungen in der Oberfläche ausführen müssen.

Wie gut war das Dipfake?


Während des Lernprozesses zeigt Faceswap ständig eine numerische Schätzung des „Verlusts“ für jeden der beiden Auto-Encoder an. Diese Schätzungen zeigen, wie gut der Auto-Encoder von Zuckerberg die Fotos von Zuckerberg wiedergeben kann - und wie gut der Auto-Encoder von Data die Fotos von Data wiedergeben kann. Und diese Zahlen gingen immer weiter zurück, als ich am Freitag aufhörte zu lernen, obwohl sich die Geschwindigkeit der Fortschritte erheblich verlangsamte.

In der Tat ist es natürlich wichtig für uns, wie gut der Decoder von Data Zuckerbergs Gesicht in das von Data verwandeln kann. Wir wissen nicht, wie das "Endergebnis" aussehen soll, daher ist es unmöglich, die Qualität der Arbeit in genauen Zahlen zu messen. Das Beste, was wir tun können, ist, das Video zu überprüfen und zu entscheiden, ob es realistisch aussieht.


Das obige Video zeigt die Qualität des Dipfakes in den vier Phasen des Lernprozesses. Die Videos vom 10. und 12. Dezember zeigen das teilweise trainierte Villain-Modell. Das Video oben links vom 6. Dezember ist ein früher Test mit einem anderen Modell. Unten rechts ist das Endergebnis. Während des Trainings wurden die Details seines Gesichts klarer und glaubwürdiger.

Am 9. Dezember veröffentlichte ich nach drei Trainingstagen ein vorläufiges Video im internen Kanal der Redaktion in Slak. Das Video ähnelte dem in der oberen linken Ecke. Unser Designguru Aurich Lawson reagierte sarkastisch auf ihn.

„Im Allgemeinen sieht es schlecht aus“, schrieb er und fügte hinzu, dass es „nicht überzeugend aussieht. Ich warte auf eines dieser Videos, die nicht falsch aussehen. "

Ich denke, dass es in seiner Kritik einen rationalen Kern gibt. Ich war überrascht, wie schnell Faceswap Bilder von Gesichtern erstellen konnte, die eher Brent Spiner als Zuckerberg ähnelten. Wenn Sie jedoch genau hinsehen, werden Sie die charakteristischen Anzeichen von digitalem Betrug erkennen.

In einigen Bildern sieht die Grenze zwischen Datas falschem Gesicht und Zuckerbergs Kopf nicht ganz richtig aus. Manchmal späht Zuckerbergs Augenbraue unter Datas Gesicht hervor. An anderen Stellen sind die Ränder des falschen Gesichts mit einigen Pixeln auf Zuckerbergs Ohren bedeckt. Es kann möglich sein, diese Probleme mit der Komposition bei der manuellen Nachbearbeitung durch eine Person zu beheben. Jemand muss jedoch das Video Bild für Bild scrollen und die Maske für jedes Bild anpassen.


Ein grundlegenderes Problem ist jedoch, dass die Diphfake-Algorithmen noch nicht in der Lage sind, die kleinsten Details menschlicher Gesichter gut genug zu reproduzieren. Dies ist ziemlich offensichtlich, wenn Sie sich die Start- und Endvideos parallel ansehen. Faceswap zeigte überraschend gut die Gesamtstruktur des Gesichts von Data. Aber auch nach einer Woche Training sieht das Gesicht verschwommen aus und es sind nicht genügend wichtige Details enthalten. Zum Beispiel kann Software für Dipheyka das Zeichnen menschlicher Zähne kaum bewältigen. Manchmal werden die Zähne deutlich sichtbar, und im nächsten Bild verschwinden sie und hinterlassen Schwärze.

Einer der Hauptgründe dafür ist, dass die Faceswap-Aufgabe mit höheren Auflösungen exponentiell komplizierter wird. Auto-Encoder leisten gute Arbeit mit 64x64 Pixel-Bildern. Die feineren Details von 128x128 Pixel-Bildern zu reproduzieren - ganz zu schweigen von Bildern mit 256 Pixeln oder mehr - ist jedoch schon viel schwieriger. Vielleicht ist dies einer der Gründe, warum die beeindruckendsten Diphfes einen ziemlich weiten Blickwinkel haben, ohne Nahaufnahmen von Gesichtern.

Sie sollten dies jedoch nicht als grundlegende Einschränkung der Diphake-Technologie betrachten. In den kommenden Jahren können Forscher möglicherweise Technologien entwickeln, mit denen diese Einschränkungen überwunden werden können.

Oft wird die Basis von Software für ein Dipheyka fälschlicherweise als generativ-adversariales Netzwerk (GSS) oder solche neuronalen Netzwerke beschrieben, die es der Software ermöglichen, "darzustellen"Nicht existierende Personen , Gegenstände oder Landschaften. In der Tat arbeiten Dipfeyki mit Autoencodern. Die jüngsten Fortschritte in der GSS-Technologie lassen jedoch vermuten, dass bei den Tauchfälschungen noch Verbesserungspotenzial besteht.

GSS, das erstmals im Jahr 2014 erschien, konnte nur grobe Bilder mit niedriger Auflösung produzieren. Vor kurzem haben Forscher herausgefunden , wie ein GSS erstellt werden kann, das fotorealistische Bilder mit einer Größe von bis zu 1024 Pixel erzeugt. Die spezifischen Techniken, die in diesen wissenschaftlichen Arbeiten verwendet werden, sind möglicherweise nicht für die Erstellung eines Diphakes anwendbar, aber es ist leicht vorstellbar, wie jemand eine ähnliche Technologie für Autocodierer entwickeln wird - oder vielleicht eine völlig neue neuronale Netzwerkarchitektur, die Gesichter ersetzen soll.

Dipfake-Perspektive


Der Anstieg der Popularität von Dipfakes ist offensichtlich alarmierend. Bis vor kurzem konnten Leute ein Video mit einer Person zum Nennwert leicht machen. Das Aufkommen der Dipheyka-Software und anderer digitaler Tools hat uns jetzt skeptisch gegenüber Videos gemacht. Wenn wir ein Video sehen, in dem eine Person etwas Skandalöses behauptet oder sich auszieht, sollten wir die Möglichkeit in Betracht ziehen, dass jemand dieses Video gefälscht hat, um diese Person zu diskreditieren.

Mein Experiment betont jedoch die Grenzen der Dipfake-Technologie - zumindest in ihrer gegenwärtigen Form. Um ein vollständig überzeugendes virtuelles Gesicht zu erstellen, sind umfangreiche Kenntnisse und Anstrengungen erforderlich. Es gelang mir nicht und ich bin mir nicht sicher, ob jemand in der Lage war, ein gefälschtes Video zu produzieren, das wirklich nicht von dem echten zu unterscheiden ist.

Darüber hinaus befassen sich Tools wie Faceswap heute nur noch mit Gesichtsveränderungen. Sie verändern nicht Stirn, Haare, Arme und Beine. Und selbst wenn das Gesicht perfekt ist, ist es möglich, das gefälschte Video anhand von Elementen zu bestimmen, die nicht richtig aussehen.

Diese Einschränkungen der Dipfake-Technologie können jedoch verschwinden. In einigen Jahren kann die Software lernen, Videos zu produzieren, die nicht von den realen zu unterscheiden sind. Was dann?

In diesem Fall ist es hilfreich, sich daran zu erinnern, dass andere Medientypen lange Zeit leicht zu fälschen waren. Die einfache Aufgabe wäre, einen Screenshot einer E-Mail zu erstellen, in der jemand etwas schreibt, das er nicht geschrieben hat. Und dies führte weder zu einem Anstieg der Anzahl kaputter Steinbrüche aufgrund betrügerischer E-Mails noch zu einer Diskreditierung von Screenshots von Briefen als Beweismittel für öffentliche Diskussionen.

Die Leute wissen jedoch, dass E-Mails gefälscht werden können, und suchen in solchen Fällen nach einer zusätzlichen Bestätigung. Welche Ereigniskette hat die Aufmerksamkeit der Öffentlichkeit auf die Briefe gelenkt? Haben andere Personen Kopien dieser E-Mail erhalten, als sie geschrieben werden sollte? Hat der mutmaßliche Verfasser des Schreibens seine Urheberschaft anerkannt oder behauptet er Fälschungen? Antworten auf solche Fragen helfen den Menschen zu entscheiden, wie ernst sie einen veröffentlichten Brief nehmen können.

Sie können einmal getäuscht werden


So ist es auch mit Videos. Vielleicht wird es eine kurze Zeitspanne geben, in der Betrüger die Karriere einer Person zerstören können, indem sie ein Video veröffentlichen, in dem sie etwas Unverschämtes sagt oder tut. Aber bald wird die Gesellschaft lernen, Videos mit Skepsis zu behandeln, es sei denn, der Videoclip enthält irgendwelche dokumentarischen Beweise, Zeugen oder andere unterstützende Faktoren.

Ich denke, dass dies auch bei den unverschämtesten Missbräuchen der Diphey-Technologie funktioniert: Einfügen des Gesichts einer Person in ein pornografisches Video. Dies ist offensichtlich respektlos und inakzeptabel. Aber die Leute befürchten, dass solche Videos ihren Ruf und ihre Karriere zerstören können. Ich denke das ist nicht so.

Tatsächlich finden Sie im Internet vollständige Bilder berühmter Persönlichkeiten (hauptsächlich Frauen), deren Köpfe mithilfe von Photoshop an den Körpern von Pornostars befestigt sind. Das Leiden der Frauen ist verständlich. Die Öffentlichkeit kommt jedoch nicht automatisch zu dem Schluss, dass diese Frauen nackt posierten - wir kennen die Existenz von Photoshop und die Möglichkeit, gefälschte Fotos zu erstellen.

Gleiches gilt für Deep Pornography. Natürlich ist es nicht gut, mit Ihrer Teilnahme gefälschte Pornos zu machen. Aber die Veröffentlichung eines gefälschten Videos mit einer Person hat keine so verheerende Wirkung wie ein echtes Sex-Video. Wenn keine Beweise für die Echtheit des Videos vorliegen, wird die Öffentlichkeit zu dem Schluss kommen, dass es sich um eine Fälschung handelt.

Matt Torah, der Autor von Faceswap, sagt mir, dass diese Überlegung eine der Komponenten für seine Motivation war, das Paket zu erstellen. Er glaubt, dass zwangsläufig Software für den Wandel der Menschen entwickelt wird. Er hofft, dass er durch die Entwicklung eines benutzerfreundlichen Tools für den Austausch von Open Source-Anwendern dazu beiträgt, die Geheimhaltung mit dieser Technologie zu beseitigen und die Öffentlichkeit über ihre Fähigkeiten und Einschränkungen zu informieren. Dies wird uns wiederum dabei helfen, schnell zu einem Punkt zu gelangen, an dem die Öffentlichkeit Videos gegenüber skeptisch ist, die sich als Fälschung herausstellen könnten.

Langfristig besteht die Gefahr, dass das Pendel der Öffentlichkeitsarbeit zu stark in die andere Richtung schwingt und die Möglichkeit, dass es zu falschen Ergebnissen kommt, den Glauben an die Beweiskraft von Videos zunichte macht. Einige Politiker haben es sich bereits zur Gewohnheit gemacht, Medienkritik als "falsche Nachricht" abzulehnen. Diese Taktik wird mit zunehmendem Bewusstsein der Gesellschaft für die Technologie der Tauchfälschungen effektiver.

Source: https://habr.com/ru/post/de482684/


All Articles