🙏🏿 🧓🏻 📝 Was durchbohrt die KI, wenn sie menschliche Gesichter erzeugt? 🚓 🏇🏽 🥁

Im Jahr 2014 brachte der Forscher für maschinelles Lernen, Jan Goodfellow, die Idee generativer Konfliktnetzwerke oder GANs vor. "Generativität" besteht in der Tatsache, dass das Ergebnis ihrer Arbeit Bilder und keine Bewertung des Inputs (wie "Hot Dog oder nicht") und "Wettbewerbsfähigkeit" sind - dass zwei neuronale Netze Katz und Maus wie Feds mit Fälschern spielen : Ein neuronales Netzwerk versucht, das andere zu täuschen, indem es realistische Bilder erstellt, und das zweite versucht, Fälschungen zu unterscheiden.

Die ersten GAN-Bilder waren leicht zu identifizieren. Schauen Sie sich diese Gesichter von 2014 an .

„Lehrerloses Lernen zur Repräsentation mit tief konvolutionellen generativen Wettbewerbsnetzwerken“ (2014), Radford et al., Auch bekannt als DCGAN

Die zuletzt generierten Gesichter aus dem Oktober 2017 sind jedoch bereits schwerer zu identifizieren.

„Progressives GAN-Wachstum zur Verbesserung von Qualität, Stabilität und Vielfalt“ (2017), Karras et al. Auch bekannt als PGAN oder ProGAN

Hier sind einige der Funktionen der Bilder, die das GAN generiert hat. Wir konzentrieren uns auf Gesichter, weil sie ein gemeinsames Testfeld für Forscher sind und viele der sichtbarsten Artefakte in anderen Bildtypen auftreten.

Glattes Haar sieht aus wie Farbe

Langes Haar sieht oft mit geraden Strähnen hypertrophiert aus, als hätte jemand mit einem Spachtel oder einer riesigen Bürste ein Bündel Acryl verschmiert.

Der Text ist nicht entschlüsselbar

Wenn die GAN auf Gesichtern trainiert, ist es für sie schwierig, seltene strukturierte Objekte im Hintergrund zu finden. Darüber hinaus werden GANs sowohl für Standard- als auch für Spiegelversionen von Bildern geschult, was zu Problemen bei der Modellierung von Text führt, der normalerweise nur in einer Ausrichtung angezeigt wird.

Surrealer Hintergrund

Einer der Gründe, warum die erzeugten Gesichter glaubwürdig aussehen, ist, dass alle Trainingsbilder zentriert waren. Dies verringert die Variation bei der Erzeugung von beispielsweise Augen und Ohren. Andererseits kann der Hintergrund alles enthalten. Die Modellierung ist zu schwierig, daher repliziert das neuronale Netzwerk letztendlich die allgemeinen Hintergrundtexturen und nicht die „echten“ Hintergrundszenen.

Asymmetrie

Ein GAN kann Schwierigkeiten haben, weit entfernte Abhängigkeiten zu verwalten. Beispielsweise stimmen gepaarte Accessoires wie Ohrringe normalerweise im Datensatz überein, nicht jedoch in den erstellten Bildern. Die Augen auf diesen Fotografien schauen normalerweise in die gleiche Richtung und normalerweise in die gleiche Farbe, und die erzeugten Gesichter leiden häufig unter Strabismus und Heterochromie. Asymmetrie tritt häufig an den Ohren unterschiedlicher Höhe oder Größe auf.

Seltsame Zähne

GANs können eine gemeinsame Szene zusammenstellen, haben jedoch derzeit Schwierigkeiten mit sich regelmäßig wiederholenden Details wie Zähnen. Manchmal gibt die GAN krumme Zähne aus, streckt oder knirscht einzelne Zähne auf seltsame Weise. Historisch gesehen hat sich dieses Problem in anderen Bereichen manifestiert, beispielsweise in der Synthese von Texturen mit Bildern wie Ziegeln.

Chaotisches Haar

Dies ist eine der schnellsten Methoden, um ein gefälschtes Bild zu erkennen. In der Regel sammelt das GAN Haare zu Klumpen, bildet zufällige Bündel um die Schultern und wirft dicken Zottel auf die Stirn. Echte Frisuren sind sehr vielfältig und detailliert, was sie zu einem der schwierigsten Objekte für eine realistische GAN-Generierung macht. Fremdkörper können manchmal zu haarigen Texturen werden.

Unverständlicher Boden

Diese GAN wurde in der CelebA-Suite mit 200.000 Bildern von 10.000 Prominenten trainiert. In diesem Set traf ich niemanden mit Gesichtsbehaarung, Ohrringen und Make-up gleichzeitig; Das GAN mischt jedoch regelmäßig die typischen Attribute verschiedener Geschlechter. Im Allgemeinen denke ich, dass dies auf die Tatsache zurückzuführen ist, dass die GAN nicht immer eine Vorstellung von den entgegengesetzten binären Kategorien bekommt, die in der menschlichen Gesellschaft akzeptiert werden (in diesem Fall „Mann gegen Frau“).

Halbregelmäßiger Lärm

Anstelle eines monochromen Hintergrunds können einige Bereiche halbregelmäßiges Rauschen mit horizontalen oder vertikalen Streifen empfangen. In den oben genannten Fällen versucht das Netzwerk wahrscheinlich, die Textur des Gewebes nachzuahmen. Ältere GANs erzeugen ein viel stärker wahrnehmbares Rauschen, das normalerweise als Schachartefakte bezeichnet wird .

Regenbogenfackel

Einige Bereiche mit einer leichten festen Füllung erhalten eine mehrfarbige Fackel: Dies sind Kragen, Hälse und weiße Augen (hier nicht gezeigt).

Beispiele für reale Bilder

Achten Sie auf einen klaren Hintergrund, Text, gepaarte Ohrringe, gleich große Zähne und detaillierte Frisuren. Wenn Sie alle GAN-Tricks kennen, versuchen Sie, das Spiel zu spielen und zu überprüfen, wie Sie echte Gesichter von falschen unterscheiden. Hinweis: Einige haben Probleme mit der Schaltfläche Start .

Was durchbohrt die KI, wenn sie menschliche Gesichter erzeugt?