Verringerung der Abhängigkeit von markierten Daten in generativ-kontradiktorischen Netzwerken

Generative Adversarial Networks (GAN) - Eine Klasse von tiefen generativen Modellen mit interessanten Funktionen. Ihre Hauptidee besteht darin, zwei neuronale Netze zu trainieren, einen Generator, der die Synthese von Daten (z. B. Bildern) lernt, und einen Diskriminator, der lernt, wie man reale Daten von denen unterscheidet, die vom Generator synthetisiert werden. Dieser Ansatz wurde erfolgreich für eine qualitativ hochwertige Bildsynthese , eine verbesserte Bildkomprimierung und mehr verwendet.


Entwicklung der generierten Proben während des Trainings auf ImageNet. Der Generator ist durch die Klasse des Bildes begrenzt (z. B. "Bartkauz" oder "Golden Retriever").

Auf dem Gebiet der Synthese natürlicher Bilder erzielen bedingte GSS die besten Ergebnisse, die im Gegensatz zu bedingungslosen während des Trainings Etiketten („Maschine“, „Hund“ usw.) verwenden. Und obwohl dies die Aufgabe vereinfacht und das Ergebnis erheblich verbessert, erfordert ein solcher Ansatz eine große Menge markierter Daten, die in der Praxis selten zu finden sind.

In unserer Arbeit „Generierung qualitativ hochwertiger Bilder mit weniger Tags“ schlagen wir einen neuen Ansatz vor, um die Menge an markierten Daten zu reduzieren, die für das Training fortgeschrittener bedingter GSS erforderlich sind. In Kombination mit diesem Ansatz und den jüngsten Durchbrüchen bei der Entwicklung von GSS in großem Maßstab erzeugen wir natürliche Bilder mit vergleichbarer Qualität mit zehnmal weniger Tags. Basierend auf dieser Studie veröffentlichen wir auch ein umfangreiches Update der Compare GAN-Bibliothek , das alle erforderlichen Komponenten für die Schulung und Bewertung moderner GSS enthält.

Verbesserungen durch Halbaufsicht und Selbstaufsicht


Bei bedingtem GSS sind Generator und Diskriminator normalerweise auf Klassenbezeichnungen beschränkt. In unserer Arbeit schlagen wir vor, manuell angebrachte Tags durch die angeblichen zu ersetzen. Um qualitativ hochwertige Etiketten für einen großen Satz anzuzeigen, der hauptsächlich aus Daten ohne Tags besteht, verwenden wir einen zweistufigen Ansatz. Zunächst lernen wir, wie Bildfunktionen nur am Beispiel des nicht zugewiesenen Teils der Datenbank dargestellt werden. Um mehr über die Darstellung von Zeichen zu erfahren, verwenden wir die Selbstüberwachung in Form eines kürzlich vorgeschlagenen Ansatzes, bei dem unbeschriftete Daten zufällig gemischt werden und ein tiefes Faltungs-Neuronales Netzwerk den Drehwinkel vorhersagt. Die Idee ist, dass Modelle in der Lage sein sollten, grundlegende Objekte und ihre Formen zu erkennen, um diese Aufgabe erfolgreich abzuschließen:



Dann betrachten wir die Aktivierungssequenz einer der Zwischenschichten des trainierten Netzwerks als eine neue Darstellung der Eigenschaften der Eingabedaten und trainieren den Klassifizierer, um die Bezeichnung dieser Eingabedaten unter Verwendung des beschrifteten Teils des Anfangsdatensatzes zu erkennen. Da das Netzwerk vorab darauf trainiert wurde, semantisch bedeutsame Datenattribute zu extrahieren (in der Aufgabe mit der Vorhersage der Rotation), ist das Training dieses Klassifikators anhand von Beispielen effizienter als das Training des gesamten Netzwerks von Grund auf. Schließlich verwenden wir diesen Klassifikator, um nicht zugewiesene Daten zu markieren.

Um die Qualität des Modells und die Stabilität des Trainings weiter zu verbessern, ermutigen wir das Diskriminator-Netzwerk, aussagekräftige Darstellungen von Attributen zu lernen, die während des Trainings aufgrund der zuvor vorgestellten Hilfsverluste nicht vergessen werden. Diese beiden Vorteile bieten zusammen mit umfangreichem Training fortschrittliche bedingte GSSs, die sich gut für die Synthese von Bildern aus ImageNet eignen, gemessen an der Fréchet-Entfernung .


Das Generatornetzwerk erzeugt ein Bild basierend auf einem Eigenvektor. In jeder Zeile führt die lineare Interpolation der Eigencodes der Bilder ganz links und ganz rechts zu einer semantischen Interpolation im Bildraum.

Vergleichen Sie die GAN-Bibliothek für die Schulung und Bewertung von GSS


Fortgeschrittene Forschung auf dem Gebiet der GSS hängt stark von gut entwickeltem und getestetem Code ab, da selbst die Reproduktion früherer Ergebnisse und Techniken viel Aufwand erfordert. Um Open Science zu unterstützen und der Forschungsgemeinschaft zu ermöglichen, auf den jüngsten Durchbrüchen aufzubauen, veröffentlichen wir ein umfangreiches Update für die Compare GAN-Bibliothek. Es umfasst Verlustfunktionen, Regularisierungs- und Normalisierungsschemata, neuronale Netzwerkarchitektur und numerische Metriken, die häufig in modernen GSS verwendet werden. Sie unterstützt auch bereits:

  • Schulung zu GPU und TPU.
  • Einfache Einrichtung mit Gin ( Beispiele ).
  • Eine große Anzahl von Datensätzen über die TensorFlow- Bibliothek.

Fazit und Pläne für die Zukunft


Angesichts der Lücke zwischen beschrifteten und unbeschrifteten Datenquellen wird es immer wichtiger , aus nur teilweise beschrifteten Daten zu lernen. Wir haben gezeigt, dass eine einfache, aber leistungsstarke Kombination aus Selbstüberwachung und Halbüberwachung dazu beitragen kann, diese Lücke für GSS zu schließen. Wir glauben, dass Selbstüberwachung eine vielversprechende Idee ist, die für andere Bereiche der generativen Modellierung untersucht werden muss.

Source: https://habr.com/ru/post/de444768/


All Articles