Ein Überblick ĂŒber grundlegende Deep Domain-Anpassungstechniken (Teil 1)

Die Entwicklung tiefer neuronaler Netze zur Bilderkennung haucht den bereits bekannten Forschungsgebieten des maschinellen Lernens neues Leben ein. Ein solcher Bereich ist die DomĂ€nenanpassung. Das Wesentliche dieser Anpassung besteht darin, das Modell anhand von Daten aus der QuelldomĂ€ne (QuelldomĂ€ne) so zu trainieren, dass es in der ZieldomĂ€ne (ZieldomĂ€ne) eine vergleichbare QualitĂ€t aufweist. Beispielsweise kann eine QuelldomĂ€ne synthetische Daten sein, die kostengĂŒnstig generiert werden können, und eine ZieldomĂ€ne können Benutzerfotos sein. Dann besteht die Aufgabe der DomĂ€nenanpassung darin, das Modell auf synthetischen Daten zu trainieren, die mit "realen" Objekten gut funktionieren.


In der Bildverarbeitungsgruppe Vision.BIZ.Ru arbeiten wir an verschiedenen angewandten Problemen, darunter hĂ€ufig solche, fĂŒr die nur wenige Trainingsdaten vorliegen. In diesen FĂ€llen kann die Generierung synthetischer Daten und die Anpassung des darauf trainierten Modells sehr hilfreich sein. Ein gutes Beispiel fĂŒr diesen Ansatz ist die Erkennung und Erkennung von Waren in Regalen eines GeschĂ€fts. Es ist ziemlich mĂŒhsam, Fotos von solchen Regalen zu bekommen und sie zu markieren, aber sie können ganz einfach erstellt werden. Aus diesem Grund haben wir uns entschlossen, uns eingehender mit dem Thema DomĂ€nenanpassung zu befassen.



Studien zur DomĂ€nenanpassung wirken sich auf die Nutzung frĂŒherer Erfahrungen eines neuronalen Netzwerks bei einer neuen Aufgabe aus. Kann das Netzwerk einige Funktionen aus der QuelldomĂ€ne extrahieren und in der ZieldomĂ€ne verwenden? Obwohl ein neuronales Netzwerk beim maschinellen Lernen nur entfernt mit neuronalen Netzwerken im menschlichen Gehirn verwandt ist, besteht der heilige Gral der Forscher der kĂŒnstlichen Intelligenz darin, neuronalen Netzwerken die FĂ€higkeiten einer Person beizubringen. Und die Menschen können frĂŒhere Erfahrungen und gesammelte Kenntnisse nutzen, um neue Konzepte zu verstehen.


DarĂŒber hinaus kann die DomĂ€nenanpassung dazu beitragen, eines der grundlegenden Probleme des Deep Learning zu lösen: Um große Netzwerke mit hoher ErkennungsqualitĂ€t zu trainieren, wird eine sehr große Datenmenge benötigt, die in der Praxis nicht immer verfĂŒgbar ist. Eine Lösung könnte darin bestehen, DomĂ€nenanpassungsmethoden fĂŒr synthetische Daten zu verwenden, die in praktisch unbegrenzten Mengen generiert werden können.


Sehr oft gibt es bei angewandten Problemen einen Fall, in dem Daten von nur einer DomĂ€ne fĂŒr das Training verfĂŒgbar sind und das Modell auf eine andere DomĂ€ne angewendet werden muss. Zum Beispiel kann das Netzwerk, das die Ă€sthetische QualitĂ€t der Fotografie bestimmt, in einer Datenbank trainiert werden, die im Netzwerk verfĂŒgbar ist und auf der Amateur-Website gesammelt wird. Es ist geplant, dieses Netzwerk fĂŒr normale Fotos zu verwenden, deren QualitĂ€tsniveau sich im Durchschnitt vom Niveau eines Fotos von einer speziellen Foto-Site unterscheidet. Als Lösung können wir erwĂ€gen, das Modell an gewöhnliche unbeschriftete Fotos anzupassen.


Solche theoretischen und angewandten Fragen liegen im Bereich der Anpassung. In diesem Artikel werde ich ĂŒber die wichtigsten Forschungsergebnisse in diesem Bereich sprechen, die auf Deep Learning basieren, sowie ĂŒber DatensĂ€tze zum Vergleich verschiedener Methoden. Die Hauptidee der Anpassung an tiefe DomĂ€nen besteht darin, ein tiefes neuronales Netzwerk in der QuelldomĂ€ne zu trainieren, wodurch das Bild in eine solche Einbettung (normalerweise die letzte Schicht des Netzwerks) ĂŒbersetzt wird, dass bei Verwendung in der ZieldomĂ€ne eine hohe QualitĂ€t erzielt wird.


Kernbenchmarks


Wie in jedem Bereich des maschinellen Lernens wird in der DomĂ€nenanpassung im Laufe der Zeit ein gewisser Forschungsaufwand angehĂ€uft, der miteinander verglichen werden muss. Zu diesem Zweck entwickelt die Community DatensĂ€tze, auf deren Trainingsteil die Modelle trainiert und auf deren Testteil sie verglichen werden. Trotz der Tatsache, dass der Forschungsbereich der tiefen DomĂ€nenanpassung noch relativ jung ist, gibt es bereits eine relativ große Anzahl von Artikeln und Datenbanken, die in diesen Artikeln verwendet werden. Ich werde die wichtigsten auflisten und mich darauf konzentrieren, den Bereich der synthetischen Daten an „real“ anzupassen.


Zahlen


Nach der Tradition von Yann LeCun (einem der Pioniere des Deep Learning, Direktor von Facebook AI Research) sind die einfachsten DatensĂ€tze in der Computer Vision offenbar mit handgeschriebenen Zahlen oder Buchstaben verbunden. Es gibt mehrere DatensĂ€tze mit Zahlen, die ursprĂŒnglich zum Experimentieren mit Bilderkennungsmodellen erschienen sind. In Artikeln zur DomĂ€nenanpassung finden sich verschiedene Kombinationen in Quell-Ziel-DomĂ€nenpaaren. Unter diesen DatensĂ€tzen:


  • MNIST - handschriftliche Zahlen, benötigt keine zusĂ€tzliche PrĂ€sentation;
  • USPS - handschriftliche Zahlen in niedriger Auflösung;
  • SVHN - Hausnummern mit Google Street View;
  • Synth Numbers sind synthetische Zahlen, wie der Name schon sagt.

Unter dem Gesichtspunkt der Aufgabe, synthetische Daten fĂŒr die Verwendung in der "realen" Welt zu trainieren, sind die Paare am interessantesten:


  • Quelle: MNIST, Ziel: SVHN;
  • Quelle: USPS, Ziel: MNIST;
  • Quelle: Synth Numbers, Ziel: SVHN.


Die meisten Methoden haben Benchmarks fĂŒr "digitale" DatensĂ€tze. Die anderen Arten von Domains finden sich jedoch weit entfernt von allen Artikeln.


BĂŒro


Dieser Datensatz enthÀlt 31 Kategorien verschiedener Elemente, von denen jedes in drei DomÀnen dargestellt wird: ein Bild von Amazon, ein Foto von einer Webcam und ein Foto von einer Digitalkamera.



Es ist nĂŒtzlich, um zu ĂŒberprĂŒfen, wie das Modell auf das HinzufĂŒgen von Hintergrund und QualitĂ€t zur ZieldomĂ€ne reagiert.


Verkehrszeichen


Ein weiteres Datensatzpaar zum Trainieren des Modells auf synthetische Daten und zum Anwenden auf "echte" Daten:


  • Quelle: Synth Signs - Bilder von Verkehrszeichen, die so erzeugt wurden, dass sie wie echte Zeichen auf der Straße aussehen.
  • Ziel: GTSRB ist eine ziemlich bekannte Erkennungsbasis mit Schildern von deutschen Straßen.


Ein Merkmal dieses Datenbankpaares ist, dass die Daten von Synth Signs den „echten“ Daten ziemlich Ă€hnlich sind, sodass die DomĂ€nen ziemlich nahe beieinander liegen.


Aus dem Autofenster


DatensĂ€tze zur Segmentierung. Ein ziemlich interessantes Paar, das den realen Bedingungen am nĂ€chsten kommt. Die Quelldaten werden mit der Game Engine (GTA 5) abgerufen, und die Zieldaten stammen aus dem realen Leben. Ähnliche AnsĂ€tze werden verwendet, um Modelle zu trainieren, die in autonomen Autos verwendet werden.


  • SYNTHIA- oder GTA 5-Engine - Bilder einer Stadtansicht aus einem Autofenster, die mit einer Game-Engine erstellt wurden;
  • Stadtlandschaften - Bilder eines Autos aus 50 verschiedenen StĂ€dten.


VisDA


Dieser Datensatz wird in der Visual Domain Adaptation Challenge verwendet , die Teil eines Workshops zu ECCV und ICCV ist. Die QuelldomĂ€ne enthĂ€lt 12 Kategorien von mit CAD generierten beschrifteten Objekten, z. B. ein Flugzeug, ein Pferd, eine Person usw. Die ZieldomĂ€ne enthĂ€lt unbeschriftete Bilder aus denselben 12 Kategorien, die aus ImageNet stammen. In dem Wettbewerb, der 2018 stattfand, wurde die 13. Kategorie hinzugefĂŒgt: Unbekannt.



Wie Sie aus all dem sehen können, gibt es eine Menge interessanter und vielfĂ€ltiger DatensĂ€tze fĂŒr die DomĂ€nenanpassung. Sie können Modelle fĂŒr verschiedene Aufgaben (Klassifizierung, Segmentierung, Erkennung) und verschiedene Bedingungen (synthetische Daten, Fotos, Straßenansichten) trainieren und testen.


Deep Domain Anpassung


Es gibt eine ziemlich umfangreiche und vielfĂ€ltige Klassifizierung von DomĂ€nenanpassungsmethoden (siehe hier ). Ich werde in diesem Artikel eine vereinfachte Unterteilung der Methoden nach ihren Hauptmerkmalen geben. Moderne Methoden zur Anpassung tiefer DomĂ€nen lassen sich in drei große Gruppen einteilen:


  • Diskrepanzbasiert : AnsĂ€tze, die auf der Minimierung des Abstands zwischen Vektordarstellungen in der Quell- und ZieldomĂ€ne basieren, indem dieser Abstand in die Verlustfunktion eingefĂŒhrt wird.
  • Adversarial-Based : Diese AnsĂ€tze verwenden die in GANs eingefĂŒhrte Adversarial- Loss-Funktion, um ein domĂ€neninvariantes Netzwerk zu trainieren. Die Methoden dieser Familie wurden in den letzten Jahren aktiv entwickelt.
  • Gemischte Methoden , die keinen kontroversen Verlust verwenden, sondern Ideen aus der auf Diskrepanzen basierenden Familie sowie die neuesten Entwicklungen aus dem Deep Learning anwenden: Selbstsemblierung, neue Ebenen, Verlustfunktionen usw. Diese AnsĂ€tze zeigen die besten Ergebnisse im VisDA-Wettbewerb.

In jedem Abschnitt werden meiner Meinung nach einige grundlegende Ergebnisse der letzten 1-3 Jahre berĂŒcksichtigt.


Diskrepanzbasiert


Wenn das Problem der Anpassung eines Modells an neue Daten auftritt, fĂ€llt als Erstes die Verwendung der Feinabstimmung ein, d. H. Umschulung des Modells auf neue Daten. BerĂŒcksichtigen Sie dazu die Diskrepanz zwischen den DomĂ€nen. Diese Art der DomĂ€nenanpassung kann in drei AnsĂ€tze unterteilt werden: Klassenkriterium, statistisches Kriterium und Architekturkriterium.


Klassenkriterium


Methoden aus dieser Familie werden hauptsĂ€chlich verwendet, wenn wir Zugriff auf markierte Daten aus der ZieldomĂ€ne haben. Eine der beliebtesten Optionen fĂŒr Klassenkriterien ist der Lernansatz fĂŒr Deep-Transfer-Metriken . Wie der Name schon sagt, basiert es auf metrischem Lernen, dessen Kern darin besteht, eine solche Vektordarstellung zu trainieren, die aus einem neuronalen Netzwerk erhalten wird, dass Vertreter einer Klasse in dieser Darstellung gemĂ€ĂŸ einer bestimmten Metrik nahe beieinander liegen (am hĂ€ufigsten verwendet) L 2 oder Kosinusmetriken). In dem Artikel Deep Transfer Metric Learning (DTML) wird ein Verlust, der aus der Summe der Begriffe besteht, verwendet, um diesen Ansatz zu implementieren:


  • Die NĂ€he von Vertretern einer Klasse zueinander (Kompaktheit innerhalb der Klasse);
  • Erhöhter Abstand zwischen Vertretern verschiedener Klassen (Trennbarkeit zwischen Klassen);
  • MMD-Metrik (Maximum Mean Discrepancy) zwischen DomĂ€nen. Diese Metrik gehört zur Familie der statistischen Kriterien (siehe unten), wird jedoch auch im Klassenkriterium verwendet.

MMD zwischen Domains wird geschrieben als


MMD2(Ds,Dt)= Vert frac1M sumMi=1 phi(xsi)− frac1N sumNj=1 phi(xtj) Vert2H,


wo  phi(x) - Dies ist in unserem Fall ein Kern - eine Vektordarstellung des Netzwerks, xsi,i in1 ldotsM - Daten aus der QuelldomĂ€ne, xti,i in1 ldotsN - Daten aus der ZieldomĂ€ne. Wenn also die MMD-Metrik wĂ€hrend des Trainings minimiert wird, wird ein solches Netzwerk ausgewĂ€hlt  phi(x) so dass seine durchschnittlichen Vektordarstellungen in beiden DomĂ€nen nahe beieinander liegen. Die Hauptidee von DTML:



Wenn die Daten in der ZieldomĂ€ne nicht gekennzeichnet sind (unbeaufsichtigte DomĂ€nenanpassung), bietet die in Mind the Class Weight Bias: Gewichtete maximale mittlere Diskrepanz fĂŒr die unbeaufsichtigte DomĂ€nenanpassung beschriebene Methode an, das Modell in der QuelldomĂ€ne zu trainieren und es zum Abrufen von Pseudo-Labels (Pseudo-) zu verwenden Labels) in der ZieldomĂ€ne. Das heißt, Daten aus der ZieldomĂ€ne werden ĂŒber das Netzwerk ausgefĂŒhrt und das Ergebnis wird als Pseudo-Labels bezeichnet. Dann werden sie als Markup fĂŒr die ZieldomĂ€ne verwendet, wodurch das MMD-Kriterium in der Verlustfunktion angewendet werden kann (mit unterschiedlichen Gewichten fĂŒr die Komponenten, die fĂŒr verschiedene DomĂ€nen verantwortlich sind).


Statistisches Kriterium


Mit dieser Familie verwandte Methoden werden verwendet, um das Problem der unbeaufsichtigten DomÀnenanpassung zu lösen. Der Fall, dass die ZieldomÀne nicht zugewiesen ist, tritt bei vielen Problemen auf, und alle Methoden der DomÀnenanpassung, die spÀter in diesem Artikel erlÀutert werden, lösen genau dieses Problem.


Auf statistischen Kriterien basierende AnsĂ€tze versuchen, den Unterschied zwischen den Verteilungen der Vektordarstellung des Netzwerks zu messen, die aus den Daten der Quell- und ZieldomĂ€ne erhalten werden. Sie verwenden dann die berechnete Differenz, um diese beiden Verteilungen zusammenzufĂŒhren.


Eines dieser Kriterien ist die oben bereits beschriebene maximale mittlere Diskrepanz (MMD) . Seine Varianten werden auf verschiedene Arten verwendet:



Die Diagramme dieser drei Methoden sind unten dargestellt. In ihnen werden die MMD-Varianten verwendet, um den Unterschied zwischen den Verteilungen auf den Schichten des Faltungsnetzwerks zu bestimmen, die auf die Quell- und ZieldomÀne angewendet werden. Bitte beachten Sie, dass jeder von ihnen die MMD-Modifikation als Verlust zwischen Schichten von Faltungsnetzwerken verwendet (gelbe Zahlen im Diagramm).



Das CORAL- Kriterium (CORrelation ALignment) und seine Erweiterung mit Hilfe von Deep CORAL- Netzwerken zielen darauf ab, eine solche Darstellung von Daten zu lernen, damit Statistiken zweiter Ordnung zwischen DomĂ€nen maximal ĂŒbereinstimmen. Hierzu werden Kovarianzmatrizen von Vektordarstellungen des Netzwerks verwendet. Die Konvergenz von Statistiken zweiter Ordnung in beiden Bereichen ermöglicht es in einigen FĂ€llen, bessere Anpassungsergebnisse als bei MMD zu erzielen.


LCORAL= frac14d2 VertCS−CT Vert2F,


wo ||∗||2F Ist das Quadrat der Frobenius-Matrixnorm und Cs und Ct - Kovarianzmatrixdaten aus der Quell- bzw. ZieldomĂ€ne d - die Dimension der Vektordarstellung.


Im Office-Dataset betrĂ€gt die durchschnittliche QualitĂ€t der Anpassung mit Deep CORAL fĂŒr Paare von Amazon- und Webcam-DomĂ€nen 72,1%. Bei Synth Signs -> GTSRB-VerkehrszeichendomĂ€nen ist das Ergebnis ebenfalls sehr durchschnittlich: 86,9% Genauigkeit in der ZieldomĂ€ne.


Die Entwicklung der Ideen von MMD und CORAL ist das CMD- Kriterium (Central Moment Discrepancy) , das die zentralen Momente der Daten aus den Quell- und ZieldomĂ€nen aller AuftrĂ€ge bis vergleicht K inklusive ( K - Parameter des Algorithmus). Im Office-Dataset betrĂ€gt die durchschnittliche CMD-AnpassungsqualitĂ€t fĂŒr Paare von Amazon- und Webcam-DomĂ€nen 77,0%.


Architekturkriterium


Algorithmen dieses Typs basieren auf der Annahme, dass die Basisinformationen, die fĂŒr die Anpassung an eine neue DomĂ€ne verantwortlich sind, in die Parameter eines neuronalen Netzwerks eingebettet sind.


In einer Reihe von Veröffentlichungen [1] , [2] werden beim Trainieren von Netzwerken fĂŒr die Quell- und ZieldomĂ€ne unter Verwendung von Verlustfunktionen fĂŒr jedes Schichtpaar Informationen, die in Bezug auf die DomĂ€ne unverĂ€nderlich sind, auf die Gewichte dieser Schichten untersucht. Ein Beispiel fĂŒr solche Architekturen ist unten angegeben.



In dem Artikel „ ÜberprĂŒfung der Chargennormalisierung zur praktischen DomĂ€nenanpassung“ wurde die Idee vertreten, dass die Netzwerkskalen Informationen zu den Klassen enthalten, in denen das Netzwerk studiert, und die DomĂ€neninformationen in die Statistiken (Mittelwert und Standardabweichung) der Batch-Normalisierungsschichten (BN) eingebettet sind. Zur Anpassung ist es daher erforderlich, diese Statistiken fĂŒr die Daten aus der ZieldomĂ€ne neu zu berechnen. Die Verwendung dieser Technik zusammen mit CORAL kann die AnpassungsqualitĂ€t des Office-Datasets fĂŒr Paare von Amazon- und Webcam-DomĂ€nen um bis zu 75,0% verbessern. Es wurde dann gezeigt, dass die Verwendung der Instance Normalization (IN) -Schicht anstelle von BN die AnpassungsqualitĂ€t weiter verbessert. Im Gegensatz zu BN, das den Eingangstensor chargenweise normalisiert, berechnet IN Statistiken fĂŒr die Normalisierung nach KanĂ€len und ist daher unabhĂ€ngig von der Charge.


WidersprĂŒchliche AnsĂ€tze


In den letzten 1-2 Jahren hĂ€ngen die meisten Ergebnisse bei der Anpassung an tiefe DomĂ€nen mit dem kontradiktorischen Ansatz zusammen. Dies ist hauptsĂ€chlich auf die rasche Entwicklung und PopularitĂ€t der generativen kontradiktorischen Netzwerke (GAN) zurĂŒckzufĂŒhren , da der kontradiktorische Ansatz zur DomĂ€nenanpassung im Training dieselbe kontradiktorische Zielfunktion verwendet wie das GAN. Durch die Optimierung minimieren solche Methoden zur Anpassung tiefer DomĂ€nen den Abstand zwischen den empirischen Verteilungen von Vektordatendarstellungen auf den Quell- und ZieldomĂ€nen. Indem sie das Netzwerk auf diese Weise trainieren, versuchen sie, es in Bezug auf die DomĂ€ne unverĂ€nderlich zu machen.


GAN besteht aus zwei Modellen: Generator G , an dessen Ausgabe Daten von einer bestimmten Zielverteilung erhalten werden; und Diskriminator D , der bestimmt, ob die Daten aus dem Trainingssatz oder mit generiert werden G . Diese beiden Modelle werden mit der gegnerischen Zielfunktion trainiert:


 minG maxDV(D,G)= mathbbEx simpdata(x)[ logD(x)]+ mathbbEz simp(z)[1− logD(G(z))].


Mit einem solchen Training lernt der Generator, den Diskriminator zu „betrĂŒgen“, wodurch Sie die Verteilung der Ziel- und QuelldomĂ€nen nĂ€her bringen können.


Bei der kontradiktorischen DomĂ€nenanpassung gibt es zwei große AnsĂ€tze, die sich darin unterscheiden, ob ein Generator verwendet wird oder nicht. G .


Nicht generative Modelle


Ein SchlĂŒsselmerkmal der Methoden aus dieser Familie ist das Training eines neuronalen Netzwerks mit einer Vektordarstellung, die in Bezug auf die Quell- und ZieldomĂ€ne unverĂ€nderlich ist. Dann kann das in der markierten QuelldomĂ€ne trainierte Netzwerk idealerweise in der ZieldomĂ€ne verwendet werden - praktisch ohne Verlust der KlassifizierungsqualitĂ€t.


Der 2015 eingefĂŒhrte DANN-Algorithmus ( Code ) (Domain-Adversarial Training of Neural Networks ) besteht aus drei Teilen:


  • Das Hauptnetzwerk, mit dessen Hilfe eine Vektordarstellung (Merkmalsextraktor) erhalten wird (der grĂŒne Teil in der folgenden Abbildung);
  • "Köpfe", die fĂŒr die Klassifizierung in der QuelldomĂ€ne verantwortlich sind (blauer Teil in der Abbildung);
  • Ein „Kopf“, der lernt, Daten von der QuelldomĂ€ne von der ZieldomĂ€ne zu unterscheiden (der rote Teil in der Abbildung).

Beim Training mit Gradientenabstieg (SGD) (Pfeile zur Eingabe in der Abbildung) werden Klassifizierung und DomĂ€nenverluste minimiert. ZusĂ€tzlich wird wĂ€hrend der RĂŒckwĂ€rtsausbreitung eines Lernfehlers fĂŒr den fĂŒr die DomĂ€nen verantwortlichen „Kopf“ die Gradientenumkehrschicht (der schwarze Teil in der Abbildung) verwendet, die den durch sie fließenden Gradienten mit einer negativen Konstante multipliziert und den DomĂ€nenverlust erhöht. Dies stellt sicher, dass die Verteilungen der Vektordarstellungen auf beiden DomĂ€nen nahe beieinander liegen.



DANN-Benchmark-Ergebnisse:


  • Auf einem Paar digitaler DomĂ€nen Synth Numbers -> SVHN: 91,09%.
  • Bei Synth Signs -> GTSRB-Verkehrszeichen ĂŒbertrifft es CORAL mit einem Ergebnis von 88,7%.
  • Im Office-Dataset betrĂ€gt die durchschnittliche AnpassungsqualitĂ€t fĂŒr Paare von Amazon- und Webcam-DomĂ€nen 73,0%.

Der nĂ€chste wichtige Vertreter der nicht generativen Modellfamilie ist die ADDA-Methode ( Adversarial Discriminative Domain Adaptation) ( Code ), bei der das Netzwerk fĂŒr die QuelldomĂ€ne und das Netzwerk fĂŒr die ZieldomĂ€ne getrennt werden. Der Algorithmus besteht aus folgenden Schritten:


  1. ZunĂ€chst trainieren wir das Klassifizierungsnetzwerk in der QuelldomĂ€ne. Wir bezeichnen seine Vektordarstellung Ms und  mathbfXs - QuelldomĂ€ne.
  2. Initialisieren Sie nun das neuronale Netzwerk fĂŒr die ZieldomĂ€ne mithilfe des trainierten Netzwerks aus dem vorherigen Schritt. Lass sie Mt und  mathbfXt - ZieldomĂ€ne.
  3. Kommen wir zum kontradiktorischen Training: Wir werden den Diskriminator trainieren D bei fest Ms und Mt unter Verwendung der folgenden Zielfunktion:

     minDLadvD( mathbfXs, mathbfXt,Ms,Mt)=− mathbbExs sim mathbfXs[ logD(Ms(xs))]− mathbbExt sim mathbfXt[ log(1−D(Mt(xt))]


  4. Diskriminator einfrieren und umschulten Mt auf der ZieldomÀne:

     minMs,MtLadvM( mathbfXs, mathbfXt,D)=− mathbbExt sim mathbfXt[ logD(Mt(xt))]



3 4 . ADDA , , adversarial- , . :



USPS -> MNIST ADDA 90,1 % .


ADDA ICML-2018 M-ADDA: Unsupervised Domain Adaptation with Deep Metric Learning ( ).


, M-ADDA metric learning, L2 -. 1 ADDA - Triplet loss ( ( ) ). , K ( K — ). Cj,j∈1
K .


ADDA, .. 2-4. 4 , Cj , :


Ext∌Xt[minj||Mt(xt)−Cj||2].


.



M-ADDA USPS -> MNIST 94,0 %.


non-generative Maximum Classifier Discrepancy for Unsupervised Domain Adaptation ( ). (), . , , .


G — , F1 und F2 — , . , G , F1 und F2 -; , ; , ; F1 und F2 .


, adversarial-, G , .


(Discrepancy Loss)


d(p1,p2)=1KK∑k=1|p1k−p2k|,


K — , p1kp2k — softmax k - F1 und F2 entsprechend.


3 :


  • A . G , F1 und F2 .
  • B. B. , .
  • C . , , Discrepancy Loss.

n ( ). B C:



:


  • USPS -> MNIST: 94,1 %.
  • Synth Signs -> GTSRB : 94,4 %.
  • VisDA 12 Unknown: 71,9 %.
  • GTA 5 -> Cityscapes: Mean IoU = 39,7 %, Synthia -> Cityscapes: Mean IoU = 37,3 %

non-generative models:



.


Wir untersuchten die HauptdatensĂ€tze fĂŒr DomĂ€nenanpassung, diskrepanzbasierte AnsĂ€tze: Klassenkriterium, statistisches Kriterium und Architekturkriterium sowie die erste nicht generative Familie von kontradiktorischen Methoden. Modelle aus diesen AnsĂ€tzen zeigen eine gute Leistung bei Benchmarks und sind auf viele Anpassungsaufgaben anwendbar. Im nĂ€chsten Teil werden wir die komplexesten und effektivsten AnsĂ€tze betrachten: generative Modelle und gemischte, nicht kontradiktorische Methoden.

Source: https://habr.com/ru/post/de426803/


All Articles