Réseaux Génératifs Adversaires (GAN) - Une classe de modèles génératifs profonds avec des fonctionnalités intéressantes. Leur idée principale est de former deux réseaux de neurones, un générateur qui apprend la synthèse des données (par exemple, des images) et un discriminateur qui apprend à distinguer les données réelles de celles synthétisées par le générateur. Cette approche a été utilisée avec succès pour
une synthèse d'image de haute qualité ,
une compression d'image améliorée , etc.
Evolution des échantillons générés lors de la formation sur ImageNet. Le générateur est limité par la classe de l'image (par exemple, «chouette barbu» ou «golden retriever»).Dans le domaine de la synthèse d'images naturelles, les
ESG conditionnelles obtiennent les meilleurs résultats qui, contrairement aux inconditionnelles, utilisent des étiquettes («machine», «chien», etc.) lors de l'entraînement. Et bien que cela simplifie la tâche et offre une amélioration significative du résultat, une telle approche nécessite une grande quantité de données balisées, ce qui est rarement trouvé dans la pratique.
Dans notre
travail «Générer des images de haute qualité avec moins de balises», nous proposons une nouvelle approche pour réduire la quantité de données balisées nécessaires à la formation de CSS conditionnels avancés. En combinant cette approche avec des percées récentes dans le développement de GSS à grande échelle, nous produisons des images naturelles de qualité comparable en utilisant 10 fois moins de balises. Nous publions également une grande mise à jour de
la bibliothèque Compare GAN basée sur cette étude, qui contient tous les composants nécessaires à la formation et à l'évaluation des GSS modernes.
Améliorations par semi-supervision et auto-supervision
Dans l'ESG conditionnelle, le générateur et le discriminateur sont généralement limités aux étiquettes de classe. Dans notre travail, nous proposons de remplacer les tags apposés manuellement par ceux supposés. Afin d'afficher des étiquettes de bonne qualité pour un grand ensemble composé principalement de données non balisées, nous utilisons une approche en deux étapes. Tout d'abord, nous apprenons à présenter des fonctionnalités d'image uniquement avec l'exemple de la partie non allouée de la base de données. Pour en savoir plus sur la présentation des signes, nous utilisons l'autosurveillance sous la forme d'une
approche récemment proposée dans laquelle des données non étiquetées sont mélangées de manière aléatoire, et un réseau neuronal convolutionnel profond prédit l'angle de rotation. L'idée est que les modèles devraient être capables de reconnaître les objets de base et leurs formes afin de mener à bien cette tâche:

Ensuite, nous considérons la séquence d'activation de l'une des couches intermédiaires du réseau formé comme une nouvelle représentation des caractéristiques des données d'entrée, et nous entraînons le classificateur à reconnaître l'étiquette de ces données d'entrée en utilisant la partie étiquetée de l'ensemble de données initial. Étant donné que le réseau a été préalablement formé pour extraire des attributs de données sémantiquement significatifs (dans une tâche avec prédiction de rotation), la formation de ce classificateur est plus efficace par des exemples que la formation de l'ensemble du réseau à partir de zéro. Enfin, nous utilisons ce classificateur pour baliser les données non allouées.
Pour améliorer encore la qualité du modèle et la stabilité de la formation, nous encourageons le réseau de discriminateurs à apprendre des représentations significatives d'attributs qui ne sont pas oubliés pendant la formation en raison des pertes auxiliaires que nous avons présentées
précédemment . Ces deux avantages, associés à une formation à grande échelle, fournissent des GSS conditionnels avancés bien adaptés à la synthèse d'images d'ImageNet, à en juger par la
distance de Fréchet .
Le réseau générateur génère une image basée sur un vecteur propre. Dans chaque ligne, l'interpolation linéaire des codes électroniques des images les plus à gauche et à droite conduit à une interpolation sémantique dans l'espace image.Comparez la bibliothèque GAN pour la formation et l'évaluation de GSS
La recherche avancée dans le domaine de l'ESG dépend fortement d'un code bien développé et testé, car même la reproduction des résultats et des techniques précédentes nécessite beaucoup d'efforts. Pour soutenir la science ouverte et permettre à la communauté des chercheurs de s'appuyer sur les avancées récentes, nous publions une mise à jour importante de la bibliothèque Compare GAN. Il comprend des fonctions de perte, des schémas de régularisation et de normalisation, une architecture de réseau neuronal et des métriques numériques, souvent utilisées dans le GSS moderne. Elle soutient également déjà:
- Formation sur GPU et TPU.
- Configuration facile avec Gin ( exemples ).
- Un grand nombre d'ensembles de données via la bibliothèque TensorFlow .
Conclusion et plans pour l'avenir
Étant donné l'écart entre les sources de données étiquetées et non étiquetées,
il devient de plus en plus important de tirer des enseignements de données partiellement étiquetées. Nous avons montré qu'une combinaison simple mais puissante d'autosurveillance et de semi-surveillance peut aider à combler cette lacune pour l'ESG. Nous pensons que l'autosurveillance est une idée prometteuse qui doit être explorée pour d'autres domaines de la modélisation générative.