Au cours de la dernière décennie, le machine learning a progressé sans précédent dans des domaines aussi divers que la reconnaissance des formes, les robots et les jeux complexes comme le go. Ces succès ont été principalement obtenus grâce à la formation de réseaux de neurones profonds avec l'un des deux paradigmes - l'
apprentissage avec un enseignant et l'
apprentissage avec renforcement . Les deux paradigmes nécessitent le développement de signaux d'entraînement humain, qui sont ensuite transmis à l'ordinateur. Dans le cas d'une formation avec un enseignant, ce sont des «objectifs» (par exemple, la signature correcte sous l'image); dans le cas des renforts, ce sont des «récompenses» pour un comportement réussi (score élevé dans le jeu d'Atari). Par conséquent, les limites de l'apprentissage sont déterminées par les gens.
Et si certains scientifiques pensent qu'un programme de formation suffisamment étendu - par exemple, la capacité de mener à bien un large éventail de tâches - devrait être suffisant pour générer une intelligence à usage général, alors d'autres pensent que la vraie intelligence nécessitera des stratégies d'apprentissage plus indépendantes. Considérez, par exemple, le processus d'enseignement d'un bébé. Sa grand-mère peut s'asseoir avec lui et lui montrer patiemment des exemples de canards (servant de signal pédagogique lors de l'apprentissage avec un professeur) ou le récompenser par des applaudissements pour avoir résolu un puzzle avec des cubes (comme dans l'apprentissage renforcé). Cependant, la plupart du temps, le bébé explore naïvement le monde et comprend l'environnement par la curiosité, le jeu et l'observation.
Apprendre sans professeur est un paradigme conçu pour créer une intelligence autonome en récompensant les agents (programmes informatiques) pour étudier les données qu'ils observent, quelles que soient les tâches spécifiques. En d'autres termes, l'agent est formé pour apprendre.
La principale motivation de l'apprentissage sans enseignant est que si les données transmises aux algorithmes d'apprentissage ont une structure interne extrêmement riche (images, vidéos, texte), les objectifs et les récompenses de la formation sont généralement très secs (l'étiquette «chien» pour cette espèce, ou unité / zéro, indiquant le succès ou l'échec du jeu). Cela suggère que l'essentiel de ce que l'algorithme étudie devrait consister à comprendre les données elles-mêmes et non à appliquer cette compréhension à la solution de certains problèmes.
Décodage des éléments de vision
2012 a été une année marquante pour l'apprentissage en profondeur lorsqu'AlexNet (du nom de l'architecte principal Alex Krizhevsky) a osé concurrencer
le concours de classification ImageNet . Sa capacité à reconnaître les images n'avait pas d'analogues, mais ce qui se passait sous le capot était encore plus surprenant. Après avoir analysé les actions d'AlexNet, les scientifiques ont découvert qu'il interprète les images grâce à la construction de
représentations internes de plus en plus complexes
des données d'entrée. Les caractéristiques de bas niveau, par exemple, les textures et les visages, sont représentées par des couches inférieures, puis à partir de celles-ci sur des couches supérieures, les concepts d'un niveau supérieur sont combinés, tels que les roues ou les chiens.
Cela est étonnamment similaire à la façon dont notre cerveau traite les informations - les visages et les textures simples dans les principales zones liées aux sens sont assemblés en objets complexes comme les visages dans les zones supérieures du cerveau. Ainsi, une scène complexe peut être assemblée à partir de primitives visuelles, de la même manière que le sens provient des mots individuels qui composent une phrase. Sans installation directe, les couches AlexNet ont révélé un «dictionnaire» visuel fondamental adapté à la résolution du problème. D'une certaine manière, le réseau a appris à jouer ce que Ludwig Wittgenstein a appelé le «
jeu de langage », qui passe pas à pas des pixels aux étiquettes d'images.
Dictionnaire visuel du réseau neuronal convolutif. Pour chaque couche, des images sont créées qui maximisent l'activation de certains neurones. Ensuite, la réaction de ces neurones à d'autres images peut être interprétée comme la présence ou l'absence de «mots» visuels: textures, étagères, visages de chiens, oiseaux.Formation de transfert
Du point de vue de l'intelligence à usage général, la chose la plus intéressante dans le dictionnaire AlexNet est qu'il peut être réutilisé ou transféré à d'autres tâches visuelles, par exemple, pour reconnaître non seulement des objets individuels, mais aussi des scènes entières. Le transfert dans un monde en constante évolution est absolument nécessaire, et les gens le font très bien: nous sommes en mesure d'adapter rapidement les compétences et la compréhension acquises par l'expérience (modèle mondial) à toute situation actuelle. Par exemple, un pianiste de formation classique apprendra facilement à jouer du jazz. Les agents artificiels qui forment l'image interne correcte du monde devraient probablement avoir les mêmes capacités.
Cependant, les représentations obtenues par des classificateurs tels que AlexNet ont leurs limites. En particulier, étant donné que le réseau est formé pour étiqueter une classe (chien, chat, voiture, volcan) le reste des informations - quelle que soit leur utilité pour d'autres tâches - il ignorera. Par exemple, les représentations peuvent ne pas capturer l'arrière-plan des images si les étiquettes se réfèrent uniquement aux objets au premier plan. Une solution possible consiste à donner des signaux d'entraînement plus complets, par exemple,
des descriptions détaillées des images : pas seulement un «chien», mais «Corgi attrape le frisbee dans un parc ensoleillé». Cependant, de telles étiquettes sont difficiles à apposer, surtout à grande échelle, et elles peuvent ne pas être encore suffisantes pour percevoir toutes les informations nécessaires à la réalisation de la tâche. La prémisse de base de l'apprentissage sans enseignant est que la meilleure façon d'apprendre des représentations facilement portables est d'essayer d'apprendre tout ce qui est possible sur les données.
Si le concept de transfert à travers la formation des représentations vous semble trop abstrait, imaginez un enfant qui a appris à dessiner des gens dans le style «bâton, bâton, concombre». Il a trouvé une représentation de l'apparence d'une personne, qui est à la fois très compacte et bien adaptée. En complétant chaque figure avec certaines fonctionnalités, il peut créer des portraits de tous ses camarades de classe: des lunettes pour son meilleur ami, un t-shirt rouge préféré à son camarade de classe. Et il a développé cette compétence non pas pour accomplir une tâche spécifique ou recevoir une récompense, mais en réponse à un besoin fondamental de refléter le monde qui l'entoure.
Apprendre par la créativité: modèles génératifs
Le but le plus simple de l'apprentissage sans enseignant est peut-être de former l'algorithme pour créer ses propres exemples de données. T.N. les modèles génératifs devraient non seulement reproduire les données sur lesquelles ils ont été formés (c'est juste un «souvenir» inintéressant), mais créer un modèle de la classe dont les données ont été tirées. Pas une photographie spécifique d'un cheval ou d'un arc-en-ciel, mais un ensemble de photographies de chevaux et d'arcs-en-ciel; pas une déclaration spécifique d'un locuteur particulier, mais la distribution générale des déclarations verbales. Le principe de base des modèles génératifs est que la possibilité de créer un exemple convaincant des données est la preuve la plus forte qu'elles sont comprises: comme l'a dit Richard Feynman, «ce que je ne peux pas créer, je ne le comprends pas».
Jusqu'à présent, le modèle génératif le plus réussi pour les images reste le
Generative-Competitive Network (GSS), dans lequel deux réseaux - le générateur et le discriminateur - entrent dans le concours de reconnaissance, semblable à celui d'un faux spécialiste et d'un détective. Le générateur produit des images, essayant de faire croire au discriminateur leur réalité; le discriminateur est récompensé pour avoir détecté des contrefaçons. Les images générées sont d'abord obtenues de manière aléatoire et bâclée, puis améliorées sur de nombreuses approches, et l'interaction dynamique des réseaux conduit à l'apparition d'images de plus en plus réalistes, qui dans de nombreux cas
ne peuvent être distinguées des vraies photos. GSS peut également fournir
des paysages détaillés basés sur des croquis approximatifs des utilisateurs.
Un simple coup d'œil sur les images ci-dessous sera suffisant pour s'assurer que le réseau a appris à représenter bon nombre des caractéristiques clés des photographies sur lesquelles il a été formé - la structure du corps animal, la texture de l'herbe et les détails du jeu de lumière et d'ombre (même en réfléchissant une bulle de savon). Une étude attentive révèle de petites anomalies, telles qu'une jambe supplémentaire chez un chien blanc et un étrange angle droit dans les jets d'une des fontaines. Bien que les créateurs de modèles génératifs tentent de se débarrasser de ces imperfections, le fait que nous puissions les voir parle de l'un des avantages de la reconstruction de données aussi familières que les images: en étudiant des échantillons, les chercheurs peuvent comprendre ce que le modèle a appris et ce qui ne l'a pas encore été.

Création par prédiction
Une autre famille de réseaux remarquable dans une classe sans enseignant est constituée par les modèles autorégressifs, dans lesquels les données sont divisées en petits morceaux, chacun prédisant à son tour le modèle. De tels modèles peuvent être utilisés pour générer des données comme suit: premièrement, le réseau devine ce qui se passe, ils alimentent cette conjecture à son entrée, et il devine à nouveau. L'exemple le plus célèbre est le modèle de langue, où chaque mot suivant est prédit en fonction des précédents: ce modèle fonctionne avec des prédictions de texte qui apparaissent dans diverses applications et lors de l'envoi d'un e-mail. Les développements récents dans la modélisation de langage vous permettent de créer des passages étonnamment raisonnables - par exemple, empruntés à
OpenAI GPT-2 :
Indice sur le système (écrit par l'homme)
Les scientifiques ont fait une découverte choquante en découvrant un troupeau de licornes vivant dans la vallée des Andes éloignée et jusque-là inexplorée. Encore plus surprenant pour les chercheurs, les licornes parlaient un excellent anglais.
Texte complété par le modèle (après 10 tentatives)
Les scientifiques ont appelé la population "licornes ovides" en raison de leurs cornes distinctives. Ces licornes à quatre cornes blanc argenté étaient auparavant inconnues de la science. Et enfin, après deux siècles, le mystère de ce qui a donné naissance à cet étrange phénomène est résolu.
Le Dr Jorge Perez, biologiste évolutionniste à l'Université de Lapaz et plusieurs de ses associés ont étudié les Andes lorsqu'ils ont découvert une petite vallée où il n'y avait pas d'autres animaux et personnes. Perez a remarqué quelque chose dans la vallée qui ressemblait à une fontaine naturelle, entourée de deux pics rocheux et de neige argentée.
Puis Perez et les autres sont allés plus loin dans cette vallée. "Lorsque nous sommes arrivés à l'un des sommets, l'eau semblait bleue et il y avait peu de cristaux à sa surface", a déclaré Perez.
Perez et ses amis ont été étonnés de voir un troupeau de licornes. Ces créatures pouvaient être vues depuis les airs, ne se rapprochant pas trop d'eux pour les voir - elles étaient si proches qu'elles pouvaient toucher leurs cornes.
Une différence intéressante est la description des licornes comme «à quatre cornes»: il est amusant d'étudier les limites de la compréhension du réseau.
En contrôlant la séquence d'entrée utilisée pour affiner les prédictions, vous pouvez utiliser des modèles autorégressifs pour traduire une séquence en une autre. Cette
démonstration utilise un modèle autorégressif conditionnel pour traduire le texte en un aspect manuscrit réaliste.
WaveNet convertit le texte en parole naturelle et est maintenant utilisé pour
générer de la voix pour Google Assistant . Des progrès similaires dans le réglage et la génération autorégressive peuvent être utilisés pour les
traductions d'une langue à une autre.
Les modèles autorégressifs étudient les données, essayant de prédire chaque partie dans un certain ordre. Vous pouvez créer une classe de réseaux plus généralisée avec un apprentissage sans professeur, en faisant des prédictions sur n'importe quelle partie des données sur la base d'une autre. Par exemple, cela peut signifier que nous supprimons un mot de la phrase et
essayons de le prédire en fonction du reste du texte . En enseignant un système à travers une interrogation sur lui d'une multitude de prédictions locales, nous le forçons à étudier l'ensemble des données.
L'un des problèmes des modèles génératifs est la possibilité de leur utilisation malveillante. La manipulation de preuves sous la forme de photographies, de vidéos et d'enregistrements audio est possible depuis longtemps, mais les modèles génératifs peuvent grandement faciliter l'édition de ces documents avec une intention malveillante. Nous avons déjà vu une démonstration de la soi-disant deepfake - par exemple, une
fausse vidéo avec Obama . Il est gratifiant de voir qu'il y a de sérieuses tentatives pour relever ces défis - par exemple, l'utilisation de
techniques statistiques pour détecter les
matériaux synthétiques et confirmer les
matériaux authentiques,
familiariser le public avec ce qui se passe , et des discussions sur la limitation de la disponibilité de modèles génératifs formés. En outre, les modèles génératifs eux-mêmes peuvent être utilisés pour détecter les matériaux fabriqués et les données anormales - par exemple,
détecter les faux discours ou détecter les paiements anormaux pour protéger les utilisateurs contre les fraudeurs. Les chercheurs doivent travailler sur des modèles génératifs pour mieux les comprendre et réduire les risques à l'avenir.
Réinventer l'intelligence
Les modèles génératifs eux-mêmes sont très intéressants, mais chez DeepMind nous les traitons comme une étape sur la voie de l'intelligence à usage général. Donner à un agent la capacité de générer des données, c'est comment lui donner de l'imagination et, par conséquent, la capacité de
planifier et de raisonner sur l'avenir. Nos études montrent que la
formation à la prédiction de divers
aspects de l’environnement, même sans tâche particulière de génération de données, enrichit
le modèle mondial de l’ agent et, par conséquent, améliore sa capacité à résoudre des problèmes.
Ces résultats chevauchent notre compréhension intuitive de l'esprit humain. Notre capacité à étudier le monde sans supervision particulière est l'une des propriétés fondamentales de l'intelligence. Lors d'un voyage d'entraînement, nous pouvons regarder indifféremment par la fenêtre, toucher le velours de coton dans les sièges, considérer les passagers voyageant avec nous. Nous n'avons pas d'objectif dans ces études: nous pouvons difficilement échapper à notre esprit de la collecte d'informations, et notre cerveau travaille sans relâche pour comprendre le monde qui nous entoure et notre place dans celui-ci.