Les voitures ont déjà une longueur d'avance sur les tests de lecture; mais comprennent-ils ce qu'ils lisent?

Un outil appelé BERT est capable de dépasser les gens dans les tests de lecture et de compréhension. Cependant, cela montre également dans quelle direction l'IA doit encore aller.




À l'automne 2017, Sam Bowman , linguiste en informatique de l'Université de New York, a décidé que les ordinateurs ne comprenaient toujours pas très bien le texte. Bien sûr, ils ont assez bien appris pour simuler cette compréhension dans certains domaines étroits, tels que les traductions automatiques ou l'analyse des sentiments (par exemple, pour déterminer si une phrase est "grossière ou douce", comme il l'a dit). Cependant, Bowman voulait un témoignage mesurable: une véritable compréhension de ce qui était écrit, décrit en langage humain. Et il est venu avec un test.

Dans un article d'avril 2018 rédigé en collaboration avec des collègues de l'Université de Washington et de DeepMind, une entreprise appartenant à Google engagée dans l'intelligence artificielle, Bowman a présenté un ensemble de neuf tâches de compréhension en lecture pour les ordinateurs appelées collectivement GLUE (General Language Understanding Evaluation) [compréhension de l'évaluation langage généralisé]. Le test a été conçu comme «un exemple assez indicatif de ce que la communauté des chercheurs considère comme des tâches intéressantes», a déclaré Bowman, mais d'une manière «facile pour les gens». Par exemple, dans une tâche, la question est posée sur la vérité d'une phrase, qui doit être estimée sur la base des informations d'une phrase précédente. Si vous pouvez dire que le message «Le président Trump a atterri en Irak, à commencer sa visite de sept jours» implique que «le président Trump est en visite à l'étranger», vous passez le test.

Les voitures l'ont manqué. Même les réseaux de neurones avancés n'ont pas obtenu plus de 69 points sur 100 au total pour tous les tests - les trois premiers avec un moins. Bowman et ses collègues n'ont pas été surpris. Les réseaux de neurones - constructions multicouches avec des connexions de calcul qui ressemblent à peu près au travail des neurones dans le cerveau des mammifères - montrent de bons résultats dans le domaine du «traitement du langage naturel», mais les chercheurs n'étaient pas sûrs que ces systèmes apprenaient quelque chose de sérieux la langue. Et GLUE le prouve. «Les premiers résultats montrent que la réussite des tests GLUE va au-delà des capacités des modèles et méthodes existants», Bowman et al.

Mais leur évaluation n'a pas duré longtemps. En octobre 2018, Google a présenté une nouvelle méthode, BERT (Bidirectional Encoder Representations from Transformers) [présentations d'encodeur bidirectionnel pour transformateurs]. Il a reçu un score de 80,5 en COLLE. En seulement six mois, les voitures sont passées de trois avec un moins à quatre avec un moins dans ce nouveau test, qui mesure la véritable compréhension du langage naturel par les machines.

«C'était comme« bon sang »», se souvient Bowman, en utilisant un mot plus coloré. - Ce message a été reçu avec méfiance par la communauté. Le BERT a reçu dans de nombreux tests des notes proches de ce que nous considérions comme le maximum possible. » En effet, avant l'apparition de BERT dans le test GLUE, il n'y avait même pas d'évaluation des réalisations humaines à comparer. Lorsque Bowman et l'un de ses étudiants diplômés les ont ajoutés à GLUE en février 2019, ils n'ont duré que quelques mois, puis le modèle BERT de Microsoft les a également battus .

Au moment d'écrire ces lignes, presque toutes les premières places dans les tests GLUE sont occupées par des systèmes qui incluent, étendent ou optimisent le modèle BERT. Cinq d'entre eux sont supérieurs en capacités humaines.

Mais cela signifie-t-il que l'IA commence à comprendre notre langage, ou apprend-elle simplement à battre nos systèmes? Après que les réseaux de neurones basés sur le BERT aient pris d'assaut les tests de type GLUE, de nouvelles méthodes d'évaluation sont apparues qui considéraient ces systèmes PNL comme des versions informatiques de « Hans intelligent », un cheval qui vivait au début du 20e siècle et qui était censé être suffisamment intelligent pour pour faire des calculs arithmétiques dans l'esprit, mais en fait lire les signes inconscients qui lui sont donnés par son propriétaire.

"Nous savons que nous sommes quelque part dans la zone grise entre la compréhension de la langue dans un sens très ennuyeux et étroit, et la création de l'IA", a déclaré Bowman. - En général, la réaction des spécialistes pourrait être décrite comme suit: Comment cela s'est-il produit? Qu'est-ce que cela signifie? Que ferons-nous maintenant? "

Écrire vos propres règles


Dans la célèbre expérience de pensée « Salle chinoise », une personne qui ne connaît pas la langue chinoise est assise dans une pièce remplie de nombreux livres avec des règles. Dans les livres, vous pouvez trouver les instructions exactes sur la façon d'accepter la séquence de caractères chinois entrant dans la pièce et de donner une réponse appropriée. Une personne à l'extérieur paume des questions écrites en chinois sous la porte de la salle. La personne à l'intérieur se tourne vers les livres avec les règles et formule des réponses parfaitement raisonnables en chinois.

Cette expérience a été utilisée pour prouver qu'en dépit de l'impression extérieure, on ne peut pas dire que la personne dans la pièce ait une quelconque compréhension du chinois. Cependant, même une simulation de la compréhension était un objectif acceptable du PNL.

Le seul problème est le manque de livres parfaits avec des règles, car le langage naturel est trop complexe et peu systématique pour être réduit à un ensemble solide de spécifications. Prenons, par exemple, la syntaxe: règles (y compris empiriques) qui déterminent le regroupement des mots en phrases significatives. La phrase « dormant violemment des idées vertes incolores » a la syntaxe, mais toute personne qui connaît la langue comprend son absence de sens. Quel livre de règles spécialement conçu pourrait inclure ce fait non écrit lié au langage naturel - sans parler d'innombrables autres faits?

Les chercheurs de la PNL ont essayé de trouver cette quadrature du cercle , forçant les réseaux de neurones à écrire leurs propres livres de règles artisanales dans le processus de ce qu'on appelle "Pré-formation" ou pré-formation.

Jusqu'en 2018, l'un des principaux outils de formation était quelque chose comme un dictionnaire. Ce dictionnaire a utilisé une représentation vectorielle des mots [intégration de mots], décrivant les connexions entre les mots sous forme de nombres afin que les réseaux de neurones puissent percevoir ces informations comme des entrées - quelque chose comme un glossaire approximatif pour une personne dans une pièce chinoise. Cependant, le pré-formé sur le réseau de neurones du dictionnaire vectoriel est toujours resté aveugle à la signification des mots au niveau de la phrase. «De son point de vue, les phrases« l'homme a mordu le chien »et« le chien a mordu l'homme »sont identiques», a déclaré Tel Linsen , linguiste en informatique à l'Université Johns Hopkins.


Tel Linsen, linguiste en informatique à l'Université Johns Hopkins.

La méthode améliorée utilise la pré-formation pour fournir au réseau neuronal des livres de règles plus riches - non seulement un dictionnaire, mais aussi une syntaxe avec un contexte - avant de lui apprendre à effectuer une tâche PNL spécifique. Début 2018, des chercheurs d'OpenAI, de l'Université de San Francisco, de l'Institut Allen pour l'intelligence artificielle et de l'Université de Washington ont en même temps trouvé un moyen délicat de se rapprocher de cela. Au lieu d'en former une seule, la première couche du réseau utilisant la représentation vectorielle des mots, les chercheurs ont commencé à former l'ensemble du réseau pour une tâche plus générale appelée modélisation du langage.

«La façon la plus simple de modéliser une langue est la suivante: je vais lire un tas de mots et essayer de prédire ce qui suit», a expliqué Mile Ott , un chercheur de Facebook. "Si je dis, 'George W. Bush est né en', alors les modèles doivent prédire le mot suivant dans cette phrase."

De tels modèles de langage avec une formation approfondie peuvent être créés assez efficacement. Les chercheurs alimentent simplement d'énormes quantités de texte écrit à partir de ressources gratuites comme Wikipedia vers leurs réseaux de neurones - des milliards de mots disposés en phrases grammaticalement correctes - et permettent au réseau de prédire le mot suivant par lui-même. En fait, cela équivaut au fait que nous inviterons une personne dans une salle chinoise à créer son propre ensemble de règles, en utilisant les messages chinois entrants comme référence.

"La beauté de cette approche est que le modèle acquiert une tonne de connaissances syntaxiques", a déclaré Ott.

De plus, ces réseaux neuronaux pré-entraînés peuvent appliquer leurs représentations du langage pour enseigner une tâche plus étroite, non liée à la prédiction de mots, au processus de réglage fin.

"Vous pouvez prendre le modèle de la phase de pré-formation et l'adapter à n'importe quelle tâche réelle dont vous avez besoin", a expliqué Ott. «Et après cela, vous obtenez de bien meilleurs résultats que si vous essayiez de résoudre votre problème directement depuis le tout début.»

En juin 2018, quand OpenAI a présenté son réseau neuronal GPT , avec un modèle de langage inclus, qui a passé un mois à s'entraîner pour un milliard de mots (tiré de 11038 livres numériques), son résultat dans le test GLUE, 72,8 points, est immédiatement devenu le plus le meilleur. Néanmoins, Sam Bowman a suggéré que cette zone se développera pendant très longtemps avant qu'un système ne puisse au moins se rapprocher du niveau de l'homme.

Et puis BERT est apparu.

Recette prometteuse


Alors qu'est-ce que le BERT?

Premièrement, il ne s'agit pas d'un réseau neuronal entièrement formé, capable de fournir immédiatement des résultats au niveau humain. Bowman dit que c'est "une recette très précise pour former le réseau neuronal." Comme un boulanger peut, en suivant la recette, garantir de donner de délicieux gâteaux à gâteaux - qui peuvent ensuite être utilisés pour différents gâteaux, de la myrtille à la quiche aux épinards - et les chercheurs de Google ont créé une recette BERT qui peut servir de base idéale pour la "cuisson" des réseaux de neurones (c'est-à-dire , leur affinement), afin de bien gérer les différentes tâches de traitement du langage naturel. Google a ouvert le code BERT, ce qui signifie que d'autres chercheurs n'ont plus besoin de répéter cette recette à partir de zéro - ils peuvent simplement le télécharger; c'est un peu comme acheter un gâteau précuit pour un gâteau dans le magasin.

Si BERT est une recette, alors quelle est sa liste d'ingrédients? "C'est le résultat de trois choses différentes connectées ensemble pour que le système commence à fonctionner", a déclaré Omer Levy , un chercheur de Facebook qui a analysé le dispositif BERT.


Omer Levy, chercheur Facebook

Le premier est le modèle de langue pré-formé, c'est-à-dire ces mêmes répertoires de la salle chinoise. La seconde est l'occasion de décider quelles caractéristiques de la proposition sont les plus importantes.

En 2017, Jacob Uzkoreit , ingénieur chez Google Brain, a travaillé sur les moyens d'accélérer les tentatives de l'entreprise pour comprendre la langue. Il a noté que tous les réseaux neuronaux avancés souffrent de leurs limites inhérentes: ils étudient la phrase par des mots. Une telle «séquence» semble coïncider avec l'idée de la façon dont les gens lisent le texte. Cependant, Uzkoreit est devenu intéressé, "pourrait-il ne pas être que la compréhension de la langue dans un mode linéaire et séquentiel ne soit pas la plus optimale."

Le taux étroit avec des collègues a développé une nouvelle architecture de réseaux de neurones, se concentrant sur «l'attention», un mécanisme qui permet à chaque couche d'un réseau de neurones d'attribuer des poids importants à certaines caractéristiques des données d'entrée par rapport à d'autres. Cette nouvelle architecture avec attention, un transformateur, peut prendre une phrase comme «un chien mord l'homme» en entrée et encoder chaque mot en parallèle de différentes manières. Par exemple, un transformateur peut lier «morsures» et «personne» en tant que verbe et sujet-objet, ignorant l'article «a»; en même temps, elle peut associer «morsure» et «chien» en tant que verbe et sujet-sujet, ignorant l'article «le».

La nature incohérente du transformateur présente des phrases de manière plus expressive ou, comme le dit Uzkoreit, semblable à un arbre. Chaque couche du réseau neuronal établit de nombreuses connexions parallèles entre certains mots, ignorant le reste - à peu près comment un élève du primaire désassemble une phrase en plusieurs parties. Ces connexions sont souvent établies entre des mots qui peuvent ne pas être proches. "De telles structures ressemblent à une superposition de plusieurs arbres", a expliqué Uzkoreit.

De telles représentations arborescentes de phrases donnent aux transformateurs l'occasion de modéliser des significations contextuelles, ainsi que d'étudier efficacement les liens entre des mots très éloignés dans des phrases complexes. "C'est quelque peu contre-intuitif", a déclaré Uzkoreit, "mais vient de la linguistique, qui a longtemps été impliquée dans les modèles de langage arborescent."


Jacob Uzkoreit, chef de l'équipe berlinoise Google AI Brain

Enfin, le troisième ingrédient de la recette BERT étend encore plus la lecture non linéaire.

Contrairement aux autres modèles de langage pré-formés créés par le traitement de téraoctets de texte de gauche à droite par les réseaux de neurones, le modèle BERT lit de droite à gauche et simultanément de gauche à droite, et apprend à prédire quels mots ont été exclus au hasard des phrases. Par exemple, le BERT peut accepter une phrase de la forme «George W. Bush [...] dans le Connecticut en 1946» et prédire quel mot est caché au milieu de la phrase (dans ce cas, «né»), après avoir traité le texte dans les deux sens. "Cette bi-directionalité oblige le réseau de neurones à extraire autant d'informations que possible de n'importe quel sous-ensemble de mots", a déclaré Uzkoreit.

La simulation basée sur BERT utilisée comme un jeu de mots - modélisation du langage avec masquage - n'est pas une chose nouvelle. Il est utilisé depuis des décennies pour mesurer la compréhension de la langue par les gens. Pour Google, il a fourni un moyen pratique d'utiliser la bi-directionalité dans les réseaux de neurones au lieu des méthodes de pré-formation à sens unique qui avaient dominé ce domaine auparavant. "Avant BERT, la modélisation unidirectionnelle du langage était la norme, bien qu'il s'agisse d'une limitation facultative", a déclaré Kenton Lee , chercheur chez Google.

Chacun de ces trois ingrédients - un modèle de langage profond avec pré-formation, attention et bidirectionnalité - existait avant BERT séparément. Mais jusqu'à ce que Google publie sa recette fin 2018, personne ne les a combinés avec autant de succès.

Affiner la recette


Comme toute bonne recette, le BRET a rapidement été adapté par différents chefs à leurs goûts. Au printemps 2019, il y a eu une période «où Microsoft et Alibaba se sont succédé, changeant de place chaque semaine dans le classement, ajustant leur modèle», se souvient Bowman. Lorsque la version améliorée de BERT a été publiée pour la première fois en août sous le nom de RoBERTa, le chercheur Sebastian Ruder de DeepMind a sèchement remarqué dans son populaire bulletin NLP : "Nouveau mois, et un nouveau modèle de langage avancé avec pré-formation."

Comme le gâteau, BERT a plusieurs décisions de conception qui affectent la qualité de son travail. Cela inclut la taille du réseau neuronal cuit, la quantité de données utilisées pour la pré-formation, la méthode de masquage des mots et la durée pendant laquelle le réseau neuronal a travaillé avec ces données. Et dans les recettes suivantes, comme RoBERTa, les chercheurs modifient ces décisions - comme un chef spécifiant une recette.

Dans le cas de RoBERTa, des chercheurs de Facebook et de l'Université de Washington ont augmenté le nombre de certains ingrédients (données de pré-formation, longueur des séquences entrantes, temps de formation), un ingrédient a été supprimé (la tâche de «prédire la phrase suivante», qui était à l'origine dans le BERT et a affecté négativement les résultats ), et l'autre a été modifié (compliqué la tâche de masquer des mots individuels). En conséquence, ils ont brièvement pris la première place du classement GLUE. Six semaines plus tard, des chercheurs de Microsoft et de l'Université du Maryland ont ajouté leurs améliorations à RoBERTa et ont remporté la prochaine victoire. À l'heure actuelle, un autre modèle a pris la première place dans GLUE, ALBERT (une abréviation de «lite BERT», c'est-à-dire «lite BERT»), qui a légèrement modifié la structure de base de BERT.

«Nous essayons toujours de déterminer quelles recettes fonctionnent, lesquelles ne fonctionnent pas», a déclaré Ott de Facebook, qui a travaillé sur RoBERTa.

Mais, comme l'amélioration de la technique de pré-cuisson des gâteaux ne vous apprend pas les bases de la chimie, l'amélioration progressive du BERT ne vous apportera pas particulièrement de connaissances théoriques sur le développement de la PNL. «Je serai extrêmement honnête avec vous - je ne suis pas ces travaux, car pour moi, ils sont extrêmement ennuyeux», a déclaré Linsen, linguiste en informatique à l'Université Johns Hopkins. «Il y a un certain mystère scientifique», admet-il, mais pas comment rendre le BERT et tous ses descendants plus intelligents, et même pas pour comprendre pourquoi ils sont si intelligents. Au lieu de cela, «nous essayons de comprendre dans quelle mesure ces modèles comprennent vraiment le langage», a-t-il dit, «plutôt que d'apprendre des trucs étranges qui fonctionnent d'une manière ou d'une autre sur les ensembles de données sur lesquels nous évaluons habituellement ces modèles».

En d'autres termes, le BERT fait quelque chose de bien. Mais que faire s'il le fait pour la mauvaise raison?

Délicat mais pas intelligent


En juillet 2019, deux chercheurs de l'Université d'État de Taïwan, Cheng Kun, ont utilisé le BERT avec des résultats impressionnants sur un test de performance relativement peu connu appelé «tâche de compréhension des arguments». Pour terminer la tâche, il est nécessaire de choisir une condition initiale implicite («fondation») qui supporte l'argument en faveur de toute déclaration. Par exemple, pour prouver que «le tabagisme cause le cancer» (déclaration) puisque «les études scientifiques ont montré un lien entre le tabagisme et le cancer» (argumentation), vous devez choisir l'argument «la recherche scientifique peut faire confiance» («fondation»), et pas une autre option: «La recherche scientifique coûte cher» (même si cela n'est cependant pas pertinent dans ce contexte). Tout est-il clair?

Sinon, ne vous inquiétez pas. Même les gens ne sont pas très bons dans cette tâche sans pratique.La valeur de référence moyenne pour une personne qui ne fait pas d'exercice est de 80 sur 100. Le BERT a atteint 77, ce qui, selon les auteurs, était «inattendu».

, , BERT , , : BERT . , , .. « ». , , «», 61% . , , BERT 77 53 – . The Gradient , BERT « », , .

, " ", , BERT GLUE . , , BERT . (Heuristic Analysis for Natural-Language-Inference Systems, HANS) [ , ].

, BERT , – ? , GLUE . , , BERT. « - , GLUE, „ “, , — , — ». , BERT . « , -, , - , — . – ».

, , – BERT, , , « ». « », NLP , . « BERT », , « ».

NLP , . , BERT . « NLP, », — , . , , , , , .

, , , . . , . « , , , », — .

SuperGLUEspécialement conçu pour être complexe pour les systèmes basés sur BERT. Jusqu'à présent, aucun réseau n'a pu doubler une personne. Mais même si (ou quand) cela se produit, cela signifie-t-il que les machines peuvent apprendre à mieux comprendre le langage qu'auparavant? Ou est-ce juste que la science deviendra meilleure pour enseigner aux machines comment réussir ce test?

"Bonne analogie", a déclaré Bowman. «Nous avons compris comment réussir les tests LSAT et MCAT, mais nous n'avons peut-être pas les qualifications nécessaires pour devenir médecins ou avocats.» Et pourtant, à en juger par tout, c'est exactement ainsi que la recherche dans le domaine de l'IA évolue. "Les échecs semblaient être un sérieux test d'intelligence jusqu'à ce que nous trouvions comment écrire un programme pour le jeu", a-t-il déclaré. «Nous sommes définitivement entrés dans une ère où l'objectif était d'inventer des tâches de plus en plus complexes qui représentent une compréhension de la langue et de trouver des moyens de les résoudre.»

Source: https://habr.com/ru/post/fr479446/


All Articles