Que fait R&D ABBYY: NLP Advanced Research Group

Que font-ils au sein du département R&D d'ABBYY? Pour répondre à cette question, nous commençons une série de publications sur la façon dont nos développeurs créent de nouvelles technologies et améliorent les solutions existantes. Aujourd'hui, nous allons parler de la ligne de traitement du langage naturel (NLP).

Chez ABBYY, nous sommes engagés dans la recherche dans le domaine du traitement du langage naturel et nous nous attaquons à des problèmes scientifiques complexes pour lesquels il n'existe pas de solutions toutes faites. Nous créons donc des innovations qui constituent la base des produits et aidons nos clients, et nous allons de l'avant. Soit dit en passant, le 24 novembre, lors d'une conférence à la School of Deep Learning de l'Institut de physique et de technologie de Moscou, Ivan Smurov, chef du NLP Advanced Research Group du département R&D ABBYY, vous expliquera quels sont les problèmes d'analyse de texte dans le monde et comment les réseaux de neurones modernes peuvent les résoudre. Et dans ce post, Ivan nous a parlé des trois tâches sur lesquelles il travaille actuellement.

Il est important pour les collègues du NLP Advanced Research Group de sélectionner des tâches isolées, c'est-à-dire peu liées aux technologies et solutions ABBYY existantes. Parfois nos employés eux-mêmes trouvent de telles tâches, parfois notre R&D en parle et demande de l'aide pour leur solution, puis pour la publication des résultats dans des revues scientifiques. Donc, la première tâche.

Sammarisation: pas plus compliqué que de raconter de nouveau?


Cette technique d'analyse de texte vous permet de la transformer en récit ou en annotation. Sous cette forme, les gens utilisent depuis longtemps la sammarisation. Chez ABBYY, nous essayons d'appliquer les techniques de sammarisation dans un sens élargi: nous essayons de résoudre ces problèmes qui, traditionnellement, ne sont pas résolus à l'aide de la sammarisation, par exemple, pour obtenir les caractéristiques intégrales du texte et mettre en évidence les événements qui se produisent dans le texte.

La sammarisation peut simplifier un pipeline traditionnel. Par exemple, maintenant, afin d'extraire les noms des entreprises parties à l'accord du document, de nombreuses tâches séquentielles de PNL sont traditionnellement résolues, de l'identification des entités au filtrage des faits extraits. Toutes ces tâches dépendent les unes des autres et, plus important encore, chacune d'entre elles nécessite son propre balisage de référence. Et la création de balisage dans l'apprentissage automatique est l'une des choses les plus coûteuses.

Avec l'aide de la sammarisation, il est possible d'extraire des faits de bout en bout, c'est-à-dire sans étapes intermédiaires, sous-tâches et balises. Et ce sera aussi simple et rapide que de relire le texte. Et peut-être moins cher.

Analyse syntaxique: recherche de points de suspension


Rappelez-vous qu'à l'école, nous avons analysé les phrases: sujet, prédicat, addition? Dans un sens linguistique, l'analyse d'une phrase est plus complexe et détaillée. Tout peut être décrit comme une dépendance, où l'essentiel est un prédicat ou un verbe, et le sujet, les ajouts, etc. en dépendent.L'analyseur syntaxique traite de cette analyse des phrases dans les programmes modernes. En règle générale, l'analyseur syntaxique passe une partie considérable du temps à créer et à supprimer les zéros syntaxiques qui apparaissent dans les points de suspension .

Voici un exemple: Misha a mangé une poire et Masha a mangé une pomme . Dans le discours oral et écrit, nous sautons simplement le verbe «mangé» et le sens pour nous ne change pas. Mais pour la linguistique informatique, la définition des zéros syntaxiques est un problème complexe. Il existe de nombreux types d'ellipses; ils peuvent se trouver à différents endroits des phrases. En conséquence, l'analyseur est obligé de revérifier de nombreuses hypothèses: y avait-il un zéro, qui n'est pas réellement zéro?

Une telle revérification complique et ralentit le travail de l'analyseur, en outre, cela prend beaucoup de puissance de calcul. Par conséquent, nous inventons de nouvelles façons de rechercher des endroits où des zéros de syntaxe sont susceptibles de se produire. Cela réduira le temps pendant lequel l'analyseur déterminera les points de suspension.

Soit dit en passant, l'intérêt pour les points de suspension en linguistique informatique a considérablement augmenté cette année. L'article de recherche « Sentences with Gapping: Parsing and Reconstructing Elided Predicates » a été publié par les plus grands linguistes en informatique de notre temps Sebastian Schuster , Joachim Nivre et Christopher Mining . Ainsi, l'étude des points de suspension est une bonne tâche, dont la solution peut donner des résultats à la fois pour la communauté scientifique et pour une application pratique.

Désambiguïsation lexicale


Qu'est-ce qu'un «arrêt»? Cela peut être l'objet où le bus est arrivé, ou il peut être un arrêt du processus, ou peut-être un arrêt de la parole. Le mot est un, mais il a de nombreuses significations.

De nombreuses entreprises ont des thésaurus où ces significations sont décrites. Il est pratique de recevoir automatiquement à partir d'une séquence de mots, de formes de mots ou de jetons - une séquence de significations ou de classes sémantiques. Chez ABBYY, nous essayons de créer un modèle isolé qui définit avec précision la signification d'un mot avec une bonne qualité et rapidité. Si vous supprimez rapidement l'ambiguïté lexicale, vous pouvez accélérer décemment le travail - qu'il s'agisse d'analyser ou d'extraire des entités / faits nommés.

Et qu'est-ce que le réseau de neurones et la Deep Learning School ont à voir avec cela?


Toutes ces tâches sont résolues à l'aide de réseaux de neurones. Non pas qu'ils ne peuvent pas être résolus sans filets, mais maintenant c'est la méthode la plus moderne. Les réseaux de neurones récursifs donnent de meilleurs résultats pour les tâches PNL. Ce n'est donc pas seulement un phénomène de mode abstrait, mais ce qui est utilisé dans la pratique pour résoudre une grande variété de tâches de PNL.

Ivan Smurov vous en dira plus sur les tâches d'analyse de texte, la façon dont les réseaux de neurones modernes sont utilisés pour résoudre de tels problèmes en Russie et dans le monde, lors d'une conférence à l'École d'apprentissage profond de l'Institut de physique et de technologie de Moscou. La conférence aura lieu ce samedi 24 novembre à 17h00, au 9 Dmitrovskoye Shosse.

Source: https://habr.com/ru/post/fr430730/


All Articles