
Du 29 mai au 1er juin, la 25e conférence scientifique internationale sur la linguistique informatique et les technologies intellectuelles «
Dialogue » se tiendra à l'Université humanitaire d'État russe (RSUH). À propos de ce qu'est "Dialogue" et pourquoi ABBYY est son principal organisateur, nous avons déjà
parlé de Habré . Dans cet article, nous parlerons des principaux sujets de la conférence, des intervenants clés, de leurs rapports et de quatre concours pour créer des systèmes automatiques d'analyse de texte dans le cadre de l'
évaluation du
dialogue .
Cette année, Dialogue aura plusieurs thèmes clés:
- L'utilisation de réseaux de neurones pour l'analyse du langage . Il est généralement admis que le deep learning est la transformation de données brutes en un résultat (ce qu'on appelle de bout en bout), dans lequel il est assez difficile d'interpréter la «logique» de sa réception dans des concepts linguistiques significatifs. Mais pourquoi ne pas utiliser les réseaux de neurones pour acquérir une connaissance du langage lui-même?
- L'utilisation de modèles de langage plus complexes dans l'apprentissage en profondeur . Autre tendance importante pour Dialogue: les modèles de distribution ( plongements ) évoluent clairement des modes d'obtention «moyen- hôpital » - à l'utilisation d'informations contextuelles, syntaxiques et sémantiques.
- Application des méthodes d'analyse du Big Data aux tâches pour lesquelles il y a peu de données . 2019 est déclarée Année internationale des langues autochtones , de sorte que les participants à l'une des sessions de dialogue discuteront des méthodes d'utilisation de l'apprentissage automatique pour décrire et préserver les langues «à faibles ressources» (par exemple, Evenki ou Selkup).
- Corps multicanal : aujourd'hui, on a tendance à étudier un acte de parole dans son intégralité, y compris la partie verbale, l'intonation, les expressions faciales, les gestes. De telles recherches sont particulièrement importantes lors de la formation de robots, d'assistants intelligents et de robots de discussion.
De célèbres experts internationaux en linguistique informatique sont traditionnellement invités au Dialogue. Cette année, la conférence rassemble:
Chris Beeman de l'Université de Hambourg. L'un des principaux analystes dans le domaine de la sémantique informatique. Il parlera des technologies d'apprentissage automatique adaptatif qui prennent en compte l'expérience individuelle. 31 mai (vendredi), de 15 h à 16 h
Peak Vossen de l'Université libre d'Amsterdam, fondateur et président de la Global WordNet Association. Son principal domaine d'intérêt est l'interaction verbale d'une personne et d'un ordinateur. Peak Vossen fera une présentation sur «Un robot communicatif qui étudie les gens et le monde». Il parlera d'un modèle de robot qui apprend des informations sur le monde et ses interlocuteurs grâce à la communication en langage naturel. Le robot apprend tout ce que les gens lui racontent, ce qu'il observe dans différentes situations et tout ce qu'il trouve sur Internet. 30 mai (jeudi), de 15 h à 16 h
Au total, «Dialogue» présentera 102 rapports de la piste principale et environ 20 étudiants.
Le 29 mai, le premier jour de la conférence, les conférenciers suivants
feront des présentations :
Andrey Kibrik , directeur de l'Institut de linguistique de l'Académie russe des sciences. Il fera une présentation sur les nouvelles méthodes de corpus créées par son groupe de recherche pour fixer les éléments de communication de la parole et du geste. 29 mai (mercredi), de 10 h 30 à 11 h 50.
Igor Boguslavsky , professeur à l'Université technologique de Madrid, et ses collègues expliqueront comment un ordinateur peut être formé pour analyser correctement ce que l'on appelle Les «schémas de Vinograd» sont nouveaux et plus complexes que le test de Turing traditionnel, un moyen d'évaluer les capacités des systèmes d'intelligence artificielle à comprendre le langage. 29 mai, 12 h 20-13 h 30.
Valentina Apresyan , professeur à la HSE School of Linguistics. Son rapport est consacré aux
implications : non explicitement exprimées, mais à la signification et aux hypothèses dérivées du texte. L'étude des implications, notamment fausses, permet par exemple d'identifier les publications déloyales dans les médias. 29 mai, 12 h 20-13 h 30.
Il y aura beaucoup de choses intéressantes les autres jours. Par tradition, le Dialogue accorde une grande attention aux nouvelles capacités expressives de la langue. Par exemple,
Maria Polinskaya de l'Université de Harvard et
Irina Levontina de l'OJ Institute analyseront les expressions émotionnelles qui sont devenues populaires dans leur discours, telles que «Ils doivent utiliser l'infinitif» (en passant, c'est le nom du rapport. Vous pouvez l'écouter le 30 mai, de 10 h 00 à 13 h 30). )
Antonina Laposhina de l'Institut Pouchkine dans son rapport "Pensez-vous qu'il fait froid?" analyse la composition lexicale des manuels de langue russe pour les écoles élémentaires - du point de vue des linguistes de corpus modernes (29 mai, 15 h 00-18 h 30).
Bien sûr, beaucoup de travail est consacré au sujet brûlant de l'application des réseaux de neurones aux problèmes de l'analyse du langage. Par exemple, le 31 mai, une section spéciale du Dialogue est consacrée à des domaines de recherche aussi importants que les modèles linguistiques en apprentissage profond, l'apprentissage par transfert, etc.
- Le 30 mai, à 19h00, une table ronde se tiendra sur les perspectives de modélisation d'un acte de parole dans l'interaction d'une personne avec un ordinateur. Cette direction évolue rapidement et il n’est pas facile pour la linguistique multimodale analytique de suivre ce que les méthodes modernes d’analyse d’énormes réseaux d’informations audiovisuelles permettent de faire.
- Le 31 mai à 19h00, nous vous invitons à la table ronde « Brave New DL Word: où est la place de la PNL? ". Les participants à la discussion discuteront de la thèse «provocatrice» selon laquelle la PNL est aujourd'hui «dissoute» dans les technologies d'apprentissage machine en profondeur et perd le statut de discipline scientifique indépendante. Bien sûr, de nombreux chercheurs ne seront pas d'accord avec cette déclaration, et nous nous attendons à des apparitions passionnantes de la part d'adversaires.
L'un des événements clés du Dialogue est la synthèse des compétitions technologiques entre les développeurs des systèmes d'analyse linguistique des textes
Dialogue Evaluation . Cette année, les concours se sont déroulés en quatre tâches:
- génération automatique de titres d'actualités;
- analyse automatique des langages à faibles ressources (lorsqu'il y a très peu de données pour l'apprentissage automatique);
- résolution automatique de l'anaphore et détermination des chaînes de référence (diverses références au même objet dans le texte),
- récupération automatique des mots par contexte (certaines variétés d'ellipses).
Pour mener de telles compétitions, comme d'habitude, il était nécessaire de créer des données spécialement préparées (ensembles de données) afin de former les algorithmes testés. Ce n'est pas la première fois que les
technologies ABBYY sont impliquées dans la création de tels ensembles de données pour une partie du concours
d'analyse de textes en langage naturel . Cela nous a permis d'agrandir les boîtiers en raison de la grande quantité de prétraitement effectuée par l'ordinateur. Plus en détail nous en parlerons bientôt sur Habré. Les résultats de l'évaluation du dialogue seront résumés dans le "dialogue":
- 30 mai, 10: 00-13: 30, session spéciale basée sur les résultats des tests des systèmes de traitement automatique pour la cartographie des points de suspension.
- 31 mai, 10: 00-13: 30, une session spéciale basée sur les résultats des tests des systèmes d'analyse d'anaphore et une session spéciale basée sur les résultats des tests des systèmes de génération de titres d'actualité
- 1er juin, 10: 00-13: 30, session spéciale sur la base de tests de systèmes pour décrire les langages à faibles ressources.
Les langues de travail de la conférence sont le russe et l'anglais. Un programme détaillé de la conférence est disponible
ici .
Les actes de la conférence seront publiés dans l'annuaire "
Computer Linguistics and Intelligent Technologies ", qui fait partie du système de citation international
Scopus .
Vous pouvez vous inscrire
ici , l'inscription se poursuit jusqu'au 28 mai.
Conditions de participation .
Elizaveta Titarenko, rédactrice du blog d'entreprise ABBYY
avec la participation de Vladimir Selegey, directeur des études linguistiques chez ABBYY