
Vom 29. Mai bis 1. Juni findet an der Russischen Staatlichen Humanitären Universität (RSUH) die 25. internationale wissenschaftliche Konferenz über Computerlinguistik und intellektuelle Technologien „
Dialogue “ statt. Über "Dialog" und warum ABBYY der Hauptorganisator ist, haben wir bereits
über Habré gesprochen . In diesem Beitrag werden wir über die Hauptthemen der Konferenz, die Hauptredner, ihre Berichte und vier Wettbewerbe zur Erstellung automatischer Textanalysesysteme im Rahmen der
Dialogbewertung sprechen .
In diesem Jahr wird der Dialog mehrere Schlüsselthemen haben:
- Verwendung neuronaler Netze zur Sprachanalyse . Es ist allgemein anerkannt, dass Deep Learning die Umwandlung von Rohdaten in ein Ergebnis (das sogenannte End-to-End) ist, bei dem es ziemlich schwierig ist, die „Logik“ ihres Empfangs in aussagekräftigen sprachlichen Konzepten zu interpretieren. Aber warum nicht neuronale Netze verwenden, um Kenntnisse über die Sprache selbst zu erlangen?
- Die Verwendung komplexerer Sprachmodelle beim tiefen Lernen . Ein weiterer wichtiger Trend für den Dialog: Verteilungsmodelle ( Einbettungen ) entwickeln sich eindeutig von "mittelklinischen" Methoden zur Gewinnung - zur Verwendung von Kontext-, syntaktischen und semantischen Informationen.
- Anwendung von Big-Data-Analysemethoden auf Aufgaben, für die nur wenige Daten vorliegen . 2019 wurde zum Internationalen Jahr der indigenen Sprachen erklärt , daher werden die Teilnehmer einer der Dialogsitzungen Methoden zur Verwendung von maschinellem Lernen zur Beschreibung und Erhaltung von „ressourcenarmen“ Sprachen (z. B. Evenki oder Selkup) erörtern.
- Mehrkanal-Korps : Heutzutage besteht die Tendenz, einen Sprechakt in seiner Gesamtheit zu untersuchen, einschließlich des verbalen Teils, der Intonation, der Mimik und der Gesten. Diese Forschung ist besonders wichtig, wenn Roboter, intelligente Assistenten und Chat-Bots trainiert werden.
Berühmte internationale Experten für Computerlinguistik werden traditionell zum Dialog eingeladen. Dieses Jahr wird die Konferenz besucht von:
Chris Beeman von der Universität Hamburg. Einer der führenden Analysten auf dem Gebiet der Computersemantik. Er wird über adaptive Technologien für maschinelles Lernen sprechen, die individuelle Erfahrungen berücksichtigen. 31. Mai (Freitag), 15 - 16 Uhr
Peak Vossen von der Amsterdam Free University, Gründer und Präsident der Global WordNet Association. Sein Hauptinteresse gilt der verbalen Interaktion einer Person und eines Computers. Peak Vossen wird einen Vortrag über „Ein kommunikativer Roboter, der Menschen und die Welt untersucht“ halten. Er wird über ein Modell eines Roboters sprechen, der durch Kommunikation in natürlicher Sprache Informationen über die Welt und ihre Gesprächspartner lernt. Der Roboter lernt alles, was die Leute ihm erzählen, was er in verschiedenen Situationen beobachtet und was er im Internet findet. 30. Mai (Donnerstag), 15 - 16 Uhr
Insgesamt werden im „Dialog“ 102 Berichte des Haupttracks und etwa 20 studentische Berichte präsentiert.
Am 29. Mai, am ersten Tag der Konferenz, werden die folgenden
Redner Präsentationen halten :
Andrey Kibrik , Direktor des Instituts für Linguistik der Russischen Akademie der Wissenschaften. Er wird einen Vortrag über die neuen Korpusmethoden halten, die von seiner Forschungsgruppe zur Fixierung von Sprach- und Gestenelementen der Kommunikation entwickelt wurden. 29. Mai (Mittwoch), 10: 30-11: 50 Uhr.
Igor Boguslavsky , Professor an der Technologischen Universität von Madrid, und seine Kollegen werden darüber sprechen, wie ein Computer trainiert werden kann, um das, was als bekannt ist, richtig zu analysieren „Vinograd-Schemata“ sind neu und komplexer als der traditionelle Turing-Test, mit dem die Fähigkeiten künstlicher Intelligenzsysteme zum Verständnis der Sprache bewertet werden können. 29. Mai, 12: 20-13: 30 Uhr.
Valentina Apresyan , Professorin an der HSE School of Linguistics. Ihr Bericht widmet sich
Implikationen : nicht explizit ausgedrückt, sondern Bedeutung und Annahmen aus dem Text abgeleitet. Die Untersuchung von Implikationen, insbesondere von falschen, ermöglicht es beispielsweise, unfaire Veröffentlichungen in den Medien zu identifizieren. 29. Mai, 12: 20-13: 30 Uhr.
An anderen Tagen wird es viele interessante Dinge geben. Traditionell widmet der Dialog den neuen Ausdrucksmöglichkeiten der Sprache große Aufmerksamkeit. Zum Beispiel werden
Maria Polinskaya von der Harvard University und
Irina Levontina vom OJ Institute emotionale Ausdrücke analysieren, die in ihrer Rede populär geworden sind, wie zum Beispiel „Sie müssen den Infinitiv verwenden“ (das ist übrigens der Name des Berichts. Sie können ihn am 30. Mai, 10: 00-13: 30 Uhr anhören )
Antonina Laposhina vom Puschkin-Institut in ihrem Bericht „Glaubst du, es ist kalt?“ analysiert die lexikalische Zusammensetzung russischsprachiger Lehrbücher für Grundschulen - vom Standpunkt moderner Korpuslinguisten (29. Mai, 15: 00-18: 30 Uhr).
Natürlich wird viel Arbeit dem heißen Thema der Anwendung neuronaler Netze auf die Probleme der Sprachanalyse gewidmet. Beispielsweise widmet sich am 31. Mai ein spezieller Abschnitt des Dialogs so wichtigen Forschungsbereichen wie Sprachmodellen für tiefes Lernen, Transferlernen usw.
- Am 30. Mai um 19:00 Uhr findet ein runder Tisch statt, an dem die Aussichten für die Modellierung eines Sprechakts in der Interaktion einer Person mit einem Computer erörtert werden. Diese Richtung entwickelt sich rasant und es ist für die analytische multimodale Linguistik nicht einfach, mit den modernen Methoden zur Analyse großer Mengen audiovisueller Informationen Schritt zu halten.
- Am 31. Mai um 19:00 Uhr laden wir Sie zum Runden Tisch „ Brave New DL Word: Wo ist der Ort der NLP? ". Die Teilnehmer der Diskussion werden die „provokative“ These diskutieren, dass NLP heute in Technologien des tiefen maschinellen Lernens „aufgelöst“ ist und den Status einer unabhängigen wissenschaftlichen Disziplin verliert. Natürlich werden viele Forscher dieser Aussage nicht zustimmen, und wir werden spannende Auftritte von Gegnern erwarten.
Eines der wichtigsten Ereignisse des Dialogs ist die Zusammenfassung technologischer Wettbewerbe zwischen den Entwicklern der Systeme zur sprachlichen Analyse von Texten. In diesem Jahr fanden Wettbewerbe in vier Aufgaben statt:
- automatische Generierung von Schlagzeilen;
- automatische Analyse ressourcenarmer Sprachen (wenn nur sehr wenige Daten für maschinelles Lernen vorliegen);
- automatische Auflösung von Anaphoren und Bestimmung von Referenzketten (verschiedene Verweise auf dasselbe Objekt im Text),
- automatische Wiederherstellung von Wörtern nach Kontext (einige Arten von Auslassungspunkten).
Um solche Wettbewerbe wie gewohnt durchführen zu können, mussten speziell vorbereitete Daten (Datensätze) erstellt werden, um die getesteten Algorithmen zu trainieren. Dies ist nicht das erste Mal, dass
ABBYY-Technologien an der Erstellung solcher Datensätze für einen Teil des Wettbewerbs
um die Analyse von Texten in natürlicher Sprache beteiligt sind . Dies ermöglichte es uns, die Gehäuse aufgrund der großen Vorverarbeitung durch den Computer viel größer zu machen. Im Detail werden wir bald auf Habré darüber berichten. Die Ergebnisse der Dialogbewertung werden im "Dialog" zusammengefasst:
- 30. Mai, 10: 00-13: 30 Uhr, Sondersitzung basierend auf den Ergebnissen des Testens automatischer Verarbeitungssysteme für die Ellipsenzuordnung.
- 31. Mai, 10: 00-13: 30 Uhr, eine Sondersitzung basierend auf den Ergebnissen des Testens von Anaphora-Analysesystemen und eine Sondersitzung basierend auf den Ergebnissen des Testens von Systemen zur Generierung von Nachrichtenüberschriften
- 1. Juni, 10: 00-13: 30 Uhr, Sondersitzung auf der Grundlage von Testsystemen zur Beschreibung ressourcenarmer Sprachen.
Die Arbeitssprachen der Konferenz sind Russisch und Englisch. Ein detailliertes Konferenzprogramm finden Sie
hier .
Der Konferenzbericht wird im Jahrbuch „
Computerlinguistik und Intelligente Technologien “ veröffentlicht, das Teil des internationalen Zitiersystems
Scopus ist .
Sie können sich
hier registrieren, die Registrierung läuft bis zum 28. Mai.
Teilnahmebedingungen .
Elizaveta Titarenko, Herausgeberin des Unternehmensblogs ABBYY
unter Beteiligung von Vladimir Selegey, Direktor für Sprachwissenschaft bei ABBYY