
Del 29 de mayo al 1 de junio, la 25ª conferencia científica internacional sobre lingüística informática y tecnologías intelectuales "
Diálogo " se llevará a cabo en la Universidad Estatal Humanitaria de Rusia (RSUH). Sobre qué es "Diálogo" y por qué ABBYY es su principal organizador, ya hablamos
sobre Habré . En esta publicación, hablaremos sobre los temas principales de la conferencia, los oradores principales, sus informes y cuatro concursos para crear sistemas automáticos de análisis de texto en el marco de la
evaluación del
diálogo .
Este año, Diálogo tendrá varios temas clave:
- El uso de redes neuronales para el análisis del lenguaje . En general, se acepta que el aprendizaje profundo es la transformación de datos en bruto en un resultado (el llamado extremo a extremo), en el que es bastante difícil interpretar la "lógica" de su recepción en conceptos lingüísticos significativos. Pero, ¿por qué no usar redes neuronales para obtener conocimiento del lenguaje en sí?
- El uso de modelos de lenguaje más complejos en el aprendizaje profundo . Otra tendencia importante para el Diálogo: los modelos de distribución ( incrustaciones ) evolucionan claramente de los métodos de obtención " hospitalarios medianos" al uso de información contextual, sintáctica y semántica.
- Aplicación de métodos de análisis de big data a tareas para las que hay pocos datos . 2019 se declara el Año Internacional de las Lenguas Indígenas , por lo que los participantes en una de las sesiones de Diálogo discutirán los métodos de uso del aprendizaje automático para describir y preservar las lenguas de "bajos recursos" (por ejemplo, Evenki o Selkup).
- Cuerpo multicanal : hoy existe una tendencia a estudiar un acto de habla en su totalidad, incluida la parte verbal, entonación, expresiones faciales, gestos. Dicha investigación es especialmente importante al entrenar robots, asistentes inteligentes y bots de chat.
Famosos expertos internacionales en lingüística informática son tradicionalmente invitados al Diálogo. Este año a la conferencia asisten:
Chris Beeman de la Universidad de Hamburgo. Uno de los principales analistas en el campo de la semántica informática. Hablará sobre tecnologías adaptativas de aprendizaje automático que tienen en cuenta la experiencia individual. 31 de mayo (viernes), 3 p.m. a 4 p.m.
Peak Vossen de Amsterdam Free University, fundador y presidente de la Global WordNet Association. Su principal área de interés es la interacción verbal de una persona y una computadora. Peak Vossen hará una presentación sobre "Un robot comunicativo que estudia a las personas y al mundo". Hablará sobre un modelo de robot que aprende información sobre el mundo y sus interlocutores a través de la comunicación en lenguaje natural. El robot aprende todo lo que la gente le cuenta, lo que observa en diferentes situaciones y todo lo que encuentra en Internet. 30 de mayo (jueves), 3 p.m. a 4 p.m.
En total, "Diálogo" presentará 102 informes de la pista principal y unos 20 estudiantes.
29 de mayo, el primer día de la conferencia, los siguientes
oradores harán presentaciones :
Andrey Kibrik , Director del Instituto de Lingüística de la Academia de Ciencias de Rusia. Hará una presentación sobre los nuevos métodos de corpus creados por su grupo de investigación para fijar los elementos de comunicación del habla y los gestos. 29 de mayo (miércoles), 10: 30-11: 50.
Igor Boguslavsky , profesor de la Universidad Tecnológica de Madrid, y sus colegas hablarán sobre cómo se puede entrenar una computadora para analizar correctamente lo que se conoce como Los “esquemas de Vinograd” son una prueba nueva y más compleja que la prueba tradicional de Turing, una forma de evaluar las capacidades de los sistemas de inteligencia artificial para comprender el lenguaje. 29 de mayo, 12: 20-13: 30.
Valentina Apresyan , profesora de la Escuela de Lingüística HSE. Su informe está dedicado a las
implicaciones : no expresadas explícitamente, sino el significado y los supuestos derivados del texto. El estudio de las implicaciones, especialmente las falsas, permite, por ejemplo, identificar publicaciones injustas en los medios. 29 de mayo, 12: 20-13: 30.
Habrá muchas cosas interesantes en otros días. Por tradición, el Diálogo presta gran atención a las nuevas capacidades expresivas del lenguaje. Por ejemplo,
Maria Polinskaya, de la Universidad de Harvard, e
Irina Levontina, del Instituto OJ, analizarán en su discurso expresiones emocionales que se han vuelto populares, como "Llegaron a usar el infinitivo" (por cierto, este es el nombre del informe. Puede escucharlo el 30 de mayo, 10: 00-13: 30 )
Antonina Laposhina del Instituto Pushkin en su informe "¿Crees que hace frío?" analiza la composición léxica de los libros de texto en ruso para las escuelas primarias, desde el punto de vista de los lingüistas del corpus moderno (29 de mayo, 15: 00-18: 30).
Por supuesto, se dedica mucho trabajo al tema candente de la aplicación de redes neuronales a los problemas del análisis del lenguaje. Por ejemplo, el 31 de mayo, una sección especial del Diálogo está dedicada a áreas tan importantes de investigación como modelos de lenguaje en aprendizaje profundo, aprendizaje de transferencia, etc.
- El 30 de mayo, a las 19:00, se llevará a cabo una mesa redonda sobre las perspectivas de modelar un acto de habla en la interacción de una persona con una computadora. Esta dirección se está desarrollando rápidamente, y no es fácil para la lingüística analítica multimodal mantenerse al día con lo que los métodos modernos de análisis de grandes conjuntos de información audiovisual permiten hacer.
- El 31 de mayo, a las 19:00, te invitamos a la mesa redonda " Brave New DL Word: ¿dónde está el lugar de la PNL? ". Los participantes en la discusión discutirán la tesis "provocativa" de que la PNL hoy está "disuelta" en tecnologías de aprendizaje automático profundo y está perdiendo el estatus de una disciplina científica independiente. Por supuesto, muchos investigadores no estarán de acuerdo con esta afirmación, y esperaremos apariciones emocionantes de los oponentes.
Uno de los eventos clave del Diálogo es el resumen de las competencias tecnológicas entre los desarrolladores de los sistemas de análisis lingüístico de los textos
Evaluación del diálogo . Este año se realizaron competiciones en cuatro tareas:
- generación automática de titulares de noticias;
- análisis automático de lenguajes de bajos recursos (cuando hay muy pocos datos para el aprendizaje automático);
- resolución automática de anáfora y determinación de cadenas de referencia (varias referencias al mismo objeto en el texto),
- recuperación automática de palabras por contexto (algunas variedades de puntos suspensivos).
Para llevar a cabo tales competiciones, como de costumbre, era necesario crear datos especialmente preparados (conjuntos de datos) para entrenar los algoritmos probados. Esta no es la primera vez que las
tecnologías ABBYY participan en la creación de dichos conjuntos de datos para parte de la competencia
por el análisis de textos en lenguaje natural . Esto nos permitió agrandar los casos debido a la gran cantidad de procesamiento primario realizado por la computadora. Más detalladamente lo contaremos pronto en Habré. Los resultados de la evaluación del diálogo se resumirán en el "Diálogo":
- 30 de mayo, 10: 00-13: 30, sesión especial basada en los resultados de probar sistemas de procesamiento automático para el mapeo de puntos suspensivos.
- 31 de mayo, 10: 00-13: 30, una sesión especial basada en los resultados de las pruebas de los sistemas de análisis de anáforas y una sesión especial basada en los resultados de las pruebas de los sistemas de generación de titulares de noticias
- 1 de junio, 10: 00-13: 30, sesión especial sobre la base de sistemas de prueba para describir lenguajes de bajos recursos.
Los idiomas de trabajo de la conferencia son ruso e inglés. Un programa detallado de la conferencia está disponible
aquí .
Las actas de la conferencia se publicarán en el anuario "
Lingüística informática y tecnologías inteligentes ", que forma parte del sistema internacional de citas
Scopus .
Puede registrarse
aquí , el registro se extenderá hasta el 28 de mayo.
Términos de participación .
Elizaveta Titarenko, editora del blog corporativo ABBYY
Con la participación de Vladimir Selegey, Director de Estudios Lingüísticos de ABBYY