Qué hace R&D ABBYY: Grupo de Investigación Avanzada de PNL

¿Qué hacen en el departamento de I + D de ABBYY? Para responder a esta pregunta, comenzamos una serie de publicaciones sobre cómo nuestros desarrolladores crean nuevas tecnologías y mejoran las soluciones existentes. Hoy hablaremos sobre la línea de procesamiento del lenguaje natural (PNL).

En ABBYY, nos dedicamos a la investigación en el campo del procesamiento del lenguaje natural y abordamos problemas científicos complejos para los que no hay soluciones preparadas. Por lo tanto, creamos innovaciones que forman la base de los productos y ayudan a nuestros clientes, y avanzamos. Por cierto, el 24 de noviembre, en una conferencia en la Escuela de Aprendizaje Profundo del Instituto de Física y Tecnología de Moscú, Ivan Smurov, jefe del Grupo de Investigación Avanzada de PNL en el departamento de I + D ABBYY, le dirá cuáles son los problemas del análisis de texto en el mundo y cómo las redes neuronales modernas pueden resolverlos. Y en esta publicación, Ivan nos contó sobre las tres tareas en las que está trabajando actualmente.

Es importante que los colegas del Grupo de Investigación Avanzada de PNL seleccionen tareas aisladas, es decir, que no estén muy estrictamente relacionadas con las tecnologías y soluciones ABBYY existentes. A veces, nuestros propios empleados encuentran tales tareas, a veces nuestro departamento de I + D habla de ellos y pide ayuda con su solución, y luego con la publicación de los resultados en revistas científicas. Entonces, la primera tarea.

Sammarización: ¿no es más complicado que volver a contar?


Esta técnica de análisis de texto le permite convertirlo en un recuento o anotación. De esta forma, las personas han estado utilizando la sammarización durante mucho tiempo. En ABBYY estamos tratando de aplicar las técnicas de sammarización en un sentido expandido: estamos tratando de resolver aquellos problemas que tradicionalmente no pueden resolverse con la ayuda de la sammarización, por ejemplo, para obtener las características integrales del texto y resaltar los eventos que ocurren en el texto.

Sammarization puede simplificar una tubería tradicional. Por ejemplo, ahora, para extraer los nombres de las compañías-partes del contrato del documento, muchas tareas secuenciales de PNL se resuelven tradicionalmente, desde identificar entidades hasta filtrar los hechos extraídos. Todas estas tareas dependen unas de otras, y lo más importante, cada una de ellas requiere su propio marcado de referencia. Y crear marcas en el aprendizaje automático es una de las cosas más caras.

Con la ayuda de la sammarización, es posible extraer hechos de principio a fin, es decir, sin pasos intermedios, subtareas y marcas. Y será tan simple y rápido como volver a contar el texto. Y tal vez más barato.

Análisis sintáctico: en busca de puntos suspensivos


Recuerde, en la escuela analizamos oraciones: sujeto, predicado, suma? En un sentido lingüístico, analizar una oración es más complejo y detallado. Todo se puede representar como dependencia, donde lo principal es un predicado o verbo, y el sujeto, las adiciones, etc. dependen de él. El analizador sintáctico se ocupa de este análisis de oraciones en programas modernos. Por lo general, el analizador sintáctico pasa una parte considerable del tiempo creando y descartando los ceros sintácticos que aparecen durante los puntos suspensivos .

Aquí hay un ejemplo: Misha comió una pera y Masha comió una manzana . Tanto en el discurso oral como escrito, simplemente omitimos el verbo "comió" y el significado para nosotros no cambia. Pero para la lingüística informática, definir ceros sintácticos es un problema complejo. Hay muchos tipos de puntos suspensivos; pueden estar en diferentes lugares de oraciones. Como resultado, el analizador se ve obligado a verificar muchas hipótesis: ¿hubo un cero, que en realidad no es cero?

Tal revisión complica y ralentiza el trabajo del analizador, además, requiere mucha potencia informática. Por lo tanto, estamos inventando nuevas formas de buscar lugares donde es probable que aparezcan ceros de sintaxis. Esto reducirá el tiempo durante el cual el analizador determinará los puntos suspensivos.

Por cierto, el interés en puntos suspensivos en lingüística informática ha crecido significativamente este año. El artículo de investigación " Oraciones con brechas: análisis y reconstrucción de predicados elidados " fue publicado por los lingüistas informáticos más grandes de nuestro tiempo, Sebastian Schuster , Joachim Nivre y Christopher Mining . Por lo tanto, el estudio de los puntos suspensivos es una buena tarea, cuya solución puede dar resultados tanto para la comunidad científica como para la aplicación práctica.

Desambiguación Léxica


¿Qué es una "parada"? Este puede ser el objeto donde llegó el autobús, o puede ser un alto en el proceso, o tal vez un alto en el habla. La palabra es una, pero tiene muchos significados.

Muchas compañías tienen tesauros donde se describen estos significados. Es conveniente recibir automáticamente de una secuencia de palabras, formas de palabras o tokens, una secuencia de significados o clases semánticas. En ABBYY intentamos crear un modelo aislado que defina con precisión el significado de una palabra con buena calidad y rapidez. Si elimina rápidamente la ambigüedad léxica, puede acelerar decentemente el trabajo, ya sea analizando o extrayendo entidades / hechos con nombre.

¿Y qué tienen que ver la red neuronal y la Escuela de Aprendizaje Profundo?


Todas estas tareas se resuelven utilizando redes neuronales. No es que no se puedan resolver sin redes, pero ahora es el método más moderno. Las redes neuronales recursivas dan mejores resultados para las tareas de PNL. Por lo tanto, este no es solo un fenómeno abstracto de la moda, sino lo que se usa en la práctica para resolver una amplia variedad de tareas de PNL.

Ivan Smurov le contará más sobre qué tareas para el análisis de texto, cómo se utilizan las redes neuronales modernas para resolver tales problemas en Rusia y en el mundo, en una conferencia en la Escuela de Aprendizaje Profundo del Instituto de Física y Tecnología de Moscú. La conferencia se llevará a cabo este sábado 24 de noviembre a las 17:00 a las 9 Dmitrovskoye Shosse.

Source: https://habr.com/ru/post/es430730/


All Articles