Tendencias y pronósticos en el procesamiento del lenguaje natural

Tendencias y pronósticos en el campo de la PNL (procesamiento del lenguaje natural)


Este artículo trata sobre tendencias y pronósticos de nuestro Almanaque de septiembre "Inteligencia Artificial" No. 2, que se dedica a una revisión del mercado de tecnologías y empresas en el campo de la PNL y la síntesis de reconocimiento de voz en Rusia.

Para este estudio, realizamos una encuesta de expertos de la industria y, en particular, preguntamos sobre los pronósticos del desarrollo de ambas tecnologías y el uso de la IA en diversos campos. No hubo tantas respuestas, pero sin embargo, se puede formular una tendencia general. En este artículo, resumimos estas respuestas y mostramos las principales tendencias.

Tendencias tecnológicas generales


Solución de problemas de PNL de extremo a extremo


Cada vez más soluciones se basarán en el enfoque de extremo a extremo, por ejemplo, el modelo de red neuronal recibe una señal acústica (ondas de sonido) en la entrada y produce una señal acústica en la salida, sin una fase intermedia del texto. Esto acelerará significativamente la ejecución de modelos y su calidad, al tiempo que empeorará la "transparencia" y nuestra comprensión de "lo que hay dentro".

Acercamiento a la calidad del reconocimiento de voz y la generación humana.


En los próximos años, se logrará una mejora significativa en la calidad del reconocimiento de voz. El número de errores en el reconocimiento se acercará al nivel humano. Mejorará el reconocimiento del habla mixta de varias personas que hablan con diferentes acentos en un ambiente ruidoso. Se agregará un análisis de las escenas sonoras con reconocimiento del género y la edad de los hablantes, el color emocional de su discurso y la naturaleza del entorno.

El discurso sintetizado será indistinguible del discurso humano, y será posible sintetizar la voz de cualquier persona.

Multilingüismo


En un futuro próximo, aparecerán modelos de traducción multilingüe, incluso debido al uso del aprendizaje de transferencia y al uso de monocorpos significativamente más grandes además de casos paralelos. Como resultado, la calidad de la traducción para idiomas de bajos recursos aumentará significativamente (con conjuntos relativamente pequeños de muestras de capacitación).

La traducción manual será completamente reemplazada por la traducción automática debido a una comprensión automática más profunda del contexto y el tema de los documentos. Con el crecimiento de las tecnologías de reconocimiento de voz y síntesis de voz, la interpretación simultánea de la máquina aparecerá en el horizonte de 5-10 años.

Comprender el significado de los textos


Otras aplicaciones basadas en la comprensión del significado específico del contexto aparecerán en el mismo horizonte en 5-10 años: varios tipos de diálogo y servicios de ayuda que pueden comprender el contexto del diálogo, responder de manera inteligente a las preguntas de los usuarios y dirigir el diálogo en la dirección correcta. Una comprensión más profunda del lenguaje por parte de la máquina llevará a un nuevo nivel el procesamiento automático de las secuencias de texto en Internet y en las redes sociales: la recopilación y compilación de hechos, su análisis de consistencia y confiabilidad.

Generación de texto


Las redes neuronales de extremo a extremo reemplazarán universalmente la tubería clásica de NLG. El uso de modelos de nivel GPT2 ya permite crear artículos bastante largos sobre temas arbitrarios en un área determinada con contenido controlado. En un horizonte de 5 años, los modelos de redes neuronales podrán generar textos no peores que los humanos. Y luego el contenido automático inundará el mundo.

Plataformas y multiplataforma


Muchas soluciones se convertirán en estándar, habrá muchas plataformas para crear aplicaciones basadas en interfaces de voz. Las plataformas en la nube mejorarán en términos de tiempo de respuesta, cargas de trabajo y seguridad. El crecimiento de la inversión se pronostica no en servicios interactivos separados (chatbots), sino en plataformas multifuncionales y soluciones multiplataforma, gracias a las cuales el asistente de voz podrá trabajar por igual en diferentes dispositivos. Como resultado, podremos comenzar una conversación con nuestro asistente en la "casa inteligente", continuarla en el camino en el automóvil y luego en el trabajo con nuestra computadora en el lugar de trabajo, todo sin perder el contexto de comunicación.

Tecnologías de datos pequeños


El valor de los métodos de aprendizaje automático que funcionan de manera efectiva en condiciones de una pequeña cantidad de datos sin procesar crecerá: transferencia de aprendizaje, transferencia de conocimiento. En tales aplicaciones, también se espera el uso más amplio de GAN (redes de confrontación generativas) para generar datos para la capacitación modelo.

Arquitecturas con menos requisitos informáticos


Con la transición de los modelos de redes neuronales de las paredes de los laboratorios a los centros de datos comerciales, los requisitos para su eficiencia energética aumentarán. Se esperan nuevas arquitecturas informáticas más eficientes. Por ejemplo, redes dispersas que combinan las mejores cualidades de cálculos distribuidos y simbólicos, cuyos modelos de complejidad se adaptan a la cantidad de datos de entrenamiento.

Tendencias del mercado


Implementación ubicua de interfaces de voz


El desarrollo de tecnologías de voz a texto será el primer paso para simplificar las tareas de la oficina (por ejemplo, planificar el tiempo del gerente, buscar documentos, procesar información confidencial). Con un aumento en la precisión del reconocimiento, la profundidad de la comprensión y la calidad de la síntesis de voz, las interfaces de voz se integrarán en casi todos los dispositivos: sistemas de diálogo en un hogar inteligente, automóvil, electrodomésticos, bots avatar, bots asistentes.

Crecimiento explosivo de robots de voz.


Estamos esperando el crecimiento explosivo en el número de asistentes inteligentes en varios sectores comerciales, incluidos los servicios comerciales de bancos, minoristas, telecomunicaciones y otras empresas que interactúan activamente con los clientes. Toda la comunicación verbal con una audiencia masiva en los servicios más populares será realizada por robots. Los robots aprenderán a reconocer las emociones con sensibilidad, incluido el uso de la evaluación multimodal de las emociones y ellos mismos utilizarán el componente emocional en la conversación.

Búsqueda de información de lenguaje natural


Existe una creciente demanda de búsqueda inteligente con la capacidad de realizar consultas en un lenguaje natural. Cada vez más organizaciones desean encontrar rápidamente datos no estructurados en todas las fuentes internas, determinar automáticamente su contenido y resaltar hechos importantes en textos legales o financieros especializados. Debido al desarrollo de modelos profundos para extraer hechos de textos y abstraer sus contenidos, la calidad de la recuperación de información mejorará significativamente.

En el hogar


Aparentemente, las grandes empresas (bancos, telecomunicaciones, industria) desarrollarán y aumentarán su propia experiencia en el campo de la IA, incluida la conversación con su propio equipo de lingüistas, científicos de datos, ingenieros de PNL, etc. Los ejemplos de subcontratación de tareas individuales en el futuro cercano seguirán siendo pequeños. Estamos viendo un rápido crecimiento en los equipos de inteligencia artificial de muchas grandes empresas. Bueno o malo es un tema para un artículo separado, pero esta es una tendencia clara.

Tendencias de la industria


Finanzas y seguros


A corto plazo, los bancos se centrarán en maximizar los beneficios de los datos ya acumulados por los bancos que utilizan IA en general y PNL en particular. A largo plazo, existe una tendencia constante hacia la unificación y simplificación de los procesos bancarios que pueden llevarse a cabo sin o sin una persona (abrir una cuenta, evaluación de riesgos, crear un expediente de crédito, puntuación, etc.). La PNL se combinará con otras tecnologías (visión artificial, RPA, identificación remota, etc.).

Industria y Logistica


Gracias a las tecnologías de PNL, uno puede esperar una nueva generación de diseñadores de documentación de proyectos, así como la aparición de sistemas que evalúan la consistencia de los documentos que describen objetos técnicos complejos. Además, es posible predecir la aparición de sistemas de planificación de control automatizados basados ​​en un análisis de la documentación y estándares del proyecto utilizando PNL.

Con el advenimiento de los sistemas para comprender el significado de los textos, en el horizonte de 5-10 años, se espera una solución final al problema de la normalización de las nomenclaturas.

Medicina


La introducción generalizada de interfaces de voz liberará significativamente al médico de las entradas de texto y creará registros médicos marcados automáticamente. La aparición de grandes corpus de textos marcados hará posible la aparición de SPPVR (sistemas de soporte de decisión médica) de una nueva clase basada en tecnologías de PNL.

TI y telecomunicaciones


Se espera que el uso generalizado de las tecnologías de biometría de voz (autenticación y autorización de una persona por voz) proporcione servicios basados ​​en datos personalizados. Los operadores de telecomunicaciones tendrán la oportunidad de tomar una posición única en el ecosistema de servicios digitales, teniendo un canal de comunicación de voz con el cliente. Por otro lado, los mensajeros de voz se basan en las mismas tecnologías básicas para el reconocimiento y síntesis de voz. Estamos esperando un momento interesante de batallas de los gigantes de la industria de las telecomunicaciones con mensajeros instantáneos a través del canal de voz con el cliente.

Práctica legal


En el horizonte de 3-5 años, podemos esperar la adopción generalizada de tecnologías para la verificación automática de contratos y, en términos más generales, la automatización del trabajo contractual, incluida la verificación del cumplimiento de las obligaciones, etc.

En los próximos 5 a 10 años, podemos esperar la aparición de modelos de comprensión de textos legales. Con base en ellos, esperamos la aparición de sistemas que emitan la pregunta de un usuario en un lenguaje natural, una respuesta que es un resumen conciso de la documentación reglamentaria existente, incluidas inconsistencias y varias versiones.

Una computadora para un abogado dejará de ser una referencia y se convertirá en una herramienta completa de apoyo a la toma de decisiones. Una de las tareas principales de la computadora de un abogado será predecir el resultado de la demanda con la construcción de un árbol de decisión probabilístico basado en la práctica existente. La mayor parte de este trabajo probablemente tendrá lugar en la nube en modelos entrenados de enorme tamaño.

La aparición masiva de servicios, productos y empresas puntuales que resuelven un problema específico en el plano legal.

Podemos esperar una integración más profunda de las soluciones RPA con las tecnologías de PNL, lo que conducirá a la transferencia de tareas rutinarias para procesar información e ingresar datos a los robots de software.
Y, por último, la perspectiva de contratos inteligentes en la cadena de bloques, generada automáticamente sobre la base del análisis de documentos legalmente vinculantes, como contratos o NDA, parece absolutamente fascinante. Tal combinación de tecnologías puede dar vida a documentos legales autoejecutables, lo que en sí mismo hasta ahora suena a ciencia ficción, pero no lejos de su implementación.

Medios y publicidad


Estamos a la espera de la introducción generalizada de marketing personalizado basado en el análisis en línea de la huella digital de una persona. Incluirá un análisis profundo de los textos humanos y su tonalidad: una evaluación negativa y positiva del texto no es en general, sino en relación con un producto o marca específicos.

Cada persona tendrá un asistente de compras personal que tomará hasta el 90% de las compras de rutina.

Habrá servicios para la generación automática de noticias para una empresa en particular, en función de su historia, eventos internos y externos.

Ciencia y educacion


En los próximos 5 a 10 años, podemos esperar la aparición de modelos para comprender textos científicos. Esperamos la aparición de sistemas que proporcionen una respuesta a la pregunta de un usuario planteada en un lenguaje natural, que es un breve resumen de la literatura científica existente sobre este tema, incluidas las contradicciones encontradas y varias versiones. Otra aplicación de tales modelos son los sistemas de recomendación para la investigación o el análisis del paisaje de patentes.

Dichos sistemas cambiarán radicalmente el panorama tecnológico y acelerarán la transferencia de tecnologías, mediante el análisis e identificación de expertos y comunidades de expertos en un área determinada basada en un análisis de las fuentes de información científica y de patentes.

También en el horizonte de 5-10 años, esperamos el surgimiento de Asistentes de Maestros de pleno derecho para cada disciplina y, en general, para las instituciones educativas. Por otro lado, aparecerán los asistentes personales del estudiante que guiarán a la persona por el camino personal de la educación a lo largo de la vida. La interacción de estos agentes inteligentes también es probable que sea en lenguaje natural.

Estado y seguridad


Los estados mueven cada vez más sus actividades al espacio de los medios y las redes sociales. El concepto de "guerras de información", que surgió en los últimos años, ha adquirido formas completamente concretas y requiere nuevos tipos de "armas" y "protección". Ya se está observando una tendencia poderosa y la demanda de detección de noticias falsas solo crecerá. Desafortunadamente, uno también puede predecir con confianza el crecimiento de la demanda de generación automatizada de varios tipos de noticias falsas. El uso de IA se desarrollará tanto para crear bots en redes sociales como para identificarlos.

No menos importante es la inteligencia. La IA se utilizará cada vez más para analizar grandes cantidades de información sobre empresas, personas y transacciones en diversas formas para resolver problemas aplicados, como encontrar afiliaciones y relaciones implícitas entre empresas e individuos.

Con el aumento en el número de personas, la tarea de automatizar la comunicación con un ciudadano para proporcionarle ciertos servicios se vuelve cada vez más urgente para el estado. La IA, probablemente en forma de agentes inteligentes, se utilizará activamente para personificar y personalizar los servicios estatales y municipales para cada ciudadano, las llamadas "ciudades cognitivas" y "estado como servicio".

La "Inteligencia Artificial" completa de Almanaque sobre PNL y reconocimiento / síntesis de voz se puede descargar aquí.

Source: https://habr.com/ru/post/469463/


All Articles