🍃 🙆🏾 🎅🏽 Cómo Methodius se convirtió en Anna: la experiencia de desarrollar y lanzar clasificadores de mensajes de voz. Parte 1 📁 🧑🏽 😗

Meta y objetivo

En una serie de artículos, consideramos los clasificadores de las llamadas de voz, por qué son necesarios, cómo llevarlos rápidamente a la productividad. Le contaré acerca de los enfoques que reducirán el tiempo desde la configuración de una tarea hasta el lanzamiento de un modelo y la obtención de un resultado comercial.
Para este artículo, puede ver el informe en el enlace

Cómo Metodio se convirtió en Anna. Serie No. 1

¡Empecemos!

Mi nombre es Julia, soy ingeniera en el departamento de aprendizaje automático de un gran proveedor. Alrededor de 3.000 llamadas de clientes llegan a nuestro centro de llamadas por día. Cada operador recibe un promedio de 100 llamadas por día. ¿Y qué? Parece que esto acepta 100 llamadas. Pero hay muchos temas de llamadas a la empresa, el operador necesita comprender todos los productos, servicios y procesos de la empresa. Si tomamos las solicitudes de clientes más típicas, entonces se pueden agrupar en 40 (!) Temas, y todavía hay aplicaciones atípicas que también deben poder procesarse.
imagen

Debido a la variedad de temas, la capacitación del operador tomó tres meses. Primero debe estudiar todas las instrucciones y solo entonces se le permite recibir llamadas. Se está gastando una gran cantidad de recursos para crear un nuevo operador competente. Entonces surgió la idea de poner al operador en línea gradualmente. Es decir, recibirá llamadas solo sobre aquellos temas que haya dominado, con el tiempo aumentando su habilidad, estudiando otros temas.

Buena idea, ¿por qué no hacer ... un IVR simple? (un sistema de mensajes de voz pregrabados que enruta las llamadas dentro del centro de llamadas usando la información ingresada por el cliente en el teclado del teléfono usando la marcación por tonos. wiki )

imagen

Pero a pocas personas les gusta escuchar una voz grabada durante mucho tiempo, esperar, qué cifra se debe presionar, pero al final todavía no obtienen la información necesaria.

No queríamos atormentar a nuestros clientes con IVR y establecimos la tarea: clasificar la solicitud del suscriptor de acuerdo con la primera oración. Por lo tanto, de acuerdo con la solicitud expresada, se producirá un enrutamiento entre operadores.

Datos

Los operadores de soporte técnico sobre el resultado de cada llamada han estado exponiendo el tema de la llamada durante aproximadamente 10 años. Identificamos los 16 grupos más numerosos, y aparecieron marcas de estos temas. Luego cargamos registros de 120k conversaciones sobre diversos temas, reconocimos la grabación de la conversación de un cliente usando Yandex.SpeechKit y los dividimos en frases por silencio. Entonces obtuvimos piezas de audio con frases separadas.

Permítame recordarle que mi objetivo era clasificar la solicitud inicial del cliente, por lo que solo se seleccionó la primera frase de cada llamada. En total, los datos fueron 120k frases de clientes en formato de texto con marcado de los operadores. Preprocesamiento de texto estándar: eliminar palabras de detención, normalizar texto (trucos: adjuntar una partícula "no" a la siguiente palabra) y los datos están listos. Te contaré más sobre nuestro proceso de preprocesamiento en otro artículo.

Clasificación

Luego, después de recibir el texto procesado, realizamos muchos experimentos, ordenados a través de varias configuraciones de modelos e incrustaciones.

Tabla con comparación de resultados experimentales.

	Bayes ingenuos	SVM	Regresión logística	Bosque al azar	Lightgbm	XGBoost	Red neuronal
TF-IDF unigram	66,9	69,6	69,7	64,3	68,2	68,2	70,3
TF-IDF bigram	68,4	70,4	70,5	64,3	68,4	68,3	70,5
TF-IDF trigram	68,4	70,3	70,5	64,2	68,3	68,1	70,5
Word2vec	67,9	69,3	69,6	68,7	70,2	69,3	70,7
Word2Vec + TF-IDF	66,4	69,8	69,4	68,3	70,2	69,9	70,3
Contexto TF-IDF +	70,6	71,7	72,4	67,3	71,3	70,3	71,2
Word2Vec + contexto	69,2	71,8	71,1	69,2	71,4	70,9	72,1
Word2Vec + TF-IDF + contexto	69,7	70,4	71,0	70,3	71,2	71,3	71,8

El mejor resultado fue dado por el conjunto estándar de TF-IDF y la regresión logística. La tabla muestra la métrica del puntaje f. En algunos experimentos, además del texto, se agregaron 11 signos adicionales sobre el cliente (contexto) en el momento de la llamada. Con la esperanza de que esto de alguna manera eleve la calidad. Contexto: estos son signos booleanos, si el cliente tiene un saldo negativo ahora, si la reparación está asignada a la dirección y otras que caracterizan al cliente en este momento. Pero incluso con el contexto, la calidad es pobre, solo se logró el 72%.

Análisis de errores

Sin un análisis de error, la calidad de la clasificación no mejoró. Tras examinar los casos en que los modelos están equivocados, identificamos los siguientes problemas típicos:

mal marcado
desequilibrio de clase
es difícil para las personas formular un pensamiento
reconocimiento de voz

Marcado

El marcado a menudo era incorrecto debido al hecho de que la conversación podía comenzar con un tema y terminar con otro, y el operador definió el tema de la llamada, que se dijo al final del diálogo. Redistribuyó manualmente tales casos y el problema desapareció.

Saldo de clase

Hay varios enfoques para equilibrar las clases.

Más detalles

Submuestreo Eliminación aleatoria de ejemplos de clases grandes.
Sobremuestreo. Adición aleatoria de ejemplos de clases menores.
Sobremuestreo de minorías sintéticas. Adición aleatoria de ejemplos de las clases más pequeñas, pero cambiándolos ligeramente.

El enfoque a elegir depende de la tarea y la cantidad de datos. Como parte de esta tarea, fue posible equilibrar el conjunto de datos eliminando ejemplos de las clases de mayor frecuencia al valor medio del número de ejemplos, pero las clases menores permanecieron sin cambios.

Es difícil para las personas formular pensamientos

Después de leer las primeras frases, notamos que el 36% de las consultas contenían texto no informativo, por ejemplo: "Hola, hola" o "Hola, tengo una pregunta". Solo después de que el operador preguntó: "¿cuál es su pregunta?", El cliente formuló el problema.

Por lo tanto, fue incorrecto tomar solo la primera frase del cliente de la conversación; alguien simplemente no pudo formular una solicitud de inmediato. Por lo tanto, para cada primera frase, se calculó la "informatividad". Si el modelo no atribuyó la solicitud con alta confianza a ninguna de las clases, es decir, todas las clases recibieron un valor de probabilidad igual, entonces el mensaje no es informativo y debe tomar la segunda frase. Y si la clase ya está determinada con alta probabilidad, entonces la primera frase es suficiente.

Aquí puede aparecer la pregunta correcta, pero qué hacer en el producto, porque habrá las mismas consultas no informativas. Hablaré de esto más adelante en el próximo artículo.

Reconocimiento de voz

Al analizar los errores, notamos imprecisiones en el reconocimiento de texto, debido a que la clase se definió incorrectamente. Por ejemplo, la palabra "equilibrio" a veces se reemplazó por "plátano". Decidimos comparar el reconocimiento de Yandex y Google. Google se mostró mejor en nuestros datos, pero no tanto como para pagar de más por ellos, el precio es casi el doble.

Comparación del reconocimiento de voz entre dos sistemas.

imagen

Resumen de análisis de errores

Después de analizar y corregir los errores, pudimos mejorar la calidad a un puntaje f promedio de 84%; la mejor calidad aún fue el resultado de la regresión logística.

Ganancia de calidad para cada clase

Clase	Era	Se ha convertido
Problemas de internet	59,97	86,5
Problemas con KTV	86,71	89,02
Intercomunicadores	51,5	85,74
Contrato	57.81	69,13
Pago	46,81	74,26
...	...	...
promedio	72,44	84,39

Conclusiones

Resumiendo la primera etapa de desarrollo, podemos sacar la siguiente conclusión.

En primer lugar, debe lidiar con los datos y el marcado. No debe entrenar inmediatamente las redes neuronales, con datos incorrectos no habrá mucho beneficio de esto. Para evitar perder tiempo y energía, es suficiente analizar los errores en los modelos "simples".

Nos vemos en la segunda serie , donde hablaremos sobre cómo ejecutar un modelo entrenado de forma productiva. Escucharemos ejemplos de cómo Methodius el robot recibe llamadas, y entenderemos por qué se convirtió en Anna.

Cómo Methodius se convirtió en Anna: la experiencia de desarrollar y lanzar clasificadores de mensajes de voz. Parte 1