Hal 9000 leyó los labios perfectamente, aunque en inglésLas redes neuronales pueden hacer mucho ahora, y gradualmente se les está enseñando más y más habilidades. El otro día se supo que un equipo conjunto de investigadores de EE. UU. Y China pudo entrenar la red neuronal para reconocer el habla de los labios con un alto grado de precisión.
Esto se logró gracias a un elemento adicional:
el algoritmo de reconocimiento de voz para grabaciones de audio . Además, el algoritmo se utilizó como un sistema de entrenamiento para el segundo algoritmo, que reconoció el habla mediante grabaciones de video.
Según los científicos, este método permite dominar técnicas adicionales de lectura de labios que una red neuronal entrenada por métodos tradicionales no puede "aprender". Una secuencia simple de imágenes hace posible dominar solo las técnicas básicas de lectura de labios.
Además, los desarrolladores utilizaron un método de entrenamiento de redes neuronales, que se llama "destilación de conocimiento". Le permite guardar el tamaño pequeño de un modelo que realiza una tarea compleja. En una situación normal, una red neuronal que puede leer los labios tendrá un tamaño considerable, lo que dificultaría su uso en teléfonos inteligentes u otros dispositivos móviles.
Pero un modelo llamado destilación del conocimiento hace posible eliminar estas limitaciones. En el curso de trabajar con este modelo, el desarrollador necesita usar una red neuronal básica que ya esté capacitada y, sobre la base de esto, crea un modelo mucho más pequeño que está “capacitado” sobre la base del primero. Ambas redes reciben casi la misma fuente de datos. Pero la red más pequeña está tratando de repetir los resultados de la red más grande, tanto en la capa de salida como en todas las intermedias. La idea fue presentada por primera vez por Caruana en 2006.
Los científicos dirigidos por Mingli Song de la Universidad de Zhejiang han usado la "destilación" para enseñar a la red neuronal a leer los labios. Como se mencionó anteriormente, el maestro aquí es el algoritmo de reconocimiento de voz para grabaciones de audio. Proporciona una amplia oportunidad para estudiar una serie de movimientos sutiles de los labios y patrones del habla.

El circuito resultante es simétrico, con dos redes neuronales recurrentes ubicadas paralelas entre sí. Una red neuronal convolucional procesa cuadros de video y proporciona datos para otra. El investigador solo puede imaginar la destilación del conocimiento en forma de varios bloques, cada uno de los cuales fue responsable de una tarea específica. Uno de ellos es por cuadro, el segundo es para una secuencia de datos, el tercero es para la secuencia general más grande.
Por supuesto, para el funcionamiento normal, una red neuronal de este tipo requiere un entrenamiento cuidadoso en decenas de miles de elementos. Los científicos han utilizado el conjunto de datos LRS2, que contiene alrededor de 50,000 oraciones individuales pronunciadas por los locutores de la BBC, así como el conjunto de datos CMLR, el conjunto más completo para enseñar a las redes neuronales a leer los labios en mandarín. La base de datos de este último contiene alrededor de 100 mil ofertas de CNTV.

La precisión de reconocimiento del sistema resultante es
aproximadamente un 8% más alta que la de otras redes neuronales que se entrenaron en CMLR, y un 3% mejor que la de las redes neuronales que se entrenaron en LRS2.