WaveNet: discurso humano sintetizado por computadora



DeepMind es una división independiente de Google dedicada al desarrollo de inteligencia artificial. Esta compañía desarrolló AlphaGo , un sistema que derrotó a Go Lee Sedol, el campeón mundial.

Pero DeepMind no se trata solo de juegos. Ahora los empleados de la compañía están desarrollando un sistema de síntesis de voz basado en computadora. Como en todos los otros proyectos de DeepMind, aquí se involucra una forma débil de inteligencia artificial. Ella, según los expertos, puede mejorar dramáticamente la situación con un discurso sintetizado.

Usar computadoras para sintetizar el habla no es una idea nueva en absoluto. La solución más simple es utilizar fragmentos del discurso de una persona real traducidos a un número. Estamos hablando de sonidos individuales que componen frases, palabras y oraciones más complejas. Pero este método no puede llamarse ideal. Aquí, cualquier persona nota inmediatamente problemas con la pronunciación y la entonación.

En otros casos, se utilizan varios modelos matemáticos para sintetizar sonidos a partir de los cuales se pueden ensamblar palabras y oraciones. Los problemas son casi los mismos que en el caso anterior. E inmediatamente queda claro lo que dice la máquina, no la persona.



Ambos métodos son similares en que los más grandes y complejos se ensamblan a partir de pequeños fragmentos. Como resultado de tal compilación, la computadora pronuncia palabras y frases complejas.

El tercer método, WaveNet, propuesto por DeepMind, combina los méritos de los dos anteriores. El método utiliza el entrenamiento de redes neuronales utilizando fragmentos de voces humanas reales. El sistema también recibe información sobre las reglas de lingüística y fonética correspondientes a cada caso individual. En el proceso, el sistema muestra una línea de texto y le permite "escuchar" el conjunto de sonidos apropiado. Después de eso, el sistema intenta sintetizar el habla humana utilizando una serie de fragmentos. Esto se hace paso a paso, con capacitación sobre el ejemplo de cada fragmento específico. El desarrollo se lleva a cabo de tal manera que cada "material pasado" anterior le dio a la red neuronal una idea de una nueva tarea.

El análogo de lo que WaveNet puede hacer y un sistema de síntesis de voz convencional es crear una taza. Un sistema convencional de síntesis de voz basado en computadora utiliza ladrillos Lego para crear una taza. Como resultado, la copa se ve bien, pero no es exactamente una copa, sino su imitación. Pero WaveNet usa arcilla para crear una taza. El trabajo se realiza manualmente, sin un torno de alfarero, pero la copa se ve como una copa. Así con el discurso. WaveNet sintetiza el habla humana, que es ligeramente diferente de lo que estamos acostumbrados, pero no de manera muy significativa.

El resultado es impresionante. Puedes escuchar lo que pasó aquí . Ya suena muy humano. Por supuesto, hay diferencias, pero ya no son tan significativas como en otros casos.



El único problema es que este método requiere mucho tiempo y recursos informáticos. Un sistema que puede generar habla humana inteligible debe ser muy poderoso. El hecho es que WaveNet, para sintetizar el habla humana, procesa 16,000 muestras de audio por segundo. E incluso en este caso, el resultado es de calidad media. Sin embargo, en las pruebas para la definición de "hombre o máquina" el resultado fue aproximadamente del 50%. Es decir, la mitad de los voluntarios que escucharon la muestra de audio creada por la máquina pensaron que esto fue dicho por una persona.

Los investigadores de DeepMind ya han descargado más de 44 horas de discurso en el sistema. Las palabras, sonidos y frases cargados en el sistema pertenecen a 109 participantes del experimento que hablan inglés. Al final resultó que, WaveNet puede simular el discurso de casi cada uno de los participantes en el experimento. El sistema reproduce incluso los defectos de aspiración y habla del "hablante" original.

A pesar de que el sistema ya habla bastante bien, todavía está lejos de la perfección real. Otro problema es que la forma débil de IA aún no puede entender el lenguaje. IBM ha alcanzado el máximo éxito en esta área con su sistema cognitivo IBM Watson. Pero aquí, hasta ahora, estamos hablando de reconocer comandos verbales y escritos no demasiado complicados, así como respuestas a preguntas simples. Los sistemas cognitivos aún no pueden mantener una conversación. Sin embargo, las tecnologías se están desarrollando y los expertos dicen que en 5-10 años la situación puede cambiar dramáticamente.

Varios científicos sostienen que ahora la forma débil de IA todavía carece de los componentes específicos de la mente. Y no depende del tamaño de la red en sí. "El lenguaje se basa en otras posibilidades, probablemente más profundo y presente en los bebés, incluso antes de que comiencen a dominar el lenguaje: la percepción visual del mundo, el trabajo con nuestro aparato motor, la comprensión de la física del mundo y las intenciones de otras criaturas", dice Tenenbaum.



DeepMind y un equipo de investigadores de la Universidad de Oxford están trabajando actualmente en otro proyecto. Esta es la creación de un "botón rojo" condicional para una forma fuerte de IA, que, presumiblemente, puede salirse del control de una persona después de que una persona crea una mente artificial.

Source: https://habr.com/ru/post/es397327/


All Articles