Cómo generar sonido binaural en una pista de audio monocanal: el video ayudará

Los especialistas de la Universidad de Texas en Austin (UT Austin) han desarrollado una red neuronal que procesa grabaciones de audio monocanal en video y recrea su sonido "envolvente".

Te contamos cómo funciona.


Foto de marneejill / CC BY-SA

Nuevo método de creación de sonido 3D


El sonido envolvente a menudo se encuentra en juegos o películas, pero el sonido 3D es raro en videos condicionales en la red. La grabación requiere un equipo costoso que no siempre está disponible para los creadores del video; a menudo solo se usan teléfonos inteligentes para disparar.

Una pista de audio grabada de esta manera limita nuestra percepción del video: no puede transmitir cómo se ubican las fuentes de sonido en el espacio y cómo se mueven. Debido a esto, el sonido del video puede sentirse "plano".

UT Austin fue abordado por una profesora universitaria, Kristen Grauman, y un estudiante, Ruohan Gao. Crearon un sistema basado en algoritmos de aprendizaje automático que hace posible convertir la grabación de audio monocanal en grabación de video "envolvente". La tecnología se llama "2.5D Visual Sound".

Este no es un sonido espacial completo, sino "modelado". Sin embargo, según los desarrolladores, para el oyente promedio, la diferencia será casi imperceptible.

¿Cómo funciona la tecnología?


El sistema desarrollado en UT Austin usa dos redes neuronales.

La primera red neuronal se creó sobre la base de la arquitectura ResNet , que fue presentada por investigadores de Microsoft en 2015. Reconoce objetos en el video y recopila información sobre su movimiento en el cuadro. En la salida, la red genera una matriz llamada mapa de características, con las coordenadas de los objetos en cada cuadro del video.

Esta información se transmite a la segunda red neuronal: Mono2Binaural. Fue desarrollado en la Universidad de Texas. La red también recibe espectrogramas de grabaciones de audio obtenidas usando la transformación de Fourier de ventana usando la función Hann .

Mono2Binaural consta de diez capas convolucionales . Después de cada una de estas capas en la red, hay un bloque de normalización por lotes, que aumenta la precisión del pronóstico del algoritmo, y un bloque de rectificación lineal con la función de activación ReLU.

Las capas convolucionales de la red neuronal analizan los cambios de frecuencia en el espectrograma y componen una matriz que contiene información sobre qué parte del espectrograma debe pertenecer al canal de audio izquierdo y cuál a la derecha. Luego, usando la ventana inversa Transformada de Fourier, se genera una nueva grabación de audio.

Al mismo tiempo, Mono2Binaural puede reproducir sonido espacial para cada uno de los objetos en el video por separado. Por ejemplo, una red neuronal puede reconocer dos instrumentos en un video, un tambor y una tubería, y crear una pista de sonido separada para cada uno de ellos.

Opiniones sobre "Sonido Visual 2.5D"


Según los propios desarrolladores, lograron crear una tecnología que recrea una "sensación espacial realista". Mono2Binaural mostró un buen resultado durante las pruebas y, por lo tanto, los autores están seguros de que su proyecto tiene un gran potencial.

Para demostrar la efectividad de su tecnología, los expertos realizaron una serie de experimentos. Invitaron a un grupo de personas que compararon el sonido de dos pistas: una fue creada usando Mono2Binaural y la segunda usando el método Ambisonics.

Este último fue desarrollado en la Universidad de California en San Diego. Este método también crea audio "envolvente" desde monosound, pero, a diferencia de la nueva tecnología, solo funciona con videos de 360 ​​grados.

La mayoría de los oyentes eligieron el audio Mono2Binaural como el más cercano al sonido real. Las pruebas también mostraron que en el 60% de los casos, los usuarios identificaron con precisión la ubicación de la fuente de sonido de oído.

El algoritmo todavía tiene algunas desventajas. Por ejemplo, una red neuronal no distingue entre los sonidos de una gran cantidad de objetos. Además, obviamente, no podrá determinar la posición de la fuente de sonido, que no está en el video. Sin embargo, los desarrolladores planean resolver estos problemas.

Analógicos tecnológicos


En el campo del reconocimiento de sonido de video, hay varios proyectos similares. Escribimos sobre uno de ellos antes. Este es un " micrófono visual " de expertos del MIT. Su algoritmo reconoce las vibraciones microscópicas de los objetos bajo la influencia de las ondas acústicas en un video silencioso y restaura el sonido que se escuchó en la sala en función de estos datos. Los científicos pudieron "leer" la melodía de la canción Mary Had a Little Lamb de un paquete de papas fritas, plantas caseras e incluso ladrillos.


Foto Quinn Dombrowski / CC BY-SA

Otros proyectos están desarrollando tecnologías para grabar sonido en videos de 360 ​​grados. Uno de ellos es Ambisonics, que mencionamos anteriormente. El principio del algoritmo es similar a Mono2Binaural: analiza el movimiento de los objetos en el marco y los correlaciona con los cambios en el sonido. Sin embargo, la tecnología Ambisonics tiene varias limitaciones: la red neuronal solo funciona con videos de 360 ​​grados y no emite bien el sonido si hay un eco en la grabación.

Otro proyecto en esta área es Sol VR360 de G-Audio. A diferencia de otros desarrollos, la tecnología ya se ha implementado en el servicio de usuario para el procesamiento de sonido de Sol. Crea audio espacial para videos de 360 ​​grados de conciertos o deportes. La desventaja del servicio es que los clips generados se reproducen solo en aplicaciones Sol.

Conclusiones


Los desarrolladores de sistemas para crear sonido espacial ven el campo principal de aplicación de la tecnología en aplicaciones VR y AR para la máxima inmersión de una persona en la atmósfera de un juego o película. Si es posible superar una serie de dificultades que enfrentan, la tecnología también se puede utilizar para ayudar a las personas con discapacidad visual. Con la ayuda de dichos sistemas, podrán comprender con más detalle lo que sucede en el marco de los videos.



Más sobre tecnología de audio en nuestro canal de Telegram:

A. InSight grabó por primera vez los sonidos del viento marciano
Ocho tecnologías de audio que ingresarán al Salón de la Fama de TECnology en 2019
Las ventanas activas con cancelación de ruido ahogan los sonidos de la metrópoli


Source: https://habr.com/ru/post/es436696/


All Articles