Como gerar som binaural em uma faixa de áudio monocanal - o vídeo ajudará

Especialistas da Universidade do Texas em Austin (UT Austin) desenvolveram uma rede neural que processa gravações de áudio monocanal em vídeo e recria seu som "surround".

Nós dizemos como isso funciona.


Foto de marneejill / CC BY-SA

Novo método de criação de som 3D


O som surround geralmente é encontrado em jogos ou filmes, mas o som 3D é raro em vídeos condicionais na web. Para gravar, é necessário um equipamento caro, que nem sempre está disponível para os criadores do vídeo - geralmente apenas smartphones são usados ​​para fotografar.

Uma faixa de áudio gravada dessa maneira limita nossa percepção do vídeo: não é capaz de transmitir como as fontes de som estão localizadas no espaço e como elas se movem. Por esse motivo, o som do vídeo pode parecer "plano".

A UT Austin foi abordada por um professor universitário, Kristen Grauman, e um estudante, Ruohan Gao. Eles criaram um sistema baseado em algoritmos de aprendizado de máquina que possibilita transformar a gravação de áudio monocanal em gravação de vídeo “surround”. A tecnologia é chamada "2.5D Visual Sound".

Este não é um som espacial completo, mas "modelado". No entanto, de acordo com os desenvolvedores, para o ouvinte médio, a diferença será quase imperceptível.

Como a tecnologia funciona


O sistema desenvolvido na UT Austin usa duas redes neurais.

A primeira rede neural foi criada com base na arquitetura ResNet , que foi introduzida por pesquisadores da Microsoft em 2015. Ele reconhece objetos no vídeo e coleta informações sobre seus movimentos no quadro. Na saída, a rede gera uma matriz chamada mapa de recursos, com as coordenadas dos objetos em cada quadro do vídeo.

Esta informação é transmitida para a segunda rede neural - Mono2Binaural. Foi desenvolvido na Universidade do Texas. A rede também recebe espectrogramas de gravações de áudio obtidas usando a janela Fourier transform usando a função Hann .

Mono2Binaural consiste em dez camadas convolucionais . Após cada uma dessas camadas na rede, existe um bloco de normalização em lote, que aumenta a precisão da previsão do algoritmo, e um bloco de retificação linear com a função de ativação ReLU.

As camadas convolucionais da rede neural analisam as mudanças de frequência no espectrograma e compõem uma matriz contendo informações sobre qual parte do espectrograma deve pertencer ao canal de áudio esquerdo e qual à direita. Em seguida, usando a transformação inversa de Fourier da janela, uma nova gravação de áudio é gerada.

Ao mesmo tempo, o Mono2Binaural pode reproduzir som espacial para cada um dos objetos no vídeo separadamente. Por exemplo, uma rede neural pode reconhecer dois instrumentos em um vídeo - uma bateria e um tubo - e criar uma trilha sonora separada para cada um deles.

Opiniões sobre “2.5D Visual Sound”


Segundo os próprios desenvolvedores, eles conseguiram criar uma tecnologia que recria uma "sensação espacial realista". O Mono2Binaural mostrou um bom resultado durante o teste e, portanto, os autores têm certeza de que seu projeto tem um grande potencial.

Para provar a eficácia de sua tecnologia, os especialistas realizaram uma série de experimentos. Eles convidaram um grupo de pessoas que comparou o som de duas faixas: uma foi criada usando o Mono2Binaural e a segunda usando o método Ambisonics.

Este último foi desenvolvido na Universidade da Califórnia em San Diego. Esse método também cria áudio "surround" a partir de mono-som, mas, diferentemente da nova tecnologia, ele funciona apenas com vídeos de 360 ​​graus.

A maioria dos ouvintes escolheu o áudio Mono2Binaural como o mais próximo do som real. Os testes também mostraram que em 60% dos casos, os usuários identificaram com precisão a localização da fonte sonora pelo ouvido.

O algoritmo ainda tem algumas desvantagens. Por exemplo, uma rede neural não distingue entre os sons de um grande número de objetos. Além disso, obviamente, ela não será capaz de determinar a posição da fonte de som, que não está no vídeo. No entanto, os desenvolvedores planejam resolver esses problemas.

Análogos de tecnologia


No campo do reconhecimento de som de vídeo, existem vários projetos semelhantes. Escrevemos sobre um deles anteriormente. Este é um " microfone visual " de especialistas do MIT. Seu algoritmo reconhece vibrações microscópicas de objetos sob a influência de ondas acústicas em um vídeo silencioso e restaura o som que foi ouvido na sala com base nesses dados. Os cientistas conseguiram "ler" a melodia da música Mary Had a Little Lamb de um pacote de batatas fritas, plantas domésticas e até tijolos.


Foto Quinn Dombrowski / CC BY-SA

Outros projetos estão desenvolvendo tecnologias para gravar som em vídeos de 360 ​​graus. Um deles é o Ambisonics, que mencionamos anteriormente. O princípio do algoritmo é semelhante ao Mono2Binaural: analisa o movimento dos objetos no quadro e os correlaciona com as mudanças no som. No entanto, a tecnologia Ambisonics tem várias limitações: a rede neural funciona apenas com vídeos de 360 ​​graus e não emite um som bom se houver eco na gravação.

Outro projeto nessa área é o Sol VR360 da G-Audio. Diferentemente de outros desenvolvimentos, a tecnologia já foi implementada no serviço ao usuário para processamento de som Sol. Ele cria áudio espacial para vídeos em 360 graus de shows ou esportes. A desvantagem do serviço é que os clipes gerados são reproduzidos apenas nos aplicativos Sol.

Conclusões


Os desenvolvedores de sistemas para a criação de som espacial veem o principal campo de aplicação da tecnologia em aplicativos de RV e AR para a imersão máxima de uma pessoa na atmosfera de um jogo ou filme. Se for possível superar uma série de dificuldades que eles enfrentam, a tecnologia também pode ser usada para ajudar pessoas com deficiência visual. Com a ajuda de tais sistemas, eles poderão entender com mais detalhes o que está acontecendo no quadro dos vídeos.



Mais sobre a tecnologia de áudio em nosso canal Telegram:

A. O InSight registrou pela primeira vez os sons do vento marciano
Oito tecnologias de áudio que entrarão no Hall da Fama da TECnology em 2019
Janelas ativas com cancelamento de ruído abafam os sons da metrópole


Source: https://habr.com/ru/post/pt436696/


All Articles