Comment générer du son binaural sur une piste audio mono-canal - la vidéo vous aidera

Des spécialistes de l'Université du Texas à Austin (UT Austin) ont développé un réseau neuronal qui traite les enregistrements audio mono-canal sur vidéo et recrée son son «surround».

Nous expliquons comment cela fonctionne.


Photo de marneejill / CC BY-SA

Nouvelle méthode de création de sons 3D


Le son surround est souvent trouvé dans les jeux ou les films, mais le son 3D est rare dans les vidéos conditionnelles sur le réseau. L'enregistrement nécessite un équipement coûteux qui n'est pas toujours disponible pour les créateurs de la vidéo - souvent, seuls les smartphones sont utilisés pour la prise de vue.

Une piste audio enregistrée de cette manière limite notre perception de la vidéo: elle n'est pas en mesure de transmettre comment les sources sonores sont situées dans l'espace et comment elles se déplacent. Pour cette raison, le son de la vidéo peut sembler «plat».

UT Austin a été abordé par un professeur d'université, Kristen Grauman, et un étudiant, Ruohan Gao. Ils ont créé un système basé sur des algorithmes d'apprentissage automatique qui permet de transformer l'enregistrement audio mono-canal en enregistrement vidéo «surround». La technologie s'appelle "2.5D Visual Sound".

Ce n'est pas un son spatial à part entière, mais "modélisé". Cependant, selon les développeurs, pour l'auditeur moyen, la différence sera presque imperceptible.

Comment fonctionne la technologie


Le système développé à UT Austin utilise deux réseaux de neurones.

Le premier réseau neuronal a été créé sur la base de l'architecture ResNet , qui a été introduite par des chercheurs de Microsoft en 2015. Il reconnaît les objets dans la vidéo et recueille des informations sur leur mouvement dans le cadre. À la sortie, le réseau génère une matrice appelée carte des entités, avec les coordonnées des objets sur chaque image de la vidéo.

Ces informations sont transmises au deuxième réseau neuronal - Mono2Binaural. Il a été développé à l'Université du Texas. Le réseau reçoit également des spectrogrammes d' enregistrements audio obtenus à l'aide de la transformée de Fourier de fenêtre à l' aide de la fonction Hann .

Mono2Binaural se compose de dix couches convolutives . Après chacune de ces couches dans le réseau, il y a un bloc de normalisation par lots, qui augmente la précision de la prévision de l'algorithme, et un bloc de rectification linéaire avec la fonction d'activation ReLU.

Les couches convolutives du réseau neuronal analysent les changements de fréquence dans le spectrogramme et composent une matrice contenant des informations sur quelle partie du spectrogramme doit appartenir au canal audio gauche et laquelle à droite. Ensuite, en utilisant la transformée de Fourier de la fenêtre inverse, un nouvel enregistrement audio est généré.

Dans le même temps, Mono2Binaural peut reproduire le son spatial pour chacun des objets de la vidéo séparément. Par exemple, un réseau de neurones peut reconnaître deux instruments dans une vidéo - un tambour et un tuyau - et créer une piste sonore distincte pour chacun d'eux.

Avis sur "2.5D Visual Sound"


Selon les développeurs eux-mêmes, ils ont réussi à créer une technologie qui recrée une "sensation spatiale réaliste". Mono2Binaural a montré un bon résultat lors des tests, et donc les auteurs sont sûrs que leur projet a un grand potentiel.

Pour prouver l'efficacité de leur technologie, les experts ont mené une série d'expériences. Ils ont invité un groupe de personnes qui ont comparé le son de deux pistes: l'une a été créée en utilisant Mono2Binaural, et la seconde en utilisant la méthode Ambisonics.

Ce dernier a été développé à l'Université de Californie à San Diego. Cette méthode crée également un son «surround» à partir de monosons, mais, contrairement à la nouvelle technologie, elle ne fonctionne qu'avec des vidéos à 360 degrés.

La plupart des auditeurs ont choisi le son de Mono2Binaural comme le plus proche du son réel. Les tests ont également montré que dans 60% des cas, les utilisateurs ont identifié avec précision l'emplacement de la source sonore à l'oreille.

L'algorithme présente encore certains inconvénients. Par exemple, un réseau de neurones ne fait pas de distinction entre les sons d'un grand nombre d'objets. De plus, évidemment, elle ne pourra pas déterminer la position de la source sonore, qui n'est pas sur la vidéo. Cependant, les développeurs prévoient de résoudre ces problèmes.

Analogues technologiques


Dans le domaine de la reconnaissance sonore vidéo, il existe plusieurs projets similaires. Nous avons écrit sur l'un d'eux plus tôt. Il s'agit d'un « microphone visuel » d'experts du MIT. Leur algorithme reconnaît les vibrations microscopiques d'objets sous l'influence des ondes acoustiques dans une vidéo silencieuse et restaure le son qui a été entendu dans la pièce sur la base de ces données. Les scientifiques ont pu "lire" la mélodie de la chanson Mary Had a Little Lamb à partir d'un paquet de chips, de plantes d'intérieur et même de briques.


Photo Quinn Dombrowski / CC BY-SA

D'autres projets développent des technologies d'enregistrement du son dans des vidéos à 360 degrés. L'un d'eux est Ambisonics, que nous avons mentionné plus tôt. Le principe de l'algorithme est similaire à Mono2Binaural: il analyse le mouvement des objets dans le cadre et les corrèle avec les changements de son. Cependant, la technologie Ambisonics a plusieurs limites: le réseau neuronal ne fonctionne qu'avec des vidéos à 360 degrés et n'émet pas bien le son s'il y a un écho sur l'enregistrement.

Un autre projet dans ce domaine est le Sol VR360 de G-Audio. Contrairement à d'autres développements, la technologie a déjà été mise en œuvre dans le service utilisateur pour le traitement du son Sol. Il crée un son spatial pour des vidéos à 360 degrés de concerts ou de sports. L'inconvénient du service est que les clips générés ne sont lus que dans les applications Sol.

Conclusions


Les développeurs de systèmes de création de sons spatiaux voient le principal domaine d'application de la technologie dans les applications VR et AR pour une immersion maximale d'une personne dans l'atmosphère d'un jeu ou d'un film. S'il est possible de surmonter un certain nombre de difficultés auxquelles ils sont confrontés, la technologie peut également être utilisée pour aider les personnes malvoyantes. Avec l'aide de tels systèmes, ils pourront comprendre plus en détail ce qui se passe dans le cadre des vidéos.



En savoir plus sur la technologie audio dans notre chaîne Telegram:

A. InSight a d'abord enregistré les sons du vent martien
Huit technologies audio qui entreront au Temple de la renommée de TECnology en 2019
Des fenêtres actives antibruit étouffent les bruits de la métropole


Source: https://habr.com/ru/post/fr436696/


All Articles