Le programme a appris à sélectionner des sons réalistes pour les photos.
En regardant une photo, une personne peut facilement deviner quel son doit correspondre à ce cadre.Une bonne connaissance s'accompagne d'expériences de vie. Nous observons divers événements de la vie et écoutons des sons. Avec l'expérience, une grande collection s'est accumulée dans le cerveau. Une personne effectue une recherche associative rapide dans la mémoire, sélectionne le son le plus approprié - et le reproduit en observant une photographie.Environ le même principe fonctionne et le nouveau programme développé par des spécialistes de Disney Research et de l'École technique supérieure suisse de Zurich pour sélectionner les sons pour les photographies. En principe, les auteurs du programme ont spécifiquement tenté de copier le processus humain d'établissement de la relation entre le son et l'image.Les informations sur les sons peuvent être obtenues non seulement à partir de la réalité. À la maternelle, tous les enfants apprennent nécessairement que la vache dit «mu».Les films et les jeux informatiques reconstituent la collection de sons du cerveau dans une très large mesure. Après tout, ils montrent souvent des événements sur lesquels les gens n'ont aucune expérience de la vie. Par conséquent, presque tout le monde sait comment sonne un coup de pistolet, même si peu de gens l'ont entendu en réalité. On peut supposer que les sons des films / jeux représentent plus de la moitié de tous les sons accumulés en mémoire pour la vie d’une personne.Le programme Disney Research a également été formé pour composer une collection de sons par images. Ce n'est pas une tâche si facile, car le système doit filtrer un grand nombre de sons étrangers et déterminer exactement quel objet correspond à quel son.L'interprétation du contenu visuel est une tâche clé de la vision industrielle. Ces dernières années, de nombreux résultats impressionnants ont été obtenus dans ce domaine dans la classification et la reconnaissance d'objets, la segmentation, le suivi et la reconstruction 3D. Mais l'apprentissage du réseau neuronal de la relation entre le contenu visuel et les données audio est encore un domaine assez inexploré.À cet égard, il convient de noter que le cerveau humain est capable de choses étonnantes. Par exemple, il peut capter un son «convenable», qui en principe ne peut pas exister. Par exemple, le son d'une fleur en croissance, bien que les fleurs, en principe, n'émettent aucun son. Les auteurs du nouveau programme n'ont pas cherché à copier la fonctionnalité du cerveau humain dans le domaine de tels fantasmes. Bien que cela soit possible, je suppose.Comment générer du son
L'une des options de sélection du son pour un objet est la synthèse du son en fonction des caractéristiques physiques de l'objet dans la vidéo. Mais de cette façon, un nombre très limité d'objets peut être exprimé.En revanche, le système de Disney Research et de l'École technique supérieure suisse de Zurich ont collecté des échantillons de sons prêts à l'emploi à partir de vidéos réelles. La vidéo montre des exemples de ces vidéos qui ont été utilisées pour la formation.Ensuite, le système a appris à séparer le son souhaité des étrangers. Le principe principal de cette procédure est de trouver un son similaire dans toutes les vidéos d'un objet. Ce son sera le son de l'objet, et tout le reste est du bruit de fond.Une fois que le système a appris à sélectionner le son approprié pour un objet spécifique, la tâche triviale demeure, car la reconnaissance des objets dans la vidéo du système de vision industrielle est déjà assez bien effectuée.Les chercheurs ont mené des expériences sur 9 types d'objets avec 10 à 20 échantillons vidéo d'une durée de 15 à 90 s pour chacun d'eux. Pour sélectionner les sons nécessaires, le classificateur kNN a été utilisé .
Une enquête auprès des gens a montré qu'ils reconnaissent bien mieux les sons filtrés par le programme que les sons non filtrés.
À quoi ça sert?
En plus de la tâche la plus logique d'auto-apprentissage des robots et autres systèmes d'intelligence artificielle qui copient les fonctionnalités du cerveau humain, la cartographie du son aux objets graphiques sera utile dans de nombreuses applications utiles de vision industrielle et multimédia. Par exemple, pour automatiser le travail d'un camion de bruit - un spécialiste de l'enregistrement des effets sonores dans les films et les jeux informatiques.Il est connu que lors du tournage de films, les sons ne sont pas trop expressifs. Pour améliorer l'expressivité du film, des effets sonores sont ensuite appliqués séparément à la séquence vidéo. Il s'avère donc un film beaucoup plus spectaculaire et spectaculaire. De plus, l'annulateur de bruit aide à éliminer les défauts lorsque le son réel ne correspond pas à la séquence vidéo. Par exemple, quand dans un film le héros frappe durement l'adversaire - mais en réalité les acteurs ne font que prétendre être des coups. Dans ce cas, l'annuleur de bruit corrige le défaut, c'est-à-dire qu'il impose des sons réalistes de craquement osseux, de chair battante, de cerveau qui coule et d'autres effets attrayants.Une autre application possible du programme est la voix pour les personnes malentendantes. Maintenant, ils peuvent non seulement entendre les sons environnants, mais aussi les entendre dans la meilleure qualité, juteuse, sans bruit inutile - comme dans un film. Les gens ordinaires sans déficience auditive envieront même les handicapés, car les athlètes avec une jambe envient les personnes complètement sans jambes , qui ont un avantage concurrentiel - des prothèses bioniques plus avancées, de sorte qu'elles courent beaucoup plus rapidement et vaincent facilement les athlètes à une jambe (et même à deux jambes).De telles technologies de réalité augmentée sont susceptibles d'être demandées dans l'industrie du divertissement, dans laquelle une personne perçoit la réalité environnante à travers une interface informatique. Enfin, nous pourrons bloquer les personnes inutiles du monde qui nous entoure (comme dans la série Black Mirror). Le système filtrera simplement le son de leur voix. Remplacez-le par un autre son autorisé. L'image de la personne bloquée sera remplacée par un autre objet avec la génération des sons correspondants. Alternativement, vous pouvez simplement changer les voix des collègues du bureau et des proches pour des voix plus agréables. Par exemple, la voix d'un ami peut être changée en pronons sexuels pendant les caresses du soir, ajouter des sons manquants, etc.Source: https://habr.com/ru/post/fr399317/
All Articles