Comment dessiner et lire le son
Photo de Matthew Potter CC-BYComment connecter les informations audio et visuelles? Cette question est souvent posée par des scientifiques et des amateurs du monde entier. Ainsi, en février 2006, la nouvelle selon laquelle les scientifiques ont réussi à reproduire les sons d'un pot en argile de plus de 6 500 ans s'est rapidement répandue sur Internet.Le potier aurait appliqué un rythme musical au pot pendant sa fabrication. Malheureusement, cela s'est avéré être une plaisanterie d'April Fools infructueuse à la télévision belge.Cependant, Patrick Feaster a pu traiter le dossier, dont l'âge dépasse 1000 ans. A cette occasion, en mai 2011, il s'est exprimé lors de la conférence de l'Association for Recorded Sound Collections (ARSC) avec l'ouverture de la «paléospectrophonie».Plonger dans l'histoire: retranscrire des enregistrements passés
Patrick utilise la technologie moderne (dans ce cas, pas particulièrement moderne, puisque le spectrogramme a été inventé il y a longtemps) pour convertir des objets visuels en objets sonores. Cependant, l'humanité n'a pas toujours suivi cette voie et a essayé, au contraire, de «capturer» le son dans les images.Pendant longtemps (avant la création du phonographe par Thomas Edison), les gens se sont inquiétés de la question: comment trouver un moyen de corriger la musique qui aiderait la personne qui regarde l'enregistrement à jouer la mélodie dans leur tête aussi facilement que les musiciens professionnels le font en regardant la partition. Malheureusement, selon le Dr Fister, une telle tâche est en principe inaccessible, car notre cerveau dans la plupart des cas n'est pas assez bon pour convertir des informations visuelles en audio.Peut-être que la solution à ce problème dans le passé n'a pas été couronnée de succès, mais l'histoire nous a laissé beaucoup de preuves de la façon dont les gens de différentes époques ont essayé de créer des systèmes d'enregistrement sonore similaires. Le plus célèbre de ces systèmes a formé la base du phono-autographe - le prédécesseur du phonographe, inventé par le Français Edouard Martenville. Un phonoautographe était un appareil dans lequel le son traversait un cône, faisant vibrer la membrane connectée à l'aiguille. L'aiguille, à son tour, dessinait des lignes ondulées sur un cylindre en verre recouvert de papier de suie.À l'aide d'un phono-autographe, le son pouvait être capturé, mais il n'y avait aucun moyen de le reproduire. C'est le problème que Fister a décidé. En 2008, lui, ses collègues et l'expert audio David Giovannoni se sont réunis au Lawrence Berkeley National Laboratory pour déchiffrer l'un des phonoautographes les mieux conservés de Martenville.Lawrence’s Lab a développé des technologies pour extraire les sons de photographies de haute qualité qui capturaient des images de supports de cire fragiles ou de disques cassés. Grâce à ces technologies, les scientifiques ont reçu du phonoautogramme l'enregistrement de la chanson «Moonlight» («Au Clair de la Lune»), réalisée en 1860. On pense que c'est le premier disque sur lequel on peut distinguer une voix humaine.Cependant, la solution à ce problème n'était pas suffisante pour Fister: par la suite, il a non seulement enregistré le son de plus de 50 phonoautogrammes, mais a également enquêté sur des tentatives antérieures d '«enregistrer du son». Aussi étrange que cela puisse paraître, le service Google Livres a aidé ce scientifique. En l'utilisant, Fister a noté des personnages de livres qui étaient constamment ignorés, considérés comme des bizarreries historiques.Il trouva la plus ancienne ligne ondulée du livre de 1806. Grâce à d'autres techniques, il a pu déchiffrer la mélodie de 1677, qui a été enregistrée par de nombreux points. Un autre a été découvert dans les registres du 10e siècle, où les lignes montraient quelle clé il fallait chanter. Des exemples de telles entrées peuvent être trouvés sur son site Web Phonozoïque .Une autre approche
Les chercheurs du MIT, de Microsoft et d'Adobe suivent un chemin différent: ils reconstruisent le son à partir d'une image en mouvement (ou plutôt vibrante). Les chercheurs ont développé un algorithme pour obtenir un signal audio à partir de vibrations enregistrées sur vidéo.Dans l'une de ces expériences, ils ont réussi à extraire la parole lisible de l'enregistrement d'un paquet vide sous les puces. Dans un certain nombre d'autres expériences, la même chose pourrait être faite avec la surface d'une feuille d'aluminium, un verre d'eau et même avec les feuilles d'une plante domestique. En 2014, l'équipe a présenté ses réalisations lors de la conférence annuelle SIGGRAPH. ( Vidéo d'une présentation par l'un des chercheurs qui ont travaillé sur le projet lors de la conférence TED.)Le fait est que lorsqu'un son entre en contact avec un objet, il le fait vibrer. Les mouvements créés par ces vibrations sont si légers et invisibles qu'une personne ne peut pas les voir. Cependant, la caméra peut les «voir»: pour extraire le signal audio de la vidéo, les scientifiques ont utilisé l'enregistrement vidéo avec un taux de capture d'images supérieur à la fréquence du signal audio.Initialement, des caméras avec une fréquence de prise de vue de 2000 et 6000 images par seconde ont été utilisées dans les expériences, mais les chercheurs ont essayé d'utiliser d'autres caméras plus économiques. Bien sûr, il n'était pas possible d'extraire la parole articulée de la vidéo enregistrée à une fréquence d'images de 60 images par seconde, mais il semblait toujours possible de comprendre combien de personnes étaient dans la pièce, leur sexe et même les caractéristiques de leur prononciation.Bien sûr, quand on pense à utiliser de tels développements, des «histoires d'espionnage» viennent à l'esprit, cependant, les chercheurs eux-mêmes appellent leur projet l'occasion de découvrir de nouvelles facettes à l'image des objets et d'étudier leurs propriétés jusque-là inexplorées. Et s'il y a des centaines d'années, les gens essayaient de trouver un moyen «d'enregistrer le son», maintenant un tel «enregistrement» devient un effet secondaire qui, à son tour, aide à révéler de nouvelles propriétés d'objets familiers.Faites-le vous-même
Comme déjà mentionné, le premier phonoautogramme a été décrypté grâce à la technologie de reproduction du son à partir de photographies d'anciens enregistrements (nous avons déjà écrit sur cette technologie dans l'un de nos documents - il contient également des liens vers des enregistrements audio décryptés). Cependant, Patrick Fister souligne que n'importe qui peut faire face à cette tâche - s'il sait quoi faire.Un processus détaillé est décrit dans ce document. À nous seuls, nous notons que pour résoudre le problème, vous aurez besoin d'une photo de haute qualité, de compétences de base en Photoshop (la vague dessinée sur du vinyle doit être numérisée, "redressée" - la rainure sur la plaque est tordue en spirale - supprimez toutes sortes de bruit et de déplacements), ainsi que d'un ordinateur relativement puissant avec une grande quantité de RAM.Pour convertir l'image résultante en un fichier WAV, Patrick utilise un logiciel plutôt exotique: c'est ImageToSound. C'est gratuit, mais malgré cela, c'est assez difficile à trouver sur le réseau (Patrick a partagé la source ).Le programme convertit séquentiellement chaque bloc d'image (largeur de bloc - 1 pixel) en un échantillon audio. Malheureusement, ce logiciel ne prend même pas en charge Windows 7 (l'auteur utilise un ordinateur séparé avec Windows 98 pour fonctionner). Comme alternative, Fister suggère d'utiliser le programme AEO-Light, mais avertit qu'il n'est pas complètement familier avec les subtilités de travailler avec lui.La dernière étape consiste à contrôler la vitesse de lecture. Ici, les mathématiques simples viennent à la rescousse. Vous devez d'abord connaître la vitesse de lecture sur la plaque d'origine, la durée d'un tour de l'onde numérisée (après «déspiralisation») en pixels et la fréquence d'échantillonnage du fichier final.Si l'image a été éditée dans un fichier audio avec une fréquence d'échantillonnage de 44,1 kHz, cela signifie que le second du fichier audio sera égal à 44 100 pixels de l'image. Si, par exemple, la vitesse d'une chanson sur un disque vinyle était de 50 tr / min, et après la numérisation et la déspiralisation, une révolution du disque a pris 30.000 pixels, nous obtenons 1.500.000 pixels par minute (50x30.000).Si nous divisons ce nombre par 60, nous obtenons le nombre de pixels par seconde (1 500 000/60 = 25 000). Divisez le taux d'échantillonnage par le nombre de pixels par seconde (44 100/25 000 = 1,764). Multipliez le nombre résultant par la longueur du fichier audio (durée de lecture du morceau) et obtenez l'heure avec laquelle ce fichier a été enregistré à l'origine. Si la vitesse de lecture de l'enregistrement d'origine est inconnue, Patrick vous conseille de choisir la vitesse finale à l'oreille.Patrick Fister prévient - c'est un travail assez laborieux qui prend du temps et de la patience, mais donne en même temps des résultats parfois étonnants: surtout en ce qui concerne les voix du passé, qui, semble-t-il, étaient à jamais perdues.PS Plus de documents sur le thème de l'audio - dans notre blog " World of Hi-Fi ".Source: https://habr.com/ru/post/fr393257/
All Articles