Wie man Ton zeichnet und liest


Foto von Matthew Potter CC-BY

Wie werden Audio- und Videoinformationen verbunden? Diese Frage wird oft von Wissenschaftlern und Amateuren aus der ganzen Welt gestellt. Im Februar 2006 verbreitete sich die Nachricht, dass es Wissenschaftlern gelungen ist, Geräusche aus einem über 6500 Jahre alten Tontopf zu reproduzieren, schnell im Internet.

Der Töpfer soll während seiner Herstellung einen musikalischen Rhythmus auf den Topf angewendet haben. Leider stellte sich heraus, dass dies ein erfolgloser Aprilscherz im belgischen Fernsehen war.

Patrick Feaster konnte jedoch die Aufzeichnung verarbeiten, deren Alter 1000 Jahre überschreitet. Bei dieser Gelegenheit sprach er im Mai 2011 auf der Konferenz der Association for Recorded Sound Collections (ARSC) mit der Eröffnung der „Paläospektrophonie“.

Eintauchen in die Geschichte: Transkribieren vergangener Aufzeichnungen

Patrick verwendet moderne Technologie (in diesem Fall nicht besonders modern, da das Spektrogramm vor langer Zeit erfunden wurde), um visuelle Objekte in akustische umzuwandeln. Die Menschheit ging jedoch nicht immer diesen Weg und versuchte im Gegenteil, Ton in Bildern „einzufangen“.

Lange Zeit (vor der Erstellung des Phonographen durch Thomas Edison) waren die Leute besorgt über die Frage: Wie könnte man eine Methode finden, um Musik zu reparieren, die es der Person, die die Aufnahme sieht, hilft, die Melodie in ihren Köpfen so einfach zu spielen wie professionelle Musiker, wenn sie sich die Partitur ansehen. Leider ist eine solche Aufgabe laut Dr. Fister im Prinzip nicht erreichbar, da unser Gehirn in den meisten Fällen nicht gut genug ist, um visuelle Informationen in Audio umzuwandeln.

Vielleicht war die Lösung dieses Problems in der Vergangenheit nicht von Erfolg gekrönt, aber die Geschichte hat uns viele Beweise dafür hinterlassen, wie Menschen in verschiedenen Epochen versucht haben, ähnliche Tonaufzeichnungssysteme zu schaffen. Das bekannteste dieser Systeme bildete die Grundlage des Phono-Autogramms - des Vorgängers des vom Franzosen Edouard Martenville erfundenen Phonographen. Ein Phonoautograph war ein Gerät, bei dem Schall durch einen Kegel geleitet wurde und die mit der Nadel verbundene Membran vibrierte. Die Nadel zeichnete wiederum wellenförmige Linien auf einen Glaszylinder, der mit rußigem Papier bedeckt war.

Mit Hilfe eines Phono-Autogramms konnte der Ton aufgenommen werden, aber es gab keine Möglichkeit, ihn wiederzugeben. Dies ist das Problem, das Fister entschieden hat. 2008 versammelten er, seine Kollegen und der Audioexperte David Giovannoni sich im Lawrence Berkeley National Laboratory, um einen der am besten erhaltenen Phonoautographen von Martenville zu entziffern.

Lawrence's Lab entwickelte Technologien, um Töne aus hochwertigen Fotos zu extrahieren, die Bilder von zerbrechlichen Wachsmedien oder zerbrochenen Discs aufnehmen. Mit diesen Technologien erhielten Wissenschaftler aus dem Phonoautogramm die Aufnahme des 1860 aufgenommenen Liedes „Moonlight“ („Au Clair de la Lune“). Es wird angenommen, dass dies die erste Aufzeichnung ist, auf der wir eine menschliche Stimme unterscheiden können.

Die Lösung für dieses Problem reichte Fister jedoch nicht aus: Anschließend nahm er nicht nur Ton aus mehr als 50 Tonträgern auf, sondern untersuchte auch frühere Versuche, „Ton aufzunehmen“. So seltsam es auch scheinen mag, der Google Books-Dienst hat diesem Wissenschaftler geholfen. Damit schrieb Fister Charaktere aus Büchern auf, die ständig ignoriert wurden und als historische Macken galten.

Er fand die älteste wellige Linie im Buch von 1806. Durch andere Techniken konnte er die Melodie von 1677 entschlüsseln, die von vielen Punkten aufgenommen wurde. Eine andere wurde in Aufzeichnungen des 10. Jahrhunderts entdeckt, in denen die Linien zeigten, welche Tonart gesungen werden sollte. Beispiele für solche Einträge finden Sie auf seiner Phonozoic- Website .

Ein anderer Ansatz

Forscher von MIT, Microsoft und Adobe gehen einen anderen Weg: Sie rekonstruieren den Ton aus einem bewegten (oder vielmehr vibrierenden) Bild. Forscher haben einen Algorithmus entwickelt, um ein Audiosignal aus auf Video aufgezeichneten Vibrationen zu erhalten.

In einem dieser Experimente gelang es ihnen, lesbare Sprache aus der Aufzeichnung eines leeren Pakets unter den Chips zu extrahieren. In einer Reihe anderer Experimente konnte dasselbe mit der Oberfläche von Aluminiumfolie, einem Glas Wasser und sogar mit den Blättern einer heimischen Pflanze durchgeführt werden. 2014 präsentierte das Team seine Erfolge auf der jährlichen SIGGRAPH-Konferenz. ( Video von einer Präsentation eines der Forscher, die auf der TED-Konferenz an dem Projekt gearbeitet haben.)

Tatsache ist, dass ein Geräusch, wenn es mit einem Objekt in Kontakt kommt, es vibrieren lässt. Die Bewegungen, die durch diese Schwingungen erzeugt werden, sind so gering und unsichtbar, dass eine Person sie nicht sehen kann. Die Kamera kann sie jedoch „sehen“: Um das Audiosignal aus dem Video zu extrahieren, verwendeten die Wissenschaftler Videoaufzeichnungen mit einer Bildaufnahmerate, die höher als die Frequenz des Audiosignals ist.

Anfangs wurden in den Experimenten Kameras mit einer Aufnahmefrequenz von 2000 und 6000 Bildern pro Sekunde verwendet, aber die Forscher versuchten, andere, kostengünstigere Kameras zu verwenden. Natürlich war es nicht möglich, mit einer Bildrate von 60 Bildern pro Sekunde artikulierte Sprache aus dem aufgezeichneten Video zu extrahieren, aber es schien immer noch möglich zu sein, zu verstehen, wie viele Personen sich im Raum befanden, welches Geschlecht sie hatten und welche Merkmale ihre Aussprache hatte.

Wenn man über solche Entwicklungen nachdenkt, fallen einem natürlich „Spionagegeschichten“ ein, doch die Forscher selbst nennen ihr Projekt die Möglichkeit, neue Facetten im Bild von Objekten zu entdecken und ihre bisher unerforschten Eigenschaften zu untersuchen. Und wenn vor Hunderten von Jahren versucht wurde, einen Weg zu finden, um „Ton aufzunehmen“, wird eine solche „Aufnahme“ jetzt zu einem Nebeneffekt, der wiederum dazu beiträgt, neue Eigenschaften vertrauter Objekte aufzudecken.

Mach es selbst

Wie bereits erwähnt, dank der Technologie der Klangwiedergabe die erste fonoavtogrammu aus Fotografien von alten Aufzeichnungen zu entziffern (über die Technologie , die wir bereits schrieben in einem unsere Materialien - es präsentiert wird und Link zu der entschlüsselten Datensatz). Patrick Fister betont jedoch, dass jeder diese Aufgabe bewältigen kann - wenn er weiß, was zu tun ist.

Ein detaillierter Prozess wird in diesem Material beschrieben. Wir stellen fest, dass Sie zur Lösung des Problems ein qualitativ hochwertiges Foto, grundlegende Photoshop-Kenntnisse (die auf Vinyl gezeichnete Welle muss digitalisiert, „begradigt“ - die Rille auf der Platte ist spiralförmig gedreht - entfernen Sie alle Arten von Rauschen und Verschiebungen) sowie einen relativ leistungsstarken Computer benötigen mit viel RAM.

Um das resultierende Bild in eine WAV-Datei zu konvertieren, verwendet Patrick eine ziemlich exotische Software: Dies ist ImageToSound. Es ist kostenlos, aber trotzdem ist es ziemlich schwierig, es im Netzwerk zu finden (Patrick hat die Quelle geteilt ).

Das Programm konvertiert nacheinander jeden Bildblock (Blockbreite - 1 Pixel) in ein Audio-Sample. Leider unterstützt diese Software nicht einmal Windows 7 (der Autor verwendet einen separaten Computer mit Windows 98, um zu arbeiten). Als Alternative schlägt Fister vor, das AEO-Light- Programm zu verwenden , warnt jedoch davor, dass er selbst nicht vollständig mit den Feinheiten der Arbeit vertraut ist.

Der letzte Schritt ist die Steuerung der Wiedergabegeschwindigkeit. Hier hilft einfache Mathematik. Zuerst müssen Sie die Wiedergabegeschwindigkeit auf der Originalplatte, die Länge einer Umdrehung der digitalisierten Welle (nach „Despiralisierung“) in Pixel und die Abtastfrequenz der endgültigen Datei kennen.

Wenn das Bild in eine Audiodatei mit einer Abtastfrequenz von 44,1 kHz bearbeitet wurde, bedeutet dies, dass die Sekunde der Audiodatei 44 100 Pixel des Bildes entspricht. Wenn beispielsweise die Geschwindigkeit eines Songs auf einer Schallplatte 50 U / min betrug und nach der Digitalisierung und Despiralisierung eine Umdrehung der Schallplatte 30.000 Pixel dauerte, erhalten wir 1.500.000 Pixel pro Minute (50 x 30.000).

Wenn wir diese Zahl durch 60 teilen, erhalten wir die Anzahl der Pixel pro Sekunde (1.500.000 / 60 = 25.000). Teilen Sie die Abtastrate durch die Anzahl der Pixel pro Sekunde (44 100/25 000 = 1,764). Multiplizieren Sie die resultierende Zahl mit der Länge der Audiodatei (Wiedergabezeit des Songs) und erhalten Sie die Zeit, mit der diese Datei ursprünglich aufgenommen wurde. Wenn die Wiedergabegeschwindigkeit der Originalaufnahme unbekannt ist, empfiehlt Patrick, die endgültige Geschwindigkeit nach Gehör zu wählen.

Patrick Fister warnt - dies ist eine ziemlich mühsame Arbeit, die Zeit und Geduld erfordert, aber gleichzeitig manchmal erstaunliche Ergebnisse liefert: besonders wenn es um die Stimmen der Vergangenheit geht, die anscheinend für immer verloren waren.

PS Weitere Materialien zum Thema Audio - in unserem Blog " World of Hi-Fi ".

Source: https://habr.com/ru/post/de393257/


All Articles