🏥 👌🏼 🥡 So erzeugen Sie binauralen Sound auf einer Monokanal-Audiospur

Spezialisten der University of Texas in Austin (UT Austin) haben ein neuronales Netzwerk entwickelt, das Einkanal-Audioaufnahmen auf Video verarbeitet und den „Surround“ -Sound wiederherstellt.

Wir erzählen, wie es funktioniert.

Foto von marneejill / CC BY-SA

Neue 3D-Klangerzeugungsmethode

Surround-Sound ist häufig in Spielen oder Filmen zu finden, 3D-Sound ist jedoch in bedingten Videos im Netzwerk selten. Für die Aufnahme sind teure Geräte erforderlich, die den Erstellern des Videos nicht immer zur Verfügung stehen. Oft werden nur Smartphones für die Aufnahme verwendet.

Eine auf diese Weise aufgenommene Audiospur schränkt unsere Wahrnehmung von Videos ein: Sie kann nicht vermitteln, wie sich Schallquellen im Raum befinden und wie sie sich bewegen. Aus diesem Grund kann sich der Ton des Videos "flach" anfühlen.

UT Austin wurde von einem Professor an der Universität, Kristen Grauman, und einem Studenten, Ruohan Gao, angegangen. Sie entwickelten ein System, das auf Algorithmen für maschinelles Lernen basiert und es ermöglicht, Monokanal-Audioaufnahmen in „Surround“ -Videoaufnahmen umzuwandeln. Die Technologie heißt "2.5D Visual Sound".

Dies ist kein vollwertiger räumlicher Klang, sondern "modelliert". Laut den Entwicklern ist der Unterschied für den durchschnittlichen Hörer jedoch kaum wahrnehmbar.

Wie Technologie funktioniert

Das an UT Austin entwickelte System verwendet zwei neuronale Netze.

Das erste neuronale Netzwerk wurde auf Basis der ResNet- Architektur erstellt, die 2015 von Forschern von Microsoft eingeführt wurde. Es erkennt Objekte im Video und sammelt Informationen über ihre Bewegung im Rahmen. Am Ausgang generiert das Netzwerk eine Matrix, die als Feature-Map bezeichnet wird, mit den Koordinaten der Objekte in jedem Frame des Videos.

Diese Informationen werden an das zweite neuronale Netzwerk übertragen - Mono2Binaural. Es wurde an der University of Texas entwickelt. Das Netzwerk empfängt auch Spektrogramme von Audioaufnahmen, die unter Verwendung der Fenster-Fourier-Transformation unter Verwendung der Hann-Funktion erhalten wurden .

Mono2Binaural besteht aus zehn Faltungsschichten . Nach jeder dieser Schichten im Netzwerk gibt es einen Batch-Normalisierungsblock, der die Genauigkeit der Algorithmusprognose erhöht , und einen linearen Gleichrichtungsblock mit der ReLU- Aktivierungsfunktion .

Die Faltungsschichten des neuronalen Netzwerks analysieren Frequenzänderungen im Spektrogramm und bilden eine Matrix, die Informationen darüber enthält, welcher Teil des Spektrogramms zum linken und welcher zum rechten Audiokanal gehören soll. Dann wird unter Verwendung der Fourier-Transformation des inversen Fensters eine neue Audioaufnahme erzeugt.

Gleichzeitig kann Mono2Binaural räumlichen Ton für jedes der Objekte im Video separat wiedergeben. Beispielsweise kann ein neuronales Netzwerk zwei Instrumente in einem Video erkennen - eine Trommel und eine Pfeife - und für jedes eine separate Tonspur erstellen.

Meinungen zu „2.5D Visual Sound“

Laut den Entwicklern selbst ist es ihnen gelungen, eine Technologie zu entwickeln, die ein "realistisches räumliches Gefühl" erzeugt. Mono2Binaural zeigte beim Testen ein gutes Ergebnis, und daher sind sich die Autoren sicher, dass ihr Projekt ein großes Potenzial hat.

Um die Wirksamkeit ihrer Technologie zu beweisen, führten Experten eine Reihe von Experimenten durch. Sie luden eine Gruppe von Personen ein, die den Sound von zwei Tracks verglichen: einer wurde mit Mono2Binaural erstellt und der zweite mit der Ambisonics-Methode.

Letzteres wurde an der University of California in San Diego entwickelt. Diese Methode erzeugt auch „Surround“ -Audio aus Monosound, funktioniert jedoch im Gegensatz zur neuen Technologie nur mit 360-Grad-Videos.

Die meisten Hörer wählten Mono2Binaural-Audio als dem tatsächlichen Klang am nächsten. Tests zeigten auch, dass Benutzer in 60% der Fälle den Ort der Schallquelle anhand des Ohrs genau identifizierten.

Der Algorithmus hat noch einige Nachteile. Beispielsweise unterscheidet ein neuronales Netzwerk nicht zwischen den Geräuschen einer großen Anzahl von Objekten. Außerdem kann sie die Position der Tonquelle, die sich nicht im Video befindet, offensichtlich nicht bestimmen. Die Entwickler planen jedoch, diese Probleme zu lösen.

Technologie-Analoga

Auf dem Gebiet der Video-Tonerkennung gibt es mehrere ähnliche Projekte. Wir haben früher über einen von ihnen geschrieben. Dies ist ein „ visuelles Mikrofon “ von Experten des MIT. Ihr Algorithmus erkennt mikroskopische Schwingungen von Objekten unter dem Einfluss von Schallwellen auf ein stilles Video und stellt anhand dieser Daten den im Raum hörbaren Ton wieder her. Wissenschaftler konnten die Melodie des Liedes Mary Had a Little Lamb aus einer Packung Chips, heimischen Pflanzen und sogar Ziegeln "lesen".

Foto Quinn Dombrowski / CC BY-SA

Andere Projekte entwickeln Technologien für die Aufzeichnung von Ton in 360-Grad-Videos. Einer von ihnen ist Ambisonics, den wir bereits erwähnt haben. Das Prinzip des Algorithmus ähnelt dem von Mono2Binaural: Es analysiert die Bewegung von Objekten im Rahmen und korreliert sie mit Klangänderungen. Die Ambisonics-Technologie weist jedoch mehrere Einschränkungen auf: Das neuronale Netzwerk funktioniert nur mit 360-Grad-Videos und gibt keinen guten Ton aus, wenn die Aufnahme ein Echo enthält.

Ein weiteres Projekt in diesem Bereich ist Sol VR360 von G-Audio. Im Gegensatz zu anderen Entwicklungen wurde die Technologie bereits im Anwenderdienst für die Sol-Soundverarbeitung implementiert . Es erzeugt räumliches Audio für 360-Grad-Videos von Konzerten oder Sportarten. Der Nachteil des Dienstes ist, dass die generierten Clips nur in Sol-Anwendungen abgespielt werden.

Schlussfolgerungen

Entwickler von Systemen zur Erzeugung von räumlichem Klang sehen das Hauptanwendungsgebiet der Technologie in VR- und AR-Anwendungen für das maximale Eintauchen einer Person in die Atmosphäre eines Spiels oder Films. Wenn es möglich ist, eine Reihe von Schwierigkeiten zu überwinden, mit denen sie konfrontiert sind, kann die Technologie auch dazu verwendet werden, sehbehinderten Menschen zu helfen. Mithilfe solcher Systeme können sie detaillierter verstehen, was im Rahmen der Videos geschieht.

Mehr zur Audiotechnologie in unserem Telegrammkanal:

A. A. InSight zeichnete zuerst die Geräusche des Marswinds auf
Acht Audiotechnologien, die 2019 in die TECnology Hall of Fame aufgenommen werden
Aktive Fenster zur Geräuschunterdrückung übertönen die Geräusche der Metropole

So erzeugen Sie binauralen Sound auf einer Monokanal-Audiospur - Video hilft

Neue 3D-Klangerzeugungsmethode

Wie Technologie funktioniert

Meinungen zu „2.5D Visual Sound“

Technologie-Analoga

Schlussfolgerungen

More articles: