So erzeugen Sie binauralen Sound auf einer Monokanal-Audiospur - Video hilft

Spezialisten der University of Texas in Austin (UT Austin) haben ein neuronales Netzwerk entwickelt, das Einkanal-Audioaufnahmen auf Video verarbeitet und den „Surround“ -Sound wiederherstellt.

Wir erzÀhlen, wie es funktioniert.


Foto von marneejill / CC BY-SA

Neue 3D-Klangerzeugungsmethode


Surround-Sound ist hĂ€ufig in Spielen oder Filmen zu finden, 3D-Sound ist jedoch in bedingten Videos im Netzwerk selten. FĂŒr die Aufnahme sind teure GerĂ€te erforderlich, die den Erstellern des Videos nicht immer zur VerfĂŒgung stehen. Oft werden nur Smartphones fĂŒr die Aufnahme verwendet.

Eine auf diese Weise aufgenommene Audiospur schrĂ€nkt unsere Wahrnehmung von Videos ein: Sie kann nicht vermitteln, wie sich Schallquellen im Raum befinden und wie sie sich bewegen. Aus diesem Grund kann sich der Ton des Videos "flach" anfĂŒhlen.

UT Austin wurde von einem Professor an der UniversitĂ€t, Kristen Grauman, und einem Studenten, Ruohan Gao, angegangen. Sie entwickelten ein System, das auf Algorithmen fĂŒr maschinelles Lernen basiert und es ermöglicht, Monokanal-Audioaufnahmen in „Surround“ -Videoaufnahmen umzuwandeln. Die Technologie heißt "2.5D Visual Sound".

Dies ist kein vollwertiger rĂ€umlicher Klang, sondern "modelliert". Laut den Entwicklern ist der Unterschied fĂŒr den durchschnittlichen Hörer jedoch kaum wahrnehmbar.

Wie Technologie funktioniert


Das an UT Austin entwickelte System verwendet zwei neuronale Netze.

Das erste neuronale Netzwerk wurde auf Basis der ResNet- Architektur erstellt, die 2015 von Forschern von Microsoft eingefĂŒhrt wurde. Es erkennt Objekte im Video und sammelt Informationen ĂŒber ihre Bewegung im Rahmen. Am Ausgang generiert das Netzwerk eine Matrix, die als Feature-Map bezeichnet wird, mit den Koordinaten der Objekte in jedem Frame des Videos.

Diese Informationen werden an das zweite neuronale Netzwerk ĂŒbertragen - Mono2Binaural. Es wurde an der University of Texas entwickelt. Das Netzwerk empfĂ€ngt auch Spektrogramme von Audioaufnahmen, die unter Verwendung der Fenster-Fourier-Transformation unter Verwendung der Hann-Funktion erhalten wurden .

Mono2Binaural besteht aus zehn Faltungsschichten . Nach jeder dieser Schichten im Netzwerk gibt es einen Batch-Normalisierungsblock, der die Genauigkeit der Algorithmusprognose erhöht , und einen linearen Gleichrichtungsblock mit der ReLU- Aktivierungsfunktion .

Die Faltungsschichten des neuronalen Netzwerks analysieren FrequenzĂ€nderungen im Spektrogramm und bilden eine Matrix, die Informationen darĂŒber enthĂ€lt, welcher Teil des Spektrogramms zum linken und welcher zum rechten Audiokanal gehören soll. Dann wird unter Verwendung der Fourier-Transformation des inversen Fensters eine neue Audioaufnahme erzeugt.

Gleichzeitig kann Mono2Binaural rĂ€umlichen Ton fĂŒr jedes der Objekte im Video separat wiedergeben. Beispielsweise kann ein neuronales Netzwerk zwei Instrumente in einem Video erkennen - eine Trommel und eine Pfeife - und fĂŒr jedes eine separate Tonspur erstellen.

Meinungen zu „2.5D Visual Sound“


Laut den Entwicklern selbst ist es ihnen gelungen, eine Technologie zu entwickeln, die ein "realistisches rĂ€umliches GefĂŒhl" erzeugt. Mono2Binaural zeigte beim Testen ein gutes Ergebnis, und daher sind sich die Autoren sicher, dass ihr Projekt ein großes Potenzial hat.

Um die Wirksamkeit ihrer Technologie zu beweisen, fĂŒhrten Experten eine Reihe von Experimenten durch. Sie luden eine Gruppe von Personen ein, die den Sound von zwei Tracks verglichen: einer wurde mit Mono2Binaural erstellt und der zweite mit der Ambisonics-Methode.

Letzteres wurde an der University of California in San Diego entwickelt. Diese Methode erzeugt auch „Surround“ -Audio aus Monosound, funktioniert jedoch im Gegensatz zur neuen Technologie nur mit 360-Grad-Videos.

Die meisten Hörer wÀhlten Mono2Binaural-Audio als dem tatsÀchlichen Klang am nÀchsten. Tests zeigten auch, dass Benutzer in 60% der FÀlle den Ort der Schallquelle anhand des Ohrs genau identifizierten.

Der Algorithmus hat noch einige Nachteile. Beispielsweise unterscheidet ein neuronales Netzwerk nicht zwischen den GerĂ€uschen einer großen Anzahl von Objekten. Außerdem kann sie die Position der Tonquelle, die sich nicht im Video befindet, offensichtlich nicht bestimmen. Die Entwickler planen jedoch, diese Probleme zu lösen.

Technologie-Analoga


Auf dem Gebiet der Video-Tonerkennung gibt es mehrere Ă€hnliche Projekte. Wir haben frĂŒher ĂŒber einen von ihnen geschrieben. Dies ist ein „ visuelles Mikrofon “ von Experten des MIT. Ihr Algorithmus erkennt mikroskopische Schwingungen von Objekten unter dem Einfluss von Schallwellen auf ein stilles Video und stellt anhand dieser Daten den im Raum hörbaren Ton wieder her. Wissenschaftler konnten die Melodie des Liedes Mary Had a Little Lamb aus einer Packung Chips, heimischen Pflanzen und sogar Ziegeln "lesen".


Foto Quinn Dombrowski / CC BY-SA

Andere Projekte entwickeln Technologien fĂŒr die Aufzeichnung von Ton in 360-Grad-Videos. Einer von ihnen ist Ambisonics, den wir bereits erwĂ€hnt haben. Das Prinzip des Algorithmus Ă€hnelt dem von Mono2Binaural: Es analysiert die Bewegung von Objekten im Rahmen und korreliert sie mit KlangĂ€nderungen. Die Ambisonics-Technologie weist jedoch mehrere EinschrĂ€nkungen auf: Das neuronale Netzwerk funktioniert nur mit 360-Grad-Videos und gibt keinen guten Ton aus, wenn die Aufnahme ein Echo enthĂ€lt.

Ein weiteres Projekt in diesem Bereich ist Sol VR360 von G-Audio. Im Gegensatz zu anderen Entwicklungen wurde die Technologie bereits im Anwenderdienst fĂŒr die Sol-Soundverarbeitung implementiert . Es erzeugt rĂ€umliches Audio fĂŒr 360-Grad-Videos von Konzerten oder Sportarten. Der Nachteil des Dienstes ist, dass die generierten Clips nur in Sol-Anwendungen abgespielt werden.

Schlussfolgerungen


Entwickler von Systemen zur Erzeugung von rĂ€umlichem Klang sehen das Hauptanwendungsgebiet der Technologie in VR- und AR-Anwendungen fĂŒr das maximale Eintauchen einer Person in die AtmosphĂ€re eines Spiels oder Films. Wenn es möglich ist, eine Reihe von Schwierigkeiten zu ĂŒberwinden, mit denen sie konfrontiert sind, kann die Technologie auch dazu verwendet werden, sehbehinderten Menschen zu helfen. Mithilfe solcher Systeme können sie detaillierter verstehen, was im Rahmen der Videos geschieht.



Mehr zur Audiotechnologie in unserem Telegrammkanal:

A. A. InSight zeichnete zuerst die GerÀusche des Marswinds auf
Acht Audiotechnologien, die 2019 in die TECnology Hall of Fame aufgenommen werden
Aktive Fenster zur GerĂ€uschunterdrĂŒckung ĂŒbertönen die GerĂ€usche der Metropole


Source: https://habr.com/ru/post/de436696/


All Articles