Spezialisten der University of Texas in Austin (UT Austin) haben
ein neuronales Netzwerk entwickelt, das Einkanal-Audioaufnahmen auf Video verarbeitet und den âSurroundâ -Sound wiederherstellt.
Wir erzÀhlen, wie es funktioniert.
Foto von marneejill / CC BY-SANeue 3D-Klangerzeugungsmethode
Surround-Sound ist hĂ€ufig in Spielen oder Filmen zu finden, 3D-Sound ist jedoch in bedingten Videos im Netzwerk selten. FĂŒr die Aufnahme sind teure GerĂ€te erforderlich, die den Erstellern des Videos nicht immer zur VerfĂŒgung stehen. Oft werden nur Smartphones fĂŒr die Aufnahme verwendet.
Eine auf diese Weise aufgenommene Audiospur schrĂ€nkt unsere Wahrnehmung von Videos ein: Sie kann nicht vermitteln, wie sich Schallquellen im Raum befinden und wie sie sich bewegen. Aus diesem Grund kann sich der Ton des Videos "flach" anfĂŒhlen.
UT Austin wurde von einem Professor an der UniversitĂ€t, Kristen Grauman, und einem Studenten, Ruohan Gao, angegangen. Sie entwickelten ein System, das auf Algorithmen fĂŒr maschinelles Lernen basiert und es ermöglicht, Monokanal-Audioaufnahmen in âSurroundâ -Videoaufnahmen umzuwandeln. Die Technologie heiĂt "2.5D Visual Sound".
Dies ist kein vollwertiger rĂ€umlicher Klang, sondern "modelliert". Laut den Entwicklern ist der Unterschied fĂŒr den durchschnittlichen Hörer jedoch kaum wahrnehmbar.
Wie Technologie funktioniert
Das an UT Austin entwickelte System
verwendet zwei neuronale Netze.
Das erste neuronale Netzwerk wurde auf Basis der
ResNet- Architektur erstellt, die 2015 von Forschern von Microsoft eingefĂŒhrt wurde. Es erkennt Objekte im Video und sammelt Informationen ĂŒber ihre Bewegung im Rahmen. Am Ausgang generiert das Netzwerk eine Matrix, die als Feature-Map bezeichnet wird, mit den Koordinaten der Objekte in jedem Frame des Videos.
Diese Informationen werden an das zweite neuronale Netzwerk ĂŒbertragen - Mono2Binaural. Es wurde an der University of Texas entwickelt. Das Netzwerk empfĂ€ngt auch
Spektrogramme von Audioaufnahmen, die unter Verwendung der
Fenster-Fourier-Transformation unter Verwendung
der Hann-Funktion erhalten wurden .
Mono2Binaural besteht aus zehn
Faltungsschichten . Nach jeder dieser Schichten im Netzwerk gibt es einen Batch-Normalisierungsblock, der
die Genauigkeit der Algorithmusprognose
erhöht , und einen linearen Gleichrichtungsblock mit der ReLU-
Aktivierungsfunktion .
Die Faltungsschichten des neuronalen Netzwerks analysieren FrequenzĂ€nderungen im Spektrogramm und bilden eine Matrix, die Informationen darĂŒber enthĂ€lt, welcher Teil des Spektrogramms zum linken und welcher zum rechten Audiokanal gehören soll. Dann wird unter Verwendung der Fourier-Transformation des inversen Fensters eine neue Audioaufnahme erzeugt.
Gleichzeitig kann Mono2Binaural rĂ€umlichen Ton fĂŒr jedes der Objekte im Video separat wiedergeben. Beispielsweise kann ein neuronales Netzwerk zwei Instrumente in einem Video erkennen - eine Trommel und eine Pfeife - und fĂŒr jedes eine separate Tonspur erstellen.
Meinungen zu â2.5D Visual Soundâ
Laut den Entwicklern selbst ist es ihnen gelungen, eine Technologie zu entwickeln, die ein "realistisches rĂ€umliches GefĂŒhl" erzeugt. Mono2Binaural zeigte beim Testen ein gutes Ergebnis, und daher sind sich die Autoren sicher, dass ihr Projekt ein groĂes Potenzial hat.
Um die Wirksamkeit ihrer Technologie zu beweisen, fĂŒhrten Experten eine Reihe von Experimenten durch. Sie luden eine Gruppe von Personen ein, die den Sound von zwei Tracks verglichen: einer wurde mit Mono2Binaural erstellt und der zweite mit der Ambisonics-Methode.
Letzteres wurde an der University of California in San Diego entwickelt. Diese Methode erzeugt auch âSurroundâ -Audio aus Monosound, funktioniert jedoch im Gegensatz zur neuen Technologie nur mit 360-Grad-Videos.
Die meisten Hörer wÀhlten Mono2Binaural-Audio als dem tatsÀchlichen Klang am nÀchsten. Tests zeigten auch, dass Benutzer in 60% der FÀlle den Ort der Schallquelle anhand des Ohrs genau identifizierten.
Der Algorithmus hat noch einige Nachteile. Beispielsweise unterscheidet ein neuronales Netzwerk nicht zwischen den GerĂ€uschen einer groĂen Anzahl von Objekten. AuĂerdem kann sie die Position der Tonquelle, die sich nicht im Video befindet, offensichtlich nicht bestimmen. Die Entwickler planen jedoch, diese Probleme zu lösen.
Technologie-Analoga
Auf dem Gebiet der Video-Tonerkennung gibt es mehrere Ă€hnliche Projekte. Wir haben frĂŒher ĂŒber einen von ihnen geschrieben. Dies ist ein â
visuelles Mikrofon â von Experten des MIT. Ihr Algorithmus erkennt mikroskopische Schwingungen von Objekten unter dem Einfluss von Schallwellen auf ein stilles Video und stellt anhand dieser Daten den im Raum hörbaren Ton wieder her. Wissenschaftler konnten die Melodie des Liedes
Mary Had a Little Lamb aus einer Packung Chips, heimischen Pflanzen und sogar Ziegeln "lesen".
Foto Quinn Dombrowski / CC BY-SAAndere Projekte entwickeln Technologien fĂŒr die Aufzeichnung von Ton in 360-Grad-Videos. Einer von ihnen ist Ambisonics, den wir bereits erwĂ€hnt haben. Das Prinzip des Algorithmus Ă€hnelt dem von Mono2Binaural: Es
analysiert die Bewegung von Objekten im Rahmen und korreliert sie mit KlangÀnderungen. Die Ambisonics-Technologie weist jedoch mehrere EinschrÀnkungen auf: Das neuronale Netzwerk funktioniert nur mit 360-Grad-Videos und gibt keinen guten Ton aus, wenn die Aufnahme ein Echo enthÀlt.
Ein weiteres Projekt in diesem Bereich ist Sol VR360 von G-Audio. Im Gegensatz zu anderen Entwicklungen wurde die Technologie
bereits im Anwenderdienst fĂŒr die Sol-Soundverarbeitung
implementiert . Es erzeugt rĂ€umliches Audio fĂŒr 360-Grad-Videos von Konzerten oder Sportarten. Der Nachteil des Dienstes ist, dass die generierten Clips nur in Sol-Anwendungen abgespielt werden.
Schlussfolgerungen
Entwickler von Systemen zur Erzeugung von rĂ€umlichem Klang sehen das Hauptanwendungsgebiet der Technologie in VR- und AR-Anwendungen fĂŒr das maximale Eintauchen einer Person in die AtmosphĂ€re eines Spiels oder Films. Wenn es möglich ist, eine Reihe von Schwierigkeiten zu ĂŒberwinden, mit denen sie konfrontiert sind, kann die Technologie auch dazu verwendet werden, sehbehinderten Menschen zu helfen. Mithilfe solcher Systeme können sie detaillierter verstehen, was im Rahmen der Videos geschieht.
Mehr zur Audiotechnologie in unserem Telegrammkanal:
A. A.
InSight zeichnete zuerst die GerÀusche des Marswinds auf
Acht Audiotechnologien, die 2019 in die TECnology Hall of Fame aufgenommen werden
Aktive Fenster zur GerĂ€uschunterdrĂŒckung ĂŒbertönen die GerĂ€usche der Metropole