Maschinengerücht. SoundNet neuronales Netzwerk trainiert, um Objekte durch Ton zu erkennen


Links: Ein Versuch, die Szene und Objekte nur am Ton zu erkennen. Rechts: eine echte Tonquelle.

In jüngster Zeit haben neuronale Netze erhebliche Fortschritte bei der Erkennung von Objekten und Szenen in Videos erzielt. Solche Erfolge werden durch Training an massiven Datensätzen mit markierten Objekten ermöglicht (siehe z. B. „Erlernen tiefer Funktionen für die Szenenerkennung mithilfe der Ortsdatenbank“ . NIPS, 2014). Durch Betrachten von Fotos oder Videos kann der Computer die Szene fast genau bestimmen, indem er aus 401 Szenen eine geeignete Beschreibung auswähltZum Beispiel eine überfüllte Küche, eine stilvolle Küche, ein Schlafzimmer für Teenager usw. Auf dem Gebiet des Verständnisses haben die Klänge des neuronalen Netzwerks jedoch noch keinen solchen Fortschritt gezeigt. Spezialisten des Informatik- und Künstlichen Intelligenzlabors (CSAIL) des Massachusetts Institute of Technology haben diesen Mangel durch die Entwicklung des SoundNet-Systems für maschinelles Lernen behoben .

In der Tat ist es genauso wichtig, eine Szene per Ton zu lokalisieren wie eine Szene per Video. Am Ende kann das Bild von der Kamera oft verschwommen sein oder nicht genügend Informationen liefern. Wenn das Mikrofon funktioniert, kann der Roboter bereits herausfinden, wo es sich befindet.

Aus wissenschaftlicher Sicht ist das Training von neuronalen SoundNet-Netzen eine banale Aufgabe. CSAIL-Mitarbeiter verwendeten die natürliche Synchronisationsmethode zwischen Bildverarbeitung und maschinellem Hören und lehrten das neuronale Netzwerk, die Klangdarstellung eines Objekts automatisch aus nicht zugewiesenem Videomaterial zu extrahieren. Für das Training verwendeten wir ungefähr 2 Millionen Flickr-Videos (26 TB Daten) sowie eine Datenbank mit kommentierten Sounds - 50 Kategorien und ungefähr 2000 Samples.


SoundNet-Architektur für neuronale Netze

Obwohl das Training des neuronalen Netzwerks unter visueller Beobachtung stattfand, liefert das System im Offline-Modus ein hervorragendes Ergebnis, indem mindestens drei akustische Standardszenen klassifiziert werden, nach denen die Entwickler dies überprüft haben. Darüber hinaus ergab ein Test des neuronalen Netzwerks, dass sie unabhängig voneinander lernte, die für einige Szenen charakteristischen Geräusche zu erkennen, und die Entwickler stellten ihre Beispiele nicht zur spezifischen Erkennung dieser Objekte zur Verfügung. Anhand des nicht markierten Videomaterials erfuhr das neuronale Netzwerk selbst, welche Szene dem Klang einer jubelnden Menge (dies ist ein Stadion) und eines Vogel-Twitter (dies ist ein Rasen oder ein Park) entspricht. Gleichzeitig mit der Szene erkennt das neuronale Netzwerk ein bestimmtes Objekt, das die Schallquelle ist.

Das Video zeigt einige Beispiele zum Erkennen von Objekten anhand von Ton. Zuerst werden die Töne und das Erkennungsergebnis angezeigt und das Bild selbst wird unscharf - Sie können also versuchen, sich selbst zu überprüfen. Werden Sie in der Lage sein, den Ort der Aktion und das Vorhandensein bestimmter Objekte nur durch Schall so genau zu verstehen wie das neuronale Netzwerk? Was bedeutet zum Beispiel höchstwahrscheinlich das Lied "Happy Birthday To You!", Das von mehreren Personen gleichzeitig gesungen wird? Die richtige Antwort: Das Objekt brennt Kerzen , die Szene ist ein Restaurant, ein Café, eine Bar .


"Die Bildverarbeitung hat begonnen, so gut zu funktionieren, dass wir diese Technologie auf andere Bereiche übertragen können", sagte Carl Vondrick, Student am Massachusetts Institute of Technology für Elektrotechnik und Informatik, einer der Autoren der wissenschaftlichen Arbeit. - Wir haben die natürliche Beziehung zwischen Computer Vision und Sound genutzt. Aufgrund der Vielzahl unbeschrifteter Videomaterialien war es möglich, einen großen Maßstab zu erreichen, sodass das neuronale Netzwerk gelernt hat, Ton zu verstehen. “

SoundNet-Tests wurden an zwei Standarddatenbanken für Tonaufnahmen durchgeführt und zeigten eine um 13-15% höhere Genauigkeit der Objekterkennung als die besten dieser Programme. In einem Datensatz mit 10 verschiedenen Klangkategorien klassifiziert SoundNet Klänge mit einer Genauigkeit von 92% und in einem Datensatz mit 50 Kategorien mit einer Genauigkeit von 74%. Zum Vergleich zeigen Personen mit denselben Datensätzen eine Erkennungsgenauigkeit von durchschnittlich 96% und 81%.



Sogar Menschen können manchmal nicht genau bestimmen, was sie hören. Versuchen Sie, ein solches Experiment selbst durchzuführen. Lassen Sie einen Kollegen ein beliebiges Video von YouTube starten - und Sie versuchen, nicht auf den Monitor zu schauen, um zu sagen, was passiert, woher die Geräusche kommen und was auf dem Bildschirm angezeigt wird. Weit davon entfernt, immer zu erraten. Die Aufgabe für künstliche Intelligenz ist also nicht einfach, aber SoundNet hat es ganz gut geschafft.

In Zukunft könnten solche Computerprogramme praktische Anwendung finden. Beispielsweise erkennt Ihr Mobiltelefon automatisch, dass Sie einen öffentlichen Ort betreten haben - ein Kino oder ein Theater - und schaltet die Ruftonlautstärke automatisch stumm. Wenn der Film gestartet wurde und sich das Publikum beruhigt hat, schaltet das Telefon den Ton automatisch aus und den Vibrationsalarm ein.

Die Orientierung nach Gelände durch Geräusche hilft bei Steuerungsprogrammen für autonome Roboter und andere Maschinen.

In Sicherheitssystemen und Smart Homes kann das System auf bestimmte Geräusche automatisch auf bestimmte Geräusche reagieren. Zum Beispiel das Geräusch eines zerbrochenen Fensters. In den „Smart Cities“ der Zukunft wird die Erkennung von Straßenlärm helfen, die Ursachen zu verstehen und mit Schallverschmutzung umzugehen.

Wissenschaftliche Artikel veröffentlicht 27. Oktober 2016 in den offenen Zugang zu arXiv.org (arXiv: 1610,09001, pdf ).

Source: https://habr.com/ru/post/de399659/


All Articles