Dem Programm wurde beigebracht, realistische Töne fĂŒr Fotos auszuwĂ€hlen.
Wenn man sich ein Foto ansieht, kann eine Person leicht erraten, welcher Ton diesem Rahmen entsprechen soll.Solides Wissen geht mit Lebenserfahrungen einher. Wir beobachten verschiedene Ereignisse im Leben und hören GerĂ€usche. Mit der Erfahrung hat sich eine groĂe Sammlung im Gehirn angesammelt. Eine Person fĂŒhrt eine schnelle assoziative Suche im GedĂ€chtnis durch, wĂ€hlt den am besten geeigneten Ton aus - und reproduziert ihn durch Betrachten eines Fotos.UngefĂ€hr das gleiche Prinzip gilt fĂŒr das neue Programm, das von Spezialisten von Disney Research und der Schweizerischen Technischen Hochschule ZĂŒrich entwickelt wurde, um Töne fĂŒr Fotos auszuwĂ€hlen. Im Prinzip haben die Autoren des Programms speziell versucht, den menschlichen Prozess der Herstellung der Beziehung zwischen Ton und Bild zu kopieren.Informationen ĂŒber GerĂ€usche können nicht nur aus der RealitĂ€t gewonnen werden. Im Kindergarten wird allen Kindern unbedingt beigebracht, dass die Kuh âmuâ sagt.Filme und Computerspiele fĂŒllen die Gehirnsammlung von KlĂ€ngen weitgehend auf. SchlieĂlich zeigen sie oft Ereignisse, ĂŒber die Menschen keine Lebenserfahrung haben. Daher weiĂ fast jeder, wie ein Schuss aus einer Pistole klingt, obwohl nur wenige Menschen ihn in der RealitĂ€t gehört haben. Es kann davon ausgegangen werden, dass die GerĂ€usche aus Filmen / Spielen mehr als die HĂ€lfte aller GerĂ€usche ausmachen, die sich im GedĂ€chtnis eines Menschen angesammelt haben.Das Disney Research-Programm wurde auch darauf trainiert, eine Sammlung von Sounds nach Filmmaterial zu komponieren. Dies ist keine so einfache Aufgabe, da das System eine groĂe Anzahl von NebengerĂ€uschen herausfiltern und genau bestimmen muss, welches Objekt welchem ââGerĂ€usch entspricht.Die Interpretation visueller Inhalte ist eine SchlĂŒsselaufgabe der Bildverarbeitung. In den letzten Jahren wurden in diesem Bereich viele beeindruckende Ergebnisse bei der Klassifizierung und Erkennung von Objekten, der Segmentierung, Verfolgung und 3D-Rekonstruktion erzielt. Das Erlernen des neuronalen Netzwerks der Beziehung zwischen visuellen Inhalten und Audiodaten ist jedoch noch ein ziemlich unerforschter Bereich.In diesem Zusammenhang sollte angemerkt werden, dass das menschliche Gehirn zu erstaunlichen Dingen fĂ€hig ist. Zum Beispiel kann er einen âgeeignetenâ Ton aufnehmen, der im Prinzip nicht existieren kann. Zum Beispiel das GerĂ€usch einer wachsenden Blume, obwohl die Blumen im Prinzip keine GerĂ€usche abgeben. Die Autoren des neuen Programms wollten die FunktionalitĂ€t des menschlichen Gehirns im Bereich solcher Fantasien nicht kopieren. Obwohl dies möglich ist, denke ich.Wie man Ton erzeugt
Eine der Optionen zum AuswĂ€hlen von Ton fĂŒr ein Objekt ist die Synthese von Ton gemÀà den physikalischen Eigenschaften des Objekts im Video. Auf diese Weise kann jedoch eine sehr begrenzte Anzahl von Objekten geĂ€uĂert werden.Im Gegensatz dazu sammelten das System von Disney Research und die Swiss Higher Technical School in ZĂŒrich Samples von vorgefertigten Sounds aus echten Videos. Das Video zeigt Beispiele fĂŒr solche Videos, die fĂŒr das Training verwendet wurden.Dann wurde dem System beigebracht, den gewĂŒnschten Klang von AuĂenstehenden zu trennen. Das Hauptprinzip bei diesem Verfahren besteht darin, in allen Videos eines Objekts einen Ă€hnlichen Ton zu finden. Dieser Ton ist der Ton des Objekts, und alles andere ist HintergrundgerĂ€usch.Nachdem das System gelernt hat, den geeigneten Ton fĂŒr ein bestimmtes Objekt auszuwĂ€hlen, bleibt die triviale Aufgabe bestehen, da die Erkennung von Objekten im Video des Bildverarbeitungssystems bereits recht gut durchgefĂŒhrt wird.Die Forscher fĂŒhrten Experimente an 9 Objekttypen mit jeweils 10â20 Videobeispielen von 15â90 s Dauer durch. Zur Auswahl der erforderlichen Sounds wurde der kNN-Klassifikator verwendet .
Eine Umfrage unter Personen ergab, dass sie vom Programm gefilterte GerÀusche viel besser erkennen als ungefilterte GerÀusche.
WofĂŒr ist es?
Neben der logischsten Aufgabe des Selbsttrainings von Robotern und anderen kĂŒnstlichen Intelligenzsystemen, die die FunktionalitĂ€t des menschlichen Gehirns kopieren, ist die Tonabbildung auf grafische Objekte in vielen nĂŒtzlichen Bildverarbeitungs- und Multimediaanwendungen nĂŒtzlich. Zum Beispiel, um die Arbeit eines Noise Trucks zu automatisieren - ein Spezialist fĂŒr die Aufzeichnung von Soundeffekten in Filmen und Computerspielen.Es ist bekannt, dass beim Aufnehmen von Filmen die Töne nicht zu ausdrucksstark sind. Um die Ausdruckskraft des Films zu verbessern, werden Soundeffekte separat auf die Videosequenz angewendet. Es wird also ein viel spektakulĂ€rerer und spektakulĂ€rerer Film. DarĂŒber hinaus hilft der RauschunterdrĂŒcker, Fehler zu beseitigen, wenn der tatsĂ€chliche Ton nicht mit der Videosequenz ĂŒbereinstimmt. Zum Beispiel, wenn in einem Film der Held den Gegner hart trifft - aber in Wirklichkeit geben die Schauspieler nur vor, Treffer zu sein. In diesem Fall korrigiert der GerĂ€uschunterdrĂŒcker den Defekt, dh er erzeugt realistische GerĂ€usche von Knochenknirschen, Fleischfressen, flieĂendem Gehirn und anderen attraktiven Effekten.Eine weitere mögliche Anwendung des Programms ist die Sprachausgabe fĂŒr Menschen mit Hörbehinderungen. Jetzt können sie nicht nur die UmgebungsgerĂ€usche hören, sondern sie auch in bester QualitĂ€t, saftig und ohne unnötige GerĂ€usche - wie in einem Film. Normale Menschen ohne Hörbehinderung werden sogar Behinderte beneiden, da Athleten mit einem Bein neidisch auf die völlig beinlosen sind, die einen Wettbewerbsvorteil haben - fortgeschrittenere bionische Prothesen, so dass sie viel schneller laufen und leicht einbeinige (und sogar zweibeinige) Athleten besiegen können.Solche Augmented-Reality-Technologien sind wahrscheinlich in der Unterhaltungsindustrie gefragt, in der eine Person die umgebende RealitĂ€t ĂŒber eine Computerschnittstelle wahrnimmt. SchlieĂlich können wir unnötige Menschen aus der Welt um uns herum blockieren (wie in der Serie Black Mirror). Das System filtert einfach den Klang ihrer Stimme. Ersetzen Sie es durch einen anderen zulĂ€ssigen Ton. Das Bild der blockierten Person wird durch ein anderes Objekt ersetzt, wobei die entsprechenden Töne erzeugt werden. Alternativ können Sie einfach die Stimmen von Kollegen im BĂŒro und Verwandten Ă€ndern, um angenehmere Stimmen zu erhalten. Zum Beispiel kann die Stimme eines Freundes wĂ€hrend abendlicher Liebkosungen in sexuelle Prononen geĂ€ndert werden, fehlende GerĂ€usche hinzufĂŒgen usw.Source: https://habr.com/ru/post/de399317/
All Articles