🔯 ⏲️ 🧕🏾 WaveNet: Computersynthetisierte menschenähnliche Sprache 🧖🏻 🎏 👨‍👩‍👧‍👧

DeepMind ist eine eigenständige Abteilung von Google, die sich mit der Entwicklung künstlicher Intelligenz befasst. Dieses Unternehmen entwickelte AlphaGo , ein System, das den Weltmeister Go Lee Sedol besiegte.

Bei DeepMind geht es aber nicht nur um Spiele. Jetzt entwickeln die Mitarbeiter des Unternehmens ein computergestütztes Sprachsynthesesystem. Wie bei allen anderen DeepMind-Projekten handelt es sich hier um eine schwache Form der künstlichen Intelligenz. Experten zufolge kann sie die Situation mit synthetisierter Sprache dramatisch verbessern.

Die Verwendung von Computern zur Sprachsynthese ist überhaupt keine neue Idee. Die einfachste Lösung besteht darin, Fragmente der Sprache einer realen Person zu verwenden, die in eine Zahl übersetzt wurden. Wir sprechen über einzelne Klänge, die komplexere Klangphrasen, Wörter und Sätze bilden. Diese Methode kann jedoch nicht als ideal bezeichnet werden. Hier bemerkt jeder sofort Probleme mit der Aussprache und Intonation.

In anderen Fällen werden verschiedene mathematische Modelle verwendet, um Klänge zu synthetisieren, aus denen Wörter und Sätze zusammengesetzt werden können. Die Probleme sind ungefähr die gleichen wie im vorherigen Fall. Und es ist sofort klar, was die Maschine sagt, nicht die Person.

Beide Methoden sind insofern ähnlich, als größere und komplexere aus kleinen Fragmenten zusammengesetzt werden. Als Ergebnis einer solchen Zusammenstellung spricht der Computer Wörter und komplexe Phrasen aus.

Die von DeepMind vorgeschlagene dritte Methode, WaveNet, kombiniert die Vorzüge der beiden vorherigen. Das Verfahren verwendet das Training neuronaler Netze unter Verwendung von Fragmenten realer menschlicher Stimmen. Das System erhält auch Informationen über die Regeln der Linguistik und Phonetik, die jedem Einzelfall entsprechen. Dabei zeigt das System eine Textzeile an und ermöglicht es Ihnen, die entsprechenden Sounds "anzuhören". Danach versucht das System, menschliche Sprache unter Verwendung einer Reihe von Fragmenten zu synthetisieren. Dies geschieht Schritt für Schritt, wobei am Beispiel jedes spezifischen Fragments geschult wird. Die Entwicklung wird so durchgeführt, dass jedes vorhergehende "übergebene Material" dem neuronalen Netzwerk eine Idee einer neuen Aufgabe gab.

Das Analogon dessen, was WaveNet und ein herkömmliches Sprachsynthesesystem leisten kann, ist die Erstellung einer Tasse. Ein herkömmliches computergestütztes Sprachsynthesesystem verwendet Legosteine, um eine Tasse herzustellen. Infolgedessen sieht die Tasse gut aus, aber es ist keine Tasse, sondern eine Nachahmung. Aber WaveNet verwendet Ton, um eine Tasse zu erstellen. Die Arbeit wird manuell ohne Töpferscheibe erledigt, aber die Tasse sieht aus wie eine Tasse. Also mit Sprache. WaveNet synthetisiert die menschliche Sprache, die sich geringfügig von unserer gewohnten unterscheidet, jedoch nicht sehr signifikant ist.

Das Ergebnis ist beeindruckend. Sie können hören, was hier passiert ist . Es klingt schon sehr menschlich. Natürlich gibt es Unterschiede, aber sie sind nicht mehr so signifikant wie in anderen Fällen.

Das einzige Problem ist, dass diese Methode viel Computerzeit und Ressourcen erfordert. Ein System, das verständliche menschliche Sprache erzeugen kann, muss sehr leistungsfähig sein. Tatsache ist, dass WaveNet zur Synthese menschlicher Sprache pro Sekunde 16.000 Audio-Samples verarbeitet. Und selbst in diesem Fall ist das Ergebnis von durchschnittlicher Qualität. Bei Tests zur Definition von "Mensch oder Maschine" betrug das Ergebnis jedoch etwa 50%. Das heißt, die Hälfte der Freiwilligen, die das von der Maschine erstellte Audiobeispiel hörten, glaubte, dass dies von einer Person gesagt wurde.

Forscher von DeepMind haben bereits über 44 Stunden Sprache in das System heruntergeladen. Die in das System geladenen Wörter, Töne und Phrasen gehören 109 Teilnehmern des Experiments, die Englisch sprechen. Wie sich herausstellte, kann WaveNet die Sprache fast aller Teilnehmer des Experiments simulieren. Das System reproduziert sogar die Aspirations- und Sprachfehler des ursprünglichen „Sprechers“.

Trotz der Tatsache, dass das System bereits recht gut spricht, ist es noch weit von einer echten Perfektion entfernt. Ein weiteres Problem ist, dass die schwache Form der KI die Sprache noch nicht verstehen kann. IBM hat mit seinem kognitiven System IBM Watson maximale Erfolge in diesem Bereich erzielt. Bisher geht es hier jedoch darum, nicht zu komplizierte mündliche und schriftliche Befehle sowie Antworten auf einfache Fragen zu erkennen. Kognitive Systeme können noch keine Konversation führen. Trotzdem entwickeln sich Technologien und Experten sagen, dass sich die Situation in 5-10 Jahren dramatisch ändern kann.

Eine Reihe von Wissenschaftlern argumentieren, dass der schwachen Form der KI immer noch die spezifischen Komponenten des Geistes fehlen. Und es hängt nicht von der Größe des Netzwerks selbst ab. „Die Sprache baut auf anderen Möglichkeiten auf, die wahrscheinlich tiefer und präsenter bei Babys liegen, noch bevor sie beginnen, die Sprache zu beherrschen: visuelle Wahrnehmung der Welt, Arbeit mit unserem Motorapparat, Verständnis der Physik der Welt und der Absichten anderer Kreaturen“, sagt Tenenbaum.

DeepMind und ein Team von Forschern der Universität von Oxford sind jetzt arbeiten mehr am selben Projekt. Dies ist die Schaffung eines bedingten „roten Knopfes“ für eine starke Form der KI, der vermutlich der Kontrolle einer Person entgehen kann, nachdem eine Person einen künstlichen Geist geschaffen hat.

WaveNet: Computersynthetisierte menschenähnliche Sprache

More articles: