Eine einfache Möglichkeit, mit Ihrer Website zu sprechen

Bild

Technologie und Märkte gehen heute Hand in Hand. Es geht so nahe, dass jeder Hauch von technischem Fortschritt und sozialen Medien in Raserei darüber steigt. Autoren füllen Seiten für Seiten, als ob es bereits hier wäre. Aktien reiten Bullen oder Bären, und Zeitungen drucken eine Reihe von Großbuchstaben.

Die Gefahr einer solchen journalistischen Überreaktion besteht darin, dass wir viele einfache Tools verpassen, viele kleine, aber innovative Ideen, die unseren Netzwerkraum umgeben. Ein Blick in die Zukunft macht uns blind für die Gelegenheit im gegenwärtigen Moment.

Webentwicklungsunternehmen drängen darauf, dass digitales Marketing dazu führt, mehr über die Möglichkeit von Blockchains zu schreiben, die die Welt verändern, oder darüber, wie künstliche Intelligenz die nächstgrößere Sache ist. Ihnen fehlt etwas sehr Innovatives und Interessantes. Es ist die Möglichkeit, Ihre Website interaktiv zu gestalten.

Stellen Sie sich vor, Sie sprechen mit Ihrer Website, damit Ihr Favorit den Hintergrund auswählt. Ihre Website, die Ihnen antwortet, könnte künstliche Intelligenz sein, aber Sie müssen nicht so weit gehen, um mit Ihrer Website zu sprechen. Das Tool befindet sich in Ihrem Browser und Sie sind sich dessen nicht einmal bewusst. Wir sprechen über die Web Speech API von Google. Lassen Sie uns zunächst einige wesentliche Elemente der Sprache betrachten, bevor wir uns eingehender mit den Google Web Speech-APIs befassen

Einige Grundlagen der Sprache


Sprechen ist jetzt einfach, sogar ein Kind kann sprechen, aber Spracherkennung ist kein Kinderspiel. Unser Geist und seine Beziehung zum Gehirn sind viel komplizierter als angenommen. Daher sind Computer, obwohl sie in einigen Aspekten außergewöhnlich sind, in der Wahrnehmung bei weitem nicht in der Nähe des menschlichen Gehirns. Computer brauchen viel Hilfe, um Wörter zu hören, da Sprache kein Spaziergang im Park ist.

Sprache ist ein komplexes Phänomen, das untersucht werden muss. Es wird seltsamer, wenn wir tiefer hineingehen. Sprache ist daher nicht nur eine Zusammenstellung von Wörtern, die aneinandergereiht sind. Jedes Mal, wenn wir sprechen, enthält unsere Äußerung Tonpakete, die als Telefon bezeichnet werden. Zum Beispiel: Wenn wir das Wort "MAT" sagen, sprechen wir Telefone "m", "a", "t" aus. Aber die Art und Weise, wie wir einen Klang sprechen und wie unser Verstand ihn auffasst, ist völlig anders. Erinnern Sie sich an diese Fälle, in denen Sie bereits vor der Vervollständigung eines Satzes reagieren? Sie haben es getan, weil es einige grundlegende Klangblöcke gibt, die Ihr Geist unbewusst wahrnimmt. Diese Elemente werden Phoneme genannt.

Darüber hinaus gibt es verschiedene Elemente der Linguistik, die berücksichtigt werden müssen. Zum Beispiel die Syntax, die die grammatikalische Struktur einer Sprache und die Semantik - die Bedeutung von Wörtern - herausarbeitet und wie sie ihre ganzheitliche Bedeutung eines Satzes hervorbringen.

Wie hören Computer auf Sie?


Die Spracherkennung ist eine interdisziplinäre Wissenschaft und kombiniert die subtilen Konzepte aus Linguistik, Signalverarbeitung, Verarbeitung natürlicher Sprache und vielem mehr. Der Einfachheit halber müssen wir die folgenden Ansätze berücksichtigen, um zu verstehen, wie Computer Sprache interpretieren:

1. Mustervergleich


Möglicherweise erinnern Sie sich an die Computerstimme Ihrer Tankstelle, die Sie zur Auswahl auffordert, indem Sie 1 oder 2 auf Ihrer mobilen Tastatur drücken, um eine neue Gasflasche zu buchen. Mit dieser Technik wird der Computer trainiert, um zehn Klangmuster zu unterscheiden. Die "Eins", "Null", "Zehn" usw. sind die Geräusche, die in dieser Mustervergleichsübung erkannt werden. Ein Computer ordnet die bereits im Speicher gespeicherten Tonblöcke weiteren Aktionen zu. Deshalb hören Sie "Entschuldigung, wir haben Sie nicht erwischt", wenn Sie ein wenig beiläufig Null sprechen.

2. Analyse von Merkmalen und Mustern


Ein typisches Spracherkennungswerkzeug kann ein großes Vokabular von Tönen erfassen. Sie fragen sich vielleicht, wie es das macht? Sobald Sie einen A / D-Wandler (Analog / Digital) in Ihr Mikrofon sprechen, wandelt er die Vibrationen in digitale Texte um. Das Spektrogramm zeichnet dann die digitalen Daten unter Verwendung einer Signalverarbeitungstechnik namens FTT (Fast Fourier Transform) in einem Diagramm auf. Dann wird die Wellenform in überlappende Blöcke unterteilt, die als akustische Rahmen bezeichnet werden - die Trennung, die durch Verwendung einer Zeitlücke von 1/50 Sekunde oder 1/25 Sekunde erzeugt wird. Hier wird die Sprache in mögliche Wörter aufgeteilt und dann mit einem phonetischen Wörterbuch verglichen, um das gesprochene Wort genau zu bestimmen.

3. Statistische Methode


Die Art und Weise, wie jede Person ein Wort ausspricht, ist einzigartig unterschiedlich. Sogar dieselbe Person kann dasselbe Wort ein anderes Mal anders aussprechen. Daher muss sich ein System, das wesentliche Elemente aus einem großen Pool entschlüsseln muss, mit dem Problem der Variabilität befassen. Die modernen Spracherkennungswerkzeuge verwenden Sprachmodelle, um das Problem der Variabilität zu behandeln.

Modelle wie das Hidden Markov Model (HMV) verwenden probabilistisches Raten unter Verwendung grammatikalischer Gesetze, um zum wahrscheinlichsten Wort zu gelangen. Es verfeinert seine Genauigkeit, indem es selbst den kleinsten Ton erweitert, der aufgenommen wird. Dem Wortbeispiel geht im Englischen eine sehr selektive Anzahl von Wörtern wie "für", "schlecht", "gut" usw. voraus. Wenn der Erkennungsprozess bei "Es ist ein ___ Beispiel" hängt. Und ein leises Geräusch wie "g" wurde identifiziert, dann rundet das System das leere Wort auf "gut" ab.

4. Künstliche Neuronale Netze


Sie sind vereinfachte menschliche Gehirne, die anhand von Beispielen lernen können. Wenn die ANNs mit genügend Abtastwerten trainiert werden, kann dies mit zuvor gesehenen Mustern korrelieren, um zum richtigen Wort zu gelangen. So kann ein voll trainiertes neuronales Netzwerk die Spracherkennung auf ein anderes Niveau bringen.

So können Sie Ihre Site ändern


Wir werden die Web Speech API verwenden, die 2012 von der W3C-Community entwickelt wurde. Viele Browser verwenden sie aus dem einen oder anderen Grund nicht. Chrome und Firefox haben dies jedoch in ihre Browser integriert. Deshalb können Sie die Sprachsuche bei Google durchführen.

Die Web Speech API wird unsere Schnittstelle sein, die bereits andere eng miteinander verbundene Aspekte der Sprache wie Grammatik, Wortschatz usw. enthält.

Ihr Werkzeug sieht wie oben aus. Alles was Sie tun müssen, um diesen Code auszuführen. Der folgende CSS-Code gibt dem Design Ihrer Erkennungsfunktion die Farb- und Anzeigefunktionen. Hier wird nur ein einfaches Modell vorgestellt. Sie können Ihrer Kreativität Ausdruck verleihen, indem Sie die CSS-Codes ändern.

<!-- CSS Styles --> <style> html, body { display: flex; align-items: center; justify-content: center; background-color: lightblue; } .record { position: relative; width: 246px; display: inline-block; } .record input { text-align:center; border: 0; width: 240px; display: inline-block; height: 30px; } .record img { float: right; width: 25px; height: 25px; border: none; position: absolute; right: 7px; top: 3px; } .container { display: inline-block; text-align: center; } h1 { font-family: constantia; } </style> 

Der nächste Satz von Codes ruft die API auf, um die eigentliche Spracherkennung für Sie durchzuführen. Die erforderlichen HTML- und Java-Skripte sind im Set enthalten.

 <!DOCTYPE html> <html> <head> <title>Voice Recognition: Habr</title> </head> <body> <!-- Search Form --> <div class="container"> <h1>Voice Recognition in HTML</h1> <div class="record"> <form id="speak-form" method="get" action="https://www.google.com/search"> <input type="text" name="q" id="transcript" placeholder="Speak" /> <img onclick="startRecording()" src="http://icons.iconarchive.com/icons/designbolts/free-multimedia/1024/Studio-Mic-icon.png" /> </form> </div> </div> </body> </html> <!-- HTML5 Speech Recognition API --> <script> function startRecording() { if (window.hasOwnProperty('webkitSpeechRecognition')) { var recognition = new webkitSpeechRecognition(); recognition.continuous = false; recognition.interimResults = false; recognition.lang = "en-US"; recognition.start(); recognition.onresult = function(e) { document.getElementById('transcript').value = e.results[0][0].transcript; recognition.stop(); document.getElementById('speak-form').submit(); }; recognition.onerror = function(e) { recognition.stop(); } } } </script> 

Das oben beschriebene einfache Tool kann vielen Websites, die Schwierigkeiten haben, interaktiv und einzigartig zu sein, ein neues Zeitfenster eröffnen. Die Webentwicklung sollte zuerst solche einfachen und skalierbaren Techniken implementieren. Intelligente Webentwicklung sollte das richtige Gleichgewicht zwischen entscheidenden Webdesign-Geheimnissen und solchen einfachen integrativen Tools finden. Die Web-API kann außerdem in der Entwicklung mobiler Apps verwendet werden, um Smartphones zu verbessern und intelligent zu machen. Schauen Sie sich diese Funktion jetzt an und haben Sie viel Spaß beim Chatten mit Ihrer Website.

Source: https://habr.com/ru/post/de446056/


All Articles