Un moyen simple de parler à votre site Web

image

La technologie et les marchés vont de pair aujourd'hui. Cela va si près que toute bouffée d'avancée technologique et de médias sociaux monte dans une frénésie à ce sujet. Les écrivains remplissent les pages après les pages comme s'il était déjà là. Les actions roulent en taureau ou en ours et les journaux impriment une chaîne de lettres majuscules.

Le piège d'une telle réaction journalistique excessive est que nous manquons de nombreux outils simples, de nombreuses idées petites mais innovantes qui entourent notre espace de réseautage. Un œil sur l'avenir nous rend aveugles à l'opportunité du moment présent.

Les sociétés de développement Web exhortent le marketing numérique à écrire davantage sur la possibilité que les chaînes de blocs transforment le monde ou sur la façon dont l'intelligence artificielle est la prochaine grande chose. Il leur manque quelque chose de très innovant et de prospectif. C'est la possibilité de rendre votre site Web interactif.

Imaginez parler à votre site Web pour faire votre choix préféré l'arrière-plan. Votre site qui vous répond pourrait être de l'intelligence artificielle, mais vous n'avez pas besoin d'aller aussi loin pour parler à votre site Web. L'outil est là en train de dormir dans votre navigateur, et vous n'êtes même pas au courant. Nous parlons de l'API Web Speech de Google. Examinons d'abord certains éléments essentiels de la parole avant d'approfondir les API Google Web Speech

Quelques principes de base du discours


Maintenant, parler est facile, même un enfant peut parler, mais la reconnaissance vocale n'est pas un jeu d'enfant. Notre esprit et sa relation avec le cerveau sont beaucoup plus compliqués qu'on ne le pensait. Par conséquent, les ordinateurs, bien qu'exceptionnels à certains égards, sont loin d'être perceptibles par le cerveau humain. Les ordinateurs ont besoin de beaucoup d'aide pour écouter les mots car la parole n'est pas une promenade dans le parc.

La parole est un phénomène complexe à étudier. Cela devient plus étrange à mesure que nous approfondissons. La parole n'est donc pas simplement un assortiment de mots enchaînés. Chaque fois que nous parlons, notre énoncé contient des paquets de son appelés un téléphone. Par exemple: lorsque nous prononçons le mot «MAT», nous prononçons les téléphones «m», «a», «t». Mais la façon dont nous prononçons un son et la façon dont notre esprit le conçoit sont entièrement différentes. Vous souvenez-vous de ces cas où vous réagissez avant même la fin d'une phrase? Vous l'avez fait parce qu'il y a des blocs sonores fondamentaux que votre esprit perçoit inconsciemment, ces éléments sont appelés phonèmes.

En plus de cela, il y a divers éléments de linguistique qu'il faut considérer. Par exemple, la syntaxe qui élabore la structure grammaticale d'une langue et la sémantique - le sens des mots - et comment ils produisent leur sens holistique d'une phrase.

Comment les ordinateurs vous écoutent?


La reconnaissance vocale est une science interdisciplinaire et combine les concepts subtils de la linguistique, du traitement du signal, du traitement du langage naturel et bien plus encore. Par souci de simplicité, nous devons considérer les approches suivantes pour comprendre la façon dont les ordinateurs interprètent la parole:

1. Correspondance des motifs


Vous vous souvenez peut-être de la voix informatisée de votre station de réservation d'essence vous demandant de choisir en appuyant sur 1 ou 2 sur votre clavier mobile pour réserver une nouvelle bouteille de gaz. Pour ce faire, l'ordinateur a été formé pour différencier dix modèles sonores. Le «un», le «zéro», le «dix», etc. sont les sons détectés dans cet exercice d'appariement de motifs. Un ordinateur fait correspondre les blocs de son déjà stockés en mémoire à d'autres actions. C'est pourquoi vous entendez «Désolé, nous ne vous avons pas eu» lorsque vous parlez zéro un peu négligemment.

2. Analyse des caractéristiques et des modèles


Un outil de reconnaissance vocale typique peut concevoir un vaste vocabulaire de sons. Vous vous demandez peut-être comment cela fonctionne? Au moment où vous parlez dans votre micro, un convertisseur A / N (analogique / numérique) convertit les vibrations en textes numériques. Le spectrogramme trace ensuite les données numériques dans un graphique, en utilisant une technique de traitement du signal appelée FTT (Fast Fourier Transform). Ensuite, la forme d'onde est divisée en blocs superposés appelés trames acoustiques - la séparation créée en utilisant un intervalle de temps de 1 / 50e de seconde ou 1 / 25e de seconde. Ici, le discours est divisé en mots possibles et est ensuite comparé à un dictionnaire phonétique et ainsi localiser le mot prononcé.

3. Méthode statistique


La façon dont chaque personne prononce un mot est unique. Même la même personne peut prononcer le même mot différemment une autre fois. Par conséquent, un système qui doit déchiffrer des éléments essentiels d'un grand bassin doit faire face au problème de la variabilité. Les outils modernes de reconnaissance vocale utilisent des modèles de langage pour traiter le problème de la variabilité.

Des modèles tels que le modèle de Markov caché (HMV), utilisent des suppositions probabilistes utilisant des lois grammaticales pour arriver au mot le plus probable. Il affine sa précision en élargissant même le plus petit son capturé. L'exemple de mot est précédé en anglais d'un nombre très sélectif de mots comme «pour», «mauvais», «bon», etc. Si le processus de reconnaissance est suspendu, dites «C'est un exemple ___». Et un léger son comme «g» a été identifié, puis le système arrondit le mot vide pour signifier «bon».

4. Réseaux de neurones artificiels


Ce sont des cerveaux humains simplifiés qui sont capables d'apprendre à travers des exemples. Par conséquent, si les RNA sont formés avec suffisamment d'échantillons, il peut alors le corréler avec les schémas précédemment vus pour arriver au bon mot. Un réseau neuronal parfaitement formé peut donc porter la reconnaissance vocale à un niveau différent.

Voici comment modifier votre site


Nous utiliserons l'API Web Speech qui a été développée par la communauté W3C en 2012. De nombreux navigateurs ne l'utilisent pas pour l'une ou l'autre raison. Mais Chrome et Firefox ont intégré cela dans leurs navigateurs, et c'est pourquoi vous pouvez effectuer une recherche vocale sur Google.

L'API Web Speech sera notre interface qui a déjà d'autres aspects étroitement liés de la parole comme la grammaire, le vocabulaire, etc.

Votre outil ressemblera à celui ci-dessus. Tout ce dont vous avez besoin pour exécuter ce code. Le code CSS ci-dessous donne la conception à votre fonction de reconnaissance des fonctionnalités de couleur et d'affichage. Ici, seul un modèle simple est présenté. Vous pouvez exprimer votre créativité en modifiant les codes CSS.

<!-- CSS Styles --> <style> html, body { display: flex; align-items: center; justify-content: center; background-color: lightblue; } .record { position: relative; width: 246px; display: inline-block; } .record input { text-align:center; border: 0; width: 240px; display: inline-block; height: 30px; } .record img { float: right; width: 25px; height: 25px; border: none; position: absolute; right: 7px; top: 3px; } .container { display: inline-block; text-align: center; } h1 { font-family: constantia; } </style> 

Le prochain ensemble de codes appellera l'API pour effectuer la reconnaissance vocale réelle pour vous. Les scripts HTML et Java nécessaires sont inclus dans l'ensemble.

 <!DOCTYPE html> <html> <head> <title>Voice Recognition: Habr</title> </head> <body> <!-- Search Form --> <div class="container"> <h1>Voice Recognition in HTML</h1> <div class="record"> <form id="speak-form" method="get" action="https://www.google.com/search"> <input type="text" name="q" id="transcript" placeholder="Speak" /> <img onclick="startRecording()" src="http://icons.iconarchive.com/icons/designbolts/free-multimedia/1024/Studio-Mic-icon.png" /> </form> </div> </div> </body> </html> <!-- HTML5 Speech Recognition API --> <script> function startRecording() { if (window.hasOwnProperty('webkitSpeechRecognition')) { var recognition = new webkitSpeechRecognition(); recognition.continuous = false; recognition.interimResults = false; recognition.lang = "en-US"; recognition.start(); recognition.onresult = function(e) { document.getElementById('transcript').value = e.results[0][0].transcript; recognition.stop(); document.getElementById('speak-form').submit(); }; recognition.onerror = function(e) { recognition.stop(); } } } </script> 

L'outil simple décrit ci-dessus peut ouvrir une nouvelle fenêtre d'opportunité à de nombreux sites qui ont du mal à être interactifs et uniques. Le développement Web doit d'abord mettre en œuvre ces techniques simples et évolutives. Le développement Web intelligent doit trouver le bon équilibre entre les secrets cruciaux de la conception Web et ces outils d'intégration simples. L'API Web peut en outre être utilisée dans le développement d'applications mobiles pour améliorer les smartphones et les rendre intelligents. Consultez donc cette fonctionnalité maintenant et passez un bon moment à discuter avec votre site Web.

Source: https://habr.com/ru/post/fr446056/


All Articles