Uma maneira simples de conversar com seu site

imagem

Hoje, a tecnologia e os mercados estão caminhando juntos. Está chegando tão perto que qualquer cheiro de progresso tecnológico e mídia social está subindo em um frenesi sobre isso. Os escritores estão preenchendo páginas após páginas como se já estivesse aqui. As ações montam em alta ou baixa e os jornais imprimem uma série de letras maiúsculas.

A armadilha dessa reação exagerada jornalística é que perdemos muitas ferramentas simples, muitas idéias pequenas, mas inovadoras, que cercam nosso espaço de rede. Um olho no futuro nos torna cegos para a oportunidade no momento presente.

As empresas em desenvolvimento na Web estão incentivando o marketing digital a escrever mais sobre a possibilidade de blockchains transformar o mundo ou como a Inteligência Artificial é a próxima maior coisa. Estão faltando algo muito inovador e prospectivo. É a capacidade de tornar seu site interativo.

Imagine conversar com seu site para fazer o seu favorito escolher o plano de fundo. Seu site respondendo a você pode ser Inteligência Artificial, mas você não precisa ir tão longe para falar com seu site. A ferramenta está no seu navegador e você nem percebe. Estamos falando da API de fala na Web do Google. Vamos primeiro examinar alguns elementos essenciais do discurso antes de nos aprofundarmos nas APIs do Google Web Speech

Alguns fundamentos da fala


Agora, falar é fácil, até uma criança pode falar, mas o reconhecimento de fala não é brincadeira de criança. Nossa mente e sua relação com o cérebro são muito mais complicadas do que se pensava. Portanto, os computadores, embora excepcionais em alguns aspectos, não estão nem perto do cérebro humano na percepção. Os computadores precisam de muita ajuda para ouvir as palavras, pois a fala não é uma caminhada no parque.

A fala é um fenômeno complexo para estudar. Fica mais estranho à medida que nos aprofundamos nele. A fala, portanto, não é apenas uma variedade de palavras reunidas. Toda vez que falamos, nosso enunciado contém pacotes de som chamados telefone. Por exemplo: quando dizemos a palavra "MAT", pronunciamos os telefones 'm', 'a', 't'. Mas a maneira como falamos um som e como nossa mente o concebe é totalmente diferente. Você se lembra daqueles casos em que reage antes mesmo de completar uma frase? Você fez isso porque existem alguns blocos fundamentais de som que sua mente percebe inconscientemente, esses elementos são chamados fonemas.

Além disso, existem diversos elementos da lingüística que é preciso considerar. Por exemplo, a sintaxe que elabora a estrutura gramatical de uma linguagem e a semântica - o significado das palavras - e como elas produzem o significado holístico de uma frase.

Como os computadores ouvem você?


O reconhecimento de fala é uma ciência interdisciplinar e combina os conceitos sutis de linguística, processamento de sinais, processamento de linguagem natural e muito mais. Por uma questão de simplicidade, precisamos considerar as seguintes abordagens para entender como os computadores interpretam a fala:

1. Correspondência de Padrões


Você pode se lembrar da voz computadorizada do seu posto de gasolina pedindo para escolher pressionando 1 ou 2 no teclado do celular para reservar um novo cilindro de gás. Isso é feito usando esta técnica, onde o computador é treinado para diferenciar dez padrões de som. O "um", "zero", "dez" etc. são os sons detectados neste exercício de correspondência de padrões. Um computador combina os blocos de som já armazenados na memória para outras ações. É por isso que você ouve “Desculpe, não entendemos você” quando você fala zero um pouco casualmente.

2. Análise de características e padrões


Uma ferramenta típica de reconhecimento de fala pode conceber um grande vocabulário de sons. Você pode se perguntar como isso acontece? No momento em que você fala no microfone, um conversor A / D (analógico / digital) converte as vibrações em textos digitais. O espectrograma plota os dados digitais em um gráfico, usando uma técnica de processamento de sinal chamada FTT (Fast Fourier Transform). Em seguida, a forma de onda é dividida em blocos sobrepostos chamados quadros acústicos - a separação criada usando um intervalo de tempo de 1/50 de segundo ou 1/25 de segundo. Aqui, o discurso é dividido em possíveis palavras e, em seguida, comparado com um dicionário fonético, identificando a palavra falada.

3. Método Estatístico


A maneira como cada pessoa pronuncia uma palavra é singularmente diferente. Até a mesma pessoa pode pronunciar a mesma palavra de maneira diferente em outra ocasião. Portanto, um sistema que precisa decifrar elementos essenciais de um grande pool precisa lidar com o problema da variabilidade. As modernas ferramentas de reconhecimento de fala utilizam modelos de linguagem para lidar com a questão da variabilidade.

Modelos como o Hidden Markov Model (HMV), usam adivinhações probabilísticas usando leis gramaticais para chegar à palavra mais provável. Ele refina sua precisão expandindo até o menor som capturado. O exemplo da palavra é precedido em inglês por um número muito seletivo de palavras como 'para', 'ruim', 'bom' etc. Se o processo de reconhecimento parar, diga "É um exemplo de ___". E um leve som como 'g' foi identificado e o sistema arredonda a palavra em branco para significar 'bom'.

4. Redes neurais artificiais


Eles são cérebros humanos simplificados, capazes de aprender através de exemplos. Portanto, se as RNAs são treinadas com amostras suficientes, elas podem ser correlacionadas com padrões vistos anteriormente para chegar à palavra certa. Portanto, uma rede neural totalmente treinada pode levar o reconhecimento de fala a um nível diferente.

Veja como você pode modificar seu site


Usaremos a Web Speech API que foi desenvolvida pela comunidade W3C em 2012. Muitos navegadores não a utilizam por um ou outro motivo. Mas o Chrome e o Firefox integraram isso em seus navegadores, e é por isso que você pode pesquisar por voz no Google.

A Web Speech API será nossa interface que já possui outros aspectos intimamente relacionados à fala, como gramática, vocabulário etc.

Sua ferramenta será parecida com a acima. Tudo o que você precisa fazer é executar este código. O código CSS abaixo fornece ao design do seu recurso de reconhecimento os recursos de cores e exibição. Aqui apenas um modelo simples é apresentado. Você pode expressar sua criatividade alterando os códigos CSS.

<!-- CSS Styles --> <style> html, body { display: flex; align-items: center; justify-content: center; background-color: lightblue; } .record { position: relative; width: 246px; display: inline-block; } .record input { text-align:center; border: 0; width: 240px; display: inline-block; height: 30px; } .record img { float: right; width: 25px; height: 25px; border: none; position: absolute; right: 7px; top: 3px; } .container { display: inline-block; text-align: center; } h1 { font-family: constantia; } </style> 

O próximo conjunto de códigos chamará a API para fazer o reconhecimento de fala real para você. Os scripts HTML e Java necessários estão incluídos no conjunto.

 <!DOCTYPE html> <html> <head> <title>Voice Recognition: Habr</title> </head> <body> <!-- Search Form --> <div class="container"> <h1>Voice Recognition in HTML</h1> <div class="record"> <form id="speak-form" method="get" action="https://www.google.com/search"> <input type="text" name="q" id="transcript" placeholder="Speak" /> <img onclick="startRecording()" src="http://icons.iconarchive.com/icons/designbolts/free-multimedia/1024/Studio-Mic-icon.png" /> </form> </div> </div> </body> </html> <!-- HTML5 Speech Recognition API --> <script> function startRecording() { if (window.hasOwnProperty('webkitSpeechRecognition')) { var recognition = new webkitSpeechRecognition(); recognition.continuous = false; recognition.interimResults = false; recognition.lang = "en-US"; recognition.start(); recognition.onresult = function(e) { document.getElementById('transcript').value = e.results[0][0].transcript; recognition.stop(); document.getElementById('speak-form').submit(); }; recognition.onerror = function(e) { recognition.stop(); } } } </script> 

A ferramenta simples descrita acima pode abrir uma nova janela de oportunidade para muitos sites que estão tentando ser interativos e únicos. O desenvolvimento da Web deve implementar essas técnicas simples e escaláveis ​​primeiro. O desenvolvimento inteligente da web deve encontrar o equilíbrio certo entre os segredos cruciais do design da web e essas ferramentas integradoras simples. A API da Web ainda pode ser usada no desenvolvimento de aplicativos móveis para aprimorar os smartphones e torná-los inteligentes. Então confira esse recurso agora e divirta-se conversando com seu site.

Source: https://habr.com/ru/post/pt446056/


All Articles