La tecnología y los mercados van de la mano hoy. Está tan cerca que cualquier soplo de avance tecnológico y redes sociales se está volviendo loco por eso. Los escritores están llenando páginas tras páginas como si ya estuviera aquí. Las acciones montan toros u osos, y los periódicos imprimen una cadena de letras mayúsculas.
La trampa de tal reacción exagerada periodística es que perdemos muchas herramientas simples, muchas ideas pequeñas pero innovadoras que rodean nuestro espacio de redes. Una mirada al futuro nos hace ciegos a la oportunidad en el momento presente.
Las empresas de desarrollo web están instando a que el marketing digital conduzca a escribir más sobre la posibilidad de que las
cadenas de
bloques transformen el mundo o cómo la Inteligencia Artificial es la próxima gran cosa. Les falta algo muy innovador y prospectivo. Es la capacidad de hacer que su sitio web sea interactivo.
Imagine hablar con su sitio web para que su favorito elija el fondo. Su sitio que le responde podría ser Inteligencia Artificial, pero no necesita ir tan lejos para hablar con su sitio web. La herramienta está ahí durmiendo en su navegador, y ni siquiera lo sabe. Estamos hablando de la API de Web Speech de Google. Veamos primero algunos elementos esenciales del habla antes de profundizar en las API de Google Web Speech.
Algunos fundamentos del habla.
Ahora, hablar es fácil, incluso un niño puede hablar, pero el reconocimiento del habla no es un juego de niños. Nuestra mente y su relación con el cerebro es mucho más complicada de lo que se suponía. Por lo tanto, las computadoras, aunque excepcionales en algunos aspectos, no están cerca del cerebro humano en la percepción. Las computadoras necesitan mucha ayuda para escuchar palabras, ya que el habla no es un paseo por el parque.
El discurso es un fenómeno complejo para estudiar. Se vuelve más extraño a medida que profundizamos en él. El habla, por lo tanto, no es simplemente una variedad de palabras entrelazadas. Cada vez que hablamos, nuestro enunciado contiene paquetes de sonido que se llama teléfono. Por ejemplo: cuando decimos la palabra "MAT" pronunciamos los teléfonos 'm', 'a', 't'. Pero la forma en que hablamos un sonido y cómo nuestra mente lo concibe es completamente diferente. ¿Recuerdas esos casos, cuando reaccionas incluso antes de completar una oración? Lo hiciste porque hay algunos bloques fundamentales de sonido que tu mente percibe inconscientemente, estos elementos se llaman fonemas.
Además de esto, hay diversos elementos de la lingüística que uno debe tener en cuenta. Por ejemplo, la sintaxis que elabora la estructura gramatical de un lenguaje y la semántica, el significado de las palabras, y cómo producen su significado holístico de una oración.
¿Cómo te escuchan las computadoras?
El reconocimiento de voz es una ciencia interdisciplinaria y combina los conceptos sutiles de la lingüística, el procesamiento de señales, el procesamiento del lenguaje natural y mucho más. En aras de la simplicidad, debemos considerar los siguientes enfoques para comprender la forma en que las computadoras interpretan el habla:
1. Coincidencia de patrones
Es posible que recuerde la voz computarizada de su estación de reserva de gas que le pide que elija presionando 1 o 2 en su teclado móvil para reservar un nuevo cilindro de gas. Se hace usando esta técnica donde la computadora fue entrenada para diferenciar diez patrones de sonido. El "uno", "cero", "diez", etc. son los sonidos que se detectan en este ejercicio de coincidencia de patrones. Una computadora hace coincidir los bloques de sonido ya almacenados en la memoria con otras acciones. Es por eso que escuchas "Lo siento, no te atrapamos" cuando hablas cero un poco casualmente.
2. Análisis de características y patrones
Una herramienta típica de reconocimiento de voz puede concebir un gran vocabulario de sonidos. ¿Te preguntarás cómo lo hace? En el momento en que hablas en tu micrófono, un convertidor A / D (analógico / digital) convierte las vibraciones en textos digitales. El espectrograma luego traza los datos digitales en un gráfico, utilizando una técnica de procesamiento de señal llamada FTT (Fast Fourier Transform). Luego, la forma de onda se divide en bloques superpuestos llamados cuadros acústicos, la separación creada mediante un intervalo de tiempo de 1/50 de segundo o 1/25 de segundo. Aquí el discurso se divide en palabras posibles y luego se compara con un diccionario fonético y, por lo tanto, señala la palabra hablada.
3. Método estadístico
La forma en que cada persona pronuncia una palabra es única y diferente. Incluso la misma persona puede pronunciar la misma palabra de manera diferente en otro momento. Por lo tanto, un sistema que tiene que descifrar elementos esenciales de un grupo grande tiene que lidiar con el problema de la variabilidad. Las modernas herramientas de reconocimiento de voz utilizan modelos de lenguaje para tratar el tema de la variabilidad.
Modelos como el modelo oculto de Markov (HMV), utiliza conjeturas probabilísticas utilizando leyes gramaticales para llegar a la palabra más probable. Refina su precisión al expandir incluso el sonido más pequeño que se captura. El ejemplo de la palabra está precedido en inglés por un número muy selectivo de palabras como 'para', 'malo', 'bueno', etc. Si el proceso de reconocimiento se bloquea en decir "Es un ___ ejemplo". Y se identificó un ligero sonido como 'g', luego el sistema redondea la palabra en blanco para que signifique 'bueno'.
4. Redes neuronales artificiales
Son cerebros humanos simplificados que son capaces de aprender a través de ejemplos. Por lo tanto, si los ANN están entrenados con suficientes muestras, entonces puede correlacionarlo con patrones vistos previamente para llegar a la palabra correcta. Por lo tanto, una red neuronal completamente capacitada puede llevar el reconocimiento de voz a un nivel diferente.
Así es como puede modificar su sitio
Utilizaremos la API Web Speech que fue desarrollada por la comunidad W3C en 2012. Muchos navegadores no la utilizan por una u otra razón. Pero Chrome y Firefox lo han integrado en sus navegadores, y es por eso que puedes buscar por voz en Google.
La Web Speech API será nuestra interfaz que ya tiene otros aspectos estrechamente vinculados del habla, como la gramática, el vocabulario, etc.
Su herramienta se verá como la de arriba. Todo lo que necesitas hacer es ejecutar este código. El siguiente código CSS le da al diseño de su función de reconocimiento el color y las funciones de visualización. Aquí solo se presenta un modelo simple. Puede expresar su creatividad alterando los códigos CSS.
<!-- CSS Styles --> <style> html, body { display: flex; align-items: center; justify-content: center; background-color: lightblue; } .record { position: relative; width: 246px; display: inline-block; } .record input { text-align:center; border: 0; width: 240px; display: inline-block; height: 30px; } .record img { float: right; width: 25px; height: 25px; border: none; position: absolute; right: 7px; top: 3px; } .container { display: inline-block; text-align: center; } h1 { font-family: constantia; } </style>
El siguiente conjunto de códigos llamará a la API para hacer el reconocimiento de voz real por usted. Los scripts HTML y Java necesarios se incluyen en el conjunto.
<!DOCTYPE html> <html> <head> <title>Voice Recognition: Habr</title> </head> <body> <!-- Search Form --> <div class="container"> <h1>Voice Recognition in HTML</h1> <div class="record"> <form id="speak-form" method="get" action="https://www.google.com/search"> <input type="text" name="q" id="transcript" placeholder="Speak" /> <img onclick="startRecording()" src="http://icons.iconarchive.com/icons/designbolts/free-multimedia/1024/Studio-Mic-icon.png" /> </form> </div> </div> </body> </html> <!-- HTML5 Speech Recognition API --> <script> function startRecording() { if (window.hasOwnProperty('webkitSpeechRecognition')) { var recognition = new webkitSpeechRecognition(); recognition.continuous = false; recognition.interimResults = false; recognition.lang = "en-US"; recognition.start(); recognition.onresult = function(e) { document.getElementById('transcript').value = e.results[0][0].transcript; recognition.stop(); document.getElementById('speak-form').submit(); }; recognition.onerror = function(e) { recognition.stop(); } } } </script>
La herramienta simple descrita anteriormente puede abrir una nueva ventana de oportunidad a muchos sitios que luchan por ser interactivos y únicos. El desarrollo web debe implementar primero tales técnicas simples y escalables. El desarrollo web inteligente debe encontrar el equilibrio adecuado entre
los secretos cruciales del diseño web y esas herramientas integradoras simples. La API web se puede utilizar aún más en el desarrollo de aplicaciones móviles para mejorar los teléfonos inteligentes y hacerlos inteligentes. Así que echa un vistazo a esta función ahora y diviértete chateando con tu sitio web.