
¿Usas asistentes de voz todos los días? Yo no ¡Aunque los he estado desarrollando durante más de 7 años!
Con estas palabras, se abrió la sesión de desarrollo de
nuestra conferencia sobre tecnologías de conversación en Moscú .
¿Y qué, de hecho, está mal con todas estas "Alicia", "Maroussia" y "Asistentes de Google"? ¿Por qué los usuarios se sienten incómodos con ellos, pero incomprensibles para los negocios?
¿Y cuál es la alternativa de código abierto para todo esto?Problemas de los asistentes de voz móviles
Todos los asistentes de voz móviles de hoy trabajan de acuerdo con el principio de
"recolector" : cientos y miles de funciones están ocultas debajo de un botón de micrófono. Parecería, ¿cuál es más conveniente? No necesita tener a mano docenas o dos de los iconos de aplicaciones de terceros. Simplemente hice clic en el micrófono, dijo, y
no funciona.
Pero aquí están los problemas que encontrará tanto como usuario como desarrollador de una función de voz para tales "asistentes".

1. Nombre único
Cada "habilidad" de voz (Alice - "habilidad") debe tener un
nombre único . De hecho, de lo contrario, una "cosechadora" con un solo botón no puede distinguir entre ellos. Y cuantas más funciones tenga el asistente de voz, más difícil será elegir ese nombre para que los usuarios lo recuerden.
2. Descubrimiento sofisticado
"Alice, lanza la habilidad Mi tienda favorita". O "Ok Google, habla con Pizza Papa Johns". ¿Eso es familiar? El usuario aún necesita que se le enseñe cómo iniciar su servicio de voz.
3. Limitaciones de UI, UX y API
Voice Assistant es una aplicación de terceros con sus limitaciones. Usted, como desarrollador, no puede agregar los controles y widgets que necesita a su interfaz. Como resultado, simplemente tiene que trabajar con lo que tiene, ¡aunque su funcionalidad podría ser mucho más amplia!
Y mucho mas
Además, existen limitaciones impuestas por el reconocimiento de voz y las tecnologías de síntesis de voz, es difícil autorizar a un usuario en su servicio
y mucho más .
Como resultado, el usuario a menudo simplemente no puede encontrar su servicio de voz, no sabe cómo hablar con él y se enfrenta a una funcionalidad limitada. Y usted, como desarrollador, no comprende cómo llevar a su usuario a un nuevo canal que
promete una audiencia millonaria .
Asistente de concepto en la aplicación
Lo más probable es que su negocio ya tenga una aplicación móvil con herramientas claras de funcionalidad, desarrollo, promoción y análisis.
Usted comprende de dónde es el usuario y quién es. Qué funciones usa, cómo mejorarlas, desarrollarlas y cómo afecta al negocio. Detrás de todo esto está su equipo de desarrollo móvil, diseñadores, especialistas en UX, departamento de control de calidad y productos.
Y el usuario comprende qué funcionalidad tiene su aplicación.
Cuando necesito transferir dinero a alguien, lanzo la aplicación de mi banco, donde están vinculadas mis cuentas. Cuando necesita pedir productos, lanzo la aplicación de la tienda, en la que generalmente compro productos.
El usuario siempre actúa de acuerdo con la situación y lanza la aplicación móvil que satisfará con precisión su necesidad aquí y ahora. ¡No hay razón para creer que el usuario definitivamente presionará el botón del micrófono con la esperanza de que el asistente de voz tenga la función que necesita y cumpla con su solicitud!
Entonces
apareció el concepto de un asistente
en la aplicación : el concepto de un asistente de voz que ya funciona dentro de su aplicación móvil como
una interfaz de usuario adicional . En este caso, todas las limitaciones de los recolectores asistentes están niveladas, y el usuario comprende la funcionalidad del asistente en función del contexto de la aplicación móvil.
Asistente de casos en la aplicación
La función de voz es tan situacional como el lanzamiento de una aplicación móvil. Puede ser conveniente para el usuario iniciar alguna función por voz, si
- Este es un nuevo usuario, y aún no ha descubierto la estructura de la interfaz de usuario de su aplicación.
- El usuario no recuerda dónde está oculto el menú o botón deseado
- Si solo necesita repetir la acción anterior
- Si puede decir dos palabras en lugar de 5 cintas y pergaminos
- Cuando es más fácil explicar un problema que buscar una solución dentro de la aplicación
Mira un par de casos simples.
Por ejemplo, en una aplicación bancaria, puede transferir fondos a personas de su lista de contactos. El asistente en la aplicación puede entender a quién se refiere el usuario cuando dice "Transfiere 500 rublos a mamá". Y el usuario no necesita buscar el botón deseado, buscar el contacto e ingresar la cantidad.
En la aplicación del minorista, el usuario puede llamar a un asistente para simplemente describir el problema, y el asistente le ofrecerá el producto correcto.
Es importante entender aquí que dicha interfaz de voz solo es
complementaria a una interfaz de usuario existente. Como ya se mencionó anteriormente, el valor aparecerá solo cuando el asistente actúe como un "navegador" o sistema de recomendación.
Y dado que este es su propio asistente dentro de su aplicación, no se limita a todo lo que enumeramos anteriormente en este artículo: no necesita encontrar un nombre único, la interfaz de usuario puede ser cualquier cosa, el asistente puede interactuar directamente con las funciones de la aplicación, etc.
Cómo agregar voz a tu aplicación

Sí, sus desarrolladores móviles tendrán que lidiar con una variedad de tecnologías de inmediato para integrar la interfaz de voz. Y esto a pesar del hecho de que es una buena adición, y no la funcionalidad principal ... A saber: conectarse a un sistema de reconocimiento de voz, síntesis de voz, al motor de procesamiento de lenguaje, presentar su propia interfaz de usuario de asistente de voz, implementar la arquitectura y cubrirla con pruebas.
¡Pero hay una solución de código abierto que ayudará a hacer todo esto mucho más rápido y más eficiente!Aimybox
Recientemente, ya
escribimos un poco sobre el asistente de voz de código abierto
Aimybox , que está diseñado precisamente para facilitar la implementación de funciones de voz en una aplicación móvil existente. Aquí hablaremos de él en términos del concepto de asistentes en la aplicación.

Ahora no sorprenderá a nadie con la presencia de un botón de chat en línea en el sitio, lo que permite contactar rápidamente al operador y hacer preguntas sobre productos y servicios. Esta es una característica adicional que, sin embargo, aumenta las conversiones cuando se usa correctamente. Además, para iniciar el chat en línea en su sitio, por regla general, solo necesita agregar una etiqueta de script a su código HTML.
Aimybox sigue la misma línea, pero con respecto al asistente de voz. Todo lo que necesita hacer es agregar un par de dependencias a su proyecto de aplicación móvil y algunas líneas de código para que el botón del micrófono aparezca en la esquina inferior derecha.
Aquí puedes ver cómo se hace esto.
Fuera de la caja, Aimybox ofrece una
interfaz de usuario concisa y
personalizable (que, si se desea, se puede modificar por completo) y el asistente
SDK . Además, como motores de
reconocimiento ,
síntesis y
PNL , puede elegir entre los existentes o crear su propio módulo.
En esencia, Aimybox implementa la arquitectura de asistente de voz, estandarizando las interfaces de todos estos módulos y organizando adecuadamente su interacción. Por lo tanto, al presentar esta solución, puede reducir significativamente el tiempo para desarrollar una interfaz de voz dentro de su aplicación.
Al final
Los asistentes de voz son, por supuesto, geniales. Pero la sensación es que el camino que están tomando ahora solo aleja al usuario y al negocio de la tecnología conveniente. Y a menudo esto también se debe al hecho de que los desarrolladores aún no saben cómo crear UX de voz de alta calidad. También
escribimos recientemente sobre cómo solucionar esto.
En este artículo, tratamos de hablar brevemente sobre el concepto completamente nuevo de asistentes en la aplicación, es decir, sobre asistentes de voz como una función interna de una aplicación móvil. En este caso, el valor de la voz como una IU adicional queda claro tanto para el usuario como para el desarrollador.
Enlaces utiles