CPaaS inteligente: noticias de la industria y lo que AI / ML le ha dado


En junio en Amsterdam, la última conferencia APIDays regular fue para todos los que de alguna manera crean y usan varias API. El tema de la conferencia fue "el apogeo de las comunicaciones contextuales", es decir, comunicaciones en las que ambas partes entienden inmediata y plenamente el contexto de la comunicación. Suena abstracto, así que un par de ejemplos: te llaman desde un número desconocido. En consecuencia, no sabe quién llama, dónde y con qué propósito. Por el contrario, si está realizando algún tipo de operación en la aplicación de banca por Internet y algo salió mal en algún paso, puede llamar al soporte directamente desde este paso: el contexto de la situación será claro tanto para usted como para el operador . Para proporcionar dicha conciencia, las empresas utilizan plataformas de comunicación (CPaaS, Plataforma de comunicaciones como servicio ) y, a su vez, utilizan AI y Machine Learning. Nuestro CEO Alexei Aylarov habló sobre esto exactamente cuando habló en APIDays, y hoy estamos publicando una adaptación de la presentación de junio.

CPaaS de éxito


CPaaS es un negocio de rápido crecimiento. Por qué Hay varias razones para el éxito del concepto CPaaS.

En primer lugar, el apogeo de CPaaS ocurrió en gran parte debido al apogeo de la "nueva empresa": cuando compañías como Uber y Lyft demostraron su viabilidad, de repente se hizo evidente para todos que todas estas nuevas empresas ayer estaban usando plataformas de comunicación basadas en la nube. Cuando el mercado comenzó a comprender esto, la demanda de CPaaS comenzó a crecer, ya que las soluciones en la nube le permiten recolectar “soluciones en caja” listas para usar, muy rápidamente, para comenzar a ganar dinero.

En segundo lugar, debemos recordar que las plataformas CPaaS siempre se han dirigido a los desarrolladores. Y cada startup moderna siempre tiene desarrolladores para quienes no es difícil usar CPaaS.

En tercer lugar, las nubes: hay nubes, lo que significa acceso al servicio en todo el mundo, escalabilidad y aumento de la capacidad bajo demanda. Y todo esto sin dolor de cabeza para alguien que usa CPaaS.

Y finalmente, la mayoría de las plataformas ofrecen el principio de pago por uso, cuando solo tiene que pagar por lo que usa: hay reconocimiento de voz y traducción al texto; estas funciones están cargadas, pero no hay reconocimiento, bueno, usted comprende. Es muy flexible y transparente.

Nuevo en la industria


Lo primero que hay que mencionar aquí es Serverless, que lleva a CPaaS al siguiente nivel. Una vez que escribimos en detalle sobre este tema , ahora nos limitaremos a la tesis principal: Sin servidor no significa que no haya servidores en absoluto, sino su ausencia en el lado del cliente. Desde el punto de vista de los recursos informáticos utilizados, este es el mismo pago por uso, ya que la tarifa se cobra de acuerdo con la carga del proveedor de informática. Otro punto importante de sin servidor es que los clientes pueden tener acceso al tiempo de ejecución de la plataforma, lo que conduce a latencias más bajas y una mayor confiabilidad.

Otra tendencia son los editores WYSIWYG. Este es uno de los pasos hacia una audiencia empresarial que (la mayoría de las veces) no sabe codificar, pero al mismo tiempo puede recopilar la lógica del bot / call center en un editor visual. Los enfoques de implementación varían ligeramente (consulte Smartcalls de Voximplant, Studio de Twilio, FlowBuilder de MessageBird, etc.), pero la esencia es similar: el usuario no usa código, sino bloques visuales, variando su ubicación y conexiones entre ellos. Por cierto, algunos de estos editores aún le permiten usar el código como una función avanzada, por ejemplo, nuestras Smartcalls, pero esta es una historia ligeramente diferente.

Finalmente, un IDE basado en la nube. Por supuesto, aunque apenas se pueden comparar con IDEA condicional, pero con VS Code es fácil . Si CPaaS le da al desarrollador una herramienta poderosa para trabajar con código, entonces tal desarrollador probablemente estará muy satisfecho. Depurador normal, autocompletado inteligente, resaltado de código, estilos personalizados, pestañas, etc. - Cuando está en la interfaz web y funciona rápidamente, la plataforma recibe puntos adicionales en karma por su flexibilidad.

Pero nuestra alegría no sería completa ...


... si no fuera por la IA. El aprendizaje automático brinda nuevos grados de libertad a las plataformas de comunicación, a saber:

Reconocimiento


Reconocimiento y síntesis de voz: alguien los desarrolla de forma independiente, pero lleva mucho tiempo. Puede recurrir a grandes jugadores como Google, Amazon, Yandex para esto: sus modelos ya reconocen muy bien el discurso humano, así como también lo imitan (señalan a WaveNet).

Automatización NLU / NLP


Comprensión del lenguaje natural (procesamiento): el procesamiento del lenguaje natural es ahora el tema más candente en el mundo de las comunicaciones. Y si la solución de negocios se basa en la NLU, entonces, como opción, la síntesis de voz tiene lugar allí, entonces la persona responde algo, su discurso se transcribe, este texto se devuelve al robot y él, para reaccionar, selecciona el texto de respuesta, que nuevamente es necesario sintetizar No suena como ciencia espacial, pero aún es aconsejable utilizar la automatización aquí: Google Dialogflow, IBM Watson, Amazon Lex, etc.

Mejora del operador


Cuando el operador del centro de llamadas se comunica con el cliente, puede analizar el discurso en segundo plano y darle al operador información adicional para que no pierda su tiempo. Por ejemplo, un cliente puede preguntar dónde está el cajero automático más cercano: el sistema reconocerá la pregunta y mostrará la respuesta en la pantalla del operador; este último simplemente leerá la respuesta, en lugar de pedirle al cliente que espere.

Análisis de emociones


Casi todo el mundo está interesado en esto, pero esta es la dirección más difícil en CPaaS en este momento, porque las personas tienden a presentar la misma información de diferentes maneras, y también a menudo usan referencias culturales en el habla. Ahora muchas compañías analizan las emociones usando texto. Ahora hay soluciones en esta dirección, pero no se puede decir que serían exitosas, ya que no se puede llegar muy lejos al analizar solo el texto; Es obvio que las emociones no son solo QUÉ se dice exactamente, sino también CÓMO. Por lo tanto, un análisis convincente de las emociones en tiempo real es una cuestión del futuro (¿cercano?).

Mejora de audio / video


Todo el mundo sabe acerca de la reducción de ruido: cuando habla por teléfono, el modelo capacitado "elimina" el ruido de fondo para que la otra persona solo lo escuche a usted. A veces la voz del hablante mismo sufre, ya que los modelos no siempre pueden distinguir con éxito qué frecuencias pertenecen al fondo y cuáles a la voz. Pero en general ya funciona bastante bien. Hablando de la imagen, sabemos cómo los teléfonos inteligentes modernos hacen bokeh (desenfoque del fondo) usando AI. Tal enfoque, pero ya dentro del marco de las videollamadas, también será muy solicitado: imagine que no necesita buscar el fondo perfecto, porque la IA borrará cualquier entorno detrás de usted. Aunque, ¿por qué "imaginar"? Skype ya tiene esa funcionalidad .

Análisis de video


El análisis de la transmisión de video o videos ayuda a comprender lo que hay en el marco. Hasta ahora, esta es una tarea muy intensiva en recursos, por lo que hoy en día aquellos que tienen mucha potencia informática (Google, Microsoft y otros jugadores importantes) se las arreglan mejor.

Analítica de llamadas


Esto incluye no solo la clasificación y la segmentación de datos. Imagine que tiene decenas de miles de registros de llamadas, y puede traducirlos a texto y luego buscarlos. Pero es mucho más efectivo si la IA revisa estos registros y los distribuye en grupos (son llamadas de ventas y garantías), revelará dónde se comportó correctamente el operador del centro de llamadas y dónde no es muy (además, puede identificar exactamente cómo la persona se comportó, cuáles fueron las emociones), aquí el cliente solo preguntó sobre la compra de un automóvil, y aquí, sobre el automóvil, el seguro y la prueba de manejo. Puede extraer cualquier cantidad de información de una matriz de datos de este tipo mediante el aprendizaje automático.

Definición del contestador automático


Un caso especial, pero también un buen ejemplo: en nuestra plataforma, implementamos la definición de un contestador automático. Ahora la plataforma puede reconocer los contestadores automáticos en ruso: capacitamos al modelo en muchas llamadas, ahora puede distinguir a una persona viva de un mensaje grabado. Los métodos de detección convencionales no son muy efectivos (por ejemplo, mediante una señal de audio), pero la inteligencia artificial nos ayudó a lograr una precisión de hasta el 99%, y el reconocimiento lleva solo 2 segundos.

Dificultades


El aprendizaje automático requiere muchos recursos. Y no se trata solo de potencia informática, sino también de personas con habilidades especiales: científicos de datos que crean y personalizan modelos de capacitación y también saben qué datos se necesitan. No es fácil encontrar a esas personas y su trabajo es costoso. También tienen una gran demanda entre los principales jugadores, y competir con el Google condicional en términos de contratación es difícil, aunque posible. Por lo tanto, en lugar de competir, es mejor elegir la cooperación con los gigantes: la mayoría de los jugadores de CPaaS utilizan los logros de las grandes empresas, y esto es normal. Por otro lado, esto lleva al hecho de que el socio gigante administra los gastos de otros jugadores: establece / cambia las tasas de reconocimiento y síntesis de voz (recuerde WaveNet de Google). Es decir, si usa las soluciones del gigante, y él de repente decide cambiar los precios, entonces se ve obligado a hacer lo mismo, lo que puede no complacer a sus usuarios. Agregue aquí que enviará datos a este gigante; para algunas empresas esto es un problema. Sin embargo, no siempre puede depender de un solo socio, use las soluciones de varios gigantes con una funcionalidad similar. Finalmente, dicha cooperación es conveniente y beneficiosa para los jugadores de CPaaS.

En lugar de una conclusión


Están llegando nuevas tecnologías que afectarán las comunicaciones de la misma manera que WebRTC influyó a su debido tiempo: estas son 5G y AV1.

5G tiene como objetivo hacer realidad el principio de "siempre en línea": este es el objetivo final, pero está claro que esto no sucederá en un día. Con el advenimiento de esta tecnología, CPaaS tendrá más oportunidades, porque incluso aquellos que no hayan utilizado previamente la transferencia de datos móviles comenzarán a hacerlo. La infraestructura de comunicaciones cambiará, y con ella cambiarán las empresas de telecomunicaciones familiares.

El códec de video AV1 también será útil para CPaaS, ya que es gratuito, lo que significa que no tendrá que preocuparse por las licencias. Un códec gratuito que sea más efectivo que H.265 y que esté disponible para todos también cambiará el mundo de las comunicaciones.

El futuro está sucediendo ante nuestros ojos, y Voximplant no solo está mirando lo que está sucediendo, sino también participando en este proceso.

Source: https://habr.com/ru/post/459368/


All Articles