CPaaS intelligent: nouvelles de l'industrie et ce que l'IA / ML lui a donné


En juin à Amsterdam, la dernière conférence APIDays régulière était pour tous ceux qui créent et utilisent diverses API. Le thème de la conférence était «l'âge d'or des communications contextuelles», c'est-à-dire des communications dans lesquelles les deux parties comprennent immédiatement et pleinement le contexte de la communication. Cela semble abstrait, donc quelques exemples: ils vous appellent d'un numéro inconnu. Par conséquent, vous ne savez pas qui appelle, où et dans quel but. À l'inverse, si vous effectuez une sorte d'opération dans l'application de banque en ligne et que quelque chose s'est mal passé à une étape, vous pouvez appeler le support dès cette étape - le contexte de la situation sera clair pour vous et pour l'opérateur. . Pour fournir une telle sensibilisation, les entreprises utilisent des plateformes de communication (CPaaS, Communications Platform as a Service ), et celles-ci, à leur tour, utilisent l'IA et le Machine Learning. Notre PDG Alexei Aylarov en a parlé exactement lors de son discours aux APIDays, et nous publions aujourd'hui une adaptation de la performance de juin.

Success CPaaS


CPaaS est une entreprise à croissance rapide. Pourquoi? Plusieurs raisons expliquent le succès du concept CPaaS.

Premièrement, l'apogée du CPaaS s'est produite en grande partie en raison de l'apogée de la «nouvelle entreprise» - lorsque des entreprises comme Uber et Lyft ont prouvé leur viabilité, il est soudain devenu clair pour tout le monde que toutes ces startups utilisaient hier des plateformes de communication basées sur le cloud. Lorsque le marché a commencé à comprendre cela, la demande de CPaaS a commencé à augmenter, car les solutions cloud vous permettent de collecter très rapidement des «solutions en boîte» prêtes à l'emploi afin de commencer à gagner de l'argent.

Deuxièmement, nous devons nous rappeler que les plateformes CPaaS ont toujours été destinées aux développeurs. Et chaque startup moderne a toujours des développeurs pour qui il n'est pas difficile d'utiliser CPaaS.

Troisièmement, les nuages ​​- il y a des nuages, ce qui signifie l'accès au service dans le monde, l'évolutivité et l'augmentation de la capacité à la demande. Et tout cela sans mal à la tête pour quelqu'un qui utilise CPaaS.

Et enfin, la plupart des plateformes proposent le principe du paiement par répartition, lorsque vous ne devez payer que pour ce que vous utilisez: il y a la reconnaissance vocale et la traduction en texte - ces fonctions sont facturées, mais il n'y a pas de reconnaissance - eh bien, vous comprenez. Il est très flexible et transparent.

Nouveau dans l'industrie


La première chose à mentionner ici est Serverless, qui fait passer CPaaS au niveau supérieur. Une fois que nous avons écrit en détail sur ce sujet , nous allons maintenant nous limiter à la thèse principale: Serverless ne signifie pas qu'il n'y a pas de serveurs du tout, mais leur absence côté client. Du point de vue des ressources informatiques utilisées, il s'agit du même paiement à l'utilisation, car les frais sont facturés en fonction de la charge du fournisseur informatique. Un autre point important du sans serveur est que les clients peuvent avoir accès au runtime de la plate-forme, ce qui réduit les latences et augmente la fiabilité.

Une autre tendance est celle des éditeurs WYSIWYG. C'est l'une des étapes vers un public professionnel qui (le plus souvent) ne sait pas coder, mais en même temps peut collecter la logique du bot / centre d'appels dans un éditeur visuel. Les approches d'implémentation varient légèrement (voir Smartcalls de Voximplant, Studio de Twilio, FlowBuilder de MessageBird, etc.), mais l'essence est similaire - l'utilisateur n'utilise pas le code, mais des blocs visuels, variant leur emplacement et les connexions entre eux. Soit dit en passant, certains de ces éditeurs vous permettent toujours d'utiliser le code en tant que fonctionnalité avancée, par exemple, nos appels intelligents, mais c'est une histoire légèrement différente.

Enfin, un IDE basé sur le cloud. Bien sûr, bien qu'ils puissent difficilement se comparer à IDEA conditionnelle, mais avec VS Code, c'est facile . Si CPaaS donne au développeur un outil puissant pour travailler avec du code, un tel développeur sera très probablement très heureux. Débogueur normal, saisie automatique intelligente, mise en évidence du code, styles personnalisés, onglets, etc. - lorsqu'elle est dans l'interface web et fonctionne rapidement, la plateforme reçoit des points supplémentaires en karma pour sa flexibilité.

Mais notre joie ne serait pas complète ...


... sinon pour l'IA. L'apprentissage automatique donne de nouveaux degrés de liberté aux plateformes de communication, à savoir:

La reconnaissance


Reconnaissance et synthèse de la parole - quelqu'un les développe indépendamment, mais cela prend beaucoup de temps. Vous pouvez vous tourner vers de grands acteurs comme Google, Amazon, Yandex pour cela - leurs modèles reconnaissent déjà très bien la parole humaine, ainsi que l'imitent (clin d'œil vers WaveNet).

Automatisation NLU / NLP


Compréhension du langage naturel (traitement) - Le traitement du langage naturel est maintenant le sujet le plus brûlant du monde des communications. Et si la solution commerciale est basée sur NLU, alors, en option, la synthèse vocale y a lieu, puis la personne répond quelque chose, son discours est translittéré, ce texte est rendu au robot et il sélectionne le texte de réponse pour répondre, ce qui est encore nécessaire à synthétiser. Cela ne ressemble pas à la science des fusées, mais il est toujours sage d'utiliser l'automatisation ici - Google Dialogflow, IBM Watson, Amazon Lex, etc.

Amélioration de l'opérateur


Lorsque l'opérateur du centre d'appels communique avec le client, vous pouvez analyser le discours en arrière-plan et donner à l'opérateur des informations supplémentaires afin qu'il ne perde pas son temps. Par exemple, un client peut demander où se trouve le GAB le plus proche - le système reconnaîtra la question et affichera la réponse sur l'écran de l'opérateur; ce dernier lira simplement la réponse au lieu de demander au client d'attendre.

Analyse des émotions


Presque tout le monde est intéressé par cela, mais c'est la direction la plus difficile du CPaaS en ce moment, car les gens ont tendance à présenter les mêmes informations de différentes manières, et utilisent également très souvent des références culturelles dans le discours. Maintenant, de nombreuses entreprises analysent les émotions à l'aide de texte. Il existe maintenant des solutions dans ce sens, mais on ne peut pas dire qu'elles réussiraient, car vous ne pouvez pas aller loin en analysant uniquement le texte; il est évident que les émotions ne sont pas seulement ce qui est dit exactement, mais aussi COMMENT. Par conséquent, une analyse convaincante des émotions en temps réel est une question de futur (proche?).

Amélioration audio / vidéo


Tout le monde connaît la réduction du bruit - lorsque vous parlez au téléphone, le modèle formé «supprime» le bruit de fond pour que l'autre personne n'entende que vous. Parfois, la voix de l'orateur lui-même souffre, car les modèles ne peuvent pas toujours distinguer avec succès quelles fréquences appartiennent à l'arrière-plan et lesquelles à la voix. Mais dans l'ensemble, cela fonctionne déjà assez bien. En parlant de l'image, nous savons comment les smartphones modernes font du bokeh (flou l'arrière-plan) en utilisant l'IA. Une telle approche, mais déjà dans le cadre des appels vidéo, sera également demandée - imaginez que vous n'avez pas besoin de chercher le fond parfait, car l'IA brouillera tout environnement derrière vous. Mais pourquoi «imaginer» - Skype a déjà une telle fonctionnalité .

Analyse vidéo


L'analyse du ou des flux vidéo permet de comprendre ce qui se trouve dans le cadre. Jusqu'à présent, c'est une tâche très gourmande en ressources, donc aujourd'hui ceux qui ont beaucoup de puissance de calcul - Google, Microsoft et d'autres acteurs majeurs, y font face le mieux.

Analyse des appels


Cela inclut non seulement la classification et la segmentation des données. Imaginez que vous ayez des dizaines de milliers d'enregistrements d'appels et que vous puissiez les traduire en texte, puis faire une recherche dessus. Mais c'est beaucoup plus efficace si l'IA passe en revue ces enregistrements et les distribue en groupes (ce sont des appels de vente et ceux de garantie), elle révèlera où l'opérateur du centre d'appels s'est comporté correctement et où ce n'est pas très (en plus, vous pouvez identifier exactement comment la personne s'est comportée, quelles ont été les émotions), ici le client n'a posé des questions que sur l'achat d'une voiture, et ici - sur la voiture, sur l'assurance et sur l'essai routier. Vous pouvez rechercher toute quantité d'informations à partir d'un tel ensemble de données à l'aide de l'apprentissage automatique.

Définition du répondeur


Un cas particulier, mais aussi un bon exemple: dans notre plateforme, nous avons implémenté la définition d'un répondeur. Maintenant, la plateforme peut reconnaître les répondeurs en russe - nous avons formé le modèle sur de nombreux appels, maintenant elle peut distinguer une personne vivante d'un message enregistré. Les méthodes de détection conventionnelles ne sont pas très efficaces (par exemple, par un signal audio), mais l'IA nous a aidés à atteindre une précision allant jusqu'à 99%, et la reconnaissance ne prend que 2 secondes.

Des difficultés


L'apprentissage automatique nécessite beaucoup de ressources. Et il ne s'agit pas seulement de puissance de calcul, mais aussi de personnes ayant des compétences particulières - des scientifiques des données qui créent et personnalisent des modèles de formation, et savent également quelles données sont nécessaires. Il n'est pas facile de trouver de telles personnes et leur travail coûte cher. Ils sont également très demandés par les principaux acteurs, et concurrencer le Google conditionnel en termes d'embauche est difficile, bien que possible. Par conséquent, au lieu de rivaliser, il vaut mieux choisir la coopération avec des géants - la plupart des acteurs du CPaaS utilisent les réalisations de grandes entreprises, et c'est normal. D'un autre côté, cela conduit au fait que le partenaire géant gère les dépenses des autres joueurs - définit / modifie les tarifs de reconnaissance et de synthèse de la parole (rappelez-vous WaveNet de Google). Autrement dit, si vous utilisez les solutions du géant, et qu'il décide soudain de changer les prix, alors vous êtes obligé de faire de même, ce qui peut ne pas vraiment plaire à vos utilisateurs. Ajoutez ici que vous enverrez des données à ce géant - pour certaines entreprises, c'est un problème. Cependant, vous ne pouvez toujours pas dépendre d'un seul partenaire, utilisez les solutions de plusieurs géants aux fonctionnalités similaires. Enfin, cette coopération est pratique et bénéfique pour les acteurs du CPaaS.

Au lieu d'une conclusion


De nouvelles technologies arrivent qui affecteront les communications de la même manière que WebRTC a influencé en temps voulu - ce sont la 5G et l'AV1.

La 5G vise à donner vie au principe du «toujours en ligne» - c'est le but ultime, mais il est clair que cela ne se produira pas en un jour. Avec l'avènement de cette technologie, CPaaS aura plus d'opportunités, car même ceux qui n'ont pas encore utilisé le transfert de données mobiles commenceront à le faire. L'infrastructure des communications va changer et, avec elle, les entreprises de télécommunications familières vont changer.

Le codec vidéo AV1 sera également utile pour CPaaS, car il est gratuit, ce qui signifie que vous n'aurez pas à vous soucier des licences. Un codec gratuit plus efficace que le H.265 et accessible à tous changera également le monde des communications.

L'avenir se déroule sous nos yeux, et Voximplant ne regarde pas seulement ce qui se passe, mais participe également à ce processus.

Source: https://habr.com/ru/post/fr459368/


All Articles