Im Juni in Amsterdam war die letzte reguläre APIDays-Konferenz für alle, die irgendwie verschiedene APIs erstellen und verwenden. Das Thema der Konferenz war „die Blütezeit der kontextuellen Kommunikation“, dh Kommunikation, bei der beide Parteien den Kontext der Kommunikation sofort und vollständig verstehen. Es klingt abstrakt, also ein paar Beispiele: Sie rufen Sie von einer unbekannten Nummer aus an. Dementsprechend wissen Sie nicht, wer wo und zu welchem Zweck anruft. Umgekehrt können Sie ab diesem Schritt den Support anrufen, wenn Sie eine Operation in der Internetbanking-Anwendung ausführen und irgendwann ein Fehler aufgetreten ist. Der Kontext der Situation ist sowohl für Sie als auch für den Betreiber klar . Um dieses Bewusstsein zu schaffen, verwenden Unternehmen Kommunikationsplattformen (CPaaS,
Communications Platform as a Service ) und diese wiederum verwenden KI und maschinelles Lernen. Unser CEO Alexei Aylarov hat genau bei APIDays darüber gesprochen, und heute veröffentlichen wir eine Adaption der Juni-Performance.
Erfolg CPaaS
CPaaS ist ein schnell wachsendes Unternehmen. Warum? Es gibt mehrere Gründe für den Erfolg des CPaaS-Konzepts.
Erstens war die Blütezeit von CPaaS vor allem auf die Blütezeit des „neuen Unternehmens“ zurückzuführen. Als Unternehmen wie Uber und Lyft ihre Lebensfähigkeit unter Beweis stellten, wurde plötzlich allen klar, dass all diese Startups gestern Cloud-basierte Kommunikationsplattformen verwendeten. Als der Markt dies zu verstehen begann, begann die Nachfrage nach CPaaS zu wachsen, da Sie mit Cloud-Lösungen sehr schnell fertige „Boxed Solutions“ auf Ihrer Basis sammeln können, um Geld zu verdienen.
Zweitens müssen wir uns daran erinnern, dass CPaaS-Plattformen immer auf Entwickler ausgerichtet waren. Und jedes moderne Startup hat immer Entwickler, für die es nicht schwierig ist, CPaaS zu verwenden.
Drittens Clouds - es gibt Clouds, was den weltweiten Zugriff auf den Service, die Skalierbarkeit und die Erhöhung der Kapazität bei Bedarf bedeutet. Und das alles ohne Kopfschmerzen für jemanden, der CPaaS verwendet.
Und schließlich bieten die meisten Plattformen das Prinzip der Pay-as-you-go-Zahlung an, wenn Sie nur für das bezahlen müssen, was Sie verwenden: Es gibt Spracherkennung und Übersetzung in Text - diese Funktionen werden in Rechnung gestellt, aber es gibt keine Erkennung - na ja, Sie verstehen. Es ist sehr flexibel und transparent.
Neu in der Branche
Das erste, was hier erwähnt werden muss, ist Serverless, das CPaaS auf die nächste Stufe bringt. Nachdem
wir ausführlich zu diesem Thema geschrieben haben , beschränken wir uns jetzt auf die Hauptthese: Serverlos bedeutet nicht, dass es überhaupt keine Server gibt, sondern deren Abwesenheit auf der Clientseite. Aus Sicht der verwendeten Computerressourcen ist dies die gleiche Umlage, da die Gebühr entsprechend der Belastung des Computeranbieters berechnet wird. Ein weiterer wichtiger Punkt bei Serverless ist, dass Clients Zugriff auf die Laufzeit der Plattform erhalten können, was zu geringeren Latenzen und einer höheren Zuverlässigkeit führt.
Ein weiterer Trend sind die WYSIWYG-Editoren. Dies ist einer der Schritte in Richtung eines Geschäftspublikums, das (meistens) nicht weiß, wie man codiert, aber gleichzeitig die Bot / Call Center-Logik in einem visuellen Editor sammeln kann. Die Implementierungsansätze variieren geringfügig (siehe Smartcalls von Voximplant, Studio von Twilio, FlowBuilder von MessageBird usw.), aber das Wesentliche ist ähnlich: Der Benutzer verwendet keinen Code, sondern visuelle Blöcke, die ihren Standort und die Verbindungen zwischen ihnen variieren. Übrigens können Sie in einigen dieser Editoren den Code weiterhin als erweiterte Funktion verwenden, z. B. unsere Smartcalls. Dies ist jedoch eine etwas andere Geschichte.
Endlich eine Cloud-basierte IDE. Natürlich können sie sich kaum mit bedingten IDEA vergleichen, aber mit
VS Code ist es einfach . Wenn CPaaS dem Entwickler ein leistungsstarkes Tool für die Arbeit mit Code bietet, wird ein solcher Entwickler höchstwahrscheinlich sehr zufrieden sein. Normaler Debugger, intelligente automatische Vervollständigung, Code-Hervorhebung, benutzerdefinierte Stile, Registerkarten usw. - Wenn es sich in der Weboberfläche befindet und schnell funktioniert, erhält die Plattform für ihre Flexibilität zusätzliche Karma-Punkte.
Aber unsere Freude wäre nicht vollständig ...
... wenn nicht für AI. Maschinelles Lernen gibt Kommunikationsplattformen neue Freiheitsgrade, nämlich:
Anerkennung
Spracherkennung und -synthese - jemand entwickelt sie unabhängig voneinander, aber es ist sehr zeitaufwändig. Sie können sich hierfür an große Player wie Google, Amazon, Yandex wenden - ihre Modelle erkennen die menschliche Sprache bereits sehr gut und ahmen sie nach (nicken Sie in Richtung WaveNet).
NLU / NLP-Automatisierung
Verständnis natürlicher Sprache (Verarbeitung) - Die Verarbeitung natürlicher Sprache ist heute das heißeste Thema in der Welt der Kommunikation. Und wenn die Geschäftslösung auf NLU basiert, findet dort optional die Sprachsynthese statt, dann antwortet die Person etwas, ihre Sprache wird transliteriert, dieser Text wird an den Roboter zurückgegeben und er wählt, um zu reagieren, den Antworttext aus, der wiederum notwendig ist zu synthetisieren. Es klingt nicht nach Raketenwissenschaft, aber es ist immer noch ratsam, hier die Automatisierung zu verwenden - Google Dialogflow, IBM Watson, Amazon Lex usw.
Bedienererweiterung
Wenn der Callcenter-Betreiber mit dem Kunden kommuniziert, können Sie die Sprache im Hintergrund analysieren und dem Betreiber zusätzliche Informationen geben, damit er seine Zeit nicht verschwendet. Ein Kunde kann beispielsweise fragen, wo sich der nächste Geldautomat befindet. Das System erkennt die Frage und zeigt die Antwort auf dem Bildschirm des Bedieners an. Letzterer liest einfach die Antwort vor, anstatt den Kunden zu bitten, zu warten.
Emotionsanalyse
Fast jeder ist daran interessiert, aber dies ist derzeit die schwierigste Richtung in CPaaS, da Menschen dazu neigen, dieselben Informationen auf unterschiedliche Weise zu präsentieren und auch häufig kulturelle Referenzen in der Sprache zu verwenden. Jetzt analysieren viele Unternehmen Emotionen mithilfe von Text. Jetzt gibt es Lösungen in diese Richtung, aber es kann nicht gesagt werden, dass sie erfolgreich wären, da Sie nicht weit gehen können, wenn Sie nur den Text analysieren. Es ist offensichtlich, dass Emotionen nicht nur WAS genau gesagt werden, sondern auch WIE. Eine überzeugende Analyse von Emotionen in Echtzeit ist daher eine Frage der (nahen?) Zukunft.
Audio / Video-Verbesserung
Jeder kennt die Geräuschreduzierung - wenn Sie telefonieren, „entfernt“ das trainierte Modell Hintergrundgeräusche, sodass die andere Person nur Sie hört. Manchmal leidet die Stimme des Sprechers selbst, da die Modelle nicht immer erfolgreich unterscheiden können, welche Frequenzen zum Hintergrund und welche zur Stimme gehören. Aber insgesamt funktioniert es schon ziemlich gut. Apropos Bild: Wir wissen, wie moderne Smartphones mithilfe von KI Bokeh (Hintergrundunschärfe) erzeugen. Ein solcher Ansatz, aber bereits im Rahmen von Videoanrufen, wird ebenfalls gefragt sein - stellen Sie sich vor, Sie müssen nicht nach dem perfekten Hintergrund suchen, da die KI jede Umgebung hinter Ihnen verwischt. Obwohl warum "vorstellen" - Skype hat
bereits solche Funktionen .
Videoanalyse
Die Analyse des Videostreams oder der Videos hilft zu verstehen, was sich im Frame befindet. Bisher ist dies eine sehr ressourcenintensive Aufgabe, daher werden diejenigen, die über viel Rechenleistung verfügen - Google, Microsoft und andere wichtige Akteure - heute am besten damit fertig.
Analytik aufrufen
Dies umfasst nicht nur die Klassifizierung und Datensegmentierung. Stellen Sie sich vor, Sie haben Zehntausende von Anrufdatensätzen und können diese in Text übersetzen und dann danach suchen. Es ist jedoch viel effektiver, wenn die KI diese Aufzeichnungen durchgeht und sie in Gruppen verteilt (dies sind Verkaufsanrufe und dies sind Garantieanrufe). Sie zeigt, wo sich der Callcenter-Betreiber korrekt verhalten hat und wo dies nicht sehr ist (und Sie können genau feststellen, wie die Person benahm sich, was waren die Emotionen), hier fragte der Kunde nur nach dem Kauf eines Autos und hier - nach dem Auto und nach der Versicherung und nach der Probefahrt. Mit maschinellem Lernen können Sie aus einem solchen Datenfeld eine beliebige Menge an Informationen herausfischen.
Anrufbeantworter Definition
Ein Sonderfall, aber auch ein gutes Beispiel: In unserer Plattform haben wir die Definition eines Anrufbeantworters implementiert. Jetzt kann die Plattform Anrufbeantworter auf Russisch erkennen - wir haben das Modell bei vielen Anrufen geschult, jetzt kann es eine lebende Person von einer aufgezeichneten Nachricht unterscheiden. Herkömmliche Erkennungsmethoden sind nicht sehr effektiv (z. B. durch ein Audiosignal), aber AI hat uns dabei geholfen, eine Genauigkeit von bis zu 99% zu erreichen, und die Erkennung dauert nur 2 Sekunden.
Schwierigkeiten
Maschinelles Lernen erfordert viele Ressourcen. Dabei geht es nicht nur um Rechenleistung, sondern auch um Menschen mit besonderen Fähigkeiten - Datenwissenschaftler, die Trainingsmodelle erstellen und anpassen und auch wissen, welche Daten benötigt werden. Es ist nicht leicht, solche Leute zu finden, und ihre Arbeit ist teuer. Sie sind auch bei den Hauptakteuren sehr gefragt, und es ist schwierig, mit dem bedingten Google in Bezug auf die Einstellung zu konkurrieren, obwohl dies möglich ist. Anstatt zu konkurrieren, ist es daher besser, die Zusammenarbeit mit Giganten zu wählen - die meisten CPaaS-Spieler nutzen die Leistungen großer Unternehmen, und dies ist normal. Auf der anderen Seite führt dies dazu, dass der Riesenpartner die Kosten anderer Spieler verwaltet - die Raten für die Spracherkennung und -synthese festlegt / ändert (denken Sie an WaveNet von Google). Das heißt, wenn Sie die Lösungen des Riesen verwenden und er plötzlich beschließt, die Preise zu ändern, sind Sie gezwungen, dasselbe zu tun, was Ihren Benutzern möglicherweise nicht wirklich gefällt. Fügen Sie hier hinzu, dass Sie Daten an diesen Riesen senden - für einige Unternehmen ist dies ein Problem. Sie können sich jedoch immer nicht nur auf einen Partner verlassen, sondern die Lösungen mehrerer Giganten mit ähnlicher Funktionalität nutzen. Schließlich ist eine solche Zusammenarbeit für CPaaS-Spieler bequem und vorteilhaft.
Anstelle einer Schlussfolgerung
Es kommen neue Technologien, die die Kommunikation auf die gleiche Weise beeinflussen, wie WebRTC sie zu gegebener Zeit beeinflusst hat - dies sind 5G und AV1.
5G zielt darauf ab, das Prinzip "immer online" zum Leben zu erwecken - dies ist das ultimative Ziel, aber es ist klar, dass dies nicht an einem Tag geschehen wird. Mit dem Aufkommen dieser Technologie wird CPaaS mehr Möglichkeiten haben, da selbst diejenigen, die zuvor keine mobile Datenübertragung verwendet haben, damit beginnen werden. Die Kommunikationsinfrastruktur wird sich ändern, und mit ihr werden sich die bekannten Telekommunikationsunternehmen ändern.
Der AV1-Videocodec ist auch für CPaaS nützlich, da er kostenlos ist, sodass Sie sich keine Gedanken über Lizenzen machen müssen. Ein kostenloser Codec, der effektiver als H.265 ist und allen zur Verfügung steht, wird auch die Welt der Kommunikation verändern.
Die Zukunft geschieht vor unseren Augen, und Voximplant beobachtet nicht nur, was passiert, sondern beteiligt sich auch an diesem Prozess.