在六月的阿姆斯特丹,最后一次例行APIDays会议是为以某种方式创建和使用各种API的每个人准备的。 会议的主题是“情境交流的全盛时期”,即双方都应立即充分了解交流环境的交流。 听起来很抽象,下面举几个例子:他们用一个陌生的电话给你打电话。 因此,您不知道谁在打电话,在哪里以及出于什么目的。 相反,如果您在Internet银行应用程序中执行某种操作,而在某些步骤上出了问题,则可以从此步骤中立即致电支持部门-您和操作员都可以清楚地了解情况。 为了提供这种意识,企业使用通信平台(CPaaS,
通信平台即服务 ),而反过来又使用AI和机器学习。 我们的首席执行官Alexei Aylarov在APIDays上发表讲话时恰好谈到了这一点,今天我们将发布6月表演的改编版。
成功的CPaaS
CPaaS是一项快速发展的业务。 怎么了 CPaaS概念成功的原因有很多。
首先,CPaaS的鼎盛时期主要是由于“新企业”的鼎盛时期-当Uber和Lyft等公司证明了自己的生存能力时,所有人都突然意识到昨天所有这些创业公司都在使用基于云的通信平台。 当市场开始了解这一点时,对CPaaS的需求就开始增长,因为云解决方案使您可以根据自己的需要迅速收集现成的“盒装解决方案”以开始赚钱。
其次,我们必须记住,CPaaS平台始终面向开发人员。 每个现代初创公司总是会有开发人员,对于他们而言,使用CPaaS并不难。
第三,云-存在云,这意味着可以访问世界各地的服务,可伸缩性和按需增加容量。 对于使用CPaaS的人来说,所有这些都不会令人头疼。
最后,大多数平台都提供随用随付的付款原则,当您只需要为使用的商品付费时:有语音识别和翻译成文本的功能-这些功能是收费的,但没有识别功能-您明白了。 这是非常灵活和透明的。
业内新品
这里首先要提到的是无服务器,它将CPaaS提升到一个新的水平。 一旦
我们详细讨论了这个主题 ,现在我们就将自己限制在主要论点上:无服务器并不意味着根本没有服务器,而是在客户端没有服务器。 从使用的计算资源的角度来看,这是即付即用的方式,因为费用是根据计算提供商的负担收取的。 无服务器的另一个重要点是,可以为客户端提供对平台运行时的访问权限,这可以降低延迟并提高可靠性。
另一个趋势是所见即所得的编辑器。 这是针对(通常)不知道如何编码的业务受众的步骤之一,但同时可以在可视化编辑器中收集漫游器/呼叫中心逻辑。 实现方法略有不同(请参阅Voximplant的Smartcall,Twilio的Studio,MessageBird的FlowBuilder等),但本质上是相似的-用户不使用代码,而是使用可视块,从而改变了它们的位置和它们之间的连接。 顺便说一句,其中一些编辑器仍允许您将代码用作高级功能,例如我们的Smartcalls,但这是一个稍微不同的故事。
最后,一个基于云的IDE。 当然,虽然它们几乎无法与条件式IDEA相提并论,但使用
VS Code却很
容易 。 如果CPaaS为开发人员提供了强大的代码处理工具,那么这样的开发人员很可能会感到非常满意。 普通调试器,智能自动完成功能,代码突出显示,自定义样式,标签等。 -当它在Web界面中并且可以快速运行时,该平台会因其灵活性而获得额外的业力积分。
但是我们的喜悦不会是完整的...
...如果不是为了AI。 机器学习为通信平台提供了新的自由度,即:
认可度
语音识别和合成-有人独立开发它们,但这非常耗时。 您可以为此寻求诸如Google,Amazon,Yandex之类的大型公司-他们的模型已经很好地识别并模仿了人类的语音(向WaveNet点头)。
NLU / NLP自动化
自然语言理解(处理)-自然语言处理现在是通信世界中最热门的话题。 如果业务解决方案依赖于NLU,则可以选择在其中进行语音合成,然后该人回答一些问题,他的语音被音译,然后将文本返回给机器人,为了做出反应,他选择了响应文本,这也是必要的进行合成。 听起来不像是火箭科学,但在这里使用自动化仍然是明智的选择-Google Dialogflow,IBM Watson,Amazon Lex等。
操作员增强
当呼叫中心接线员与客户沟通时,您可以在后台分析语音并为接线员提供其他信息,以免浪费时间。 例如,客户可能会问最近的ATM在哪里-系统会识别问题并在操作员的屏幕上显示答案; 后者只会读出答案,而不是要求客户等待。
情绪分析
几乎每个人都对此感兴趣,但这是CPaaS当前最困难的方向,因为人们倾向于以不同的方式呈现相同的信息,并且也经常在语音中使用文化参考。 现在,许多公司都使用文本来分析情绪。 现在有朝着这个方向的解决方案,但是不能说它们会成功,因为您不能仅分析文本就走得太远。 很明显,情感不仅是确切地说的,而且还包括如何。 因此,实时令人信服的情感分析是(近)未来的问题。
音频/视频增强
每个人都知道如何降低噪音-当您在电话上交谈时,训练有素的模型会“消除”背景噪音,以便其他人只能听到您的声音。 有时讲话者本人的声音会受到影响,因为模型无法始终成功地区分出哪些频率属于背景,哪些频率属于语音。 但总的来说,它已经运行良好。 说到图片,我们知道现代智能手机如何使用AI制作背景虚化(模糊背景)。 也需要这种方法,但已经在视频通话的框架之内-假设您不需要寻找完美的背景,因为AI会模糊您身后的任何环境。 尽管为什么要“想象”-Skype
已经具备了这种功能 。
视频分析
对一个或多个视频流的分析有助于了解帧中的内容。 到目前为止,这是一项非常耗费资源的任务,因此今天,那些拥有强大计算能力的人(包括Google,Microsoft和其他主要参与者)将最好的方法解决了。
通话分析
这不仅包括分类和数据分段。 想象一下,您有成千上万的通话记录,可以将它们转换为文本,然后对其进行搜索。 但是,如果AI仔细检查这些记录并将它们分为几组(这些是销售电话,这些是保证电话),它会更有效,它将揭示呼叫中心操作员在哪里表现正常,在哪里表现不佳(此外,您还可以准确地确定这个人的举止,情感是什么),在这里客户仅询问有关购买汽车的信息,在这里-有关汽车,保险和试驾的信息。 您可以使用机器学习从这样的数据阵列中获取任何数量的信息。
答录机定义
一个特例,也是一个很好的例子:在我们的平台中,我们实现了答录机的定义。 现在,该平台可以识别俄语的答录机-我们在很多电话上训练了该模型,现在它可以从录制的消息中区分出一个活着的人。 常规的检测方法不是很有效(例如,通过音频信号),但是AI帮助我们实现了高达99%的准确度,并且识别仅需2秒钟。
难点
机器学习需要大量资源。 这不仅与计算能力有关,而且还与具有特殊技能的人有关-创建和定制培训模型并知道需要什么数据的数据科学家。 要找到这样的人并不容易,他们的工作也很昂贵。 在主要参与者中,他们也有很高的需求,尽管有可能,但要在聘用方面与有条件的Google竞争很困难。 因此,与其竞争,不如选择与巨人合作-大多数CPaaS参与者利用大公司的成就,这很正常。 另一方面,这导致了一个事实,那就是,巨大的合作伙伴会管理其他参与者的费用-设置/更改语音识别和合成的速率(请记住Google的WaveNet)。 也就是说,如果您使用巨人的解决方案,而他突然决定更改价格,那么您将被迫这样做,这可能并不能真正取悦用户。 在此处添加,您将向该巨型计算机发送数据-对于某些企业来说,这是一个问题。 但是,您始终不能仅依靠一个合作伙伴,而是使用功能相似的几家巨头的解决方案。 最终,这种合作对于CPaaS玩家而言既方便又有益。
而不是结论
即将出现的新技术将以与WebRTC相同的方式影响通信,这些技术是5G和AV1。
5G的目标是实现“始终在线”的原则-这是最终目标,但是很显然,这不会在一天内发生。 随着这项技术的出现,CPaaS将拥有更多机会,因为即使那些以前从未使用过移动数据传输的用户也将开始这样做。 通信基础设施将发生变化,熟悉的电信业务也会随之发生变化。
AV1视频编解码器也是免费的,它对CPaaS也很有用,这意味着您不必担心许可证问题。 比H.265更有效的免费编解码器将提供给所有人,这也将改变通信的世界。
未来在我们眼前发生,Voximplant不仅在关注正在发生的事情,而且还在参与这一过程。