Em junho, em Amsterdã, a última conferência regular do APIDays foi para todos que de alguma forma criam e usam várias APIs. O tema da conferência foi "o auge das comunicações contextuais", isto é, as comunicações nas quais ambas as partes entendem imediata e completamente o contexto da comunicação. Parece abstrato, então alguns exemplos: eles ligam para você de um número desconhecido. Portanto, você não sabe quem está ligando, onde e com qual propósito. Por outro lado, se você estiver executando algum tipo de operação no aplicativo de Internet banking e algo der errado em alguma etapa, poderá ligar para o suporte a partir desta etapa - o contexto da situação ficará claro para você e o operador . Para proporcionar essa conscientização, as empresas usam plataformas de comunicação (CPaaS,
Plataforma de Comunicação como Serviço ) e essas, por sua vez, usam IA e Machine Learning. Nosso CEO Alexei Aylarov falou sobre isso exatamente ao falar na APIDays, e hoje estamos publicando uma adaptação da performance de junho.
Sucesso CPaaS
CPaaS é um negócio em rápido crescimento. Porque Existem várias razões para o sucesso do conceito de CPaaS.
Primeiro, o auge do CPaaS aconteceu em grande parte devido ao auge da "nova empresa" - quando empresas como Uber e Lyft provaram sua viabilidade, ficou claro para todos que todas essas startups de ontem usavam plataformas de comunicação baseadas em nuvem. Quando o mercado começou a entender isso, a demanda por CPaaS começou a crescer, uma vez que as soluções em nuvem permitem coletar “soluções in a box” prontas em sua base muito rapidamente, a fim de começar a ganhar dinheiro.
Em segundo lugar, devemos lembrar que as plataformas CPaaS sempre foram direcionadas aos desenvolvedores. E toda startup moderna sempre tem desenvolvedores para os quais não é difícil usar o CPaaS.
Terceiro, nuvens - existem nuvens, o que significa acesso ao serviço em todo o mundo, escalabilidade e aumento da capacidade sob demanda. E tudo isso sem dor de cabeça para alguém que usa CPaaS.
E, finalmente, a maioria das plataformas oferece o princípio do pagamento conforme o uso, quando você precisa pagar apenas pelo que usa: há reconhecimento de fala e tradução em texto - essas funções são cobradas, mas não há reconhecimento - bem, você entende. É muito flexível e transparente.
Novo na indústria
A primeira coisa a mencionar aqui é o Serverless, que leva o CPaaS ao próximo nível. Depois de
escrevermos detalhadamente esse tópico , agora nos restringiremos à tese principal: Sem servidor não significa que não haja servidores, mas a ausência deles no lado do cliente. Do ponto de vista dos recursos de computação usados, é o mesmo pagamento conforme o uso, porque a taxa é cobrada de acordo com a carga no provedor de computação. Outro ponto importante do servidor sem servidor é que os clientes podem ter acesso ao tempo de execução da plataforma, o que resulta em latências mais baixas e maior confiabilidade.
Outra tendência são os editores WYSIWYG. Essa é uma das etapas para um público empresarial que (na maioria das vezes) não sabe codificar, mas ao mesmo tempo pode coletar a lógica do bot / call center em um editor visual. As abordagens de implementação variam um pouco (consulte Smartcalls do Voximplant, Studio do Twilio, FlowBuilder do MessageBird etc.), mas a essência é semelhante - o usuário não usa código, mas blocos visuais, variando sua localização e conexões entre eles. A propósito, alguns desses editores ainda permitem que você use o código como um recurso avançado, por exemplo, nossos Smartcalls, mas essa é uma história um pouco diferente.
Finalmente, um IDE baseado em nuvem. É claro que, embora eles dificilmente possam se comparar com a IDEA condicional, mas com o
VS Code é fácil . Se o CPaaS oferece ao desenvolvedor uma ferramenta poderosa para trabalhar com código, é provável que ele fique muito satisfeito. Depurador normal, preenchimento automático inteligente, destaque de código, estilos personalizados, guias, etc. - quando está na interface da web e funciona rapidamente, a plataforma recebe pontos extras no karma por sua flexibilidade.
Mas a nossa alegria não seria completa ...
... se não for por AI. O aprendizado de máquina oferece novos graus de liberdade às plataformas de comunicação, a saber:
Reconhecimento
Reconhecimento e síntese de fala - alguém os desenvolve independentemente, mas consome muito tempo. Você pode recorrer a grandes players como Google, Amazon e Yandex para isso - seus modelos já reconhecem muito bem a fala humana e também a imitam (acene com a WaveNet).
Automação NLU / NLP
Compreensão da linguagem natural (processamento) - O processamento da linguagem natural é agora o tópico mais quente do mundo das comunicações. E se a solução comercial depende da NLU, então, como opção, a síntese da fala ocorre lá, a pessoa responde algo, sua fala é transliterada, esse texto é devolvido ao robô e ele, para reagir, seleciona o texto da resposta, o que novamente é necessário sintetizar. Não parece ciência de foguetes, mas ainda é aconselhável usar a automação aqui - Google Dialogflow, IBM Watson, Amazon Lex, etc.
Aprimoramento do operador
Quando o operador do call center se comunica com o cliente, você pode analisar a fala em segundo plano e fornecer ao operador informações adicionais para que ele não perca seu tempo. Por exemplo, um cliente pode perguntar onde fica o caixa eletrônico mais próximo - o sistema reconhecerá a pergunta e exibirá a resposta na tela do operador; o último simplesmente lerá a resposta, em vez de pedir que o cliente espere.
Análise de emoção
Quase todo mundo está interessado nisso, mas esta é a direção mais difícil no CPaaS no momento, porque as pessoas tendem a apresentar as mesmas informações de maneiras diferentes e também usam referências culturais na fala com bastante frequência. Agora, muitas empresas analisam emoções usando texto. Agora, existem soluções nessa direção, mas não se pode dizer que elas seriam bem-sucedidas, pois você não pode ir muito longe na análise apenas do texto; é óbvio que as emoções não são apenas o que exatamente é dito, mas também COMO. Portanto, uma análise convincente das emoções em tempo real é uma questão do futuro (próximo?).
Aprimoramento de áudio / vídeo
Todo mundo sabe sobre redução de ruído - quando você fala ao telefone, o modelo treinado "remove" o ruído de fundo para que a outra pessoa ouça apenas você. Às vezes, a própria voz do falante sofre, pois os modelos nem sempre conseguem distinguir com êxito quais frequências pertencem ao fundo e quais são à voz. Mas no geral já funciona muito bem. Falando na imagem, sabemos como os smartphones modernos produzem bokeh (desfocam o fundo) usando a IA. Essa abordagem, mas já dentro da estrutura de videochamadas, também estará em demanda - imagine que você não precise procurar o cenário perfeito, porque a IA desfocará qualquer ambiente atrás de você. Embora por que "imagine" - o Skype
já tenha essa funcionalidade .
Análise de vídeo
A análise do fluxo ou vídeos ajuda a entender o que há no quadro. Até agora, essa é uma tarefa que consome muitos recursos; hoje, aqueles que têm muito poder de computação - Google, Microsoft e outros grandes players - lidam com isso da melhor maneira possível.
Análise de chamadas
Isso inclui não apenas classificação e segmentação de dados. Imagine que você tem dezenas de milhares de registros de chamadas e pode traduzi-los em texto e, em seguida, fazer uma pesquisa nele. Mas é muito mais eficaz se a IA passar por esses registros e distribuí-los em grupos (chamadas de vendas e garantias), revelará onde o operador do call center se comportou corretamente e onde não é muito (além disso, você pode identificar exatamente como a pessoa se comportou, quais eram as emoções), aqui o cliente perguntava apenas sobre a compra de um carro, e aqui - sobre o carro, o seguro e o test drive. Você pode coletar qualquer quantidade de informações de uma matriz de dados usando o aprendizado de máquina.
Definição da secretária eletrônica
Um caso especial, mas também um bom exemplo: em nossa plataforma, implementamos a definição de uma secretária eletrônica. Agora, a plataforma pode reconhecer atendedores de chamadas em russo - treinamos o modelo em muitas chamadas, agora pode distinguir uma pessoa viva de uma mensagem gravada. Os métodos de detecção convencionais não são muito eficazes (por exemplo, por um sinal de áudio), mas a IA nos ajudou a obter precisão de até 99%, e o reconhecimento leva apenas 2 segundos.
Dificuldades
O aprendizado de máquina requer muitos recursos. E não se trata apenas de poder computacional, mas também de pessoas com habilidades especiais - cientistas de dados que criam e personalizam modelos de treinamento e também sabem quais dados são necessários. Não é fácil encontrar essas pessoas e seu trabalho é caro. Eles também estão em grande demanda entre os principais players, e é difícil, embora possível, competir com o Google condicional em termos de contratação. Portanto, em vez de competir, é melhor escolher a cooperação com gigantes - a maioria dos players de CPaaS usa as conquistas de grandes empresas, e isso é normal. Por outro lado, isso leva ao fato de que o parceiro gigante gerencia as despesas de outros jogadores - define / altera as taxas de reconhecimento e síntese de fala (lembre-se do WaveNet do Google). Ou seja, se você usar as soluções do gigante, e ele decidir mudar repentinamente os preços, você será forçado a fazer o mesmo, o que pode não agradar seus usuários. Adicione aqui que você enviará dados para esse gigante - para algumas empresas, isso é um problema. No entanto, você sempre não pode depender de apenas um parceiro; use as soluções de vários gigantes com funcionalidade semelhante. Finalmente, essa cooperação é conveniente e benéfica para os jogadores de CPaaS.
Em vez de uma conclusão
Estão chegando novas tecnologias que afetarão as comunicações da mesma maneira que o WebRTC influenciou no devido tempo - estas são 5G e AV1.
O 5G visa dar vida ao princípio de "sempre on-line" - esse é o objetivo final, mas é claro que isso não acontecerá em um dia. Com o advento dessa tecnologia, o CPaaS terá mais oportunidades, porque mesmo aqueles que não usaram anteriormente a transferência de dados móveis começarão a fazê-lo. A infraestrutura de comunicações mudará e, com ela, os negócios familiares de telecomunicações mudarão.
O codec de vídeo AV1 também será útil para o CPaaS, pois é gratuito, o que significa que você não precisa se preocupar com licenças. Um codec gratuito que é mais eficaz que o H.265 e estará disponível para todos também mudará o mundo das comunicações.
O futuro está acontecendo diante de nossos olhos, e o Voximplant não está apenas observando o que está acontecendo, mas também participando desse processo.