Tendências e previsões no processamento de idiomas naturais

Tendências e previsões no campo da PNL (processamento de linguagem natural)


Este artigo trata de tendências e previsões do nosso Almanaque “Inteligência Artificial” nº 2 de setembro, dedicado a uma revisão do mercado de tecnologias e empresas no campo da PNL e da síntese e reconhecimento de fala na Rússia.

Para este estudo, realizamos uma pesquisa especializada da indústria e, em particular, perguntamos sobre previsões do desenvolvimento de ambas as tecnologias e do uso da IA ​​em vários campos. Não havia muitas respostas, mas, no entanto, uma tendência geral pode ser formulada. Neste artigo, resumimos essas respostas e mostramos as principais tendências.

Tendências gerais de tecnologia


Solução de problemas de PNL de ponta a ponta


Mais e mais soluções serão baseadas na abordagem de ponta a ponta, por exemplo, o modelo de rede neural recebe um sinal acústico (ondas sonoras) na entrada e produz um sinal acústico na saída, sem uma fase intermediária do texto. Isso irá acelerar significativamente a execução dos modelos e sua qualidade, enquanto piora a "transparência" e nosso entendimento do "que está dentro".

Aproximando a qualidade do reconhecimento e geração de fala ao humano


Nos próximos anos, uma melhoria significativa na qualidade do reconhecimento de fala será alcançada. O número de erros no reconhecimento se aproximará do nível humano. O reconhecimento da fala mista de várias pessoas falando com sotaques diferentes em um ambiente barulhento melhorará. Uma análise das cenas sonoras com reconhecimento do gênero e idade dos falantes, a coloração emocional de seus discursos e a natureza do ambiente será adicionada.

A fala sintetizada será indistinguível da fala humana e será possível sintetizar a voz de qualquer pessoa.

Multilinguismo


Num futuro próximo, modelos de tradução multilíngue aparecerão, inclusive devido ao uso de transferência de aprendizado e ao uso de monocorpus significativamente maiores, além de casos paralelos. Como resultado, a qualidade da tradução para idiomas com pouco recurso aumentará significativamente (com matrizes relativamente pequenas de amostras de treinamento).

A tradução manual será completamente substituída pela tradução automática, devido a uma compreensão mais profunda do contexto e do assunto dos documentos. Com o crescimento das tecnologias de reconhecimento e síntese de fala, a interpretação simultânea da máquina aparecerá no horizonte de 5 a 10 anos.

Compreendendo o significado dos textos


Outras aplicações baseadas na compreensão do significado específico do contexto aparecerão no mesmo horizonte em 5 a 10 anos: vários tipos de diálogo e serviços de ajuda que podem entender o contexto do diálogo, responder de forma inteligente às perguntas do usuário e direcionar o diálogo na direção certa. Uma compreensão mais profunda da linguagem da máquina levará a um novo nível o processamento automático de fluxos de texto na Internet e nas redes sociais: a coleta e compilação de fatos, sua análise de consistência e confiabilidade.

Geração de Texto


As redes neurais de ponta a ponta substituirão universalmente o pipeline clássico de NLG. O uso de modelos no nível GPT2 já permite criar artigos bastante longos sobre tópicos arbitrários em uma determinada área com conteúdo controlado. Em um horizonte de cinco anos, os modelos de redes neurais poderão gerar textos não piores que os humanos. E então o conteúdo automático inundará o mundo.

Plataformas e plataformas cruzadas


Muitas soluções se tornarão padrão, haverá muitas plataformas para a criação de aplicativos baseados em interfaces de voz. As plataformas em nuvem melhorarão em termos de tempo de resposta, cargas de trabalho e segurança. O crescimento do investimento não está previsto em serviços interativos separados (chatbots), mas em plataformas multifuncionais e soluções de plataforma cruzada, graças às quais o assistente de voz poderá trabalhar igualmente em diferentes dispositivos. Como resultado, poderemos iniciar uma conversa com nosso assistente na “casa inteligente”, continuar na estrada no carro e depois trabalhar com o computador no local de trabalho, tudo sem perder o contexto da comunicação.

Small Data Technologies


O valor dos métodos de aprendizado de máquina que funcionam efetivamente em condições de uma pequena quantidade de dados brutos aumentará: transferência de aprendizado, transferência de conhecimento. Nessas aplicações, também é esperado o uso mais amplo da GAN (redes adversárias generativas) para gerar dados para o treinamento do modelo.

Arquiteturas com menos requisitos de computação


Com a transição dos modelos de redes neurais das paredes dos laboratórios para os data centers comerciais, os requisitos para sua eficiência energética aumentarão. Novas arquiteturas de computação mais eficientes são esperadas. Por exemplo, redes esparsas combinando as melhores qualidades de cálculos distribuídos e simbólicos, cujos modelos de complexidade se adaptam à quantidade de dados de treinamento.

Tendências do mercado


Implementação onipresente de interfaces de voz


O desenvolvimento de tecnologias de fala para texto será o primeiro passo para simplificar as tarefas do escritório (por exemplo, planejar o tempo do gerente, pesquisar documentos, processar informações confidenciais). Com maior precisão de reconhecimento, profundidade de entendimento e qualidade da síntese de fala, as interfaces de voz serão integradas em quase todos os dispositivos: sistemas de diálogo em uma casa inteligente, carro, eletrodomésticos, bots de avatar, bots de assistente.

Crescimento explosivo de robôs de voz


Aguardamos o crescimento explosivo do número de assistentes inteligentes em vários setores de negócios, incluindo serviços comerciais de bancos, varejistas, telecomunicações e outras empresas que interagem ativamente com os clientes. Toda comunicação verbal com um público de massa nos serviços mais populares será realizada por robôs. Os robôs aprenderão a reconhecer sensivelmente as emoções, inclusive usando a avaliação multimodal das emoções e usarão eles mesmos o componente emocional da conversa.

Pesquisa de informações em linguagem natural


Há uma demanda crescente por pesquisa inteligente com a capacidade de fazer consultas em um idioma natural. Mais e mais organizações desejam encontrar rapidamente dados não estruturados em todas as fontes internas, determinar automaticamente seu conteúdo e destacar fatos significativos em textos jurídicos ou financeiros especializados. Devido ao desenvolvimento de modelos profundos para extrair fatos de textos e abstrair seus conteúdos, a qualidade da recuperação de informações melhorará significativamente.

Em casa


Aparentemente, grandes empresas - bancos, telecomunicações, indústria - desenvolverão e aumentarão seus próprios conhecimentos no campo da IA, incluindo conversas com sua própria equipe de linguistas, cientistas de dados, engenheiros de PNL, etc. Exemplos de terceirização de tarefas individuais em um futuro próximo permanecerão pequenos. Estamos vendo um rápido crescimento nas equipes de IA de muitas grandes empresas. Bom ou ruim é um tópico para um artigo separado, mas essa é uma tendência clara.

Tendências da indústria


Finanças e Seguros


No curto prazo, os bancos se concentrarão em maximizar os benefícios dos dados já acumulados pelos bancos que usam a IA em geral e a PNL em particular. A longo prazo, há uma tendência constante à unificação e simplificação dos processos bancários que podem ser realizados sem ou sem uma pessoa (abertura de uma conta, avaliação de riscos, criação de um dossiê de crédito, pontuação, etc.). A PNL será combinada com outras tecnologias (visão computacional, RPA, identificação remota etc.).

Indústria e Logística


Graças às tecnologias da PNL, pode-se esperar uma nova geração de designers da documentação do projeto, bem como o surgimento de sistemas que avaliam a consistência dos documentos que descrevem objetos técnicos complexos. Além disso, é possível prever o surgimento de sistemas de planejamento de controle automatizado com base em uma análise da documentação e padrões do projeto usando a PNL.

Com o advento dos sistemas para entender o significado dos textos, no horizonte de 5 a 10 anos, espera-se uma solução final para o problema da normalização das nomenclaturas.

Remédio


A introdução generalizada de interfaces de voz liberará significativamente o médico das entradas de texto e criará registros médicos marcados automaticamente. O surgimento de um grande conjunto de textos marcados possibilitará o surgimento de SPPVR (sistemas de suporte à decisão médica) de uma nova classe baseada nas tecnologias da PNL.

TI e telecomunicações


Espera-se que o amplo uso de tecnologias biométricas de voz (autenticação e autorização de uma pessoa por voz) forneça serviços com base em dados personalizados. As operadoras de telecomunicações terão a oportunidade de assumir uma posição única no ecossistema de serviços digitais, possuindo um canal de comunicação de voz com o cliente. Por outro lado, os mensageiros de voz contam com as mesmas tecnologias básicas para reconhecimento e síntese de fala. Estamos aguardando um momento interessante de batalhas dos gigantes da indústria de telecomunicações com mensageiros instantâneos pelo canal de voz com o cliente.

Prática jurídica


No horizonte de 3 a 5 anos, podemos esperar ampla adoção de tecnologias para verificação automática de contratos e, mais amplamente, automação do trabalho contratual, incluindo verificação do cumprimento de obrigações, etc.

Nos próximos 5 a 10 anos, podemos esperar o surgimento de modelos de entendimento de textos legais. Com base neles, esperamos o surgimento de sistemas que emitem a pergunta de um usuário em um idioma natural, uma resposta que seja um resumo conciso da documentação legal existente, incluindo inconsistências e várias versões.

Um computador para um advogado deixará de ser uma referência e se tornará uma ferramenta completa de suporte à decisão. Uma das principais tarefas do computador de um advogado será prever o resultado do processo com a construção de uma árvore de decisão probabilística com base na prática existente. A maior parte desse trabalho provavelmente ocorrerá na nuvem em modelos treinados de tamanho enorme.

O surgimento maciço de serviços pontuais, produtos e empresas que resolvem um problema específico no plano jurídico.

Podemos esperar uma integração mais profunda das soluções RPA com as tecnologias de PNL, o que levará à transferência de tarefas rotineiras para processar informações e inserir dados para robôs de software.
E, finalmente, a perspectiva de contratos inteligentes no blockchain, gerados automaticamente com base na análise de documentos juridicamente vinculativos, como contratos ou NDAs, parece absolutamente fascinante. Essa combinação de tecnologias pode dar vida a documentos legais auto-executáveis, que até agora soam como ficção científica, mas não muito longe da implementação.

Mídia e Publicidade


Estamos aguardando a introdução generalizada de marketing personalizado com base na análise on-line da pegada digital de uma pessoa. Incluirá uma análise profunda dos textos humanos e sua tonalidade: uma avaliação positiva e negativa do texto não é em geral, mas em relação a um produto ou marca específica.

Cada pessoa terá um assistente pessoal de compras, responsável por 90% das compras de rotina.

Haverá serviços para geração automática de notícias para uma empresa em particular, com base em seu histórico, eventos internos e externos.

Ciência e educação


Nos próximos 5 a 10 anos, podemos esperar o surgimento de modelos para a compreensão de textos científicos. Esperamos o surgimento de sistemas que forneçam uma resposta à pergunta de um usuário colocada em uma linguagem natural, que é um breve resumo da literatura científica existente sobre esse assunto, incluindo contradições encontradas e várias versões. Outra aplicação de tais modelos são os sistemas de recomendação para pesquisa ou análise de paisagens de patentes.

Tais sistemas mudarão radicalmente o cenário tecnológico e acelerarão a transferência de tecnologias, analisando e identificando especialistas e comunidades de especialistas em uma determinada área, com base na análise das fontes de informações científicas e de patentes.

Também no horizonte de 5 a 10 anos, esperamos o surgimento de Professores Assistentes de pleno direito para cada disciplina e, em geral, para instituições de ensino. Por outro lado, aparecerão assistentes pessoais do aluno que conduzirão a pessoa ao longo do caminho pessoal da educação ao longo da vida. É provável que a interação desses agentes inteligentes também esteja na linguagem natural.

Estado e Segurança


Os Estados estão cada vez mais movendo suas atividades para o espaço da mídia e as redes sociais. O conceito de “guerra de informação”, que surgiu nos últimos anos, assumiu formas completamente concretas e requer novos tipos de “armas” e “proteção”. Uma tendência poderosa já está sendo observada e a demanda por detecção de notícias falsas só aumentará. Infelizmente, também é possível prever com confiança o crescimento da demanda por geração automatizada de vários tipos de notícias falsas. O uso da IA ​​será desenvolvido tanto para a criação de bots nas redes sociais quanto para identificá-los.

Não menos importante é a inteligência. A IA será cada vez mais usada para analisar grandes quantidades de informações sobre empresas, pessoas e transações de várias formas para resolver problemas aplicados, como encontrar afiliações e relacionamentos implícitos entre empresas e indivíduos.

Com o aumento do número de pessoas, a tarefa de automatizar a comunicação com um cidadão, a fim de lhe fornecer determinados serviços, torna-se cada vez mais urgente para o Estado. A IA, provavelmente na forma de agentes inteligentes, será usada ativamente para personificar e personalizar os serviços estaduais e municipais de cada cidadão - as chamadas “cidades cognitivas” e “estado como serviço”.

O Almanaque completo "Inteligência Artificial" sobre PNL e reconhecimento / síntese de fala pode ser baixado aqui.

Source: https://habr.com/ru/post/pt469463/


All Articles