O que a P&D ABBYY faz: Grupo de Pesquisa Avançada em PNL

O que eles fazem no departamento de P&D da ABBYY? Para responder a essa pergunta, começamos uma série de publicações sobre como nossos desenvolvedores criam novas tecnologias e melhoram as soluções existentes. Hoje falaremos sobre a linha de processamento de linguagem natural (PNL).

Nós da ABBYY estamos envolvidos em pesquisas no campo do processamento de linguagem natural e estamos enfrentando problemas científicos complexos para os quais não existem soluções prontas. Por isso, criamos inovações que formam a base de produtos e ajudam nossos clientes, e seguimos em frente. A propósito, em 24 de novembro, em uma palestra na Escola de Aprendizagem Profunda do Instituto de Física e Tecnologia de Moscou, Ivan Smurov, chefe do NLP Advanced Research Group no departamento de P&D ABBYY, dirá quais são os problemas da análise de texto no mundo e como as redes neurais modernas podem resolvê-los. E neste post, Ivan nos contou sobre as três tarefas nas quais ele está trabalhando atualmente.

É importante que os colegas do Grupo de Pesquisa Avançada da PNL selecionem tarefas isoladas, ou seja, não muito estritamente relacionadas às tecnologias e soluções ABBYY existentes. Às vezes, nossos próprios funcionários encontram essas tarefas, às vezes nosso P&D fala sobre eles e pede ajuda com sua solução e, depois, com a publicação dos resultados em revistas científicas. Então, a primeira tarefa.

Sammarização: não é mais complicado do que recontar?


Essa técnica de análise de texto permite transformá-la em recontagem ou anotação. Nesta forma, as pessoas há muito tempo usam sammarização. Na ABBYY, estamos tentando aplicar as técnicas de sammarização em um sentido expandido: estamos tentando resolver os problemas que tradicionalmente não são resolvidos com a ajuda da sammarização, por exemplo, para obter as características integrais do texto e destacar os eventos que ocorrem no texto.

A sammarização pode simplificar um pipeline tradicional. Por exemplo, agora, para extrair os nomes das empresas partes no contrato do documento, muitas tarefas sequenciais da PNL são tradicionalmente resolvidas, desde a identificação de entidades até a filtragem dos fatos extraídos. Todas essas tarefas dependem uma da outra e, o mais importante, cada uma delas exige sua própria marcação de referência. E criar marcação no aprendizado de máquina é uma das coisas mais caras.

Com a ajuda da sammarização, é possível extrair fatos de ponta a ponta, ou seja, sem etapas intermediárias, subtarefas e marcações. E será tão simples e rápido quanto recontar o texto. E talvez mais barato.

Análise sintática: procurando uma elipse


Lembre-se, na escola, analisamos sentenças: assunto, predicado, adição? Em um sentido linguístico, analisar uma sentença é mais complexo e detalhado. Tudo pode ser descrito como dependência, onde o principal é um predicado ou verbo, e o sujeito, acréscimos etc. dependem disso.O analisador sintático lida com essa análise de sentenças em programas modernos. Normalmente, o analisador sintático gasta uma parte considerável do tempo criando e descartando os zeros sintáticos que aparecem durante as elipses .

Aqui está um exemplo: Misha comeu uma pêra e Masha comeu uma maçã . Tanto na fala oral quanto na escrita, simplesmente pulamos o verbo "ate" e o significado para nós não muda. Mas para a linguística de computadores, definir zeros sintáticos é um problema complexo. Existem muitos tipos de reticências, que podem estar em diferentes locais das frases. Como resultado, o analisador é forçado a verificar duas hipóteses: havia zero, o que na verdade não é zero?

Essa verificação complica e retarda o trabalho do analisador; além disso, é preciso muito poder de computação. Portanto, estamos inventando novas maneiras de procurar locais onde é provável que ocorram zeros de sintaxe. Isso reduzirá o tempo durante o qual o analisador determinará as reticências.

A propósito, o interesse em reticências na linguística de computadores aumentou significativamente este ano. O artigo de pesquisa “ Sentenças com Lacunas: Analisando e Reconstruindo Predicados Elidados ” foi publicado pelos maiores linguistas da computação de nossos tempos Sebastian Schuster , Joachim Nivre e Christopher Mining . Assim, o estudo da elipse é uma boa tarefa, cuja solução pode dar resultados tanto para a comunidade científica quanto para a aplicação prática.

Desambiguação Lexical


O que é uma "parada"? Este pode ser o objeto onde o ônibus chegou, ou pode ser uma parada no processo, ou talvez uma parada no discurso. A palavra é uma, mas ele tem muitos significados.

Muitas empresas possuem thesauri onde esses significados são descritos. É conveniente receber automaticamente de uma sequência de palavras, formas de palavras ou tokens - uma sequência de significados ou classes semânticas. Na ABBYY, tentamos criar um modelo isolado que defina com precisão o significado de uma palavra com boa qualidade e velocidade. Se você remover rapidamente a ambiguidade lexical, poderá decentemente acelerar o trabalho - seja analisando ou extraindo entidades / fatos nomeados.

E o que a rede neural e a Escola de Aprendizagem Profunda têm a ver com isso?


Todas essas tarefas são resolvidas usando redes neurais. Não que eles não possam ser resolvidos sem redes, mas agora é o método mais moderno. Redes neurais recursivas fornecem melhores resultados para tarefas de PNL. Portanto, este não é apenas um fenômeno abstrato da moda, mas o que é usado na prática para resolver uma grande variedade de tarefas da PNL.

Ivan Smurov lhe dirá mais sobre quais tarefas da análise de texto, como as redes neurais modernas são usadas para resolver esses problemas na Rússia e no mundo, em uma palestra na Escola de Aprendizado Profundo do Instituto de Física e Tecnologia de Moscou. A palestra será realizada neste sábado, 24 de novembro, às 17:00, às 9 horas Dmitrovskoye Shosse.

Source: https://habr.com/ru/post/pt430730/


All Articles