
De 29 de maio a 1º de junho, a 25ª conferência científica internacional sobre linguística de computadores e tecnologias intelectuais “
Dialogue ” será realizada na Universidade Humanitária do Estado da Rússia (RSUH). Sobre o que é "Diálogo" e por que a ABBYY é sua principal organizadora, já
conversamos sobre Habré . Neste post, falaremos sobre os principais tópicos da conferência, os principais oradores, seus relatórios e quatro competições para criar sistemas automáticos de análise de texto dentro da estrutura da
Avaliação de
Diálogo .
Este ano, o Diálogo terá vários tópicos principais:
- O uso de redes neurais para análise de linguagem . É geralmente aceito que a aprendizagem profunda é a transformação de dados brutos em um resultado (o chamado de ponta a ponta), no qual é bastante difícil interpretar a “lógica” de seu recebimento em conceitos linguísticos significativos. Mas por que não usar redes neurais para obter conhecimento da própria linguagem?
- O uso de modelos de linguagem mais complexos na aprendizagem profunda . Outra tendência importante para o Diálogo: os modelos de distribuição ( incorporação ) estão claramente evoluindo dos métodos "médios hospitalares " de obtenção - para o uso de informações contextuais, sintáticas e semânticas.
- Aplicação de métodos de análise de big data a tarefas para as quais existem poucos dados . 2019 foi declarado o Ano Internacional das Línguas Indígenas , portanto, os participantes de uma das sessões do Diálogo discutirão métodos de uso de aprendizado de máquina para descrever e preservar línguas de “baixo recurso” (por exemplo, Evenki ou Selkup).
- Corpo multicanal : hoje existe a tendência de estudar um ato de fala em sua totalidade, incluindo a parte verbal, entonação, expressões faciais, gestos. Essa pesquisa é especialmente importante no treinamento de robôs, assistentes inteligentes e bots de bate-papo.
Especialistas internacionais famosos em linguística de computador são tradicionalmente convidados para o Diálogo. Este ano, a conferência é assistida por:
Chris Beeman, da Universidade de Hamburgo. Um dos analistas líderes no campo da semântica de computadores. Ele falará sobre tecnologias de aprendizado de máquina adaptáveis que levam em conta a experiência individual. 31 de maio (sexta-feira), 15:00 - 16:00
Peak Vossen, da Universidade Livre de Amsterdã, Fundador e Presidente da Global WordNet Association. Sua principal área de interesse é a interação verbal de uma pessoa e um computador. Peak Vossen fará uma apresentação sobre "Um robô comunicativo que estuda as pessoas e o mundo". Ele falará sobre um modelo de robô que aprende informações sobre o mundo e seus interlocutores através da comunicação em linguagem natural. O robô aprende tudo o que as pessoas lhe dizem, o que observa em diferentes situações e tudo o que encontra na Internet. 30 de maio (quinta-feira), 15:00 - 16:00
No total, o “Diálogo” apresentará 102 relatórios da faixa principal e cerca de 20 de estudantes.
29 de maio, no primeiro dia da conferência, os seguintes
oradores farão apresentações :
Andrey Kibrik , diretor do Instituto de Linguística da Academia Russa de Ciências. Ele fará uma apresentação sobre os novos métodos de corpus criados por seu grupo de pesquisa para fixar elementos de comunicação de fala e gesto. 29 de maio (quarta-feira), 10: 30-11: 50.
Igor Boguslavsky , professor da Universidade Tecnológica de Madri, e seus colegas falarão sobre como um computador pode ser treinado para analisar corretamente o que é conhecido como "Esquemas de Vinogrado" é um novo e mais complexo que o teste de Turing tradicional, uma maneira de avaliar as capacidades dos sistemas de inteligência artificial para entender a linguagem. 29 de maio, 12: 20-13: 30.
Valentina Apresyan , professora da HSE School of Linguistics. Seu relatório é dedicado a
implicações : não expressamente expressas, mas significados e suposições derivados do texto. O estudo das implicações, especialmente as falsas, permite, por exemplo, identificar publicações injustas na mídia. 29 de maio, 12: 20-13: 30.
Haverá muitas coisas interessantes em outros dias. Por tradição, o Diálogo presta muita atenção às novas capacidades expressivas da linguagem. Por exemplo,
Maria Polinskaya da Universidade de Harvard e
Irina Levontina do Instituto OJ em seu discurso analisarão expressões emocionais que se tornaram populares, como "Eles precisam usar o infinitivo" (a propósito, esse é o nome do relatório. Você pode ouvi-lo em 30 de maio, das 10h às 13h30. )
Antonina Laposhina, do Instituto Pushkin, em seu relatório "Você acha que está frio?" analisa a composição lexical dos livros didáticos de russo para escolas primárias - do ponto de vista dos linguistas do corpus modernos (29 de maio de 15: 00-18: 30).
Obviamente, muito trabalho é dedicado ao tópico quente da aplicação de redes neurais aos problemas da análise de linguagem. Por exemplo, em 31 de maio, uma seção especial do Diálogo é dedicada a áreas importantes de pesquisa, como modelos de idiomas em aprendizagem profunda, transferência de aprendizagem etc.
- Em 30 de maio, às 19:00, será realizada uma mesa redonda sobre as perspectivas de modelar um ato de fala na interação de uma pessoa com um computador. Essa direção está se desenvolvendo rapidamente, e não é fácil para a lingüística analítica multimodal acompanhar o que os métodos modernos de análise de grandes conjuntos de informações audiovisuais permitem.
- 31 de maio, às 19:00, convidamos você para a mesa redonda “ Admirável New DL Word: onde é o lugar da PNL? " Os participantes da discussão discutirão a tese "provocativa" de que a PNL hoje está "dissolvida" em tecnologias profundas de aprendizado de máquina e está perdendo o status de uma disciplina científica independente. É claro que muitos pesquisadores não concordam com essa afirmação, e esperaremos aparências emocionantes dos oponentes.
Um dos principais eventos do Diálogo é o resumo de competições tecnológicas entre os desenvolvedores dos sistemas de análise linguística dos textos de
Avaliação do Diálogo . As competições deste ano foram realizadas em quatro tarefas:
- geração automática de manchetes;
- análise automática de linguagens de baixo recurso (quando há muito poucos dados para aprendizado de máquina);
- resolução automática de anáfora e determinação de cadeias de referência (várias referências ao mesmo objeto no texto),
- recuperação automática de palavras por contexto (algumas variedades de reticências).
Para conduzir tais competições, como de costume, foi necessário criar dados especialmente preparados (conjuntos de dados) para treinar os algoritmos testados. Esta não é a primeira vez que as
tecnologias da ABBYY se envolvem na criação de tais conjuntos de dados para parte da competição
pela análise de textos em linguagem natural . Isso nos permitiu tornar os casos muito maiores devido à grande quantidade de processamento primário feito pelo computador. Mais detalhadamente, falaremos sobre isso em breve em Habré. Os resultados da avaliação do diálogo serão resumidos no "Diálogo":
- 30 de maio, 10: 00-13: 30, sessão especial com base nos resultados dos testes de sistemas de processamento automático para o mapeamento de reticências.
- 31 de maio, 10: 00-13: 30, uma sessão especial com base nos resultados dos testes de sistemas de análise de anáfora e uma sessão especial com base nos resultados dos testes de sistemas de geração de manchetes de notícias
- 1 de junho, 10: 00-13: 30, sessão especial com base em sistemas de teste para descrever linguagens de baixo recurso.
Os idiomas de trabalho da conferência são russo e inglês. Um programa detalhado da conferência está disponível
aqui .
Os anais da conferência serão publicados no anuário “
Linguística de Computadores e Tecnologias Inteligentes ”, que faz parte do sistema internacional de citações
Scopus .
Você pode se registrar
aqui , o registro vai até 28 de maio.
Termos de participação .
Elizaveta Titarenko, editora do blog corporativo ABBYY
com a participação de Vladimir Selegay, diretor de estudos linguísticos da ABBYY