Os carros já estão à frente das pessoas nos testes de leitura; mas eles entendem o que lêem?

Uma ferramenta chamada BERT é capaz de ultrapassar pessoas em testes de leitura e compreensão. No entanto, também demonstra para que lado a IA ainda precisa seguir.




No outono de 2017, Sam Bowman , linguista computacional da Universidade de Nova York, decidiu que os computadores ainda não entendem muito bem o texto. É claro que eles aprenderam bastante bem para simular esse entendimento em certas áreas estreitas, como traduções automáticas ou análise de sentimentos (por exemplo, para determinar se uma frase é "rude ou doce", como ele disse). No entanto, Bowman queria um testemunho mensurável: uma verdadeira compreensão do que foi escrito, delineado na linguagem humana. E ele veio com um teste.

Em um artigo de abril de 2018 escrito em colaboração com colegas da Universidade de Washington e da DeepMind, uma empresa de propriedade do Google envolvida em inteligência artificial, Bowman apresentou um conjunto de nove tarefas de compreensão de leitura para computadores sob o nome geral GLUE (General Language Understanding Evaluation) [avaliação de compreensão linguagem generalizada]. O teste foi projetado como "um exemplo bastante indicativo do que a comunidade de pesquisa considera tarefas interessantes", disse Bowman, mas de uma maneira "fácil para as pessoas". Por exemplo, em uma tarefa, a pergunta é feita sobre a verdade de uma frase, que deve ser estimada com base nas informações de uma frase anterior. Se você pode dizer que a mensagem “O Presidente Trump chegou ao Iraque, tendo iniciado sua visita de sete dias” implica que “O Presidente Trump está visitando o exterior”, você passa no teste.

Os carros falharam com ele. Até as redes neurais avançadas obtiveram no máximo 69 dos 100 pontos no total em todos os testes - os três primeiros com menos. Bowman e seus colegas não ficaram surpresos. As redes neurais - construções multicamadas com conexões computacionais que se assemelham ao trabalho dos neurônios no cérebro de mamíferos - mostram bons resultados na área de "Processamento de linguagem natural", mas os pesquisadores não tinham certeza de que esses sistemas aprendiam algo sério sobre idioma. E o GLUE prova isso. "Os primeiros resultados mostram que a aprovação nos testes do GLUE vai além das capacidades dos modelos e métodos existentes", Bowman et al.

Mas a avaliação deles não durou muito. Em outubro de 2018, o Google introduziu um novo método, o BERT (Representações de codificadores bidirecionais de transformadores) [apresentações de codificadores bidirecionais para transformadores]. Ele recebeu uma pontuação de 80,5 no GLUE. Em apenas seis meses, os carros saltaram de três com menos para quatro com menos neste novo teste, que mede a verdadeira compreensão da linguagem natural pelas máquinas.

“Foi como 'caramba'”, lembra Bowman, usando uma palavra mais colorida. - Esta mensagem foi recebida com desconfiança pela comunidade. O BERT recebeu em muitos testes notas próximas ao que consideramos o máximo possível. ” De fato, antes do surgimento do BERT no teste GLUE, não havia sequer avaliações das realizações humanas com as quais comparar. Quando Bowman e um de seus alunos de pós-graduação os adicionaram ao GLUE em fevereiro de 2019, eles duraram apenas alguns meses, e o modelo baseado no BERT da Microsoft também os venceu .

No momento da redação deste artigo, quase todos os primeiros lugares nos testes GLUE são ocupados por sistemas que incluem, estendem ou otimizam o modelo BERT. Cinco deles são superiores em habilidades humanas.

Mas isso significa que a IA está começando a entender nossa linguagem ou está apenas aprendendo a vencer nossos sistemas? Depois que as redes neurais baseadas no BERT fizeram os testes do tipo GLUE, surgiram novos métodos de avaliação que consideravam esses sistemas de PNL versões de computador do “ smart Hans, um cavalo que viveu no início do século XX e era supostamente inteligente o suficiente para fazer cálculos aritméticos na mente, mas, na verdade, ler os sinais inconscientes dados a ele por seu proprietário.

"Sabemos que estamos em algum lugar na zona cinzenta entre entender o idioma em um sentido muito chato e estreito e criar a IA", disse Bowman. - Em geral, a reação dos especialistas pode ser descrita da seguinte forma: Como isso aconteceu? O que isso significa? O que devemos fazer agora?

Escrevendo suas próprias regras


No famoso experimento de pensamento “ Sala Chinesa ”, uma pessoa que não conhece o idioma chinês fica em uma sala cheia de muitos livros com regras. Nos livros, você pode encontrar as instruções exatas sobre como aceitar a sequência de caracteres chineses que entram na sala e dar uma resposta adequada. Uma pessoa do lado de fora palma perguntas escritas em chinês embaixo da porta da sala. A pessoa de dentro se volta para os livros com as regras e formula respostas perfeitamente razoáveis ​​em chinês.

Esse experimento foi usado para provar que, apesar da impressão externa, não se pode dizer que a pessoa na sala entende alguma coisa de chinês. No entanto, mesmo uma simulação de entendimento era uma meta aceitável da PNL.

O único problema é a falta de livros perfeitos com regras, porque a linguagem natural é muito complexa e sistemática para ser reduzida a um conjunto sólido de especificações. Tomemos, por exemplo, a sintaxe: regras (incluindo empíricas) que determinam o agrupamento de palavras em sentenças significativas. A frase " adormecendo violentamente idéias verdes incolores " tem a sintaxe, mas qualquer pessoa que conhece o idioma entende sua falta de sentido. Que livro de regras especialmente projetado poderia incluir esse fato não escrito relacionado à linguagem natural - para não mencionar outros fatos?

Os pesquisadores da PNL tentaram encontrar essa quadratura do círculo , forçando as redes neurais a escrever seus próprios livros de regras artesanais no processo dos chamados "Pré-treinamento" ou pré-treinamento.

Até 2018, uma das principais ferramentas de treinamento era algo como um dicionário. Este dicionário usou uma representação vetorial das palavras [incorporação de palavras], descrevendo as conexões entre palavras na forma de números, para que as redes neurais pudessem perceber essas informações como entrada - algo como um glossário aproximado para uma pessoa em uma sala chinesa. No entanto, os pré-treinados na rede neural do dicionário de vetores ainda permaneciam cegos para o significado das palavras no nível da frase. "Do ponto de vista dela, as frases 'homem mordeu o cachorro' e 'cachorro mordeu o homem' são idênticas", disse Tel Linsen , linguista computacional da Universidade Johns Hopkins.


Tel Linsen, Linguista de Computação na Universidade Johns Hopkins.

O método aprimorado usa pré-treinamento para fornecer à rede neural livros de regras mais ricos - não apenas um dicionário, mas também sintaxe com um contexto - antes de ensiná-lo a executar uma tarefa específica da PNL. No início de 2018, pesquisadores da OpenAI, da Universidade de São Francisco, do Instituto Allen de Inteligência Artificial e da Universidade de Washington, ao mesmo tempo, encontraram uma maneira complicada de se aproximar disso. Em vez de treinar apenas uma, a primeira camada da rede usando a representação vetorial de palavras, os pesquisadores começaram a treinar toda a rede para uma tarefa mais geral chamada modelagem de linguagem.

"A maneira mais simples de modelar uma linguagem é a seguinte: vou ler várias palavras e tentar prever o seguinte", explicou Mile Ott , pesquisadora do Facebook. "Se eu disser 'George W. Bush nasceu', os modelos precisam prever a próxima palavra nesta frase".

Tais modelos de linguagem com treinamento profundo podem ser criados com bastante eficiência. Os pesquisadores simplesmente alimentam grandes quantidades de texto escrito de recursos gratuitos, como a Wikipedia, para suas redes neurais - bilhões de palavras dispostas em frases gramaticalmente corretas - e permitem que a rede preveja a próxima palavra por conta própria. De fato, isso é equivalente ao fato de convidarmos uma pessoa em uma sala chinesa para criar seu próprio conjunto de regras, usando as mensagens chinesas recebidas como referência.

"A beleza dessa abordagem é que o modelo ganha uma tonelada de conhecimento de sintaxe", disse Ott.

Além disso, essas redes neurais pré-treinadas podem aplicar suas representações de linguagem para ensinar uma tarefa mais restrita, não relacionada à previsão de palavras, ao processo de ajuste fino.

“Você pode pegar o modelo da fase de pré-treinamento e adaptá-lo a qualquer tarefa real que você precisar”, explicou Ott. "E depois disso você obtém resultados muito melhores do que se tentasse resolver seu problema diretamente desde o início".

Em junho de 2018, quando a OpenAI lançou sua rede neural GPT , com um modelo de linguagem incluído, que passou um mês treinando um bilhão de palavras (retiradas de 11.038 livros digitais), seu resultado no teste GLUE, 72,8 pontos, tornou-se imediatamente o mais o melhor No entanto, Sam Bowman sugeriu que essa área se desenvolveria por muito tempo antes que qualquer sistema pudesse pelo menos se aproximar do nível do homem.

E então BERT apareceu.

Receita promissora


Então, o que é o BERT?

Em primeiro lugar, não é uma rede neural totalmente treinada, capaz de fornecer imediatamente resultados em nível humano. Bowman diz que esta é uma "receita muito precisa para treinar a rede neural". Como um padeiro, seguindo a receita, pode garantir deliciosos bolos - que podem ser usados ​​para diferentes bolos, de mirtilo a quiche de espinafre - e os pesquisadores do Google criaram uma receita BERT que pode servir como base ideal para a criação de redes neurais (ou seja, , seu ajuste fino), para que eles lidem bem com várias tarefas no processamento da linguagem natural. O Google abriu o código BERT, o que significa que outros pesquisadores não precisam mais repetir esta receita do zero - eles podem simplesmente fazer o download; é como comprar bolo pré-cozido para bolo na loja.

Se o BERT é uma receita, qual é a sua lista de ingredientes? "Este é o resultado de três coisas diferentes conectadas entre si para que o sistema comece a funcionar", disse Omer Levy , pesquisador do Facebook que analisou o dispositivo BERT.


Omer Levy, Pesquisador do Facebook

O primeiro é o modelo de idioma pré-treinado, ou seja, os mesmos diretórios da sala chinesa. A segunda é a oportunidade de decidir quais dos recursos da proposta são os mais importantes.

Em 2017, Jacob Uzkoreit , engenheiro do Google Brain, trabalhou em maneiras de acelerar as tentativas da empresa de entender o idioma. Ele observou que todas as redes neurais avançadas sofrem com suas limitações inerentes: elas estudam a frase por palavras. Essa "sequência" parecia coincidir com a ideia de como as pessoas leem o texto. No entanto, Uzkoreit ficou interessado ", não seria possível que o entendimento da linguagem em um modo linear e seqüencial não seja o mais ideal"?

A taxa restrita com colegas desenvolveu uma nova arquitetura de redes neurais, com foco na "atenção", um mecanismo que permite que cada camada da rede neural atribua grandes pesos a certos recursos dos dados de entrada em comparação com outros. Essa nova arquitetura com atenção, um transformador, pode usar uma frase como "um cachorro morde o homem" como entrada e codificar cada palavra em paralelo de maneiras diferentes. Por exemplo, um transformador pode vincular “mordidas” e “pessoa” como verbo e sujeito-objeto, ignorando o artigo “a”; ao mesmo tempo, ela pode relacionar “mordida” e “cachorro” como verbo e sujeito-sujeito, ignorando o artigo “o”.

A natureza inconsistente do transformador apresenta sentenças de forma mais expressiva, ou, como Uzkoreit diz, em forma de árvore. Cada camada da rede neural estabelece muitas conexões paralelas entre certas palavras, ignorando o restante - aproximadamente como um aluno da escola primária desmonta uma frase em partes. Essas conexões geralmente são feitas entre palavras que podem não estar próximas. "Tais estruturas parecem uma sobreposição de várias árvores", explicou Uzkoreit.

Tais representações de sentenças semelhantes a árvores dão aos transformadores a oportunidade de modelar significados contextuais, bem como estudar efetivamente as conexões entre palavras que estão distantes em sentenças complexas. "Isso é um tanto contra-intuitivo", disse Uzkoreit, "mas vem da linguística, que há muito tempo se envolve em modelos de linguagem semelhantes a árvores".


Jacob Uzkoreit, chefe da equipe de Berlim, Google AI Brain

Finalmente, o terceiro ingrediente da receita BERT expande ainda mais a leitura não linear.

Ao contrário de outros modelos de linguagem pré-treinados criados pelo processamento de terabytes de texto da esquerda para a direita por redes neurais, o modelo BERT lê da direita para a esquerda e simultaneamente da esquerda para a direita e aprende a prever quais palavras foram excluídas aleatoriamente das frases. Por exemplo, o BERT pode aceitar uma frase no formato "George W. Bush [...] em Connecticut em 1946" e prever qual palavra está oculta no meio da frase (neste caso, "nascido"), depois de processar o texto nas duas direções. "Essa bidirecionalidade força a rede neural a extrair o máximo de informação possível de qualquer subconjunto de palavras", disse Uzkoreit.

O fingimento baseado no BERT usado como um jogo de palavras - modelagem de linguagem com mascaramento - não é algo novo. Ele é usado há décadas para medir a compreensão das pessoas sobre o idioma. Para o Google, ele forneceu uma maneira prática de usar a bidirecionalidade em redes neurais, em vez dos métodos unidirecionais de pré-treinamento que já haviam dominado essa área antes. "Antes do BERT, a modelagem unidirecional da linguagem era o padrão, embora essa seja uma limitação opcional", disse Kenton Lee , pesquisador do Google.

Cada um desses três ingredientes - um modelo de linguagem profunda com pré-treinamento, atenção e bidirecionalidade - existia antes do BERT separadamente. Mas até o Google divulgar sua receita no final de 2018, ninguém as combinou de maneira tão bem-sucedida.

Receita de refino


Como qualquer boa receita, o BRET logo foi adaptado por vários chefs ao seu gosto. Na primavera de 2019, houve um período "em que a Microsoft e a Alibaba pisaram umas nas outras, trocando de lugar no ranking semanalmente, ajustando o modelo", lembra Bowman. Quando a versão aprimorada do BERT foi lançada em agosto, sob o nome de RoBERTa, o pesquisador Sebastian Ruder, do DeepMind, observou secamente em seu popular boletim de notícias da PNL : "Novo mês e um novo modelo avançado de linguagem com pré-treinamento".

Como o bolo, o BERT tem várias decisões de design que afetam a qualidade de seu trabalho. Isso inclui o tamanho da rede neural convencional, a quantidade de dados usados ​​no pré-treinamento, o método de mascarar palavras e por quanto tempo a rede neural trabalha com esses dados. E nas receitas subsequentes, como RoBERTa, os pesquisadores ajustam essas decisões - como um chef especificando uma receita.

No caso do RoBERTa, pesquisadores do Facebook e da Universidade de Washington aumentaram o número de alguns ingredientes (dados de pré-treinamento, duração das seqüências recebidas, tempo de treinamento), um ingrediente foi excluído (a tarefa de "prever a próxima frase", originalmente no BERT, afetando negativamente os resultados ) e o outro foi alterado (complicou a tarefa de mascarar palavras individuais). Como resultado, eles ficaram em primeiro lugar no ranking GLUE. Seis semanas depois, pesquisadores da Microsoft e da Universidade de Maryland adicionaram seus refinamentos ao RoBERTa e conseguiram a próxima vitória. No momento, outro modelo ficou em primeiro lugar na GLUE, ALBERT (a abreviação de “lite BERT”, ou seja, “lite BERT”), o que mudou ligeiramente a estrutura básica do BERT.

"Ainda estamos escolhendo quais receitas funcionam, quais não", disse Ott, do Facebook, que trabalhou no RoBERTa.

Porém, como o aprimoramento da técnica de pré-assar bolos não ensina o básico da química, o aprimoramento gradual do BERT não fornecerá muito conhecimento teórico sobre o desenvolvimento da PNL. "Serei extremamente honesto com você - não sigo esses trabalhos, pois para mim eles são extremamente chatos", disse Linsen, linguista computacional da Universidade Johns Hopkins. "Há um certo mistério científico aqui", ele admite, mas não como tornar o BERT e todos os seus descendentes mais inteligentes, e nem mesmo para descobrir por que eles são tão inteligentes. Em vez disso, "estamos tentando entender o quanto esses modelos realmente entendem a linguagem", disse ele, "em vez de aprender truques estranhos que de alguma forma funcionam nos conjuntos de dados nos quais geralmente avaliamos esses modelos".

Em outras palavras, o BERT está fazendo algo certo. Mas e se ele fizer isso pelo motivo errado?

Complicado, mas não inteligente


Em julho de 2019, dois pesquisadores da Universidade Estadual de Taiwan, Cheng Kun, usaram o BERT com resultados impressionantes em um teste de desempenho relativamente pouco conhecido chamado de "tarefa de compreensão de argumentos". Para concluir a tarefa, é necessário escolher uma condição inicial implícita ("fundamento") que apóie o argumento a favor de qualquer declaração. Por exemplo, para provar que “fumar causa câncer” (declaração), uma vez que “estudos científicos mostraram uma ligação entre fumar e câncer” (argumentação), é preciso escolher o argumento “a pesquisa científica pode ser confiável” (“base”) e não outra opção: “A pesquisa científica é cara” (no entanto, isso não é relevante neste contexto). Está tudo claro?

Se não for tudo, não se preocupe. Mesmo as pessoas não são muito boas nessa tarefa sem prática.A linha de base média para uma pessoa que não faz exercícios é de 80 em 100. O BERT alcançou 77 - o que os autores disseram ser "inesperado".

Mas, em vez de decidir que o BERT é capaz de dar às redes neurais a capacidade de raciocinar nada pior que Aristóteles, eles suspeitam que tudo seja realmente mais simples: o BERT encontrou padrões superficiais na formulação dos fundamentos. De fato, depois de analisar seus dados de treinamento, os autores encontraram muitas evidências desse chamado "Pistas falsas." Por exemplo, se você apenas selecionar todas as bases que contêm a partícula “not”, poderá responder corretamente às perguntas em 61% dos casos. Tendo eliminado todas essas regularidades dos dados, os cientistas descobriram que o resultado do BERT caiu de 77 para 53 - o que é quase equivalente a uma escolha aleatória. Um artigo da revista de aprendizado de máquina The Gradient, do Stanford Artificial Intelligence Lab, comparouBERT com Smart Hans, um cavalo supostamente forte em aritmética.

Em outro artigo, “ Rights for Wrong Reasons”, Linsen et al publicaram evidências de que os altos resultados do BERT em certos testes GLUE também podem ser atribuídos à existência de pistas falsas nos dados de treinamento. Um conjunto alternativo de dados foi desenvolvido que foi projetado para privar o BERT da capacidade de trabalhar dessa maneira. O conjunto de dados foi chamado Hans (Análise Heurística para Sistemas de Inferência de Linguagem Natural, HANS) [análise heurística de sistemas que tira conclusões com base na linguagem natural].

Então, BERT e todos os seus parentes invadindo as tabelas de recordes são apenas uma farsa? Bowman concorda com Lensen que alguns dos dados do GLUE são desleixados. Eles são preenchidos com as distorções cognitivas inerentes às pessoas que o criaram, e isso pode ser potencialmente explorado por uma poderosa rede baseada em BERT. "Não existe um truque universal que resolva todos os problemas do GLUE, mas há muitas possibilidades de" cortar custos "que ajudam nisso", disse Bowman, "e o modelo pode encontrá-los." Mas ele não acha que o BERT seja baseado em algo de valor. "Aparentemente, temos um modelo que aprendeu algo realmente interessante sobre o idioma", disse ele. "No entanto, ela certamente não entende a linguagem humana em um sentido geral."

De acordo com Yojin Choi, cientista da computação da Universidade de Washington e do Instituto Allen, uma das maneiras de estimular o progresso em direção a um entendimento comum da linguagem é concentrar-se não apenas na melhoria das versões do BERT, mas também no desenvolvimento de testes e dados de treinamento de melhor qualidade que reduzem a probabilidade de ocorrência tecnologia falsa no estilo de "Hans inteligente". Seu trabalho explora uma abordagem de filtragem contraditória que usa algoritmos para validar dados de treinamento para PNLs e remover exemplos que são repetidos demais ou que deixam pistas implícitas para as redes neurais. Após essa filtragem competitiva, "a eficácia do BERT pode cair significativamente", disse ela, e "a eficácia do ser humano não está caindo tanto".

No entanto, alguns pesquisadores da PNL acreditam que, mesmo com a melhoria dos procedimentos de ensino para os modelos de linguagem, ainda haverá obstáculos reais à verdadeira compreensão da língua. Mesmo com treinamento poderoso, o BERT não é capaz de modelar perfeitamente o idioma no caso geral. Após os ajustes, ele modela "uma tarefa específica da PNL, ou mesmo um conjunto de dados específico para essa tarefa", disse Anna Rogers , linguista computacional do Machine Text Laboratory da Universidade de Massachusetts. É provável que nenhum conjunto de dados de treinamento, por mais cuidadosamente preparado ou cuidadosamente filtrado, seja capaz de incluir todos os casos extremos e dados de entrada imprevisíveis com os quais as pessoas que usam linguagem natural podem lidar facilmente.

Bowman ressalta que é difícil até entender o que pode nos convencer de que a rede neural alcançou um entendimento real da linguagem. Os testes padrão devem revelar algo socializado em relação ao conhecimento dos testados. No entanto, qualquer aluno sabe que os testes são fáceis de enganar. "É muito difícil fazer testes pesados ​​o suficiente e suficientemente protegidos contra enganos, para que a solução deles nos convença de que realmente resolvemos o problema em algum aspecto das tecnologias de linguagem da IA", disse ele.

Bowman e colegas apresentaram recentemente um teste chamado SuperGLUEprojetado especificamente para ser complexo para sistemas baseados em BERT. Até agora, nenhuma rede conseguiu ultrapassar uma pessoa nela. Mas mesmo que (ou quando) isso aconteça, isso significa que as máquinas podem aprender a entender o idioma melhor do que antes? Ou será que a ciência se tornará melhor ao ensinar às máquinas como passar neste teste?

"Boa analogia", disse Bowman. "Descobrimos como passar nos testes LSAT e MCAT, mas podemos não ter as qualificações para nos tornarmos médicos ou advogados". E, no entanto, a julgar por tudo, é exatamente assim que a pesquisa no campo da IA ​​se move. "O xadrez parecia um teste sério de inteligência até que descobrimos como escrever um programa para o jogo", disse ele. "Definitivamente, entramos em uma era em que o objetivo era inventar tarefas cada vez mais complexas, que representassem uma compreensão da linguagem, e criar maneiras de resolvê-las".

Source: https://habr.com/ru/post/pt479446/


All Articles