No blog do Google AIDesde a
publicação das informações sobre eles em 2017, as redes neurais da arquitetura de
transformadores têm sido aplicadas a tarefas de vários tipos, desde a
geração de textos em estilo fantasia até a
escrita de harmonias musicais . O que é importante, a alta qualidade do trabalho dos “transformadores” mostrou que, quando aplicadas a tarefas seqüenciais, como modelagem e tradução de idiomas,
as redes neurais de distribuição direta podem ser tão eficazes quanto as recorrentes. Embora a popularidade de transformadores e outros modelos de distribuição direta usados em tarefas seqüenciais esteja crescendo, suas arquiteturas quase sempre são criadas manualmente, em contraste com o campo da visão computacional, onde as abordagens de
aprendizado de máquina avançado (
AOM ) já descobriram
modelos avançados à frente dos expostos configuração manual. Naturalmente, estávamos interessados em saber se a aplicação da OMA a tarefas seqüenciais pode alcançar o mesmo sucesso.
Depois de realizar uma pesquisa
evolutiva por pesquisa na arquitetura neural (NAS) e usar a tradução como exemplo de tarefas sequenciais, descobrimos um
transformador em evolução (ET) - uma nova arquitetura de transformador que demonstra melhorias em várias tarefas de
processamento de linguagem natural (OYA). O ET não apenas obtém resultados de ponta na tradução, mas também demonstra maior eficiência na modelagem do idioma em comparação com o transformador original.
Publicamos um novo modelo na biblioteca
Tensor2Tensor , onde ele pode ser usado para qualquer tarefa seqüencial.
Desenvolvimento Técnico
Para iniciar a busca evolutiva da neuroarquitetura, precisávamos desenvolver novas técnicas, pois a tarefa usada para avaliar a “adequação” de cada arquitetura,
tradução do inglês para o alemão WMT'14 , exigia recursos de computação. Como resultado, essas pesquisas são mais exigentes do que pesquisas semelhantes no campo da visão computacional, que podem operar com bancos de dados menores, por exemplo, o
CIFAR-10 . A primeira dessas técnicas é um começo quente, semeando a população evolutiva original com arquiteturas do tipo transformador, em vez de modelos aleatórios. Isso ajuda a concentrar as pesquisas na área obviamente forte do espaço de pesquisa, o que nos permite encontrar rapidamente os melhores modelos.
A segunda técnica é o nosso novo método chamado Progressive Dynamic Hurdles (PDH). Esse algoritmo complementa a pesquisa evolutiva, permitindo que você aloque mais recursos para os candidatos mais fortes, ao contrário dos trabalhos anteriores, nos quais cada modelo de candidato no NAS recebeu a mesma quantidade de recursos. O PDH nos permite concluir a avaliação de um modelo mais cedo, se estiver muito ruim, enquanto recompensamos arquiteturas promissoras com muitos recursos.
Transformador Evoluído
Usando esses métodos, realizamos uma pesquisa NAS em larga escala em nossa tarefa de tradução e descobrimos ETs. Como a maioria das arquiteturas de rede neural do tipo “sequência para sequência” (sequência para sequência, seq2seq), ela possui um codificador que codifica a sequência de entrada nas inserções e um decodificador que usa essas inserções para criar a sequência de saída. No caso de uma tradução, a sequência de entrada é uma oferta de tradução e a sequência de saída é uma tradução.
A característica mais interessante do ET são as camadas convolucionais na parte inferior dos módulos do codificador e do decodificador, adicionadas de maneira semelhante a ramificações para esses dois locais (ou seja, as entradas passam por duas camadas convolucionais diferentes antes de serem dobradas).
Comparação da arquitetura do codificador convencional e ET. Preste atenção à estrutura convolucional de ramificação na parte inferior do módulo, formada independentemente no codificador e no decodificador. O decodificador é descrito em detalhes em nosso trabalho .Isso é especialmente interessante, pois o codificador e o decodificador durante o NAS não compartilham arquiteturas entre si, e a utilidade dessa arquitetura foi descoberta de forma independente no codificador e decodificador, que fala em favor desse esquema. Se o transformador original dependesse inteiramente de aplicar atenção aos mesmos dados que ele próprio gerou [atenção pessoal], o ET é um híbrido que tira proveito da atenção pessoal e da ampla convolução.
Escore ET
Para testar a eficácia dessa nova arquitetura, primeiro a comparamos com o transformador original, que trabalhou com a tarefa de traduzir do inglês para o alemão, que usamos durante a pesquisa. Descobrimos que o ET tem os melhores indicadores
BLEU e
conectividade em todos os tamanhos de parâmetros, e o maior ganho em tamanho é comparável aos dispositivos móveis (~ 7 milhões de parâmetros), o que indica o uso eficiente dos parâmetros. Em tamanhos maiores, o ET alcança resultados de ponta no WMT '14 En-De com um BLEU de 29,8 e um SacreBLEU de 29,2.
Comparação de ET e o transformador original no WMT'14 En-De com diferentes volumes. A maior vantagem é obtida com tamanhos pequenos, enquanto o ET mostra bom desempenho em tamanhos maiores, à frente do maior transformador com 37,6% menos parâmetros (modelos comparáveis estão em círculos).Para verificar a generalização, comparamos o ET com um transformador em problemas adicionais do processamento de linguagem natural. Primeiro, verificamos as traduções para diferentes pares de idiomas e descobrimos que a eficácia do ET é maior, e sua separação é aproximadamente a mesma que a demonstrada na tradução inglês-alemão; e novamente, graças ao uso eficiente de parâmetros, a maior lacuna é observada em modelos de tamanho médio. Também comparamos os decodificadores de ambos os modelos na modelagem de linguagem no
LM1B e
observamos uma melhoria significativa na conectividade.

Planos futuros
Esses resultados são a primeira etapa na exploração do aplicativo de pesquisa de arquitetura para modelos de distribuição direta seqüencial. O ET é distribuído como
código aberto na estrutura do projeto
Tensor2Tensor , onde pode ser usado em qualquer problema consecutivo. Para melhorar a reprodutibilidade, também abrimos
o código do espaço de pesquisa que usamos em nossa pesquisa e o
Colab com a implementação do PDH. Esperamos ansiosamente os resultados da comunidade de pesquisa, armados com novos modelos, e esperamos que outras pessoas possam tomar essas novas técnicas de pesquisa como base!