Depuis le blog Google AIDepuis la
publication d'informations à leur sujet en 2017, les réseaux de neurones de l'architecture des
transformateurs ont été appliqués à des tâches de toutes sortes, de la
génération de textes de style fantastique à l'
écriture d'harmonies musicales . Ce qui est important, la haute qualité du travail des «transformateurs» a montré que lorsqu'ils sont appliqués à des tâches séquentielles, telles que la modélisation et la traduction de langage,
les réseaux de neurones à distribution directe peuvent être aussi efficaces que
les réseaux récurrents. Bien que la popularité des transformateurs et autres modèles de distribution directe utilisés dans les tâches séquentielles augmente, leurs architectures sont presque toujours créées manuellement, contrairement au domaine de la vision par ordinateur, où
les approches
avancées d' apprentissage automatique (
AOM ) ont déjà trouvé
des modèles avancés qui sont en avance sur ceux exposés. réglage manuel. Naturellement, nous voulions savoir si l'application de l'AOM à des tâches séquentielles pouvait obtenir le même succès.
Après avoir effectué une recherche
évolutive de recherche d'architecture neuronale (NAS) et utilisé la traduction comme exemple de tâches séquentielles, nous avons découvert un
transformateur évolutif (ET) - une nouvelle architecture de transformateur qui démontre des améliorations dans diverses tâches de
traitement du langage naturel (OYA). ET obtient non seulement des résultats de pointe en traduction, mais démontre également une efficacité améliorée dans la modélisation du langage par rapport au transformateur d'origine. Nous
publions un nouveau modèle dans la bibliothèque
Tensor2Tensor , où il peut être utilisé pour n'importe quelle tâche séquentielle.
Développement Technicien
Pour commencer la recherche évolutive de la neuroarchitecture, nous devions développer de nouvelles techniques, car la tâche utilisée pour évaluer la «forme physique» de chacune des architectures, la
traduction de l'anglais vers l'allemand WMT'14 , exigeait des ressources informatiques. En conséquence, ces recherches sont plus exigeantes que des recherches similaires dans le domaine de la vision par ordinateur, qui peuvent fonctionner avec des bases de données plus petites, par exemple
CIFAR-10 . La première de ces techniques est un démarrage à chaud, semant la population évolutive d'origine avec des architectures de type transformateur au lieu de modèles aléatoires. Cela permet de concentrer les recherches dans la zone manifestement forte de l'espace de recherche, ce qui nous permet de trouver rapidement les meilleurs modèles.
La deuxième technique est une nouvelle méthode développée par nous appelée Progressive Dynamic Hurdles (PDH). Cet algorithme complète la recherche évolutive, vous permettant d'allouer plus de ressources aux candidats les plus forts, contrairement aux travaux précédents, où chaque modèle candidat dans le NAS se voyait allouer la même quantité de ressources. PDH nous permet de terminer l'évaluation d'un modèle plus tôt s'il est terriblement mauvais, tout en récompensant les architectures prometteuses avec de nombreuses ressources.
Transformateur évolué
En utilisant ces méthodes, nous avons effectué une recherche NAS à grande échelle sur notre tâche de traduction et découvert des ET. Comme la plupart des architectures de réseaux de neurones du type "séquence à séquence" (séquence à séquence, seq2seq), il dispose d'un encodeur qui code la séquence d'entrée dans les insertions, et d'un décodeur qui utilise ces inserts pour créer la séquence de sortie. Dans le cas d'une traduction, la séquence d'entrée est une offre de traduction et la séquence de sortie est une traduction.
La caractéristique la plus intéressante des ET est les couches convolutives au bas des modules du codeur et du décodeur, ajoutées de manière similaire aux deux endroits (c'est-à-dire que les entrées passent par deux couches convolutives différentes avant de se plier).
Comparaison de l'architecture du codeur conventionnel et des codeurs ET. Faites attention à la structure convolutionnelle de branchement au bas du module, formée indépendamment à la fois dans le codeur et dans le décodeur. Le décodeur est décrit en détail dans notre travail .Ceci est particulièrement intéressant car l'encodeur et le décodeur pendant le NAS ne partagent pas les architectures les uns avec les autres, et l'utilité de cette architecture a été découverte indépendamment dans l'encodeur et le décodeur, ce qui plaide en faveur d'un tel schéma. Si le transformateur d'origine reposait entièrement sur l'application de l'attention aux mêmes données qu'il avait lui-même générées [auto-attention], ET est un hybride qui profite à la fois de l'auto-attention et d'une large convolution.
Score ET
Pour tester l'efficacité de cette nouvelle architecture, nous l'avons d'abord comparée avec le transformateur d'origine, qui a travaillé avec la tâche de traduire de l'anglais vers l'allemand, que nous avons utilisé lors de la recherche. Nous avons constaté que ET a les meilleurs indicateurs
BLEU et
connectivité sur toutes les tailles de paramètres, et le plus grand gain de taille est comparable aux appareils mobiles (~ 7 millions de paramètres), ce qui indique l'utilisation efficace des paramètres. Sur les plus grandes tailles, ET obtient des résultats de pointe sur WMT '14 En-De avec un BLEU de 29,8 et un SacreBLEU de 29,2.
Comparaison de ET et du transformateur d'origine sur WMT'14 En-De avec différents volumes. Le plus grand avantage est obtenu avec de petites tailles, tandis que ET affiche de bonnes performances sur de plus grandes tailles, devant le plus grand transformateur avec 37,6% de paramètres en moins (des modèles comparables sont en cercle).Pour vérifier la généralisation, nous avons comparé ET avec un transformateur sur des problèmes supplémentaires de traitement du langage naturel. Tout d'abord, nous avons vérifié les traductions pour différentes paires de langues et constaté que l'efficacité de l'ET est plus élevée et que sa séparation est approximativement la même que celle démontrée dans la traduction anglais-allemand; et là encore, grâce à l'utilisation efficace des paramètres, l'écart le plus important est observé sur les modèles de taille moyenne. Nous avons également comparé les décodeurs des deux modèles sur la modélisation du langage dans
LM1B et constaté une amélioration significative de la connectivité.

Plans futurs
Ces résultats constituent la première étape dans l'exploration de l'application de recherche d'architecture pour les modèles de distribution directe séquentielle. ET est distribué en
open source dans le cadre du projet
Tensor2Tensor , où il peut être utilisé sur tout problème consécutif. Pour améliorer la reproductibilité, nous ouvrons également
le code d'espace de recherche que nous avons utilisé dans notre recherche, et
Colab avec l'implémentation PDH. Nous attendons avec impatience les résultats de la communauté des chercheurs, armés de nouveaux modèles, et nous espérons que d'autres pourront prendre ces nouvelles techniques de recherche comme base!