Desde el blog de Google AIDesde la
publicación de información sobre ellos en 2017, las redes neuronales de arquitectura
transformadora se han aplicado a tareas de diversos tipos, desde
generar textos de estilo fantasía hasta
escribir armonías musicales . Lo que es importante, la alta calidad del trabajo de los "transformadores" ha demostrado que cuando se aplica a tareas secuenciales, como el modelado y la traducción del lenguaje,
las redes neuronales de distribución directa pueden ser tan efectivas como las recurrentes. Aunque la popularidad de los transformadores y otros modelos de distribución directa utilizados en tareas secuenciales está creciendo, sus arquitecturas casi siempre se crean manualmente, en contraste con el campo de la visión por computadora, donde
los enfoques de
aprendizaje automático avanzado (
AOM ) ya han descubierto
modelos avanzados que están por delante de los expuestos ajuste manual Naturalmente, estábamos interesados en saber si la aplicación de AOM a tareas secuenciales puede lograr el mismo éxito.
Después de realizar una búsqueda
evolutiva de neuroarquitectura (NAS) y usar la traducción como ejemplo de tareas secuenciales, descubrimos un
transformador en evolución (ET), una nueva arquitectura de transformador que demuestra mejoras en varias tareas de
procesamiento del lenguaje natural (OYA). ET no solo logra resultados de vanguardia en la traducción, sino que también demuestra una mayor eficiencia en el modelado del lenguaje en comparación con el transformador original.
Publicamos un nuevo modelo en la biblioteca
Tensor2Tensor , donde puede usarse para cualquier tarea secuencial.
Desarrollo tecnico
Para comenzar la búsqueda evolutiva de la neuroarquitectura, necesitábamos desarrollar nuevas técnicas, ya que la tarea utilizada para evaluar la "aptitud" de cada una de las arquitecturas, la
traducción del inglés al alemán WMT'14 ,
requería recursos informáticos. Como resultado, estas búsquedas resultan ser más exigentes que búsquedas similares en el campo de la visión por computadora, que pueden operar con bases de datos más pequeñas, por ejemplo,
CIFAR-10 . La primera de estas técnicas es un comienzo cálido, sembrando la población evolutiva original con arquitecturas de tipo transformador en lugar de modelos aleatorios. Esto ayuda a concentrar las búsquedas en el área obviamente fuerte del espacio de búsqueda, lo que nos permite encontrar rápidamente los mejores modelos.
La segunda técnica es un nuevo método desarrollado por nosotros llamado Progressive Dynamic Hurdles (PDH). Este algoritmo complementa la búsqueda evolutiva, permitiéndole asignar más recursos a los candidatos más fuertes, a diferencia de trabajos anteriores, donde a cada modelo de candidato en el NAS se le asignó la misma cantidad de recursos. PDH nos permite terminar de evaluar un modelo antes si es terriblemente malo, al tiempo que recompensa arquitecturas prometedoras con muchos recursos.
Transformador evolucionado
Con estos métodos, realizamos una búsqueda NAS a gran escala en nuestra tarea de traducción y descubrimos extraterrestres. Como la mayoría de las arquitecturas de redes neuronales del tipo "secuencia a secuencia" (secuencia a secuencia, seq2seq), tiene un codificador que codifica la secuencia de entrada en los insertos, y un decodificador que usa estos insertos para crear la secuencia de salida. En el caso de una traducción, la secuencia de entrada es una oferta de traducción, y la secuencia de salida es una traducción.
La característica más interesante de los ET son las capas convolucionales en la parte inferior de los módulos tanto del codificador como del decodificador, agregadas de manera similar a la ramificación en ambos lugares (es decir, las entradas pasan por dos capas convolucionales diferentes antes de plegarse).
Comparación de la arquitectura del codificador convencional y los codificadores ET. Preste atención a la estructura convolucional de ramificación en la parte inferior del módulo, formada independientemente tanto en el codificador como en el decodificador. El decodificador se describe en detalle en nuestro trabajo .Esto es especialmente interesante ya que el codificador y el decodificador durante el NAS no comparten arquitecturas entre sí, y la utilidad de esta arquitectura se descubrió de forma independiente en el codificador y el decodificador, que habla a favor de dicho esquema. Si el transformador original dependía completamente de la atención prestada a los mismos datos que él mismo generó [auto-atención], ET es un híbrido que aprovecha tanto la auto atención como la gran convolución.
Puntaje ET
Para probar la efectividad de esta nueva arquitectura, primero la comparamos con el transformador original, que trabajó con la tarea de traducir del inglés al alemán, que usamos durante la búsqueda. Descubrimos que ET tiene los mejores indicadores
BLEU y
conectividad en todos los tamaños de parámetros, y la mayor ganancia de tamaño es comparable a los dispositivos móviles (~ 7 millones de parámetros), lo que indica el uso eficiente de los parámetros. En tamaños más grandes, ET logra resultados de vanguardia en WMT '14 En-De con un BLEU de 29.8 y un SacreBLEU de 29.2.
Comparación de ET y el transformador original en WMT'14 En-De con diferentes volúmenes. La mayor ventaja se logra con tamaños pequeños, mientras que ET muestra un buen rendimiento en tamaños más grandes, por delante del transformador más grande con un 37,6% menos de parámetros (los modelos comparables están en círculos).Para verificar la posibilidad de generalización, comparamos ET con un transformador en problemas adicionales de procesamiento del lenguaje natural. Primero, verificamos las traducciones para diferentes pares de idiomas, y encontramos que la efectividad de ET es mayor, y su separación es aproximadamente la misma que la demostrada en la traducción inglés-alemán; y nuevamente, gracias al uso eficiente de los parámetros, la mayor brecha se observa en los modelos de tamaño mediano. También comparamos los decodificadores de ambos modelos en el modelado de idiomas en
LM1B , y vimos una mejora significativa en la conectividad.

Planes futuros
Estos resultados son el primer paso para explorar la aplicación de búsqueda de arquitectura para modelos de distribución directa secuencial. ET se distribuye como
código abierto en el marco del proyecto
Tensor2Tensor , donde se puede utilizar en cualquier problema consecutivo. Para mejorar la reproducibilidad, también abrimos
el código de espacio de búsqueda que usamos en nuestra búsqueda, y
Colab con la implementación PDH. ¡Esperamos los resultados de la comunidad de investigación, armados con nuevos modelos, y esperamos que otros puedan tomar estas nuevas técnicas de búsqueda como base!