Aplicación de aprendizaje automático a redes neuronales con arquitectura de transformador

Desde el blog de Google AI

Desde la publicación de información sobre ellos en 2017, las redes neuronales de arquitectura transformadora se han aplicado a tareas de diversos tipos, desde generar textos de estilo fantasía hasta escribir armonías musicales . Lo que es importante, la alta calidad del trabajo de los "transformadores" ha demostrado que cuando se aplica a tareas secuenciales, como el modelado y la traducción del lenguaje, las redes neuronales de distribución directa pueden ser tan efectivas como las recurrentes. Aunque la popularidad de los transformadores y otros modelos de distribución directa utilizados en tareas secuenciales está creciendo, sus arquitecturas casi siempre se crean manualmente, en contraste con el campo de la visión por computadora, donde los enfoques de aprendizaje automático avanzado ( AOM ) ya han descubierto modelos avanzados que están por delante de los expuestos ajuste manual Naturalmente, estábamos interesados ​​en saber si la aplicación de AOM a tareas secuenciales puede lograr el mismo éxito.

Después de realizar una búsqueda evolutiva de neuroarquitectura (NAS) y usar la traducción como ejemplo de tareas secuenciales, descubrimos un transformador en evolución (ET), una nueva arquitectura de transformador que demuestra mejoras en varias tareas de procesamiento del lenguaje natural (OYA). ET no solo logra resultados de vanguardia en la traducción, sino que también demuestra una mayor eficiencia en el modelado del lenguaje en comparación con el transformador original. Publicamos un nuevo modelo en la biblioteca Tensor2Tensor , donde puede usarse para cualquier tarea secuencial.

Desarrollo tecnico


Para comenzar la búsqueda evolutiva de la neuroarquitectura, necesitábamos desarrollar nuevas técnicas, ya que la tarea utilizada para evaluar la "aptitud" de cada una de las arquitecturas, la traducción del inglés al alemán WMT'14 , requería recursos informáticos. Como resultado, estas búsquedas resultan ser más exigentes que búsquedas similares en el campo de la visión por computadora, que pueden operar con bases de datos más pequeñas, por ejemplo, CIFAR-10 . La primera de estas técnicas es un comienzo cálido, sembrando la población evolutiva original con arquitecturas de tipo transformador en lugar de modelos aleatorios. Esto ayuda a concentrar las búsquedas en el área obviamente fuerte del espacio de búsqueda, lo que nos permite encontrar rápidamente los mejores modelos.

La segunda técnica es un nuevo método desarrollado por nosotros llamado Progressive Dynamic Hurdles (PDH). Este algoritmo complementa la búsqueda evolutiva, permitiéndole asignar más recursos a los candidatos más fuertes, a diferencia de trabajos anteriores, donde a cada modelo de candidato en el NAS se le asignó la misma cantidad de recursos. PDH nos permite terminar de evaluar un modelo antes si es terriblemente malo, al tiempo que recompensa arquitecturas prometedoras con muchos recursos.

Transformador evolucionado


Con estos métodos, realizamos una búsqueda NAS a gran escala en nuestra tarea de traducción y descubrimos extraterrestres. Como la mayoría de las arquitecturas de redes neuronales del tipo "secuencia a secuencia" (secuencia a secuencia, seq2seq), tiene un codificador que codifica la secuencia de entrada en los insertos, y un decodificador que usa estos insertos para crear la secuencia de salida. En el caso de una traducción, la secuencia de entrada es una oferta de traducción, y la secuencia de salida es una traducción.

La característica más interesante de los ET son las capas convolucionales en la parte inferior de los módulos tanto del codificador como del decodificador, agregadas de manera similar a la ramificación en ambos lugares (es decir, las entradas pasan por dos capas convolucionales diferentes antes de plegarse).


Comparación de la arquitectura del codificador convencional y los codificadores ET. Preste atención a la estructura convolucional de ramificación en la parte inferior del módulo, formada independientemente tanto en el codificador como en el decodificador. El decodificador se describe en detalle en nuestro trabajo .

Esto es especialmente interesante ya que el codificador y el decodificador durante el NAS no comparten arquitecturas entre sí, y la utilidad de esta arquitectura se descubrió de forma independiente en el codificador y el decodificador, que habla a favor de dicho esquema. Si el transformador original dependía completamente de la atención prestada a los mismos datos que él mismo generó [auto-atención], ET es un híbrido que aprovecha tanto la auto atención como la gran convolución.

Puntaje ET


Para probar la efectividad de esta nueva arquitectura, primero la comparamos con el transformador original, que trabajó con la tarea de traducir del inglés al alemán, que usamos durante la búsqueda. Descubrimos que ET tiene los mejores indicadores BLEU y conectividad en todos los tamaños de parámetros, y la mayor ganancia de tamaño es comparable a los dispositivos móviles (~ 7 millones de parámetros), lo que indica el uso eficiente de los parámetros. En tamaños más grandes, ET logra resultados de vanguardia en WMT '14 En-De con un BLEU de 29.8 y un SacreBLEU de 29.2.


Comparación de ET y el transformador original en WMT'14 En-De con diferentes volúmenes. La mayor ventaja se logra con tamaños pequeños, mientras que ET muestra un buen rendimiento en tamaños más grandes, por delante del transformador más grande con un 37,6% menos de parámetros (los modelos comparables están en círculos).

Para verificar la posibilidad de generalización, comparamos ET con un transformador en problemas adicionales de procesamiento del lenguaje natural. Primero, verificamos las traducciones para diferentes pares de idiomas, y encontramos que la efectividad de ET es mayor, y su separación es aproximadamente la misma que la demostrada en la traducción inglés-alemán; y nuevamente, gracias al uso eficiente de los parámetros, la mayor brecha se observa en los modelos de tamaño mediano. También comparamos los decodificadores de ambos modelos en el modelado de idiomas en LM1B , y vimos una mejora significativa en la conectividad.



Planes futuros


Estos resultados son el primer paso para explorar la aplicación de búsqueda de arquitectura para modelos de distribución directa secuencial. ET se distribuye como código abierto en el marco del proyecto Tensor2Tensor , donde se puede utilizar en cualquier problema consecutivo. Para mejorar la reproducibilidad, también abrimos el código de espacio de búsqueda que usamos en nuestra búsqueda, y Colab con la implementación PDH. ¡Esperamos los resultados de la comunidad de investigación, armados con nuevos modelos, y esperamos que otros puedan tomar estas nuevas técnicas de búsqueda como base!

Source: https://habr.com/ru/post/460099/


All Articles