Penerapan pembelajaran mesin otomatis ke jaringan saraf dengan arsitektur transformator

Dari Google AI Blog

Sejak publikasi informasi tentang mereka pada tahun 2017, jaringan saraf arsitektur transformator telah diterapkan untuk berbagai jenis tugas, dari menghasilkan teks bergaya fantasi hingga menulis harmoni musik . Yang penting, kualitas tinggi dari pekerjaan "transformer" telah menunjukkan bahwa ketika diterapkan pada tugas berurutan, seperti pemodelan dan terjemahan bahasa, distribusi langsung jaringan saraf dapat seefektif yang berulang. Meskipun popularitas transformator dan model distribusi langsung lainnya yang digunakan dalam tugas berurutan semakin meningkat, arsitektur mereka hampir selalu dibuat secara manual, berbeda dengan bidang visi komputer, di mana pendekatan pembelajaran mesin canggih ( AOM ) telah menemukan model - model canggih yang lebih maju daripada yang diekspos. pengaturan manual. Secara alami, kami tertarik pada apakah penerapan AOM untuk tugas berurutan dapat mencapai kesuksesan yang sama.

Setelah melakukan pencarian evolusi untuk pencarian arsitektur saraf (NAS), dan menggunakan terjemahan sebagai contoh tugas berurutan, kami menemukan transformator berevolusi (ET) - arsitektur transformator baru yang menunjukkan peningkatan dalam berbagai tugas pemrosesan bahasa alami (OYA). ET tidak hanya mencapai hasil mutakhir dalam terjemahan, tetapi juga menunjukkan peningkatan efisiensi dalam pemodelan bahasa dibandingkan dengan transformator asli. Kami menerbitkan model baru di perpustakaan Tensor2Tensor , di mana ia dapat digunakan untuk tugas berurutan apa pun.

Pengembangan Teknisi


Untuk memulai pencarian evolusi untuk neuroarchitecture, kami perlu mengembangkan teknik baru, karena tugas yang digunakan untuk menilai "kebugaran" dari masing-masing arsitektur, terjemahan dari bahasa Inggris ke Jerman WMT'14 , menuntut sumber daya komputasi. Akibatnya, pencarian ini ternyata lebih menuntut daripada pencarian serupa di bidang visi komputer, yang dapat beroperasi dengan basis data yang lebih kecil, misalnya, CIFAR-10 . Yang pertama dari teknik-teknik ini adalah awal yang hangat, menabur populasi evolusi asli dengan arsitektur tipe transformator bukan model acak. Ini membantu memusatkan pencarian di area yang jelas kuat dari ruang pencarian, yang memungkinkan kami untuk dengan cepat menemukan model terbaik.

Teknik kedua adalah metode baru yang dikembangkan oleh kami yang disebut Progressive Dynamic Hurdles (PDH). Algoritma ini melengkapi pencarian evolusi, yang memungkinkan Anda mengalokasikan lebih banyak sumber daya ke kandidat terkuat, tidak seperti karya sebelumnya, di mana setiap model kandidat di NAS dialokasikan jumlah sumber daya yang sama. PDH memungkinkan kita untuk selesai mengevaluasi suatu model lebih awal jika itu sangat buruk, sambil menghargai arsitektur yang menjanjikan dengan banyak sumber daya.

Transformer Berkembang


Dengan menggunakan metode ini, kami melakukan pencarian NAS skala besar pada tugas terjemahan kami dan menemukan ET. Seperti kebanyakan arsitektur jaringan saraf dari tipe “sequence to sequence” (urutan ke urutan, seq2seq), ia memiliki encoder yang menyandikan urutan input ke dalam sisipan, dan decoder yang menggunakan sisipan ini untuk membuat urutan output. Dalam kasus terjemahan, urutan input adalah penawaran terjemahan, dan urutan output adalah terjemahan.

Fitur yang paling menarik dari ET adalah lapisan konvolusional di bagian bawah modul encoder dan decoder, ditambahkan dengan cara bercabang yang serupa untuk kedua tempat ini (yaitu, input melewati dua lapisan convolutional yang berbeda sebelum melipat).


Perbandingan arsitektur encoder konvensional dan ET encoders. Perhatikan struktur konvolusional bercabang di bagian bawah modul, yang terbentuk secara independen baik dalam enkoder maupun dalam dekoder. Dekoder dijelaskan secara rinci dalam pekerjaan kami .

Ini sangat menarik karena encoder dan decoder selama NAS tidak berbagi arsitektur satu sama lain, dan utilitas arsitektur ini ditemukan secara independen dalam encoder dan decoder, yang berbicara mendukung skema semacam itu. Jika transformator asli sepenuhnya mengandalkan penerapan perhatian pada data yang sama dengan yang ia hasilkan sendiri [perhatian-diri], ET adalah hibrida yang mengambil keuntungan dari perhatian-diri dan konvolusi luas.

Skor ET


Untuk menguji efektivitas arsitektur baru ini, pertama-tama kami membandingkannya dengan transformator asli, yang berfungsi dengan tugas menerjemahkan dari Bahasa Inggris ke Bahasa Jerman, yang kami gunakan selama pencarian. Kami menemukan bahwa ET memiliki indikator dan konektivitas BLEU terbaik pada semua ukuran parameter, dan peningkatan terbesar dalam ukuran dapat dibandingkan dengan perangkat seluler (~ 7 juta parameter), yang menunjukkan penggunaan parameter yang efisien. Pada ukuran yang lebih besar, ET mencapai hasil mutakhir pada WMT '14 En-De dengan BLEU 29,8 dan SacreBLEU 29,2.


Perbandingan ET dan transformator asli pada WMT'14 En-De dengan volume berbeda. Keuntungan terbesar dicapai dengan ukuran kecil, sementara ET menunjukkan kinerja yang baik pada ukuran yang lebih besar, di depan transformator terbesar dengan parameter 37,6% lebih sedikit (model yang sebanding berada dalam lingkaran).

Untuk memeriksa generalisasi, kami membandingkan ET dengan transformator pada masalah tambahan pemrosesan bahasa alami. Pertama, kami memeriksa terjemahan untuk pasangan bahasa yang berbeda, dan menemukan bahwa efektivitas ET lebih tinggi, dan pemisahannya kira-kira sama dengan yang ditunjukkan dalam terjemahan bahasa Inggris-Jerman; dan sekali lagi, berkat penggunaan parameter yang efisien, celah terbesar diamati pada model berukuran sedang. Kami juga membandingkan decoder dari kedua model pada pemodelan bahasa di LM1B , dan melihat peningkatan yang signifikan dalam konektivitas.



Rencana masa depan


Hasil ini adalah langkah pertama dalam mengeksplorasi aplikasi pencarian arsitektur untuk model distribusi langsung berurutan. ET didistribusikan sebagai sumber terbuka dalam kerangka proyek Tensor2Tensor , di mana ia dapat digunakan pada masalah yang berurutan. Untuk meningkatkan reproduktifitas, kami juga membuka kode ruang pencarian yang kami gunakan dalam pencarian kami, dan Colab dengan implementasi PDH. Kami menantikan hasil dari komunitas riset, dipersenjatai dengan model-model baru, dan kami berharap orang lain dapat mengambil teknik pencarian baru ini sebagai dasar!

Source: https://habr.com/ru/post/id460099/


All Articles