Dari Google AI BlogSejak
publikasi informasi tentang mereka pada tahun 2017, jaringan saraf arsitektur
transformator telah diterapkan untuk berbagai jenis tugas, dari
menghasilkan teks bergaya fantasi hingga
menulis harmoni musik . Yang penting, kualitas tinggi dari pekerjaan "transformer" telah menunjukkan bahwa ketika diterapkan pada tugas berurutan, seperti pemodelan dan terjemahan bahasa,
distribusi langsung jaringan saraf dapat seefektif yang berulang. Meskipun popularitas transformator dan model distribusi langsung lainnya yang digunakan dalam tugas berurutan semakin meningkat, arsitektur mereka hampir selalu dibuat secara manual, berbeda dengan bidang visi komputer, di mana pendekatan
pembelajaran mesin canggih (
AOM ) telah menemukan
model -
model canggih yang lebih maju daripada yang diekspos. pengaturan manual. Secara alami, kami tertarik pada apakah penerapan AOM untuk tugas berurutan dapat mencapai kesuksesan yang sama.
Setelah melakukan pencarian
evolusi untuk pencarian arsitektur saraf (NAS), dan menggunakan terjemahan sebagai contoh tugas berurutan, kami menemukan
transformator berevolusi (ET) - arsitektur transformator baru yang menunjukkan peningkatan dalam berbagai tugas
pemrosesan bahasa alami (OYA). ET tidak hanya mencapai hasil mutakhir dalam terjemahan, tetapi juga menunjukkan peningkatan efisiensi dalam pemodelan bahasa dibandingkan dengan transformator asli. Kami
menerbitkan model baru di perpustakaan
Tensor2Tensor , di mana ia dapat digunakan untuk tugas berurutan apa pun.
Pengembangan Teknisi
Untuk memulai pencarian evolusi untuk neuroarchitecture, kami perlu mengembangkan teknik baru, karena tugas yang digunakan untuk menilai "kebugaran" dari masing-masing arsitektur,
terjemahan dari bahasa Inggris ke Jerman WMT'14 , menuntut sumber daya komputasi. Akibatnya, pencarian ini ternyata lebih menuntut daripada pencarian serupa di bidang visi komputer, yang dapat beroperasi dengan basis data yang lebih kecil, misalnya,
CIFAR-10 . Yang pertama dari teknik-teknik ini adalah awal yang hangat, menabur populasi evolusi asli dengan arsitektur tipe transformator bukan model acak. Ini membantu memusatkan pencarian di area yang jelas kuat dari ruang pencarian, yang memungkinkan kami untuk dengan cepat menemukan model terbaik.
Teknik kedua adalah metode baru yang dikembangkan oleh kami yang disebut Progressive Dynamic Hurdles (PDH). Algoritma ini melengkapi pencarian evolusi, yang memungkinkan Anda mengalokasikan lebih banyak sumber daya ke kandidat terkuat, tidak seperti karya sebelumnya, di mana setiap model kandidat di NAS dialokasikan jumlah sumber daya yang sama. PDH memungkinkan kita untuk selesai mengevaluasi suatu model lebih awal jika itu sangat buruk, sambil menghargai arsitektur yang menjanjikan dengan banyak sumber daya.
Transformer Berkembang
Dengan menggunakan metode ini, kami melakukan pencarian NAS skala besar pada tugas terjemahan kami dan menemukan ET. Seperti kebanyakan arsitektur jaringan saraf dari tipe “sequence to sequence” (urutan ke urutan, seq2seq), ia memiliki encoder yang menyandikan urutan input ke dalam sisipan, dan decoder yang menggunakan sisipan ini untuk membuat urutan output. Dalam kasus terjemahan, urutan input adalah penawaran terjemahan, dan urutan output adalah terjemahan.
Fitur yang paling menarik dari ET adalah lapisan konvolusional di bagian bawah modul encoder dan decoder, ditambahkan dengan cara bercabang yang serupa untuk kedua tempat ini (yaitu, input melewati dua lapisan convolutional yang berbeda sebelum melipat).
Perbandingan arsitektur encoder konvensional dan ET encoders. Perhatikan struktur konvolusional bercabang di bagian bawah modul, yang terbentuk secara independen baik dalam enkoder maupun dalam dekoder. Dekoder dijelaskan secara rinci dalam pekerjaan kami .Ini sangat menarik karena encoder dan decoder selama NAS tidak berbagi arsitektur satu sama lain, dan utilitas arsitektur ini ditemukan secara independen dalam encoder dan decoder, yang berbicara mendukung skema semacam itu. Jika transformator asli sepenuhnya mengandalkan penerapan perhatian pada data yang sama dengan yang ia hasilkan sendiri [perhatian-diri], ET adalah hibrida yang mengambil keuntungan dari perhatian-diri dan konvolusi luas.
Skor ET
Untuk menguji efektivitas arsitektur baru ini, pertama-tama kami membandingkannya dengan transformator asli, yang berfungsi dengan tugas menerjemahkan dari Bahasa Inggris ke Bahasa Jerman, yang kami gunakan selama pencarian. Kami menemukan bahwa ET memiliki indikator dan
konektivitas BLEU terbaik pada semua ukuran parameter, dan peningkatan terbesar dalam ukuran dapat dibandingkan dengan perangkat seluler (~ 7 juta parameter), yang menunjukkan penggunaan parameter yang efisien. Pada ukuran yang lebih besar, ET mencapai hasil mutakhir pada WMT '14 En-De dengan BLEU 29,8 dan SacreBLEU 29,2.
Perbandingan ET dan transformator asli pada WMT'14 En-De dengan volume berbeda. Keuntungan terbesar dicapai dengan ukuran kecil, sementara ET menunjukkan kinerja yang baik pada ukuran yang lebih besar, di depan transformator terbesar dengan parameter 37,6% lebih sedikit (model yang sebanding berada dalam lingkaran).Untuk memeriksa generalisasi, kami membandingkan ET dengan transformator pada masalah tambahan pemrosesan bahasa alami. Pertama, kami memeriksa terjemahan untuk pasangan bahasa yang berbeda, dan menemukan bahwa efektivitas ET lebih tinggi, dan pemisahannya kira-kira sama dengan yang ditunjukkan dalam terjemahan bahasa Inggris-Jerman; dan sekali lagi, berkat penggunaan parameter yang efisien, celah terbesar diamati pada model berukuran sedang. Kami juga membandingkan decoder dari kedua model pada pemodelan bahasa di
LM1B , dan melihat peningkatan yang signifikan dalam konektivitas.

Rencana masa depan
Hasil ini adalah langkah pertama dalam mengeksplorasi aplikasi pencarian arsitektur untuk model distribusi langsung berurutan. ET didistribusikan sebagai
sumber terbuka dalam kerangka proyek
Tensor2Tensor , di mana ia dapat digunakan pada masalah yang berurutan. Untuk meningkatkan reproduktifitas, kami juga membuka
kode ruang pencarian yang kami gunakan dalam pencarian kami, dan
Colab dengan implementasi PDH. Kami menantikan hasil dari komunitas riset, dipersenjatai dengan model-model baru, dan kami berharap orang lain dapat mengambil teknik pencarian baru ini sebagai dasar!