تطبيق تعلم الآلة الأوتوماتيكي على الشبكات العصبية مع بنية المحولات

من مدونة Google AI

منذ نشر المعلومات المتعلقة بها في عام 2017 ، تم تطبيق الشبكات العصبية الخاصة بهندسة المحولات على مهام من أنواع مختلفة ، بدءًا من إنشاء نصوص بأسلوب الخيال إلى كتابة تناغمات موسيقية . الأهم من ذلك هو أن الجودة العالية لعمل "المحولات" قد أظهرت أنه عند تطبيقها على المهام المتسلسلة ، مثل نمذجة اللغة والترجمة ، فإن شبكات التوزيع العصبية المباشرة يمكن أن تكون فعالة مثل الشبكات المتكررة. على الرغم من تزايد شعبية المحولات ونماذج التوزيع المباشر الأخرى المستخدمة في المهام المتسلسلة ، إلا أن بنياتها يتم إنشاؤها يدويًا تقريبًا ، على عكس مجال رؤية الكمبيوتر ، حيث وجدت مناهج التعلم الآلي المتقدمة ( AOM ) بالفعل نماذج متقدمة تتفوق على تلك المكشوفة الإعداد اليدوي. بطبيعة الحال ، كنا مهتمين بما إذا كان تطبيق AOM على المهام المتسلسلة يمكن أن يحقق نفس النجاح.

بعد إجراء بحث تطوري للبحث عن الهندسة المعمارية العصبية (NAS) ، واستخدام الترجمة كمثال على المهام المتسلسلة ، اكتشفنا محولًا متطورًا (ET) - بنية محول جديدة توضح التحسينات في مختلف مهام معالجة اللغة الطبيعية (OYA). لا يحقق ET نتائج متطورة في الترجمة فحسب ، بل يوضح أيضًا كفاءة محسنة في نمذجة اللغة مقارنة بالمحول الأصلي. ننشر نموذجًا جديدًا في مكتبة Tensor2Tensor ، حيث يمكن استخدامه في أي مهمة متسلسلة.

تطوير فني


لبدء البحث التطوري عن العمارة العصبية ، كنا بحاجة إلى تطوير تقنيات جديدة ، لأن المهمة المستخدمة لتقييم "ملاءمة" كل هندسة ، كانت الترجمة من الإنجليزية إلى الألمانية WMT'14 ، تتطلب موارد الحوسبة. نتيجةً لذلك ، تبين أن عمليات البحث هذه أكثر تطلبًا من عمليات البحث المماثلة في مجال رؤية الكمبيوتر ، والتي يمكن أن تعمل مع قواعد بيانات أصغر ، على سبيل المثال ، CIFAR-10 . أول هذه التقنيات هي بداية دافئة ، حيث تزرع السكان التطوريين الأصليين مع بنيات من نوع المحولات بدلاً من النماذج العشوائية. يساعد هذا في تركيز عمليات البحث في المنطقة القوية بوضوح لمساحة البحث ، مما يسمح لنا بالعثور على أفضل النماذج بسرعة.

التقنية الثانية هي طريقة جديدة طورناها تسمى العقبات الديناميكية التقدمية (PDH). تكمل هذه الخوارزمية البحث التطوري ، مما يتيح لك تخصيص المزيد من الموارد لأقوى المرشحين ، على عكس الأعمال السابقة ، حيث تم تخصيص نفس مقدار الموارد لكل نموذج مرشح في NAS. يسمح لنا PDH بإنهاء تقييم النموذج في وقت مبكر إذا كان سيئًا بشكل رهيب ، مع مكافأة البنى الواعدة بالكثير من الموارد.

محول المتطور


باستخدام هذه الأساليب ، أجرينا بحث NAS على نطاق واسع في مهمة الترجمة الخاصة بنا واكتشفنا ETs. مثل معظم تصميمات الشبكات العصبية من النوع "sequence to sequence" (التسلسل إلى التسلسل ، seq2seq) ، فإنه يحتوي على تشفير يقوم بترميز تسلسل الإدخال في الإدخالات ، وفك ترميز يستخدم هذه الإضافات لإنشاء تسلسل الإخراج. في حالة الترجمة ، تسلسل الإدخال هو عرض ترجمة ، وتسلسل الإخراج هو ترجمة.

الميزة الأكثر إثارة للاهتمام من ETs هي الطبقات التلافيفية في الجزء السفلي من وحدات كل من التشفير وجهاز فك التشفير ، وأضاف بطريقة متفرعة مماثلة لكلا هذين المكانين (أي ، تذهب المدخلات من خلال طبقتين تلافيفي مختلفين قبل الطي).


مقارنة بين بنية التشفير التقليدية وشفرات ET. انتبه إلى البنية التلافيفية المتفرعة في الجزء السفلي من الوحدة النمطية ، والتي تم تشكيلها بشكل مستقل في كل من التشفير وفي وحدة فك الترميز. يتم وصف وحدة فك الترميز بالتفصيل في عملنا .

هذا أمر مثير للاهتمام بشكل خاص لأن برنامج التشفير وفك الشفرة أثناء NAS لا يشتركان في البنى مع بعضهم البعض ، وقد تم اكتشاف فائدة هذه البنية بشكل مستقل في التشفير وفك الشفرة ، والذي يتحدث لصالح مثل هذا المخطط. إذا كان المحول الأصلي يعتمد كليا على تطبيق الانتباه على نفس البيانات التي تولدها بنفسه [الاهتمام الذاتي] ، فإن ET هي مزيج يستفيد من كل من الاهتمام الذاتي والالتواء الواسع.

النتيجة ET


لاختبار فعالية هذه البنية الجديدة ، قمنا بمقارنتها أولاً بالمحول الأصلي ، الذي عمل مع مهمة الترجمة من الإنجليزية إلى الألمانية ، والتي استخدمناها أثناء البحث. لقد وجدنا أن ET لديه أفضل مؤشرات BLEU والاتصال على جميع أحجام المعلمات ، وأكبر مكسب في الحجم يمكن مقارنته بالأجهزة المحمولة (حوالي 7 مليون معلمة) ، مما يشير إلى الاستخدام الفعال للمعلمات. على أحجام أكبر ، يحقق ET نتائج متطورة على WMT '14 En-De مع BLEU من 29.8 و SacreBLEU من 29.2.


مقارنة بين ET والمحول الأصلي على WMT'14 En-De بأحجام مختلفة. يتم تحقيق أكبر ميزة من خلال الأحجام الصغيرة ، بينما يُظهر ET أداءً جيدًا على أحجام أكبر ، متقدماً على المحول الأكبر بمعلمات أقل بنسبة 37.6٪ (توجد نماذج قابلة للمقارنة في دوائر).

للتحقق من التعميم ، قارنا ET مع محول حول مشاكل إضافية في معالجة اللغة الطبيعية. أولاً ، قمنا بفحص الترجمات لأزواج مختلفة من اللغات ، ووجدنا أن فعالية ET أعلى ، وفصلها هو نفسه تقريبًا كما هو موضح في الترجمة الإنجليزية-الألمانية ؛ ومرة أخرى ، بفضل الاستخدام الفعال للمعلمات ، لوحظت الفجوة الأكبر في الطرز متوسطة الحجم. قمنا أيضًا بمقارنة وحدات فك ترميز كلا النموذجين على نمذجة اللغة في LM1B ، وشهدنا تحسنًا كبيرًا في الاتصال.



الخطط المستقبلية


هذه النتائج هي الخطوة الأولى في استكشاف تطبيق بحث الهندسة المعمارية لنماذج التوزيع المباشر المتسلسل. يتم توزيع ET كمصدر مفتوح في إطار مشروع Tensor2Tensor ، حيث يمكن استخدامه في أي مشاكل متتالية. لتحسين قابلية التكرار ، نفتح أيضًا رمز مساحة البحث الذي استخدمناه في بحثنا و Colab مع تطبيق PDH. نتطلع إلى الحصول على نتائج مجتمع البحث المسلح بنماذج جديدة ، ونأمل أن يتمكن الآخرون من استخدام تقنيات البحث الجديدة هذه كأساس!

Source: https://habr.com/ru/post/ar460099/


All Articles