🍵 🆚 🧘🏻 العنوان "اقرأ مقالات لك". أكتوبر

مرحبا يا هبر! نواصل نشر مراجعات المقالات العلمية من أعضاء مجتمع Open Data Science من القناة #article_essense. إذا كنت ترغب في الحصول عليها قبل أي شخص آخر - انضم إلى المجتمع !

مقالات لهذا اليوم:

أجهزة ترميز متعددة: بنيات المحولات واستراتيجيات ما قبل التدريب للحصول على درجات متعددة سريعة ودقيقة (Facebook، 2019)
تمييز ضمني في Variational Autoencoder (المعهد الهندي للتكنولوجيا روبار ، 2019)
التدريب الذاتي مع Noisy Student يعمل على تحسين تصنيف ImageNet (Google Research ، جامعة كارنيجي ميلون ، 2019)
تباين الزخم لتعلم التمثيل البصري غير الخاضع للرقابة (Facebook، 2019)
تحديد متانة الشبكة العصبية للفساد والاضطرابات الشائعة (جامعة كاليفورنيا ، جامعة ولاية أوريغون ، 2019)
DistilBERT ، نسخة مقطرة من BERT: أصغر وأسرع وأرخص وأخف وزناً (Hugging Face، 2019)
نماذج لغة التوصيل والتشغيل: طريقة بسيطة لإنشاء نص متحكم به (Uber AI ، Caltech ، HKUST ، 2019)
تمثيل بعمق عميق لتقدير F0 في الموسيقى المجسمة (جامعة نيويورك ، الولايات المتحدة الأمريكية ، 2017)
تحليل وتحسين جودة صورة StyleGAN (NVIDIA ، 2019)

روابط للمجموعات السابقة من السلسلة:

1. أجهزة ترميز متعددة: معماريات المحولات واستراتيجيات ما قبل التدريب للحصول على درجات متعددة سريعة ودقيقة

المؤلفون: صموئيل هومو ، كورت شوستر ، ماري آن لاشو ، جيسون ويستون (فيسبوك ، 2019)
→ المادة الأصلية
مؤلف المراجعة: أليكسي (في سلاك زرزلي)

TLDR

تقترح المقالة مقاربة جديدة لتسجيل أزواج من الجمل (بيانات). هذا الإجراء ذو صلة بمهام التنبؤ بمراسلات الاستجابة للسياق الشرطي ، وكذلك في المهام مثل التنبؤ بالحسابات التالية. تتم مقارنة طريقة Poly-Encoder المقترحة باستراتيجيات Bi-Encoder و Cross-Encoder. تجمع هذه الطريقة بين ميزة Bi-Encoder (القدرة على التخزين المؤقت للردود على الردود) و Cross-Encoder (وليس التدريب غير المشروط للسياق وترميزات الإجابات)

متعددة الجملة التهديف

(تذكير صغير حول نهج Bi و Cross Encoder. بالنسبة لأولئك الذين هم على دراية ، يمكنك تخطي)

مهمة تحديد مراسلات السياق (طلب المستخدم أو بيان) لمجموعة من الإجابات الحالية ذات الصلة في الغالب في أنظمة الحوار واسترجاع المعلومات. يتم حلها إما عن طريق إيجاد سرعة معينة (منتج نقطة) بين التمثيلات المشفرة للسياق والاستجابة ، أو عن طريق ترميز السياق والاستجابة في متجه واحد مع التحول الخطي اللاحق إلى عددي.

تسمى الطريقة الأولى Bi-Encoder والميزة الواضحة لهذه الطريقة هي القدرة على حساب تمثيلات جميع الإجابات المتاحة دون اتصال بالإنترنت. يتم تخزين طرق العرض هذه مؤقتًا ، وخلال الاستدلال ستحتاج فقط إلى العثور على متجه الاستعلام ، وإنشاء منتج نقطة مع متجهات الاستجابة وترتيب النتيجة. بالإضافة إلى ذلك ، يسمح هذا النهج بأخذ عينات سلبية أكثر كفاءة في مرحلة التدريب. وهي ، ضمن كل دفعة ، يتم أخذ تمثيل للعينات الإيجابية بعين الاعتبار ، ويمكن أخذ أمثلة سلبية مباشرة من نفس الدفعة. في جوهرها ، إعادة استخدام تمرير إلى الأمام للحصول على أمثلة إيجابية وسلبية. عيب نهج Bi-Encoder هو حقيقة أن تمثيلات السياق والاستجابة تتعلم بشكل مستقل تقريبًا. النقطة الوحيدة التي يكون فيها نوع من تدفق المعلومات على الأقل ممكنًا بين عرض الطلب والاستجابة هي نقطة الروبوت في شكل منتج النقطة النهائي. على مستوى أي ميزات نصية ، لا يتم تخبط المعلومات.

الطريقة الثانية هي Cross-Encoder. إنها تنطوي على تفاعل أقوى للسياق والاستجابة في عملية التعلم والاستدلال. هنا ، يتم تسلسل تسلسل الرمز المميز للطلب والاستجابة في واحد. يتم وضع رمز فاصل خاص بينهما ، ويتم إضافة تضمين خاص لكل جزء (طلب ، استجابة). في الواقع ، يعمل هذا التضمين على تحويل تمثيلات الرموز المميزة للاستجابة من قبل بعض الثابت ، بحيث يمكن للنموذج تمييزها بسهولة أكثر من الرموز المميزة للطلب. نتيجة لذلك ، يتعلم النموذج العثور على تمثيل مشترك للطلب والاستجابة ، بحيث تقوم الطبقة الخطية النهائية (الموجه -> العددية) بإرجاع قيمة سجلات كبيرة لأزواج الجمل التي تتطابق مع بعضها وقيمة صغيرة خلاف ذلك. إن عيب هذا النهج هو استحالة حصر تمثيلات الإجابات دون الاتصال بالإنترنت: يجب تقييمها في مرحلة الاستدلال ، مع مجموعة مشروطة من الرموز المميزة للطلب. كذلك ، فإن الحيلة المتمثلة في إعادة استخدام أفكار الأمثلة السلبية والإيجابية في مرحلة التدريب لن تعمل هنا بعد الآن. سوف تضطر إلى جمع عينات سلبية قبل تشكيل الدفعة.

حافز
التالي هو الحل الذي يسمح لك بتخفيف أوجه القصور والجمع بين مزايا أساليب Bi و Cross Encoder. تتمثل الفكرة في أننا نريد تدريب جهاز تشفير ، من ناحية ، سيأخذ في الاعتبار الاعتماد الشرطي لرموز الرموز على الرموز المميزة للطلب ، ومن ناحية أخرى ، يجب أن يحدث استخدام هذا الاعتماد على تمثيلات مسبقة للاستجابة والطلب. من الناحية الهندسية ، أتخيل شخصيا أنه شيء مثل هذا: انقل الروبوتات (المنتج النهائي للنقطتين) إلى الشبكة قليلاً. إنشاء بعض التفاعل بين طرق العرض والاستجابة. في نفس الوقت ، فإن تنفيذ مثل هذا التفاعل ليس بعيدًا عن الطبقة النهائية ، بحيث يظل الجزء الرئيسي من مشفر الطلب مستقلاً عن مشفر الاستجابة.

تطبيق
تنفيذ مثل هذه الفكرة بسيط للغاية: يعمل الترميز المرشح كما هو الحال في Bi-Encoder: نحصل على تمثيل تسلسل في شكل ناقل ([CLS] الرمز المميز) باستخدام النموذج القائم على المحولات (BERT). نقوم بتخزين هذه البيانات مؤقتًا بعد تدريب النموذج.

لا يقوم مشفر السياق ، بدوره ، بضغط تمثيل تسلسل الإدخال في متجه واحد. هنا نترك كل المتجهات المتسلسلة المشفرة بواسطة النموذج.

من أجل الحصول على تقييم لمطابقة السياق (مجموعة من المتجهات) والمرشح (متجه واحد) ، يتم استخدام آلية الانتباه. المتجه المرشح في هذه الحالة هو طلب ، ومتجه السياق هو المفاتيح. ويعتبر المنتج نقطة وأكثر من ذلك - softmax وفقا للقيم الناتجة. يتم وزن ناقلات السياق بالتوزيع الناتج وإضافتها. نتيجة لذلك ، نحصل على تمثيل السياق في شكل متجه واحد. علاوة على ذلك ، كما هو الحال في Bi-Encoder المعتاد ، فإننا نعتبر منتج النقطة للسياق والمرشح.

أيضًا ، اقترحت المقالة عددًا من الطرق لتسريع ترجيح متجهات السياق. كان الخيار الأكثر عملية هو عملية حساب الانتباه ، حيث تم أخذ المتجهات الأولى فقط من تسلسل السياق.

النتائج
نتيجة لذلك ، اتضح أن Cross-Encoder لا يزال يعمل بشكل أفضل. لكن Poly-Encoder ليست بعيدة عن ذلك فيما يتعلق بمقاييس الجودة ، ومن حيث سرعة الاستدلال ، تعمل أسرع بمئات المرات.

2. التمييز الضمني في جهاز التشفير التلقائي المتغير

المؤلفون: Prateek Munjal ، Akanksha Paul ، Narayanan C. Krishnan (المعهد الهندي للتكنولوجيا Ropar ، 2019)
→ المادة الأصلية
مؤلف المراجعة: Alex Chiron (في sliron shiron8bit)

في المقالة ، اقترح المؤلفون بنية تحاول الجمع بين مزايا أساليب VAE و GAN لتوليد الصور ، متجاوزة العيوب الكامنة في كل نهج: التشويش في حالة أجهزة الترميز التلقائي ، انهيار الوضع / الوضع المفقود في حالة التدريب على الخصومة. إنهم يحققون ذلك بسبب إجمالي الأوزان بين المشفر والمميز والمولد / وحدة فك الترميز المشتركة ، مما يقلل أولاً من عدد أوزان الشبكة ، وثانياً ، يتيح لنا الحصول على معلومات مفيدة من أداة التمييز من خلال التدرجات في حالة عدم سقوط المولد / وحدة فك التشفير في توزيع البيانات الفعلي.

بادرة
في مشاكل التوليد ، يتم لعب دور مهم عن طريق تزامن توزيع البيانات التي تم إنشاؤها Q مع توزيع البيانات الحقيقية P ، والتي يتم قياسها من خلال تباعد Kullback-Leibler. من السمات المميزة لهذا المقياس لبعد التوزيعات أنه غير متماثل. وفقًا لذلك ، سوف نحصل على صور مختلفة اعتمادًا على ما إذا كنا نعتبر Div_KL (P || Q) أو Div_KL (Q || P). إذا أخذنا في الاعتبار خيارين لمقارنة التوزيعات (في الصورة أدناه) ، فمع Div_KL (P || Q) (المعروف أيضًا باسم forward-KL ، ويعرف أيضًا باسم صفر تجنب) ، فإن الخيار الثاني يعطي قيمة أقل ، وبالنسبة إلى Div_KL (Q || P) (إنها متخلفة عن KL ، كما أنها تفرض صفرًا أيضًا) ، تعتبر التوزيعات من الخيار الأول توزيعات أقرب. في الواقع ، تختلف نتائج VAE و GAN اختلافًا كبيرًا: تساعد خسارة إعادة الإعمار (L2) على تقليل انحراف KL إلى الأمام (وبالتالي نحافظ على جميع الأنماط ، لكننا نحصل على صور ضبابية) ، كما يساعد التدريب باستخدام أداة تمييز على تقليل التباين الخلفي للخلف (يتم الحصول على صور أكثر واضح ، ولكن هناك خطر من تخطي وزارة الدفاع)

العمارة ، الخسائر والتدريب
كما ذكرنا سابقًا ، يقترح المؤلفون مراعاة أوجه القصور في كلا الوضعين والجمع بين التصغيرين بسبب بنية الشبكة (في الصورة أدناه) ، حيث تكون معظم أوزان التشفير والمميز شائعة (فقط الرؤوس المتصلة بالكامل التي تتنبأ بـ "واقع" الصورة والمعلمات منفصلة مو ، سيغما للطبقة الكامنة VAE) ، وأيضا بسبب وضع التدريب. المشفر والمولد متماثلان ، فمعظم الخسائر المستخدمة تكون قياسية إلى حد ما: في ترميز L_enc ، يتم استخدام الخطأ L2 في الاسترداد وتباعد Kullback-Leibler إلى N (0،1) (L_prior) ، والباقي عبارة عن تدريب للخصم (نقوم بتقليل خرج التمييزي إلى الحد الأدنى عند تعلم وحدة فك الترميز / المولد) ، ولكن هناك ميزتان مميزتان:

في الخسارة المتعلقة بالتدريب على الخصومة ، يتم تغذية نوعين مختلفين من البيانات الناتجة إلى أداة التمييز: يتم استردادها عبر مشفر / وحدة فك ترميز ويتم إنشاؤها بواسطة مولد / وحدة فك ترميز من عينات من N (0،1)
في "فقد وحدة فك ترميز L_dec" ، يوجد عضو تتم مقارنة ميزات من الطبقة ما قبل الأخيرة من أداة التمييز (مرة أخرى ، هذه هي آخر طبقة شائعة بين أداة التمييز والتشفير) للصور الحقيقية والمستعادة.

النتائج
قارن المؤلفون النتائج مع VAE وغيرها من الأعمال ، بطريقة أو بأخرى في محاولة للجمع بين VAE و GANs (VAE-GAN ، alpha-GAN و AGE من Dmitry Ulyanov و Victor Lempitsky) على مجموعات بيانات celeba و cifar10 (شكرًا لعدم mnist) ، تلقى أفضل المؤشرات تقريبًا فيما يتعلق بأخطاء إعادة الإعمار ومقاييس مسافة Frechet Inception (تقارن إحصائيات التنشيط لشبكة مدربة مسبقًا للحصول على صور حقيقية ومولدة). تمت الإشارة بشكل منفصل إلى أن التصنيف بواسطة FID يعتمد بشدة على البنية التي تم اختيارها ، وبالتالي فإن النتيجة هي الأفضل للتحقق من مجموعة "الخبراء" (هياكل مختلفة).

3. التدريب الذاتي مع Noisy Student يحسن تصنيف ImageNet

المؤلفون: Qizhe Xie ، إدوارد هوفي ، Minh-Thang Luong ، Quoc V. Le (Google Research ، جامعة كارنيجي ميلون ، 2019)
→ المادة الأصلية
مؤلف المراجعة: ألكساندر بيلسكي (في سلاك بيلشيك)

تلقت Google إعجابًا رائعًا بنسبة 87.4٪ من top1 و 98.2٪ من top5 من الدقة على الصورة. Zayuzali غامضة يعتم شبكات وهمية وجريئة للغاية. كان النهج يسمى طالب صاخبة.

الخوارزمية هي شيء مثل هذا:

نأخذ نموذج المعلم ، ونحن نعلم صورة طبيعية.
نقوم بإنشاء ملصقات psudo ناعمة على الصور من مجموعة بيانات JFT.
نقوم بتدريس نموذج الطالب على ملصقات زائفة ناعمة ، ونتدخل بأسرع ما يمكن: الأكواخ القوية ، المتسربين و العمق العشوائي
خذ نموذج الطالب ، واستخدمه كمعلم في الخطوة 2. كرر العملية ، حيث تتم موازنة مجموعة البيانات وفقًا للفصول على النحو التالي. بادئ ذي بدء ، أخذنا EfficientNet-B0 ، المدربين على الصورة ، قادرين على التنبؤ بتوقعاتها على مجموعة بيانات JFT. ثم أخذوا تلك الأمثلة التي تكون فيها الثقة القصوى أعلى من 0.3. بالنسبة لكل فصل ، تم التقاط 130K صورة (إذا كانت بعد التصفية بنسبة 0.3 trashhold كانت أقل - مكررة ، إذا كانت أكثر - التي التقطت وفقا لأعلى نطاقات المسند). تلقى 130M الصور ، انبعاثات مكررة ، 81M اليسار

العمارة:
EfficeintNet ، علاوة على ذلك ، يأخذ نموذج الطالب نموذجًا للمدرسين أكثر بدانة. قاموا أيضًا بفحص EfficientNet نفسه إلى EfficientNet-L0 / L1 / L2 ، مما أدى إلى نموذج L2 بعلاقات 480M (Resnet50 به 26M معلمات ، للمقارنة)

عملية التعلم:
Butchesize 2048. سوتا نموذج L2 يدرس 350 عصور. أكبر نموذج L2 درس في هذا الوضع لمدة 3.5 أيام على Cloud TPU v3 Pod مع 2048 النوى.

إجراء التعلم التكراري:
في البداية ، قاموا بتدريس B7 كطالب ومدرس. ثم ، وباستخدام B7 كمدرسين ، قاموا بتدريس الدهن L0 كطالب. بعد ذلك ، عند تغيير أماكنهم مثل هذا ، وصلنا إلى نموذج L2 ، والذي استخدمناه في النهاية كمعلم لنموذج L2 نفسه. النتيجة :: sota: مع معلمات نموذج أقل مرتين مقارنة بالخلية السابقة (FixRes ResNeXt-101 WSL المعلمات 829M)

حصلت أيضًا على نتائج جيدة جدًا على ImageNet-A / C / P

4. تباين الزخم لتعلم التمثيل البصري غير الخاضع للرقابة

مؤلفو المقالة: Kaiming He و Haoqi Fan و Yuxin Wu و Saining Xie و Ross Girshick (Facebook، 2019)
→ المادة الأصلية
مؤلف المراجعة: Arseny Kravchenko (في فترة الركود arsenyinfo)

SotA هي ذريعة غير خاضعة للرقابة للعديد من مهام رؤية الكمبيوتر (من التصنيف إلى تقدير الوضع الكثيف) ، وتم اختبارها على مجموعات بيانات مختلفة (imagenet ، و instagram) والمهام الرئيسية (imagenet ، COCO ، مناظر المدينة ، LVIS ، إلخ).

كيف يمكن القيام بدراسة غير مسبوقة؟ لقد توصلنا إلى نوع من المهام التي لا تحتاج إلى تسميات لها ، وتعلم برنامج التشفير ، وتجميدها ، ثم حل المشكلة الرئيسية عن طريق إضافة الطبقات المفقودة (خطية للتصنيف ، وحدات فك الترميز للتجزئة ، وما إلى ذلك). واحدة من أكثر المهام شعبية في هذا المكان هو التمييز على سبيل المثال ، على أساس الخسارة التبادلية ، أي نريد أن تكون ميزات التعزيزات المختلفة لنفس الصورة قريبة من بعضها البعض (على سبيل المثال ، من حيث مسافة جيب التمام) ، وميزات مختلفة منها تكون بعيدة.

يمكنك محاولة تدريس هذه المهمة من طرف إلى طرف ، لكن الكثير يعتمد على حجم الدُفعة: تعتمد الجودة اعتمادًا كبيرًا على مجموعة متنوعة من الأمثلة داخل الدُفعة. تظهر التجارب أنه مع زيادة حجم الدفعة ، تتحسن الجودة النهائية. لكن الدفعة تشبه إلى حد ما موسكو: فهي ليست مطاطية ، ولن تعمل لفترة طويلة لرفعها في الجبهة.

رجال سابقون بالقرب من الخلية قاموا بتفكيك بنك للذاكرة: تم تخزين ميزات الدُفعات السابقة بشكل منفصل في الذاكرة واستخدمت أيضًا لإنشاء سالب ، أي عينات مختلفة. ساعد هذا جزئيًا ، ولكن أيضًا غير مكتمل: أثناء التدريب ، تتغير أوزان المشفر والميزات القديمة تسوء.

وأخيرا ، فكرة المقال:

دعنا نستبدل بنك ذاكرة بسيط بقائمة انتظار تكمن فيها ميزات جديدة إلى حد ما ؛
سنحتفظ بإصدارين من برنامج التشفير: يتم استخدام أحدهما للدفعة الحالية ويتم تدريبه ، والآخر أكثر ثباتًا ، ويتم تحديث أوزانه من الإصدار الأول ، ولكن مع زخم كبير ؛
تُعتبر ميزات الدُفعة أول تشفير ، ويتم حساب الميزات الموجودة في قائمة الانتظار بواسطة المشفر الثاني.

يتيح هذا النهج الاقتراب من جودة التدريب الشامل ، ولكن بفضل المجموعة الطويلة ، يحقق النتائج المحتملة لمجموعة كبيرة بشكل غير واقعي. بهذه الطريقة تحصل على مقاييس رائعة لمهام مختلفة ، بما في ذلك في بعض الأماكن ، يكون الأمر أفضل قليلاً من الصورة التقليدية الخاضعة للإشراف على التخيل.

5. قياس متانة الشبكة العصبية للفساد والاضطرابات المشتركة

المؤلفون: دان هندريكس ، توماس ديتيريتش (جامعة كاليفورنيا ، جامعة ولاية أوريغون ، 2019)
→ المادة الأصلية
مؤلف المراجعة: فلاديمير إيغلوفيكوف (في تيرناوس سلاك)

تم قبولها في ICLR 2019 وكما أفهمها ، هذا أحد أعمال DL التي لم يتم تدريبها في أي شبكة.

كانت المهمة على هذا المنوال - ولكن دعونا نحاول زيادة التحقق من صحة ImageNet ، لكننا سنتدرب على واحدة غير منقطعة. علاوة على ذلك ، على عكس adevrsarial ، ليس لدينا مهمة جعل التحولات صغيرة وغير مرئية للعين.

ما تم القيام به:

تم اختيار مجموعة من التعزيزات. يقول المؤلفون إن هذا هو الأكثر شيوعًا ، لكنهم في رأيي يكذبون.
كانوا يستخدمون: GaussianNoise و ISONoise و Downscale و Defocus و MotionBlur و ZoomBlur و FrostedGlassBlur و JpegCompression و Snow و Fog و Rain و transoform المرنة ، إلخ.
تم تطبيق كل هذه التحويلات على التحقق من ImageNet. تمت تسمية مجموعة البيانات الناتجة ImageNet-C
تم اقتراح صيغة تسمى ImageNet-P والتي تم فيها تطبيق مجموعات من التحولات ذات القوة المختلفة على كل صورة.
تم اقتراح مقياس لتقييم ثبات النموذج.
تم تقييم عدة نماذج في سياق هذا المقياس: AlexNet ، VGG-11 ، VGG-19 ، Resnet-50 ، Resnet-18 ، VGG-19 + BN ، إلخ

الاستنتاجات:

كلما زادت قوة التعزيز ، كلما زادت دقة النموذج. : capitan_oblear:
أكثر تعقيدا النموذج ، وأكثر استقرارا.
تطبيق CLAHE في الصور قبل الاستدلال يساعد قليلاً.
ميزة كتل التجميع مثل مساعدة DenseNet أو Resnext.
الشبكات التي لديها متعددة النطاقات أكثر استقرارا. مثال على هذه الشبكات هو MSDNet ، Multigrid (لم أسمع عن مثل هذه الشبكات)

قانون

6. DistilBERT ، نسخة مقطرة من BERT: أصغر وأسرع وأرخص وأخف وزنا

المؤلفون: فيكتور سانه ، ليساندر ديبوت ، جوليان شوموند ، توماس وولف (Hugging Face ، 2019)
→ المادة الأصلية
مؤلف الاستعراض: يوري Kashnitsky (في الركود yorko)

المقال قصير ، إنه سهل القراءة. في البداية ، بضع كلمات عامة حول سباق التسلح في البرمجة اللغوية العصبية والبصمة البيئية. علاوة على ذلك ، فإن فكرة التقطير (وهنا لم تكن بدون هينتون) .في مهمة نمذجة اللغة ، كمعيار ، نتوقع الكلمة التالية في السياق. عادةً ما تقارن خسارة الانتروبيا المتجهات بين الاحتمالات المتوقعة (طول القاموس بأكمله) مع متجه ثنائي ، حيث توجد وحدة واحدة فقط تشير إلى الكلمة الحقيقية في مكان معين في مجموعة التدريب. وهذا هو ، الثاني ، الثالث ، الخ يتم تجاهل الكلمة التي يعتبرها النموذج مناسبة من خلال الخسارة. يوجد مثال في المقال: "أعتقد أن هذه بداية جميلة [قناع]" ، بدلاً من [MASK] يريد بيرت أن يحل محل أولاً وقبل كل يوم أو حياة ، لكن الكلمات التي تنبأ بها مستقبل الاحتمالات المستقبلية والقصة والعالم جيدة أيضًا. هل يمكننا أن نأخذ بعين الاعتبار حقيقة أن النموذج ينتج توزيعا جيدا للاحتمالات؟ تحدث تقريبًا ، لمنح النموذج لحقيقة أنه لا توجد مردوخ ، والتسامح ، والأمومة وغيرها من الكلمات القليلة المناسبة في الأعلى.

فكرة التقطير
فكرة مخطط المعلم والطالب المحدد هي أن لدينا نموذجًا كبيرًا للمعلم ( معلم ، BERT) ونموذجًا أصغر ( طالب ، DistilBERT) ، والذي سينقل "المعرفة" من نموذج المعلم. سيقوم نموذج الطالب بتحسين خسارة التقطير ، أي خسارة الانتروبيا المتقاطعة ، المعرفة لتوزيعات احتمال المعلم والطالب: L = Σ t_i * log (s_i). بمعنى ، بالنسبة لكلمة معينة تمحى بواسطة رمز [MASK] ، والتي يجب التنبؤ بها حسب السياق ، نقارن توزيعات احتمال لظهور كل كلمة من القاموس: {t_i} و {s_i} - يتم التنبؤ بهما ، على التوالي ، بواسطة نموذج المعلم ونموذجه طالب. وبالتالي ، يتم الحصول على إشارة تدريب غنية - يتلقى نموذج الطالب في كل كلمة إشارة محسوبة ليس فقط من خلال مقارنة متجه التنبؤ الخاص به بالكلمة الحقيقية في نموذج التدريب ، ولكن من خلال مقارنته مع متجه التنبؤ لنموذج المعلم.

نموذج DistilBERT
, — , . DistilBERT — BERT, . token-type embeddings pooler, , . , DistilBERT 40% — 66 . 110 BERT

DistilBERT
DistilBERT distillation loss — masked language modeling loss, BERT cosine embedding loss — ( , , "" - , "" ). : ablation studies, , masked language modeling loss, , .. distillation loss cosine embedding loss. , RoBERTa next sentence prediction dynamic masking.

, BERT (eng. wiki + Toronto Book Corpus) 90 8 V100 (16 GB). RoBERTa 1024 V100 (32 GB).

BERT — "it performed surprisingly well", DistilBERT — GLUE surprisingly well — 5 9 , BERT , SQuAD IMDb — . , DistilBERT 60% — .

DistilBERT iPhone 7 Plus. 70% , BERT-base ( ), 200 . ablation studies: , — distillation loss cosine embedding loss.

3 , DistilBERT — BERT, 40% , 60% "97% " BERT ( ML).

-, BERT, .

:
Jay Alammar
, DistilBERT + Catalyst:

7. Plug and Play Language Models: A Simple Approach To Controlled Text Generation

: Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, and Rosanne Liu (Uber AI, Caltech, HKUST, 2019)
→
: ( Egor Timofeev)

. , / / (, . https://arxiv.org/pdf/1909.05858.pdf ). , , , , .

( x_prev ), p(x), conditional LM (, — CTRL) p(x|a).

: p(x|a) ∝ p(x)p(a|x), p(x) , (, GPT2), p(a|x) — . — , /. , , .

, log(p(a|x)) ( ). hidden state .
, hidden state log(p(a|x)). H_new.
: p(x). , : -, KL(H, H_new), -, .. post-norm fusion ( https://arxiv.org/pdf/1809.00125.pdf ), p(x) non conditional LM , .
.

, p(a|x).

, - topic relevance. : (GPT2) < + << < + .

8. Deep Salience Representation for F0 Estimation in Polyphonic Music

: Rachel M. Bittner, Brian McFee, Justin Salamon, Peter Li, Juan Pablo Bello ( New York University, USA, 2017)
→
: ( nglaz)

. , . , – . , - . constant-Q , ( ) .

. constant-Q - f_min - F. f_min f_min * h, , , . h {0.5, 1, 2, 3, 4, 5}, . , 3- , 2- 3- (, , ). , , , , (0.5f, f, 2f, 3f, 4f, 5f), . ( 55) . , , dilated-.

, , constant-Q F, .

F0 estimation, , . 2017 , , state-of-the-art. , .

9. Analyzing and Improving the Image Quality of StyleGAN

: Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, Timo Aila (NVIDIA, 2019)
→
: ( shiron8bit)

GAN- , , . , , , , ( FID) :

droplet-like ( / ), AdaIN.
, ProGAN- / end-to-end MSG-GAN. , /, .
Path Length Regularization.
: W, , stylegan2.

قطرات التحف و AdaIN
يقدم مؤلفو المقال الوسيطة التالية ضد استخدام طبقة AdaIN: adain يعمل على تطبيع كل خريطة معالم ، وبالتالي إتلاف معلومات حول قيم الحجم بالنسبة لبعضهم البعض ، والقطة هي محاولة من قبل المولد لدفع هذه المعلومات بطريقة مختلفة. كخيار لإضعاف AdaIN ، تم اقتراح ما يلي: سنفعل كل التحجيم (التعديل / إزالة التشكيل) مباشرةً في الإلتفاف ، استنادًا إلى النمط القادم من الكتلة A ، وإزاحة الإشارة الصادرة (بدلاً من mu (y) / y_ {b، i} في AdaIN) اسمحوا كتلة B تحويل الضوضاء. سمح هذا الابتكار في نفس الوقت لتسريع التدريب في ظل نفس الظروف.

فشل من ProGAN
في مقالة حول MSG-GAN ، تم اقتراح استخدام تخطي الاتصالات وتوصيل كتل المولد المطابقة وكتل المميِّزات بدقة. قام مؤلفو Stylegan بتطوير هذه الفكرة من خلال تلخيص المخرجات من مجموعات المولد لجميع القرارات (مع الاختزال) وتغذية الإصدار المصغر المختزل من الصورة لإدخال كل كتلة تمييز. اقترح استخدام الكتل المتبقية كخيار ثانٍ ، بينما أظهر تخطي الاتصالات في المولد والكتل المتبقية في المُميِّز أفضل النتائج (يشبه المُميّز LAPGAN ، ولكن بدون أدوات تمييز لكل قرار ، يتم إعادة توجيه خرائط المعالم إلى أبعد من ذلك). كما في حالة ProGAN ، في التكرارات الأولية ، فإن أجزاء الشبكة المسؤولة عن دقة أقل والصورة الإجمالية تساهم بشكل أكبر ، ثم يتم نقل التركيز إلى التفاصيل الصغيرة.

تنظيم طول المسار
مع ملاحظة أن قيم FID المنخفضة لا تعطي دائمًا صورًا عالية الجودة ، كما تشير أيضًا إلى وجود علاقة بين جودة الصورة ومقياس PPL (طول المسار الإدراكي - في البداية الفرق بين ميزات vgg للصور ذات الخطوات الصغيرة في Z ، ولكن تم استبدال الفرق بـ LPIPS) ، اقترح المؤلفون المسار تنظيم طول ، وهو تقليل الوظائف

J_{w}^{T} y = n a b l a_{w} (g (w) y)

$J ^ T_w y = \ nabla_w (g (w) y)$

حيث g هو المولد نفسه ، J_w هي اليعاقبة في متغيرات الفضاء الكامن. في الوقت نفسه ، يمكن إجراء حسابات Jacobian من خلال backprop ، ويقال أيضًا أنه لتسهيل العمليات الحسابية ، يمكن حساب منظم الأرقام فقط لكل 16 مجموعة. يُحسب الرقم a على أنه المتوسط المتحرك الأسي لقاعدة Jacobian. يتيح استخدام تنظيم طول المسار مزيدًا من الاستيفاء "السلس" للمساحة المخفية W ، والتي ، بالإضافة إلى تحسين جودة الصورة ، يمكن أن تحسن قابلية الانعكاس (أي ، العثور على ث يعطي صورة معينة بعد تشغيل المولد) ، يفتح أيضًا المنظورات من حيث الرسوم المتحركة والاستيفاء بين الإطارات الرئيسية (في الهيكل الجديد ، وبين الإسقاطات للصور المشابهة ، يجب أن تكون هناك نقاط مسؤولة عن الصور القريبة I). لعبت مقدمة هذا التنظيم أيضًا دورًا في تبسيط اكتشاف الصور الناتجة عن هذه البنية.

كان وقت التدريب لـ 8 وحدات معالجة الرسومات بدقة 1024 * 1024 من 2 إلى 9 أيام لتكوينات مختلفة.

العنوان "اقرأ مقالات لك". أكتوبر - ديسمبر 2019