الفصول السابقة
20 الإزاحة والتناثر: مصدران رئيسيان للأخطاء
ملاحظة المترجم قبل التغيير ، كان هذا الفصل يسمى "منهجي وعشوائي: مصدران رئيسيان للأخطاء" ، أي استخدمت مصطلحي "الأخطاء العشوائية" و "الأخطاء المنهجية" لترجمة التحيز والتباين. ومع ذلك ، أشار روبوت عضو المنتدى @ Phaker ، في تعليق ، عن حق إلى أنه في مجال التعلم الآلي في المصطلحات الروسية لهذه المصطلحات ، يتم إصلاح مفاهيم "الإزاحة" و "التشتت". نظرت إلى عمل K.V. فورونتسوف ، الذي يستحق بجدارة هو أحد السلطات في مجال التعلم الآلي في روسيا وموارد المجتمع المهني ، ووافق على الملاحظة الآلية @ Phaker . على الرغم من حقيقة أنه ، من وجهة نظري ، هناك تشابه عميق وذي مغزى بين "التحيز" و "التباين" في تدريب الخوارزميات و "الخطأ المنهجي" و "الخطأ العشوائي" للتجربة الفيزيائية ، إلى جانب أنها يتم التعبير عنها رياضيًا على حد سواء ومع ذلك ، من الصحيح استخدام المصطلحات المحددة في هذا المجال. لذلك ، قمت بمراجعة ترجمة هذا الفصل والفصول اللاحقة ، واستبدلت "أخطاء منهجية وعشوائية" بـ "إزاحة وتناثر" وسألتزم بهذا النهج في المستقبل.
افترض أن عينات التدريب والتحقق والاختبار لها نفس التوزيع. ثم تحتاج إلى أخذ المزيد من البيانات للتدريب ، وهذا سيحسن فقط من جودة الخوارزمية ، فهل هذا صحيح؟
على الرغم من أن الحصول على المزيد من البيانات لا يمكن أن يضر بالوظيفة ، لسوء الحظ ، فإن البيانات الجديدة لا تساعد دائمًا بقدر ما تتوقع. في بعض الحالات ، قد يكون عمل الحصول على بيانات إضافية مضيعة للجهد. كيفية اتخاذ قرار - في أي الحالات لإضافة البيانات ، ومتى لا تقلق بشأنه.
في التعلم الآلي ، هناك مصدران رئيسيان للخطأ: التحيز والتشتت (التباين). سيساعدك فهمها على تحديد ما إذا كان سيتم إضافة المزيد من البيانات أم لا ، سيساعدك أيضًا في اختيار التكتيكات لتحسين جودة المصنف.
افترض أنك تأمل في إنشاء معرف القطط مع خطأ 5 ٪. في الوقت الحالي ، يبلغ خطأ المصنف في عينة التدريب 15٪ ، في عينة التحقق 16٪. في هذه الحالة ، من غير المرجح أن تؤدي إضافة بيانات التدريب إلى زيادة الجودة بشكل كبير. يجب عليك التركيز على تغييرات النظام الأخرى. في الواقع ، إن إضافة المزيد من الأمثلة إلى مجموعة التدريب الخاصة بك سيجعل من الصعب على الخوارزمية الخاصة بك الحصول على نتيجة جيدة على تلك المجموعة (لماذا سيتم شرح ذلك في الفصول التالية).
إذا كانت النسبة المئوية لأخطائك في عينة التدريب 15٪ (والتي تتوافق مع دقة 85٪) ، ولكن هدفك هو النسبة المئوية للأخطاء بنسبة 5٪ (دقة 95٪) ، فأنت بحاجة أولاً إلى تحسين جودة الخوارزمية في عينة التدريب. عادة ما تكون جودة الخوارزمية في عينات التحقق / الاختبار أسوأ من جودة عملها في عينة التدريب (في عينة التدريب). عليك أن تفهم أن تلك الأساليب التي قادت بك إلى دقة لا تتجاوز 85٪ في الأمثلة التي تعرفها الخوارزمية الخاصة بك لن تسمح لك بالحصول على دقة 95٪ في الأمثلة التي لم تراها هذه الخوارزمية حتى.
لنفترض ، كما هو موضح أعلاه ، أن معدل الخطأ في الخوارزمية هو 16٪ (الدقة 84٪) في عينة التحقق. يجب علينا تقسيم خطأ 16٪ إلى مكونين:
- أولاً ، نسبة أخطاء الخوارزمية في عينة التدريب. في هذا المثال ، 15٪. نسميها بشكل غير رسمي التحيز .
- ثانيًا ، مدى سوء عمل الخوارزمية على عينة التحقق (أو الاختبار) من العينة التدريبية. في مثالنا ، 1٪ أسوأ على عينة التحقق من عينة التدريب. سننظر أيضًا بشكل غير رسمي في أنه اختلاف في الخوارزمية.
ملاحظة الكاتب في الإحصائيات ، هناك تعريف أكثر دقة للتحيز والتناثر (الأخطاء المنهجية والعشوائية) ، ولكن هذا لا ينبغي أن يزعجنا. بشكل تقريبي ، نفترض أن التحيز خطأ في الخوارزمية في مجموعة التدريب الخاصة بك عندما يكون لديك مجموعة تدريب كبيرة جدًا. مبعثر - هذا هو مدى سوء عمل الخوارزمية في عينة الاختبار مقارنة بالتدريب مع نفس إعدادات المعلمات. إذا كنت تستخدم الخطأ القياسي ، يمكنك كتابة الصيغ التي تحدد هاتين الكميتين وتثبت أن الخطأ الإجمالي يساوي مجموع التحيز والتناثر (مجموع الأخطاء العشوائية والمنهجية). ولكن لأغراضنا ، تحسين الخوارزميات في مشاكل التعلم الآلي ، يكفي تعريف غير رسمي للتحيز والتناثر.
تؤثر بعض التغييرات في تدريب الخوارزمية على المكون الأول للخطأ - التحيز وتحسين أداء الخوارزمية في عينة التدريب. تؤثر بعض التغييرات على المكون الثاني - التباين وتساعد على تعميم الخوارزمية بشكل أفضل على عينات التحقق والاختبار. لتحديد التغييرات الأكثر فعالية التي يجب إجراؤها على النظام ، من المفيد للغاية فهم كيف يؤثر كل مكون من عنصري الخطأ هذين على الخطأ العام في النظام.
ملاحظة الكاتب: هناك أيضًا بعض الأساليب التي تقلل من الإزاحة والتناثر في نفس الوقت ، مما يؤدي إلى تغييرات كبيرة في بنية النظام. ولكن عادة ما يكون من الصعب العثور عليها وتنفيذها.
لتحديد التغييرات الأكثر فعالية التي يجب إجراؤها على النظام ، من المفيد للغاية فهم كيف يؤثر كل مكون من عنصري الخطأ هذين على الخطأ العام في النظام.
سيساعدك تطوير الحدس في فهم كيفية مساهمة المساهمة في الخطأ ، وأي مبعثر ، على اختيار طرق فعالة لتحسين الخوارزمية.
21 أمثلة لتصنيف الأخطاء
ضع في اعتبارك مشكلة تصنيف القطط. يمكن أن يصنف المصنف المثالي (على سبيل المثال ، الشخص) جودة ممتازة لهذه المهمة.
افترض أن جودة الخوارزمية لدينا هي كما يلي:
- خطأ في عينة التدريب = 1٪
- خطأ في عينة التحقق = 11٪
ما هي مشكلة هذا المصنف؟ بتطبيق التعريفات من الفصل السابق ، نقدر التحيز عند 1٪ والانتشار عند 10٪ (= 11٪ - 1٪). وبالتالي ، فإن خوارزميتنا لديها انتشار كبير. المصنف لديه خطأ منخفض للغاية في عينة التدريب ، ولكن لا يمكنه تعميم نتائج التدريب على عينة التحقق. وبعبارة أخرى ، نحن نتعامل مع الإفراط في التجهيز .
الآن فكر في هذا الموقف:
- خطأ في عينة التدريب = 15٪
- خطأ في عينة التحقق = 16٪
ثم نقدر التحيز بنسبة 15٪ والفارق عند 1٪. تم تصنيف هذا المصنف بشكل سيئ في عينة التدريب ، في حين أن خطأه في عينة التحقق أكبر قليلاً من عينة التدريب. وبالتالي ، فإن هذا المصنف لديه تحيز كبير ، ولكن انتشار صغير. يمكن استنتاج أن هذه الخوارزمية غير ملائمة .
نعتبر أيضًا توزيع الخطأ التالي:
- خطأ في عينة التدريب = 15٪
- خطأ في عينة التحقق = 30٪
في هذه الحالة ، التحيز 15٪ والفارق هو 15٪. يتمتع هذا المصنف بتحيز كبير وانتشار: فهو لا يعمل بشكل جيد في عينة التدريب ، ولديه انحياز مرتفع ، ونوعيته في عينة التحقق أسوأ بكثير مما كانت عليه في التدريب ، أي مبعثر كبير أيضا. يصعب وصف هذه الحالة من حيث إعادة التدريب / نقص التعليم ؛ هذا المصنف متدرب وغير متعلم.
أخيرًا ، خذ بعين الاعتبار هذا الموقف:
- خطأ في عينة التدريب = 0.5٪
- خطأ في عينة التحقق = 1٪
هذا مصنف رائع ، لديه تحيز منخفض ومبعثر. مبروك للمهندسين تحقيق نتيجة ممتازة!
22 مقارنة مع معدل الخطأ الأمثل
في مثالنا للتعرف على القطط ، فإن الحصة المثالية من الأخطاء هي المستوى المتاح للمصنف "الأمثل" وهذا المستوى قريب من 0٪. يكون الشخص الذي يشاهد الصورة قادرًا دائمًا على التعرف على ما إذا كانت القطة موجودة في الصورة أم لا ، ويمكننا أن نأمل أن تقوم الآلة بذلك عاجلاً أم آجلاً.
ولكن هناك مهام أكثر تعقيدًا. على سبيل المثال ، تخيل أنك تقوم بتطوير نظام التعرف على الكلام ، ووجدت أن 14 ٪ من التسجيلات الصوتية بها الكثير من الضوضاء في الخلفية أو كلام غير مقروء لدرجة أنه حتى الشخص لا يمكنه معرفة ما قيل هناك. في هذه الحالة ، حتى أكثر أنظمة التعرف على الكلام "مثالية" قد يكون هناك خطأ في المنطقة بنسبة 14٪.
لنفترض في مهمتنا للتعرف على الكلام أن خوارزمياتنا حققت النتائج التالية:
- خطأ في عينة التدريب = 15٪
- خطأ في عينة التحقق = 30٪
جودة المصنف في عينة التدريب قريبة بالفعل من الحد الأمثل ، مع معدل خطأ 14 ٪. وبالتالي ، في هذه الحالة ، ليس لدينا العديد من الفرص لتقليل التحيز (تحسين الخوارزمية في عينة التدريب). ومع ذلك ، لا يمكن تعميم تشغيل هذه الخوارزمية على عينة التحقق ؛ لذلك ، هناك مجال كبير لأنشطة الحد من الانتثار .
هذه الحالة شبيهة بالمثال الثالث من الفصل السابق ، حيث يساوي الخطأ في عينة التدريب أيضًا 15٪ والخطأ في عينة التحقق 30٪. إذا كان معدل الخطأ الأمثل حوالي 0٪ ، فإن الخطأ في عينة التدريب بنسبة 15٪ يعطي مساحة كبيرة للعمل لتحسين الخوارزمية. مع هذا الافتراض ، يمكن أن تكون الجهود المبذولة للحد من التحيز في الخوارزمية مثمرة للغاية. ولكن إذا كانت النسبة المثلى لأخطاء التصنيف لا يمكن أن تكون أقل من 14٪ ، فإن نسبة مماثلة من أخطاء الخوارزمية في عينة التدريب (أي في منطقة 14-15٪) تشير إلى أن احتمالات الحد من التحيز قد استنفدت تقريبًا.
بالنسبة للمشكلات التي تختلف فيها النسبة المثلى لأخطاء التصنيف بشكل كبير عن الصفر ، يمكن اقتراح هيكل خطأ أكثر تفصيلاً. نواصل النظر في المثال أعلاه مع التعرف على الكلام ، يمكن أن يتحلل خطأ إجمالي بنسبة 30 ٪ في عينة التحقق إلى المكونات التالية (يمكن تحليل الأخطاء في عينة الاختبار بنفس الطريقة):
- التحيز الأمثل (التحيز الذي لا مفر منه): 14٪. تخيل ، لقد قررنا أنه حتى أفضل نظام ممكن للتعرف على الكلام في العالم ، سيكون معدل الخطأ فيه 14٪. سنتحدث عن هذا باعتباره الجزء "الذي لا يمكن تجنبه" من تعويض خوارزمية التعلم.
- التحيز الذي يمكن تجنبه : 1٪. يتم حساب هذه القيمة على أنها الفرق بين نسبة الأخطاء في عينة التدريب والنسبة المثلى للأخطاء.
ملاحظة المؤلف: إذا تبين أن هذه القيمة سلبية ، وبالتالي ، فإن الخوارزمية في عينة التدريب تظهر خطأ أصغر من الخطأ "الأمثل". هذا يعني أنك تدربت على مجموعة التدريب ، تذكرت الخوارزمية الخاصة بك الأمثلة (وفصولها) لمجموعة التدريب. في هذه الحالة ، يجب عليك التركيز على طرق تقليل الانتشار ، بدلاً من تقليل التحيز.
- الفرق : 15٪. الفرق بين الأخطاء في عينة التدريب وعينة التحقق
فيما يتعلق بذلك بتعريفاتنا السابقة ، فإن النزوح والتشريد القابل للصرف مرتبطان بما يلي:
التحيز (التحيز) = التحيز الأمثل ( "التحيز الذي لا مفر منه" ) + التحيز القابل للتصرف ( "التحيز الذي يمكن تجنبه" )
ملاحظة المؤلف : يتم اختيار هذه التعريفات لتوضيح كيفية تحسين جودة خوارزمية التعلم بشكل أفضل. تختلف هذه التعريفات عن التعريفات الرسمية للتحيز والتشتت المعتمد في الإحصاءات. من الناحية الفنية ، يجب أن يطلق على ما أعرّفه باسم "الإزاحة" "خطأ موجود في بنية البيانات (لا يمكن تحديده والقضاء عليه)" ويجب تعريف "القضاء على التحيز" على أنه "انحياز خوارزمية التعلم الذي يتجاوز التحيز الأمثل" .
يوضح التحيز الذي يمكن تجنبه مدى سوء جودة الخوارزمية في عينة التدريب عن جودة "المصنف الأمثل".
تبقى الفكرة الأساسية للتغير كما هي. نظريًا ، يمكننا دائمًا تقليل الانتشار إلى الصفر تقريبًا من خلال التدريب على عينة تدريب كبيرة بما فيه الكفاية. وبالتالي ، فإن أي انتشار "يمكن تجنبه" عندما تكون هناك عينة كبيرة بما فيه الكفاية ، لذلك لا يمكن أن يكون هناك شيء مثل "انتشار لا مفر منه" (تباين لا مفر منه).
فكر في مثال آخر يكون فيه الخطأ الأمثل 14٪ ولدينا:
- خطأ في عينة التدريب = 15٪
- خطأ في عينة التحقق = 16٪
في الفصل السابق ، قمنا بتصنيف مصنف بمؤشرات مثل المصنف عالي التحيز ، في ظل الظروف الحالية نقول أن "التحيز الذي يمكن تجنبه" هو 1٪ ، والفارق حوالي 1٪. وبالتالي ، فإن الخوارزمية تعمل بالفعل بشكل جيد ولا توجد احتياطيات تقريبًا لتحسين جودة عملها. جودة هذه الخوارزمية أقل بنسبة 2٪ فقط من المستوى الأمثل.
من هذه الأمثلة ، من الواضح أن معرفة حجم الخطأ الفادح مفيد لاتخاذ قرار بشأن إجراءات أخرى. في الإحصائيات ، يُطلق على معدل الخطأ الأمثل أيضًا معدل الخطأ في Bayes .
كيف تعرف حجم معدل الخطأ الأمثل؟ بالنسبة للمهام التي يتعامل معها الشخص جيدًا ، مثل التعرف على الصور أو فك تشفير مقاطع الصوت ، يمكنك أن تطلب من المقيّمين ترميز البيانات ، ثم قياس دقة الترميز البشري في عينة التدريب. سيعطي هذا تقديرًا لمعدل الخطأ الأمثل. إذا كنت تعمل على مشكلة يصعب على أي شخص التعامل معها (على سبيل المثال ، للتنبؤ بالفيلم الذي يوصي به أو الإعلان الذي سيعرض للمستخدم) ، في هذه الحالة من الصعب تقييم النسبة المثلى من الأخطاء.
في قسم مقارنة الأداء البشري ، الفصول من 33 إلى 35 ، سأناقش بمزيد من التفصيل عملية مقارنة جودة خوارزمية التعلم بمستوى الجودة التي يمكن أن يحققها الشخص.
في الفصول الأخيرة ، تعلمت كيفية تقييم التحيز القابل للإزالة / غير القابل للاسترداد والتشتت من خلال تحليل نسبة أخطاء المصنف في عينات التدريب والتحقق من الصحة. سيبحث الفصل التالي كيف يمكنك استخدام الاستنتاجات من مثل هذا التحليل لتحديد ما إذا كان سيتم التركيز على الطرق التي تقلل التحيز أو على الطرق التي تقلل الانتشار. تختلف مناهج مكافحة التحيز اختلافًا كبيرًا عن أساليب الحد من التشتت ، لذا فإن التقنيات التي يجب عليك تطبيقها في مشروعك لتحسين الجودة تعتمد بشكل كبير على المشكلة الحالية - التحيز الكبير أو التشتت الكبير.
اقرأ!
23 القضاء على التعويضات والتناثر
فيما يلي صيغة بسيطة للقضاء على التحيز والتناثر:
- إذا كان لديك انحياز كبير يمكن تجنبه ، فقم بزيادة تعقيد نموذجك (على سبيل المثال ، زيادة الشبكة العصبية الخاصة بك عن طريق إضافة طبقات أو (و) الخلايا العصبية)
- إذا كان لديك انتشار واسع ، أضف أمثلة إلى مجموعة التدريب الخاصة بك.
إذا كانت لديك الفرصة لزيادة حجم الشبكة العصبية وإضافة البيانات إلى مجموعة التدريب غير المحدودة ، فسيساعد ذلك في تحقيق نتيجة جيدة لعدد كبير من مهام التعلم الآلي.
من الناحية العملية ، سيؤدي زيادة حجم النموذج في النهاية إلى صعوبات حسابية ، حيث أن تدريب النماذج الكبيرة جدًا بطيء. يمكنك أيضًا استنفاد حد البيانات المتاحة للتدريب. (حتى عبر الإنترنت ، عدد الصور مع القطط بالطبع!)
إن البنى المختلفة لنماذج الخوارزمية ، على سبيل المثال ، البنى المختلفة للشبكات العصبية ، ستعطي قيمًا مختلفة للتحيز والتناثر ، فيما يتعلق بمهمتك. لقد أحدث عمود بحث حديث عن التعلم العميق عددًا كبيرًا من بنيات نماذج الشبكات العصبية المبتكرة. وبالتالي ، إذا كنت تستخدم الشبكات العصبية ، يمكن أن يكون الرواية الخيالية مصدرًا رائعًا للإلهام. هناك أيضًا عدد كبير من التنفيذ الممتاز للخوارزميات في المصادر المفتوحة ، على سبيل المثال على GitHub. ومع ذلك ، فإن نتائج محاولات استخدام بنى جديدة أقل توقعًا بكثير من الصيغة البسيطة المذكورة أعلاه - زيادة حجم النموذج وإضافة البيانات.
عادة ما تقلل زيادة حجم النموذج من التحيز ، ولكن يمكن أن يسبب أيضًا زيادة في الانتشار ، ويزداد خطر إعادة التدريب أيضًا. ومع ذلك ، فإن مشكلة إعادة التدريب لا تظهر إلا عندما لا تستخدم التسوية. إذا قمت بتضمين طريقة تسوية جيدة التصميم في النموذج الخاص بك ، فعادة ما يمكنك زيادة حجم النموذج بأمان دون السماح بإعادة التدريب.
افترض أنك تقوم بتطبيق التعلم العميق باستخدام تسوية L2 أو التسرب ( ملاحظة المترجم : يمكنك القراءة عن Dropout ، على سبيل المثال ، هنا: https://habr.com/company/wunderfund/blog/330814/ ) ، باستخدام معلمات التسوية التي تعمل بشكل لا تشوبه شائبة عينة التحقق. إذا قمت بزيادة حجم النموذج ، فعادة ما تبقى جودة الخوارزمية كما هي أو تنمو. انخفاضه الكبير غير محتمل. السبب الوحيد الذي يتعين علينا رفضه لزيادة حجم النموذج هو النفقات الحسابية الكبيرة.
24 المقايضة بين الإزاحة والانتشار
ربما سمعت عن "المفاضلة بين الإزاحة والتناثر". , , , . «» .
, — () , , . , , .
( ). , , , .
, , . , , , , .
, , . .
, , .
25
, :
- (, ): , . , , , .
- , , . , ( ). , . ; , , , , .
- (L2 , L1 , Dropout): , , .
- (, ) : ,
:
26
, / .
, , , , , . , , . . .
, - . , , 100 , , . , :
, , . , .
, -, , . , - , , , - . , , .
27
, :
- : , , .
- (L1 , L2 , dropout): , .
- (. . , ): , . , .
- / : , . (, 1000 900) . ( 1000 100 10 ) , , . , , , , , , , . , , .
- () ( / ). ! , , . , . . . , . , , .
, , :
- , , : , , , . . , ; , , .
- (, ) : .