ترجمة كتاب أندرو أون ، شغف التعلم الآلي ، الفصول 15-19

الفصول السابقة


15. تقييم متزامن لعدة أفكار أثناء تحليل الخطأ


لدى فريقك بعض الأفكار حول كيفية تحسين معرف القط في تطبيقك:


  • حل المشكلة التي تعينها الخوارزمية الكلاب على القطط
  • حل المشكلة مع حقيقة أن الخوارزمية الخاصة بك تتعرف على القطط البرية الكبيرة (الأسود ، الفهود ، إلخ) على أنها منزلية
  • تحسين أداء النظام على الصور المشوشة
  • ...

يمكنك أن تقدر كل هذه الأفكار في نفس الوقت. عادة أقوم بإنشاء جدول خاص وملئه لحوالي 100 حالة تصنيف غير صحيح لعينة التحقق (dev). كما أدلي بتعليقات موجزة قد تساعدني على تذكر أمثلة محددة في أعقاب ذلك. لتوضيح هذه العملية ، دعنا نلقي نظرة على جدول محوري يمكنك إنشاؤه من مجموعة صغيرة من الأمثلة على نموذج التحقق (dev) الخاص بك


صورةكلابقطط كبيرةغامضالتعليقات
1سالثور حفرة غير عادية
2
3سسليو تم التقاط الصورة في حديقة الحيوانات في يوم ممطر
4سالنمر خلف شجرة
حصة (٪)25٪50٪50٪

الصورة 3 في الجدول تنطبق على القطط الكبيرة والأغشية الضبابية. وبالتالي ، نظرًا لحقيقة أنه يمكننا أن نعزو صورة واحدة إلى عدة فئات من الأخطاء ، فإن النسب المئوية الإجمالية في الخط السفلي لا تقتصر على 100٪.


على الرغم من حقيقة أنه في بداية العمل ، يمكنك إنشاء مجموعة معينة من الفئات للأخطاء (الكلاب ، القطط الكبيرة ، الصور المشوشة) في عملية تعيين أخطاء التصنيف يدويًا لهذه الفئات ، قد تقرر إضافة أنواع جديدة من الأخطاء. على سبيل المثال ، لنفترض أنك نظرت إلى اثنتي عشرة صورة وقررت أن المصنف ارتكب الكثير من الأخطاء على صور Instagram المرمزة بالألوان. يمكنك إعادة الجدول وإضافة عمود "إنستجرام" إليه وإعادة تصنيف الأخطاء بناءً على هذه الفئة. من خلال فحص الأمثلة يدويًا حيث تكون الخوارزمية خاطئة وتطلب من نفسك كيف تمكنت كشخص من وضع علامة على الصورة بشكل صحيح ، ستتمكن من رؤية فئات جديدة من الأخطاء ، وربما تلهمك لإيجاد حلول جديدة.


أكثر فئات الأخطاء فائدة ستكون تلك التي لديك فكرة لتحسين النظام. على سبيل المثال ، ستكون إضافة فئة "Instagram" مفيدة للغاية إذا كانت لديك فكرة عن كيفية إزالة المرشحات واستعادة الصورة الأصلية. ولكن لا يجب أن تقتصر فقط على تلك الفئات من الأخطاء التي لديك وصفة للقضاء عليها ؛ الهدف من عملية تحليل الأخطاء هو تطوير حدسك عند اختيار مجالات التركيز الواعدة.


تحليل الأخطاء هو عملية تكرارية. لا تقلق إذا بدأت تشغيله دون الخروج بفئة واحدة. بعد عرض صورتين ، سيكون لديك العديد من الأفكار لتصنيف الأخطاء. بعد تصنيف عدة صور يدويًا ، قد ترغب في إضافة فئات جديدة ومراجعة أخطاء التصنيف في ضوء الفئات المضافة حديثًا ، وما إلى ذلك.


لنفترض أنك أكملت تحليل الأخطاء لـ 100 مثال على عينة التحقق من الصحة المصنفة بشكل خاطئ وحصلت على ما يلي:


صورةكلابقطط كبيرةغامضالتعليقات
1Xالثور حفرة غير عادية
2X
3XXليو تم التقاط الصورة في حديقة الحيوانات في يوم ممطر
4Xالنمر خلف شجرة
...............
حصة (٪)43٪61٪

الآن أنت تعلم أن العمل على مشروع للقضاء على التصنيف الخاطئ للكلاب كقطط ، في أفضل الأحوال ، سيزيل 8 ٪ من الأخطاء. سيساعد العمل على Big Cats أو Fuzzy Images على التخلص من عدد أكبر بكثير من الأخطاء. لذلك ، يمكنك اختيار إحدى هاتين الفئتين والتركيز عليها. إذا كان لدى فريقك ما يكفي من الأشخاص للعمل في العديد من المجالات في نفس الوقت ، يمكنك أن تطلب من العديد من المهندسين التعامل مع القطط الكبيرة ، مع تركيز بقية الجهود على الصور المشوشة.


لا يقدم تحليل الأخطاء صيغة رياضية صارمة تخبرك بالمهمة التي تحتاجها لتعيين الأولوية القصوى لها. يجب عليك أيضًا ربط التقدم الذي تم إحرازه من العمل على مختلف فئات الأخطاء والجهد الذي يجب إنفاقه على هذا العمل.


16. مسح عينات التحقق والاختبار من أمثلة معنونة بشكل غير صحيح


عند تحليل الأخطاء ، قد تلاحظ أن بعض الأمثلة في نموذج التحقق الخاص بك تم تصنيفها بشكل غير صحيح (تم تعيينها للفئة الخاطئة). عندما أقول "تم تصنيفها عن طريق الخطأ" ، أعني أن الصور قد تم تصنيفها بشكل غير صحيح بالفعل عندما تم ترميزها بواسطة شخص قبل أن تكتشف الخوارزمية ذلك. أي ، عند ترميز المثال (س ، ص) لص ، تم الإشارة إلى القيمة الخاطئة. على سبيل المثال ، لنفترض أن بعض الصور التي لا توجد بها قطط تم تصنيفها عن طريق الخطأ على أنها تحتوي على قطط والعكس صحيح. إذا كنت تشك في أن النسبة المئوية من الأمثلة المصنفة بشكل خاطئ مهمة ، فأضف الفئة المناسبة لتتبع الأمثلة المصنفة بشكل غير صحيح:


صورةكلابقطط كبيرةغامضخطأ في الترميزالتعليقات
..................
98Xوصفت خطأً بوجود قطة في الخلفية
99X
100Xالقط الملون (غير حقيقي)
حصة (٪)43٪61٪

هل تحتاج إلى تصحيح البيانات ذات العلامات غير الصحيحة في نموذج التحقق الخاص بك؟ دعني أذكرك بأن مهمة استخدام عينة التحقق هي مساعدتك على تقييم الخوارزميات بسرعة بحيث يمكنك تحديد ما إذا كانت الخوارزمية A أفضل من B. إذا كانت نسبة عينة التحقق التي تم تصنيفها بشكل غير صحيح تمنعك من إصدار مثل هذا الحكم ، فمن المنطقي قضاء الوقت تصحيح الأخطاء في وسم عينة التحقق.


على سبيل المثال ، تخيل أن الدقة التي يظهرها المصنف هي كما يلي:


  • الدقة الكلية لعينة التحقق ............. .. 90٪ (خطأ كلي 10٪)
  • الخطأ المرتبط بأخطاء الترميز ………… ..0.6٪ (6٪ من إجمالي الخطأ في عينة التحقق)
  • الخطأ لأسباب أخرى .............. 9.4٪ (94٪ من إجمالي الخطأ في عينة التحقق)

هنا ، قد لا يكون هناك خطأ بنسبة 0.6٪ بسبب وضع العلامات بشكل غير صحيح بما يكفي فيما يتعلق بخطأ بنسبة 9.4٪ يمكنك تحسينه. لن يكون التصحيح اليدوي لأخطاء الترميز لعينة التحقق غير ضروري ، ولكن تصحيحه ليس حرجًا لأنه لا يهم إذا كان الخطأ الإجمالي الحقيقي لنظامك هو 9.4٪ أو 10٪


لنفترض أنك تعمل على تحسين مصنِّف القطط وحققت مقاييس الدقة التالية:


  • الدقة الكلية لعينة التحقق ............. .. 98٪ (خطأ كلي 2٪)
  • الخطأ المرتبط بأخطاء الترميز ………… ..0.6٪ (30٪ من إجمالي الخطأ في عينة التحقق)
  • الخطأ لأسباب أخرى .............. 1.4٪ (70٪ من إجمالي الخطأ في عينة التحقق)

30٪ من خطأك يرجع إلى وضع علامات غير صحيحة على صور عينة التحقق ، تساهم هذه المشاركة بشكل كبير في الخطأ العام في تقييم دقة نظامك. في هذه الحالة ، من المفيد تحسين وضع علامة على عينة التحقق. سيساعدك التخلص من الأمثلة المصنفة بشكل غير صحيح في معرفة مكان أقرب أخطاء المصنف إلى 1.4٪ أو 2٪. هناك فرق نسبي كبير بين 1.4 و 2.


ليس من غير المألوف أن تبدأ الصور المصنفة بشكل غير صحيح لعينة التحقق أو الاختبار في جذب انتباهك فقط بعد تحسن نظامك لدرجة أن معدل الخطأ المرتبط بالأمثلة غير الصحيحة سيزداد بالنسبة إلى الخطأ الإجمالي في هذه العينات.


يشرح الفصل التالي كيف يمكنك تحسين فئات الأخطاء مثل الكلاب والقطط الكبيرة والغموض أثناء العمل على تحسين الخوارزميات. تعلمت في هذا الفصل أنه يمكنك تقليل الخطأ المرتبط بفئة "أخطاء التخطيط" وتحسين الجودة من خلال تحسين ترميز البيانات.


بغض النظر عن النهج الذي تستخدمه لوضع علامة على عينة التحقق ، لا تنس أن تطبقها على تخطيط عينة الاختبار ، بحيث يكون لديك عينات التحقق والاختبار نفس التوزيع. بتطبيق نفس النهج على عينات التحقق والاختبار ، ستمنع المشكلة التي ناقشناها في الفصل 6 عندما يقوم فريقك بتحسين جودة الخوارزمية في عينة التحقق ويدرك لاحقًا أنه تم تقييم هذه الجودة على أساس مختلف عن عينة اختبار التحقق.


إذا قررت تحسين ترميزك ، ففكر في التحقق مرة أخرى. تحقق من ترميز الأمثلة التي صنفها نظامك بشكل غير صحيح وترميز الأمثلة المصنفة بشكل صحيح. من الممكن أن يكون كل من الترميز الأولي وخوارزمية التعلم لديك خاطئين في نفس المثال. إذا صححت فقط ترميز تلك الأمثلة التي ارتكب نظامك خطأ في التصنيف ، يمكنك إدخال خطأ منهجي في تقييمك. إذا أخذت 1000 مثال على عينات التحقق من الصحة ، وإذا أظهر المصنف دقة 98.0٪ ، فمن السهل التحقق من 20 مثالًا تم تصنيفها بشكل غير صحيح من 980 مثال مصنف بشكل صحيح. نظرًا لأنه من السهل عمليًا التحقق من الأمثلة المصنفة بشكل غير صحيح فقط ، في بعض الحالات قد يتسلل خطأ منهجي إلى عينات التحقق من الصحة. مثل هذا الخطأ مسموح به إذا كنت مهتمًا فقط بتطوير التطبيقات ، ولكنه سيكون مشكلة إذا كنت تخطط لاستخدام نتيجتك في مقالة بحث أكاديمي أو تحتاج إلى قياسات دقة الخوارزمية في عينة اختبار خالية تمامًا من الخطأ المنهجي.


17. إذا كان لديك عينة كبيرة من التحقق ، قسمها إلى نموذجين فرعيين ، وفكر في واحد منها فقط.


لنفترض أن لديك عينة كبيرة للتحقق من الصحة تتكون من 5000 مثال يكون معدل الخطأ فيها 20٪. وبالتالي ، لا تصنف الخوارزمية الخاصة بك بشكل صحيح حوالي 1000 صورة للتحقق. سيستغرق التقييم اليدوي لـ 1000 صورة وقتًا طويلاً ، لذلك قد نقرر عدم استخدامها جميعًا لأغراض تحليل الأخطاء.


في هذه الحالة ، سأقوم بالتأكيد بتقسيم عينة التحقق إلى مثالين فرعيين ، أحدهما ستلاحظه ، والآخر لا. من المحتمل أن تتراجع عن الجزء الذي ستقوم بتحليله يدويًا. يمكنك استخدام الجزء الذي لا تستخدمه للتحليل اليدوي لتكوين معلمات النموذج.


العين


دعنا نواصل مثالنا الموضح أعلاه ، حيث قامت الخوارزمية بتصنيف 1000 مثال بشكل غير صحيح من 5000 تشكل عينة التحقق. تخيل أنك تريد أخذ 100 خطأ للتحليل (10٪ من جميع الأخطاء في عينة التحقق). نحتاج إلى اختيار 10٪ عشوائيًا من الأمثلة من عينة التحقق من الصحة ونؤلف منها " مجموعة مطور Eyeball " ( مجموعة مطور Eyeball ) ، وقمنا بتسميتها حتى نتذكر دائمًا أننا ندرس هذه الأمثلة بأعيننا.


ملاحظة المترجم: من وجهة نظري ، لا يبدو تعريف "اختيار مقلة العين" متناغمًا على الإطلاق (خاصة من وجهة نظر اللغة الروسية). ولكن مع كل الاحترام الواجب لأندرو (ومع الأخذ في الاعتبار أنني لم أتوصل إلى أي شيء أفضل) ، سأترك هذا التعريف


(بالنسبة لمشروع التعرف على الكلام الذي ستستمع فيه إلى مقاطع صوتية ، ربما يمكنك بدلاً من ذلك استخدام شيء مثل "عينة التحقق من صحة الأذنين"). وبالتالي ، تتكون عينة التحقق من مقلة العين من 500 مثال ، حيث يجب أن يكون هناك حوالي 100 تصنيف غير صحيح. تتكون العينة الفرعية الثانية لعينة التحقق ، والتي سنطلق عليها مجموعة Blackbox dev ، من 4500 مثال. يمكنك استخدام "Black Box Subsampling" لتقييم جودة المصنفات تلقائيًا وقياس حصتها من الأخطاء. يمكنك أيضًا استخدام هذه العينة الفرعية للاختيار بين الخوارزميات أو لتكوين المعلمات الزائدة. ومع ذلك ، يجب تجنب النظر في أمثلة من هذه العينة الفرعية بعينيك. نستخدم مصطلح "الصندوق الأسود" لأننا سنستخدم عينة فرعية من مكونه كـ "الصندوق الأسود"
تقريبا. المترجم : أي الشيء الذي لا نعرف بنيته
لتقييم جودة المصنفات.


الصورة


لماذا نفصل بشكل صريح بين عينة التحقق في "العينة الفرعية لمقلة العين" و "العينة الفرعية للصندوق الأسود"؟
نظرًا لأنك في مرحلة ما ستشعر (تفهم) بشكل متزايد الأمثلة الواردة في "Sub Eye Subsampling" ، فإن احتمال أن تتراجع عن هذه العينة الفرعية سيزداد. للتحكم في إعادة التدريب ، سنستخدم "اختزال الصندوق الأسود". إذا رأيت أن جودة الخوارزميات في عينة مقلة العين تنمو بشكل أسرع بكثير من جودة عينة الصندوق الأسود ، يبدو أنك قد تدربت على مقلة العين. في هذه الحالة ، قد تحتاج إلى تجاهل المجموعة الفرعية الموجودة من مقلة العين وإنشاء مجموعة جديدة عن طريق نقل المزيد من الأمثلة من الصندوق الأسود إلى مقلة العين أو عن طريق أخذ جزء جديد من البيانات التي تم وضع علامة عليها.


وبالتالي ، فإن تقسيم عينة التحقق من الصحة إلى "العينة الفرعية لمقلة العين" و "العينة الفرعية للصندوق الأسود" يتيح لك رؤية اللحظة التي ستؤدي فيها عملية التحليل اليدوي للأخطاء إلى إعادة التدريب على العينة الفرعية لمقلة العين.


18 ما هو حجم عينة مقلة العين وعينة الصندوق الأسود؟


يجب أن تكون عينة مقلة العين كبيرة بما يكفي لتجد الفئات الرئيسية لأخطاء التصنيف للخوارزمية. إذا كنت تعمل على مهمة يمكن لأي شخص القيام بها (مثل التعرف على القطط في الصور) ، فيمكنك تقديم التوصيات التقريبية إلى حد ما:


  • سيتم اعتبار عينة التحقق من مقلة العين التي تحتوي على 10 أخطاء في المصنف الخاص بك صغيرة جدًا. مع وجود 10 أخطاء فقط ، من الصعب جدًا تقييم تأثير فئات الأخطاء المختلفة بدقة على جودة المصنف. ولكن إذا كان لديك القليل جدًا من البيانات ولا توجد طريقة لإضافة المزيد من الأمثلة إلى عينة مقلة العين ، فلا تزال أفضل من لا شيء وستساعد على أي حال في تحديد أولويات العمل في المشروع.
  • إذا كان المصنف مخطئًا حوالي 20 مرة على عينة من مقلة العين ، يمكنك إجراء تقديرات تقريبية للمصادر الرئيسية للأخطاء.
  • مع وجود 50 خطأ تقريبًا ، ستحصل على فكرة جيدة عن المصادر الرئيسية لأخطاء المصنف.
  • إذا كان لديك حوالي 100 خطأ ، فستحصل على فهم جيد للغاية من أين تأتي الأخطاء الرئيسية. قابلت أشخاصًا قاموا بتحليل المزيد من الأخطاء يدويًا حتى 500 أحيانًا. لماذا لا ، إذا كان لديك ما يكفي من البيانات.

افترض أن معدل الخطأ في المصنف الخاص بك هو 5٪. من أجل الحصول بثقة على حوالي 100 من الأمثلة المصنفة بشكل غير صحيح في عينة مقلة العين ، يجب أن تحتوي هذه العينة على حوالي 2000 مثال (منذ 0.05 * 2000 = 100). كلما كان معدل الخطأ في المصنف أصغر ، كلما كانت عينة مقلة العين أكبر للحصول على عينة كبيرة بما فيه الكفاية من الأخطاء للتحليل.


إذا كنت تعمل على مهمة يصعب فيها حتى على الأشخاص تصنيف الأمثلة بشكل صحيح ، فلن تكون التدريبات للتحقق من عينة التحقق من مقلة العين مفيدة بشكل خاص ، لأنه من الصعب فهم سبب عدم تمكن الخوارزمية من تصنيف المثال بشكل صحيح. في هذه الحالة ، يمكنك تخطي إعداد معاينة العين. سنناقش توصيات هذه المشاريع في الفصول التالية.


وماذا عن "عينات الصندوق الأسود"؟ لقد ذكرنا بالفعل أنه في الحالة العامة ، تحتوي عينة التحقق على 1000 - 10000 مثال. لتكملة هذا البيان ، عادة ما تمنحك عينة التحقق من الصندوق الأسود من 1000 إلى 10000 مثال (غالبًا) بيانات كافية لتكوين المعلمات المفرطة والاختيار بين النماذج ، ولكن إذا أخذت المزيد من البيانات لتحديد مربع أسود ، فلن يكون الأمر أسوأ. من المؤكد أن اختيار الصندوق الأسود من 100 مثال ليس كافيًا ، ولكنه سيظل مفيدًا (أفضل من لا شيء).


إذا كان لديك عينة صغيرة للتحقق ، فقد لا تحتوي على بيانات كافية لفصلها في عينات مقلة العين والصندوق الأسود بحيث تكون كبيرة بما يكفي ويمكنها خدمة الأغراض الموضحة أعلاه. في هذه الحالة ، قد تضطر إلى استخدام عينة التحقق بأكملها كعينة مقلة العين.
أي أنك ستقوم بفحص جميع البيانات يدويًا من عينة التحقق من الصحة.


أعتقد أن اختيار مقلة العين أكثر أهمية من اختيار المربع الأسود (على افتراض أنك تعمل على مشكلة يكون فيها الأشخاص جيدون في تحديد الفصول والتحقق يدويًا من الأمثلة سيساعدك في الحصول على فكرة عن بياناتك). إذا كان لديك فقط مجموعة مختارة من مقلة العين ، يمكنك العمل على تحليل الأخطاء ، واختيار النماذج وإعداد المعلمات الفائقة باستخدامها فقط. عيب العمل فقط مع اختيار مقلة العين هو أنه في هذه الحالة يزداد خطر إعادة تدريب النموذج في عينة التحقق.


إذا كان لديك الكثير من البيانات تحت تصرفك ، فسيتم تحديد حجم عينة مقلة العين بشكل أساسي من خلال مقدار الوقت الذي يمكنك تخصيصه للتحليل اليدوي للبيانات. على سبيل المثال ، نادرًا ما التقيت بشخص يمكنه تحليل أكثر من 1000 خطأ يدويًا.


19 الاستنتاجات: تحليل الخطأ الأساسي


  • , , ,
  • . , — . , .
  • , 100 , , . , .
  • , , . , , .
  • , . , 1000-10000 .
  • , , , , .

Source: https://habr.com/ru/post/ar419885/


All Articles