نصيحة سيئة حول إدخال "التعلم الآلي" في العمل

لا تعتمد على الذكاء الاصطناعي ،
إلا إذا كان لديك فهم عميق للعملية.

راي داليو

في Jet Infosystems ، نقدم التعلم الآلي في مجموعة واسعة من الصناعات ، واستناداً إلى تجربتنا ، نخص المكونات الضرورية للتنفيذ الناجح:

  • بيان المشكلة التي تهدف إلى تحسين قياس الأولوية للأعمال ؛
  • فريق من علماء البيانات الذين لديهم كفاءات ومستعدون للغوص في هذه العملية ؛
  • البيانات ذات الصلة بمهمة العمل ؛
  • اختيار مناسب للطريقة.

في الممارسة العملية ، كل هذه العناصر نادرة للغاية معًا ، وفقًا للإحصاءات ، حوالي 7٪ فقط من المشروعات التي تحتوي على ML تعتبر ناجحة. يمكن تصنيف المشاريع التي تحتوي على كل هذه المكونات بأمان على أنها اختراق! للتوضيح ، قمنا بصياغة العديد من النقاط التي يمكن تسميتها نصائح ضارة حول إدخال التعلم الآلي في الأعمال.

نصيحة سيئة رقم 1: "المهمة هي ببساطة تنفيذ ML"


في كثير من الأحيان ، يصوغ العميل المهمة على أنها "مجرد تقديم التعلم الآلي لبعض التحسينات" ، دون أي اتصال بمقاييس العمل وتحديد أولويات مهام العمل.

في هذه الحالة ، يمكننا أن نرى عدة سيناريوهات سلبية. على سبيل المثال ، ستتغير الأهداف أثناء عملها ، ولكن هذا يعني أن جميع عمليات المعالجة المسبقة واختيار أساليب التحسين ستتغير ، لأنها مرتبطة مباشرة بمعنى الهدف. أو سيختار أحد علماء البيانات بعض المقاييس من التعلم الآلي ، على سبيل المثال ، auc ، وسيعمل على تحسينها ، وسيحضر جميع أطر الضجيج والمكتبات ، بناءً على إحساسه بالجمال - قم بتحسين "المكان العشري الخامس" في المقياس المختار. في الوقت نفسه ، بالنسبة للأعمال ، قد يكون هذا العمل غير مهم تمامًا ولا يؤدي إلى التنفيذ الناجح. أو سيبدأ حل بعض المشكلات التجارية البسيطة ، في حين أن هناك في الواقع إمكانية أكبر بكثير لتقديم التعلم الآلي في مكان قريب.

نتيجة لذلك ، قد تواجه عواقب سلبية:

  • من المستحيل التنبؤ بالتوقيت وتكاليف العمالة ؛
  • تحسين النماذج بمعزل عن مقاييس العمل ؛
  • جعل الاستثمار في مهمة بسيطة.

نصيحة سيئة رقم 2: "أي عالم بيانات سيفعل"


هناك رأي مفاده أنه يمكنك أخذ أي عالم بيانات من السوق ، ووضعه في عزلة مع التفوق وسيكتشف بطريقة سحرية ما يجب تحسينه. في رأينا ، فإن عقلية علماء البيانات الذين يشاركون في تحسين الإنتاج مهمة للغاية. هذا يعني أنهم يجب أن يكونوا مستعدين للغطس بعمق في العمليات التكنولوجية (على سبيل المثال ، التحليل الكهربائي للألمنيوم ، علاج السليلوز بالأكسجين القلوي ، إنتاج أفران الصهر ، إلخ). من المهم أيضًا رغبة علماء البيانات في السفر في رحلات عمل بعيدة بهدف التحدث شخصيًا مع التقنيين والمشغلين في المصنع ، من أجل فهم كيفية عمل كل شيء حقًا. وبدون هذا ، على الأرجح ، سيكون مصيرها عدد كبير من التكرارات الطائشة لنماذج التعداد ، ولا يمكنك الوصول إلى تطبيق مفيد أبدًا.

نصيحة سيئة رقم 3: "العمل يجب أن يكون خليط"


يتم التقيد بانتظام بأيديولوجية التنظيم الأكثر تجزئة للعمل مع أقصى تقسيم للعمل لتقليل التكاليف. على سبيل المثال ، هناك محلل يفهم العملية ويتواصل مع العملاء وخبراء التكنولوجيا. هناك مهندس تاريخ - يقوم بمعالجة البيانات ، ويولد ميزات. وأخيرًا ، هناك عالم بيانات - يقوم فقط باستيراد sklearn والتوافق / التنبؤ. وبالتالي ، فإن عمل عالم البيانات يحدث بمعزل عن حقائق الحياة ، مختبري للغاية ، وهناك خطر كبير في ارتكاب عدد كبير من الأخطاء وفقدان جوانب مهمة من المهمة الأصلية.

نصيحة سيئة رقم 4: "لا تشرح لعلماء البيانات كيفية جمع البيانات"


ليس من الواضح دائمًا أن على علماء البيانات فهم كيف وأين يتم جمع البيانات. هناك حتى حالات عندما يتم توقيع عقود تنفيذ ML دون مراجعة البيانات أولاً ، وفي مثل هذه الظروف يكون هناك خطر عدم الوصول إلى القيم المستهدفة للمقاييس الموضحة في العقد. مع هذا النهج ، ستنشأ المشاكل حتماً مع كل من تقييم جودة النماذج وإمكانية تطبيقها الحقيقي.

تؤثر العديد من خصائص البيانات على اختيار الأساليب: حساب متوسط ​​البيانات وأخطاء القياس ، وأخذ العينات غير المتكافئ من الأمثلة ، والفارق الزمني في القياسات. من المهم تنظيف البيانات بشكل صحيح من الضوضاء في العوامل والأهداف ، يمكن أن تكون أسباب الضوضاء مختلفة: أخطاء الرقمنة ، تجاوز الحدود ، تكرار المتغيرات ، أخطاء الأداة ، إلخ.

يجب أن تكون الشركة مهتمة بحقيقة أن علماء البيانات يفهمون تمامًا طبيعة البيانات ، وإلا فإن معالجة البيانات ستكون طويلة ولن تؤدي إلى وضع نماذج ناجحة. بدون فهم عميق لخصائص عملية جمع البيانات وتخزينها ، قد يواجه المرء المشاكل التالية:

  • سيستغرق تجهيز البيانات الكثير من الوقت ؛
  • قد لا يكون النموذج قابل للتطبيق في ظروف حقيقية ؛
  • قد تكون شروط العقد غير قابلة للتحقيق.

نصيحة سيئة رقم 5: "اجعل عملية جمع البيانات عملية معقدة وغير مفهومة حتى لا يعرف أحد كيف تعمل. بعد إدخال النماذج ، تأكد من إجراء تغييرات على العملية "


في كثير من الأحيان ، بالتوازي مع تطوير وتنفيذ النموذج ، تتغير العمليات التكنولوجية التي تؤثر على جمع البيانات. تخيل أنه من الضروري تحسين العملية التكنولوجية ، وبعد إدخال النموذج ، يتم إعادة تكوين بعض الوحدات وهذا يؤثر على جمع البيانات: سوف "تطفو" الميزات ، وستتغير التوزيعات ، وستتوقف عينة التدريب عن التمثيل. بالطبع ، لا أحد يعرف هذا مسبقا. نتيجة لذلك: سوف يتوقف النموذج عن العمل وكل شيء يحتاج إلى إعادة بنائه. على سبيل المثال ، في حالات الأشجار ، قد تحدث مشكلة خارج المجال.

من المهم التنسيق المسبق مع علماء البيانات في جميع التغييرات في العمليات التكنولوجية حتى يتمكنوا من تكييف النماذج بسرعة مع الظروف الجديدة.

نصيحة سيئة # 6: "متوسط ​​علامات"


بعض أنواع المتوسط ​​تؤدي إلى مشاكل ، على سبيل المثال:

  • تتمثل المهمة في التنبؤ باستهلاك الطاقة كل ساعة ، ولكن في نفس الوقت ، يتم تخزين بيانات استهلاك الطاقة فقط لشهور - في هذه الحالة ، لا يمكن فعل شيء قبل تراكم البيانات الخام ؛
  • يحدث التوسيط على الخصائص التي يتم قياسها في نقاط مختلفة بشكل ملحوظ في الوقت المناسب ؛
  • باستخدام المتوسطات المتحركة التي تلتقط فترة التنبؤ (مما يؤدي إلى مشكلة تسرب البيانات وتشويه النموذج) ؛
  • الأسوأ من ذلك كله ، عندما يتم حساب متوسط ​​البيانات بطريقة ما وتبقى هذه الحقيقة غير معروفة.

في مثل هذه الحالات ، قد لا تتلقى المهمة حلاً مناسبًا حتى تظهر البيانات الأولية ذات الصلة.

نصيحة سيئة رقم 7: "لا تعطي بيانات إضافية"


هناك عدة سيناريوهات يطلب فيها علماء البيانات بيانات إضافية:

  • البيانات الخام الإضافية اللازمة ؛
  • من الضروري إضافة علامات جديدة إلى مجموعة البيانات. على سبيل المثال ، في مهام القطاع المصرفي وتوصيات المنتج ، من المفيد استخدام أكبر عدد ممكن من الخصائص الاجتماعية والديموغرافية ؛
  • زيادة حجم مجموعة البيانات
  • كمية البيانات محدودة ، ولكن يمكن توسيعها بسبب البيانات التاريخية ، أو من الممكن إنشاء بيانات إضافية ، كما هو الحال في مهام معالجة الصور والفيديو.

يطلب علماء البيانات بيانات إضافية عندما يكون لديهم خبرة في حل المشكلات المماثلة التي ينتج عنها استخدام هذه البيانات نتيجة إيجابية ، وإلا يمكنك الحصول على جودة النماذج بشكل أسوأ بكثير مما يمكن تحقيقه.

نصيحة سيئة رقم 8: "دقة العلامات اليدوية ليست مهمة"


دع الأمر مطلوبًا للتنبؤ بجودة المنتجات بناءً على الوسم اليدوي ، على سبيل المثال يقوم مشغلو الإنتاج بتسجيل القيم المستهدفة يدويًا. إذا حصل المشغلون في الوقت نفسه على مكافآت مقابل نتائج جيدة وعقاب على النتائج السيئة ، فعندئذ:

  • من المرجح أن يحتوي الهدف على تعويض ؛
  • نتيجة للتدريب ، سيدخل هذا الانحياز في النموذج ؛
  • لن يتنبأ النموذج بالتوزيع الفعلي للمتغير الهدف.

يمكن أن تنشأ مشاكل مماثلة مع استخدام حلول التعهيد الجماعي (على سبيل المثال ، Yandex.Toloka) ، حيث يتلقى الخبراء مكافآت لترميز البيانات. في هذه الحالة ، تحتاج إلى التحقق من العلامات الناتجة بعناية. هناك عدد من الأساليب لهذا:

  • التداخل: العديد من الخبراء المستقلين.
  • المجموعة الذهبية: يتم إضافة أمثلة ذات نتائج معروفة مسبقًا إلى البيانات لتقييم دقة المشغلين واختيارهم ؛
  • التصويت بالأغلبية: خوارزميات اختيار الحكم بناءً على ترميز التداخل.

الخلاصة: إذا كان هناك ترميز يدوي للبيانات - فأنت بحاجة إلى التحقق من ذلك ، وإلا فقد تحدث أخطاء منهجية.

نصيحة سيئة رقم 9: "استخدم الأكثر عصرية"


اقرأ المقالات الشائعة واطلب أن يعتمد حل المشكلة على طريقة عصرية.

اليوم ، يعد علم البيانات مجالًا للأزياء ، ويتم نشر الكثير من المقالات ، ويتم عقد المؤتمرات يوميًا تقريبًا ، ويتم إنشاء عدد متزايد من الأساليب. ومع ذلك ، هذا لا يعني أن الطريقة الشعبية المتخذة تعسفيا هي الأمثل في المهام الصناعية. عادة لا يكون من الضروري استخدام LSTM في مهمة تحسين إنتاج حديد الخنزير ، كما أنه لا يلزم استخدام RL في مجموعات البيانات الصغيرة للتسويق أو التعدين. في مثل هذه المهام ، من الحكمة البدء بالطرق التقليدية (على سبيل المثال ، التدرج اللوني) ، والتي قد يكون من الصعب للغاية إقناع العملاء. أساليب ML العصرية ليست دائما مناسبة لمهام الصناعة وغالبا ما يثبت أنها مكلفة لتنفيذها.

أخلاقية


مجموعة النصائح المعينة ليست شاملة ، ولكن يتم استيفاء جميعها بانتظام في الممارسة العملية. مع هذا النهج ، من المحتمل أن تتأكد من أن ML لا تعمل في الصناعة وأنها مجرد مضيعة للمال.

بإيجاز ، يمكننا القول أن الحالات المذهلة حقًا هي مشروعات ML ، والتي يتم تنفيذها في الوقت المحدد وتحقيق ربح ثابت للشركة. لتحقيق ذلك ، تعتبر كفاءات تحليل البيانات والتعلم الآلي مهمة ، والظروف التي يفهم فيها علماء البيانات الصورة الكاملة لمشكلة العمل.

أرسلت بواسطة إيرينا بيمينوفا ، رئيس التعدين والنظم الإيكولوجية النفاثة

Source: https://habr.com/ru/post/ar475862/


All Articles