التعلم الآلي مقابل النهج التحليلي



منذ بعض الوقت ، وجدنا موادنا القديمة التي قمنا بتدريسها في التدفقات الأولى في دورات التعلم الآلي لدينا في مدرسة البيانات ومقارنتها مع الحالية. لقد فوجئنا بالمقدار الذي أضفناه وتغيرنا خلال 5 سنوات من التدريب. مع إدراك سبب قيامنا بذلك وكيف ، في الواقع ، تغير نهج حل مشكلات علوم البيانات ، قررنا كتابة هذا المنشور.

بدأنا التدريب باستخدام الأساليب والخوارزميات الأساسية للتعلم الآلي ، وقلنا لكيفية تطبيقها ، وكيفية اختيار المعلمات ، وكيفية تنظيف البيانات وإعدادها ، وكيفية قياس الجودة. لقد اعتقدنا (وما زلنا نعتقد) أن تدريب العميل الكامل - العالم يجب أن يشمل ليس فقط أساليب تعلم الآلة الكلاسيكية ، ولكن أيضًا طرق تحليل الرسم البياني (الشبكات الاجتماعية ، الحسابات القومية) ، تحليل النصوص ، العمل مع الشبكات العصبية والبيانات الضخمة (البيانات الكبيرة).

وهكذا ، في المخرجات ، حصلنا على خبير في مجال واسع من علوم البيانات ، قادر على تطبيق ترسانة واسعة من الأساليب في الممارسة العملية. أخذنا نفس المتخصصين لأعمالنا. أولاً ، في الشركة حيث عملنا ووجهنا المجالات ذات الصلة ، ثم في أعمالنا لتطوير المنتجات القائمة على التعلم الآلي - Data Studio .

لكن في وقت لاحق أدركنا أن هذا لا يكفي فقط للتنفيذ الناجح لمشاريع علوم البيانات ، ولكن هذا ليس هو الشيء الرئيسي.

النهج في بداية ممارسة علم البيانات ، ولكي نكون صادقين ، بالنسبة للعديد من المحللين حتى الآن ، على النحو التالي: أعطني البيانات ، وسأقوم بمسحها ، وجعل متجه للميزات ، وقسمها إلى عينات تدريب واختبار ، وقم بتشغيل عدة خوارزميات ML ، وهنا هي النتيجة.
هل هذا النهج له الحق في الحياة؟

نعم ، إنه كذلك ، لكن حيث يتم دراسة موضوع الدراسة بالفعل جيدًا وهناك بالفعل خبرة جيدة متراكمة في تطبيق التحليلات. أمثلة؟ تسجيل البنك ، التدفقات الخارجة من المشغلين ، البيع المتقاطع (التالي أفضل عرض) في تجارة التجزئة ، البنوك ، الاتصالات ، التنبؤ بفعالية الأسهم في البيع بالتجزئة ، التنبؤ بالأرصدة. هذه القائمة تطول.

الآن دعنا نتخيل مجالات أخرى: التنبؤ بوقت الوصول في النقل المتعدد الوسائط (السفينة ، القطار ، الشاحنة): ما هي العلامات التي ستستخدمها؟ نوع البضائع ، وزن البضائع ، وجود بعض الفرز العقد؟ وإذا كنت تفكر في ذلك؟ ربما تمنحك بعض العلامات البسيطة والواضحة (حتى بدون نماذج التعلم الآلي) دقة كبيرة؟

أو تحتاج إلى التنبؤ بحساسية العملاء الكبار للتغيرات في أسعار بعض المنتجات. كيفية تحديد مرونة؟ ماذا تتوقع بالضبط؟

ولكن هل من الضروري بناء نموذج إذا تم تغيير عملية الإنتاج في وقت لاحق على أي حال؟

اتضح أنك بحاجة إلى أن تكون قادرًا على العمل في مجالات موضوعية جديدة لتطبيق التحليلات ، لأنه في المناطق المدروسة جيدًا ، هناك بالفعل العديد من التطورات وهذا هو "المحيط الأحمر".
ما الذي يتطلبه الأمر للذهاب إلى مناطق جديدة مع التحليلات؟

للقيام بذلك ، يجب أن تكون قادرًا على أن تفهم بعمق مجال الموضوع لعملية معينة ، وغالبًا ما لا تتوفر أوصاف لها. فهم نوع البيانات المطلوبة بشكل عام ، وفهم بالضبط ما تتم عليه الأعمال. هل تحتاج إلى فهم التحليلات هنا على الإطلاق ، هل تحتاج إلى بعض الخوارزميات التنبؤية ، هل تحتاج إلى تغيير العملية التجارية ، هل هناك أدوات تشغيل (ما الهدف من التنبؤ بإغلاق المعدات إذا لم تكن هناك طرق لتجنب ذلك؟).

لتلخيص ، الأشياء التالية مطلوبة:

  • النهج التحليلي ، والقدرة على صياغة واختبار الفرضيات
  • فهم مبادئ وميزات الأعمال والعمليات الفردية
  • فهم اقتصاديات العمليات
  • فهم التكنولوجيا
  • القدرة على ربط البيانات مع العمليات التجارية

وإذا قمت بتمزيق نفسك بعيدًا عن التعلم الآلي ، فما هو المجال الأكثر قدرة على القيام بذلك؟ استشارات الإدارة الصحيحة. وأين يتم تدريس هذا باستخدام طريقة الحالة المزعومة (العديد من الأمثلة من مواقف العمل المختلفة) - إلى اليمين ، في دورات ماجستير إدارة الأعمال (ماجستير في إدارة الأعمال).

وهكذا ، اتضح أن Data Scientist المثالي هو خريج ماجستير في إدارة الأعمال يتمتع بخبرة في الاستشارات ، وقد أكمل دورات تعلم الآلة.

هذا أمر مبالغة بطبيعة الحال ، ولكن من الصحيح أن من بين المقاولين ، أولئك الذين لديهم أعلى مستوى من العمليات والمعايير ، على مستوى اختيار الموظفين وتدريبهم ، قد طوروا ثقافة التفكير التحليلي. نحن نلتزم بنفس النهج في استوديو البيانات لدينا. ومن الناحية المنطقية ، وضعنا نفس النهج في تدريبنا في مدرسة البيانات .

يمكنك الاعتراض. بعد كل شيء ، ما تم كتابته أعلاه هو أكثر قابلية للتطبيق في الاستشارات ، حيث في كل مرة لا تعرف مقدمًا ما هو مجال الموضوع الذي سيأتي منه المشروع. وماذا عن الشركات الكبيرة حيث يتم تحديد المنطقة من حيث المبدأ؟

في الشركات ، نلاحظ كل نفس التفاصيل الموضحة أعلاه ، والحاجة إلى محلل والفريق بأكمله لفهم العمل ، والحاجة إلى المسؤولية عن النتيجة النهائية.

لهذا السبب ، في الشركات الكبيرة ، نشهد الآن اتجاهًا في تخصص وحدات علوم البيانات وتحول وظيفة التحليلات من وحدة مركزية ، واحدة للشركة بأكملها ، إلى وظيفة أعمال ، أي أقرب إلى العمل. مع هذا التخصص ، تعد قدرة المحلل على فهم عمل جديد بسرعة وتقديم حلول واقعية ، بدلاً من النماذج ، ميزة تنافسية.

ما الذي تغير بالضبط في مناهجنا الدراسية؟ أمامنا جميعًا ، قمنا بالتدريس على أساس حالات عملية. تغير هيكل وطبيعة الحالات. في السابق ، كانت حالتنا تشبه المهام في Kaggle: ها هي المهمة ، ها هي المتغير المستهدف ، ها هي مقياس الجودة ، ها هي البيانات.

الآن تبدو المهمة مختلفة: هنا هي المهمة من حيث العميل ، وفيما يلي وصف لعملية العميل. قم بصياغة مهمة التحليلات ، واقتراح مقياس الجودة ، وتقييم مدى ملاءمة استخدام التحليلات ، وحساب التأثير الاقتصادي ، واقتراح الأساليب ، وصياغة طلب للبيانات التي تحتاجها. ثم كل شيء كالمعتاد: تنظيف البيانات ، وبناء نموذج ، الخ ونقدم هذه الأمثلة من مناطق مختلفة تمامًا ، لحسن الحظ ، فإن وجود الاستشارات الخاصة بنا في هذا المجال يوسع إلى حد كبير نطاق المهام المتاحة التي قمنا بحلها على تجربتنا الخاصة.

لكن الانضباط في النهج التحليلي ليس فقط ممارسة للحالات. كما نقوم بتدريس الأطر القياسية (أنماط التحليل الأساسية) المستخدمة في الاستشارات. لقد أضفنا أيضًا إلى التدريب عملية تطوير المنتج التحليلي التي نلتزم بها في الفصل الدراسي ، بدءًا من تحليل الأعمال وحتى عرض النتائج على العميل والتخطيط لنشر حل مُنتج بما في ذلك المراحل والأدوار ونقاط القرار الرئيسية ولحظات التفاعل مع العميل.

نعطي دورًا منفصلًا للعروض التقديمية - في كثير من الأحيان رأينا فجوة بين أفكار المحللين وتصور موظفي العميل لهذه الأفكار.

بشكل عام ، نعتقد أن مهمة تدريب عالم البيانات لا تتمثل في كيفية إعداد متخصص للمناطق الحالية (توجد بالفعل العديد من الدورات التدريبية لهذا وقد أصبحت هذه السلعة من نواح كثيرة) ، ولكن لإعداد باحث خبير للعمل في مجالات جديدة حيث الرقمنة قادم للتو.

حسنًا ، وكالعادة - بداية دورة جديدة في مدرسة البيانات في 16 سبتمبر. نحن نقبل الطلبات الخاصة بالمشاريع الجديدة في Data Studio طوال الوقت ، تمامًا مثلما نقوم بتعيين موظفين (انظر القسم الخاص بالوظائف الشاغرة المفتوحة).

PS قمنا بتحديث موقعنا قليلا لجعله أكثر ملاءمة. لذلك ، لا تتفاجأ من المظهر الجديد.

Source: https://habr.com/ru/post/ar458956/


All Articles