كيف تربح المهارات الرقمية؟ على سبيل المثال العملي

مرحبا يا هبر!

في ديسمبر ، فاز زميلنا من Advanced Analytics ، ليونيد Sherstyuk ، بالمركز الأول في مسابقة تعلم الآلة والبيانات الضخمة في بطولة صناعة المهارات الرقمية الثانية. هذا هو فرع "الرقمية" من المسابقات المهنية المعروفة التي تنظمها WorldSkills روسيا. في المجموع ، شارك أكثر من 200 شخص في البطولة ، وتنافسوا على الريادة في 25 من الكفاءات الرقمية - حماية الشركات من تهديدات الأمن الداخلي ، التسويق عبر الإنترنت ، تطوير ألعاب الكمبيوتر وتطبيقات الوسائط المتعددة ، تقنيات الكم ، إنترنت الأشياء ، التصميم الصناعي ، إلخ.



كحالة لـ Machine Learning ، تم اقتراح مهمة مراقبة وكشف العيوب في خطوط أنابيب محطات الطاقة النووية وخطوط أنابيب النفط والغاز باستخدام نظام التحكم بالموجات فوق الصوتية شبه التلقائي.

سيخبر ليونيد ما حدث في المسابقة وكيف تمكن من الفوز في النهاية.

WorldSkills هي منظمة دولية تنظم مسابقات للمهارات المهنية في جميع أنحاء العالم. تقليديا ، شارك ممثلو الشركات الصناعية وطلاب الجامعات ذات الصلة في هذه المسابقات ، مما يدل على مهاراتهم في تخصصات العمل. في الآونة الأخيرة ، بدأت الترشيحات الرقمية تظهر في المسابقة ، حيث يتنافس المتخصصون الشباب في مهارات الروبوتات ، وتطوير التطبيقات ، وأمن المعلومات ، وفي مهن أخرى لا يمكنك حتى استدعاء العمال. في أحد هذه الترشيحات - في التعلم الآلي والعمل مع البيانات الضخمة - تنافست في Kazan في مسابقة DigitalSkills ، التي عقدت تحت رعاية WS.

بما أن الكفاءة في المسابقة جديدة ، فقد كان من الصعب علي أن أتخيل ما يمكن توقعه. في حالة تكرار ذلك ، كررت كل ما أعرفه عن العمل باستخدام قواعد البيانات وخوارزميات الحوسبة الموزعة والقياسات والتدريب والمعايير الإحصائية وأساليب المعالجة المسبقة. على دراية بمعايير التقييم التقريبية ، لم أفهم كيف سيكون من الممكن احتواء عمل متكامل مع Hadoop وإنشاء روبوت دردشة في 6 جلسات قصيرة.

تستمر المسابقة بالكامل 3 أيام ، وأكثر من 6 جلسات. كل جلسة هي 3 ساعات مع استراحة ، والتي تحتاج إلى إكمال العديد من المهام التي لها علاقة مع بعضها البعض. في البداية ، قد يبدو أن الوقت يكفي ، ولكن في الواقع استغرق الأمر بخطى محمومة لإدارة كل شيء تم تصوره.
في المسابقة ، كان من المتوقع أنه لم يكن من المتوقع أن تعمل مع البيانات الضخمة ، وتم تقليل مجموعة المهام بأكملها إلى تحليل مجموعة بيانات محدودة.

في الواقع ، طُلب منا تكرار مسار أحد المنظمين ، والذي جاء به العملاء مع مشكلتهم وبياناتهم ، والذين توقعوا منهم عرضًا تجاريًا في غضون بضعة أسابيع.

لقد عملنا مع بيانات PUZK (نظام التحكم بالموجات فوق الصوتية شبه التلقائي). تم تصميم النظام للتحقق من المفاصل في خط الأنابيب بحثًا عن التشققات والعيوب. ينتقل التثبيت نفسه عبر سكة مثبتة على الأنبوب ، وفي كل خطوة يجري 16 قياسًا. في ظل الظروف المثالية وفي غياب العيوب ، ينبغي أن تعطي بعض المستشعرات أقصى إشارة ، والبعض الآخر - صفر ؛ في الواقع ، كانت البيانات صاخبة للغاية ، والإجابة على السؤال عما إذا كان هناك عيب في مكان معين أصبحت مهمة غير تافهة.


تركيب نظام PUZK

تم تكريس اليوم الأول للتعرف على البيانات وتنظيفها وتجميع الإحصاءات الوصفية. لقد حصلنا على الحد الأدنى من المعلومات الأساسية حول التثبيت وأنواع أجهزة الاستشعار المثبتة على الجهاز. بالإضافة إلى معالجة البيانات المسبقة ، اضطررنا إلى تحديد نوع أجهزة الاستشعار التي تنتمي إليها وكيف توجد على الجهاز.


نموذج البيانات: هذه هي الطريقة التي تبدو أجهزة الاستشعار ذات الصلة

عملية المعالجة المسبقة الرئيسية هي استبدال القياسات بمتوسط ​​متحرك. إذا كانت النافذة كبيرة جدًا ، فستكون هناك مخاطرة بفقد الكثير من المعلومات ، لكن الارتباطات التي تساعد في تحديد النوع ستكون أكثر وضوحًا. كانت بعض الاتصالات ملحوظة دون معالجة مسبقة. ومع ذلك ، لم يكن هناك وقت لدراسة البيانات الخام بعناية ، وبالتالي فإن استخدام correlograms أمر لا غنى عنه.


مصفوفة الارتباط

في هذه المصفوفة ، يكون كلا الزوجين من المستشعرات على طول المائل ، مرتبطان بشكل وثيق مع بعضهما البعض ، والمتغيرات المرتبطة عكسيا مرئية ؛ كل هذا ساعد في تحديد أنواع المجسات.

كان العنصر الإلزامي الأخير هو تقليل أجهزة الاستشعار إلى إحداثي واحد. نظرًا لأن جهاز القياس كان أكثر من خطوة قياس واحدة ، وكانت المستشعرات متباعدة عبر الجهاز بأكمله ، فقد كانت هذه خطوة إلزامية قبل استخدام البيانات لمزيد من التدريب.

\
ترتيب أجهزة الاستشعار على التثبيت

يوضح الرسم البياني لتركيب أجهزة الاستشعار على الجهاز أننا بحاجة إلى إيجاد المسافات بين مجموعات أجهزة الاستشعار الثلاث. تتمثل أسهل الطرق وأسرعها هنا في تحديد أي جزء من الجهاز يجب أن يعمل عليه كل جهاز استشعار ، ثم ابحث عن الحد الأقصى للارتباط ، مع تحويل جزء من القياسات خطوة بخطوة.

كانت هذه المرحلة معقدة بسبب حقيقة أن افتراضاتي حول نوع المستشعرات غير مضمونة ، لذلك كان عليّ أن أنظر إلى كل الارتباطات والأنواع والمخططات واربطها في نظام واحد ثابت.

لليوم الثاني ، كان علينا إعداد البيانات للتدريب وإجراء المجموعات على النقاط ، ثم بناء مصنف.

أثناء إعداد البيانات ، أزلت قراءات مترابطة للغاية ، وكميزة اصطناعية أضفت المتوسط ​​المتحرك والمشتق والنتيجة z. مما لا شك فيه ، يمكن إجراء توليف للمتغيرات الجديدة على نطاق واسع ، ولكن الوقت فرض حدوده.

يمكن أن يساعد التجميع على فصل النقاط المعيبة عن أي شخص آخر. جربت 3 طرق: k-mean و Birch و DBScan ، لكن لسوء الحظ ، لم يحقق أي منهم نتيجة جيدة.

بالنسبة للخوارزمية التنبؤية ، تم منحنا حرية كاملة ؛ تم تحديد التنسيق الذي يجب الحصول عليه عند الإخراج فقط. كان من المفترض أن توفر الخوارزمية جدولًا (أو بيانات قابلة للاختزال) ، حيث يتطابق الصف مع صدع واحد ، وللأعمدة خصائصه (مثل الطول والعرض والنوع والجانب). بدا لي الخيار الأكثر بساطة ، حيث نقوم بعمل تنبؤ لكل نقطة من عينة الاختبار ، ثم نجمع النقاط المجاورة في صدع واحد. كنتيجة لذلك ، صنعت 3 مصنفات أجبت عن الأسئلة التالية: على أي جانب من التماس هو العيب ، وإلى أي مدى يسير عمقه ، وما نوعه الذي ينتمي إليه (الطولية أو العرضية).

هنا ، العمق الذي ينبغي التنبؤ به من خلال الانحدار مذهل ؛ ومع ذلك ، في عينة الترميز ، وجدت فقط 5 أعماق فريدة من نوعها ، لذلك وجدت هذا التبسيط مقبولاً.


خوارزميات تقييم المقاييس

من بين جميع الخوارزميات (تمكنت من تجربة الانحدار اللوجستي ، والشجرة الحاسمة ، وتعزيز التدرج اللوني) ، فقد كان التعزيز ، كما هو متوقع ، أفضل. لا شك أن المقاييس مبهجة للغاية ، ولكن من الصعب تقييم عملية الخوارزميات دون أن ينتج عنها مجموعة اختبار جديدة. لم يعد المنظمون أبدًا بمقاييس محددة ، فحصروا في تعليق عام مفاده أنه لم يقم أحد بالاختبار وكذلك على عينة متأخرة.


مصفوفة خطأ لتعزيز

بشكل عام ، كنت سعيدًا بالنتائج ؛ على وجه الخصوص ، خفض الارتفاع إلى متغير قاطع سداده.

خلال اليوم الأخير ، كان علينا أن نختتم الخوارزميات المدربة في منتج يمكن أن يستخدمه عميل محتمل ، وإعداد عرض تقديمي للحل الجاهز للمؤسسات.

هنا ، ساعدني الكمال في كتابة رمز نظيف نسبيًا ، والذي لم يختف حتى في فترة زمنية محدودة. من أجزاء التعليمات البرمجية الجاهزة ، تم تطوير النموذج الأولي بسرعة ، وكان لدي وقت لتصحيح الأخطاء. على عكس المراحل السابقة ، لعب أداء الحل هنا دورًا أكثر أهمية ، بدلاً من تلبية المعايير الرسمية.


المنتج النهائي - CLI المنفعة

قرب نهاية الجلسة ، حصلت على أداة مساعدة من CLI تقبل مجلد مصدر كمدخلات وإرجاع الجداول مع نتائج التنبؤ في شكل مناسب للتقني.

في المرحلة الأخيرة ، أتيحت لي الفرصة للتحدث عن نجاحاتي ومعرفة ما جاء به المشاركون الآخرون. حتى في ظل معايير صارمة ، كانت قراراتنا مختلفة تمامًا - فقد تم تجميع شخص بنجاح ، واستخدم آخرون الأساليب الخطية بمهارة. خلال العروض التقديمية ، أكد المتنافسون على نقاط القوة لديهم - طرح بعضهم على بيع المنتج ، والبعض الآخر منغمس في التفاصيل التقنية ؛ كانت هناك رسومات جميلة وواجهات حل التكيف.


الميزة الرئيسية في حل بلدي تناسب شريحة واحدة

ماذا عن المنافسة بشكل عام؟

تُعد المسابقات من هذا النوع فرصة عظيمة لمعرفة مدى سرعة قدرتك على أداء المهام المعتادة في تخصصك. تم تجميع المعايير بطريقة لا يحصل فيها الشخص الذي حصل على أفضل النتائج (على سبيل المثال ، في Kaggle) على أكبر عدد من النقاط ، ولكن الذي يمكنه بسرعة أكبر تنفيذ عمليات نموذجية للعمل اليومي في الصناعة. في رأيي ، يمكن للمشاركة والفوز في مثل هذه المسابقات أن تخبر صاحب عمل محتمل بما لا يقل عن خبرة في هذا المجال ، في hackathons و Kaggle.

لينونيد شيرستوك ،
محلل بيانات ، تحليلات متقدمة ، سيبور

Source: https://habr.com/ru/post/ar437974/


All Articles