نحن نستخدم البيانات في الممارسة العملية

غالبًا ما توجد فجوة بين خوارزمية التعلم الآلي المثالية في الفراغ وتطبيقه على البيانات الحقيقية. يبدو أنه يأخذ مقالًا: هناك خوارزمية ، وهناك تقارب للبيانات من هذا النوع أو هذا النوع - خذها وتطبيقها. لكن لسبب ما ، اتضح أن بياناتك ليست كافية للتدريب ، وأنها تختلف عن النموذج من المقال ، لأن البيانات الحقيقية ليست تركيبية.

الشيء المعتاد في إثبات الخوارزمية هو وضع افتراضات حول نقاء البيانات وتوزيعها ، والتي لن تجدها في الحياة الواقعية. على سبيل المثال ، يقوم مؤلف مقال بتجارب على صور لمشاهير البالغين ، وكل شيء يمكن تمييزه وتصنيفه بشكل ملحوظ ، وفي مثالنا الحقيقي يوجد أيضًا أطفال وشخصيات كرتونية ، وكل شيء ينهار عليهم فجأة. ولكن هناك أشخاص قادرون على التعامل مع هذا ، لدرجة أن الفجوة بين النظرية والتطبيق تتوقف عن أن تبدو غير قابلة للتحصيل ، ومن المفيد إظهار كيف يتم العثور على الآخرين الذين يرغبون في التغلب عليها على الفور.



لقد رأينا بالفعل مثل هذه الحالات على HighLoad ++ ، ولكن كانت هناك تقارير منفصلة ، علاوة على ذلك ، على مقربة من مهام ضمان العمل بأحمال عالية. لذلك ، نريد الآن تجميع مؤتمر منفصل لأولئك الذين يقومون بحل المشكلات العملية باستخدام أساليب التعلم الآلي. إن التعامل مع تخطيطه بسيط للغاية - نريد عقد مؤتمر حول التعلم الآلي وتحليل البيانات الذي نرغب فيه نحن .

أوافق على ذلك ، يبدو الأمر ساذجًا ، لكن ليس "مثل نفسك" ليس هو الدافع الأفضل؟ بالإضافة إلى ذلك ، لدينا خبرة كبيرة في تنظيم المؤتمرات ، ويبدو أن لدينا فكرة جيدة عن مدى جودة ذلك. بالطبع ، يمكنك الحصول على رأيك ، لذلك سوف أخبركم بالضبط وكيف نخطط لمناقشة في UseData Conf في 16 سبتمبر .

أنا وأونتيكو عقد مؤتمرات هندسية حيث يلعب الممارسون الكمان الأول. بالنسبة لجميع المؤتمرات: HighLoad ++ (جميع الحالات الثلاث) و Moscow Python Conf ++ و PHP Russia والعديد من الأشخاص الآخرين ، نجد أشخاصًا يقومون بعمل مفيد باستخدام التقنيات المتعلقة بموضوع المؤتمر ومستعدون لمشاركته.

خلال السنوات القليلة الماضية ، كنت أساعد المتحدثين في التحضير للخطابات ، لذلك لديّ مهارة طرح الأسئلة الصحيحة. مثل سحب ما لا يمكن تعلمه إلا من السماعة. بحيث لا يحتوي التقرير على وصفة فقط (لقد أخذنا مقاطع فيديو من كاميرات على مدار الأسبوع الماضي ، وقمنا بتدريبهم على شبكة شاملة ويعمل كل شيء) ، ولكن جميع النقاط الرئيسية التي أدت إلى النتيجة النهائية. إذا كنت تعرف ما الذي جربته ، وما الذي حدث ، وما الذي لم يحدث ، وبالتالي اتضح أنه قد تم حل المشكلة ، فيمكنك استخلاص استنتاجاتك الخاصة والنظر في مثل هذا الحل أم لا.

لا توجد مؤتمرات تعلم الآلة التي سيتم بناؤها على هذا المبدأ في الوقت الحالي. هناك مؤتمرات أكاديمية كبيرة جدًا حيث يشكل الممارسون جزءًا صغيرًا نسبيًا من جميع التقارير ويتاخمون نتائج علمية بحتة ومواد تدريبية للمبتدئين. بالإضافة إلى ذلك ، هناك مجموعة كاملة من المؤتمرات حول الذكاء الاصطناعي. عادة ما يكون لديهم الكثير من الضجيج والقليل جدًا من عمل شيء ما ، نحاول تجاوز ذلك.

من السهل التمييز بين الآخر والآخر: إذا تم ذلك في Python ، فهذا هو التعلم الآلي ، وإذا كان في PowerPoint هو ذكاء اصطناعي. نحن مهتمون بما هو موجود ليس فقط في PowerPoint.

UseData Conf في المقاطع


استنادًا إلى فكرة أن كل عرض تقديمي في مؤتمرنا يجب أن يحتوي على تجربة الإنتاج الحقيقي ، اخترنا عدة كتل من الموضوعات التي نريد الكشف عنها. هذا لا يعني أننا لن نكون سعداء ولن نقبل الطلبات التي لا تتناسب مع هذه الكتل ، فقط هذا هو بالضبط ما ينتقل بشكل جيد من الممارسين إلى الممارسين.

التعلم الآلي وتحليل البيانات في المهام التجارية . كل ما يتعلق بالتنبؤ بالطلب والتنبؤ بالمشتريات والتوصيات وحساب الخصومات الفردية. هنا ، ستكون القصص ذات صلة ، حيث تساعد أساليب ML في تطوير أعمال تجارية بشكل أفضل وزيادة الأرباح في التجارة الإلكترونية.

رؤية الكمبيوتر . إذا قمت بتدريس الروبوت لأخذ أجزاء معينة من الناقل ، وحفر ثقوب وإعادته - هذا ما يجب عليك التحدث عنه في هذا القسم. بعد كل شيء ، يمكن أن تكون التفاصيل مختلفة ، يمكن أن تنتشر على حزام ناقل ، قد لا يكون هناك جزء واحد انتهى للتدريب ، ولكن فقط نموذج CAD ، والعديد من العوامل الأخرى التي تميز مهمة أكاديمية مثالية مع ناقل عقيم عن ما يحدث بالفعل .

معالجة النصوص باللغات الطبيعية . أخبرنا عن استخدام البرمجة اللغوية العصبية (NLP) في المهام غير القياسية أو أوضح سبب عدم ملائمة الطرق الحالية وعليك تطوير مقاربتك الخاصة. تعتبر الترجمة الآلية والمساعدين الصوتيين أول المتنافسين على هذا القسم.

نظم صنع القرار . هذه ليست مهمة تشخيص الأمراض فحسب ، بل وأيضًا الأنظمة التي يعتمد عليها الشخص في قراراته بشأن الخيارات المقترحة من الخوارزمية ، وحتى الدفاع الصاروخي. إذا لم تكن هناك حاجة لشخص ما ، على سبيل المثال ، فإن النظام نفسه يعين سائقًا لطلب سيارة أجرة (ما لم يكن ، بالطبع ، لا يقتصر إنشاء الحل على الخوارزمية الجشعة) ، فهذا أفضل.

أطر وأدوات تعلم الآلة . للتوسع في هذا الموضوع ، نود دعوة مطوري الأطر مباشرةً. نتبع هذا النهج في HighLoad ++ - للتعرف على تعقيدات الأدوات من مطوري الأدوات - ونحاول تنفيذها على UseData Conf. لذلك ، إذا كنت تقوم بتطوير CatBoost و XGBoost و TensorFlow و PyTorch و LightGBM و Keras - يرجى الكتابة إلينا. إذا كنت متأكدًا من معرفتك بالإطار الشائع الذي لا يعرفه كثير من علماء البيانات ، وهذا سيجعل حياتهم أسهل ، فإننا ننتظر أيضًا تقديم تقرير.

تنقسم مسابقات التعلم الآلي إلى قسمين: تقنية إجراء مسابقات التعلم الآلي ، بالإضافة إلى استراتيجية كيفية الفوز بها. على الرغم من أن مسابقات مثل Kaggle هي أداة توظيف أكثر من كونها أداة لحل المشكلات الحقيقية ، إلا أن بعض الجوانب ستكون مفيدة للممارسين. في النهاية ، بمساعدة المسابقات ، يمكنك تغيير الوظائف بنجاح - جيد أيضًا.

الاختبار والمراقبة والتفسير وإعداد البيانات . نحن نفهم أن النماذج المدربة آليًا تميل إلى التراجع. كثير من الناس على دراية بالموقف عندما تدربوا ، وبدأوا في الإنتاج ، وبعد شهر واحد ، تنتج الخوارزمية نتائج غير مرغوب فيها. يجب أن تكون قادرًا على أن تلاحظ في الوقت المناسب أن النموذج لا يعمل ، وأن يعيد تدريبه في الوقت المناسب. إذا حدث خطأ ما ، فمن المهم أن تكون قادرًا على تفسير النتائج ، ويجب أن تكون قادرًا على إعداد البيانات. مجمل الحل لهذه المشاكل المعينة ويسمح باستخدام ML في المعركة.

دعوة للأوراق


إذا تعرفت على مهام عملك في أي من هذه المواضيع وكنت تعتقد أن تجربتك يمكن أن تساعد شخصًا ما ، فحينئذ قدم طلبًا للحصول على تقرير. إذا كان التعلم الآلي جزءًا من مهامك اليومية ، لكنك تشك في ذلك ، فهناك طريقة موثوقة لفهم ما إذا كان الموضوع مناسبًا - الكتابة إلى لجنة البرنامج ، وسنوضح التفاصيل وسنساعد في جعل التقرير مفيدًا.

ومع ذلك ، هناك توصية عامة. إذا كانت لديك مهمة محددة لم تحلها سوى الشركات العملاقة في الصناعة ، أو بالعكس بدء تشغيل صغير ولكنه متخصص للغاية ، ويبدو للوهلة الأولى أن هذه التجربة لن تكون مفيدة للآخرين ، فهذا ليس صحيحًا تمامًا. نظرًا لأنه نادرًا ما يكون من الممكن اتخاذ قرار شخص ما وتكراره على أي حال ، إذا تحدثنا عن حالات معقدة ، ولكن من أجل التوصل إلى فكرة لتجربة طريقة مختلفة ، انتقل من الجانب الآخر ، فمن الممكن بتجربة مختلفة تمامًا.

بالإضافة إلى ذلك ، يمكن للمرء دائمًا الانتقال من مشكلة معينة إلى نهج عام . على سبيل المثال ، إذا كنا نتحدث عن تصفية حركة مرور الشبكة غير الطبيعية (بفضل المشاهد من موسكو ، بافيل ، الذي طرح سؤالًا في اجتماع Zoom مع لجنة البرنامج) ، فثمة مشكلة مماثلة في عينة تدريب غير متجانسة وتنشأ نسبة صغيرة من الحالات الشاذة في مناطق مختلفة ، ويمكن اقتراح تعميمات.

الأكثر قيمة في التقرير المطبق ، في رأينا ، هو الطريق إلى الحل ، وليس الحل نفسه . عندما أخذوا أساليب المكتبة وكل شيء جاهز ، فإن هذا أمر رائع بالطبع ، لكنه ذو فائدة قليلة. سيكون أكثر إثارة للاهتمام عندما جربوا هذا ، والآخر ، وجدت القيود ، واجهت أشعل النار ، واخترع شيء ، ويتحدثون عن ذلك.

من ناحية أخرى ، إذا قمت بحل المشكلات التي ترتبط بها الصناعة بالتعلم الآلي دون تعلم الآلة ، فيمكنك إظهار مدى ربحها ، بل والأفضل إعطاء وصفة عندما يمكنك اتباع مثالك - هذا ممتاز ، نحتاج إلى مثل هذا التقرير.

يفتح Call For Papers حتى 16 يوليو ، وفي 16 أغسطس ، سنحاول صياغة البرنامج بالكامل ، وفي 16 سبتمبر ، سيعقد مؤتمر UseData Conf في Infospace.

من السهل تقديم تقرير - أنت بحاجة إلى موضوع تقريبي وأطروحات ل 2-3 فقرات ، ويمكن استكمال الطلب من خلال استئناف إلى لجنة البرنامج ، حيث لا يتم الكشف عن التفاصيل للنشر. من الأفضل أن تقدم عدة تقارير أكثر من تقرير واحد ، ثم سيكون لدينا المزيد من المواد الغذائية للأسئلة.

بالفعل في البرنامج


لا ننتظر قبول التقارير للبدء في اختيار التقارير في البرنامج. لذلك ، أولاً ، لا تسحب التطبيقات ، إذا كنت لا ترغب في الدخول في منافسة متزايدة بين المتحدثين بعد الموعد النهائي. ثانياً ، يمكنك التخطيط لحضور المؤتمر كمستمع.

اعتمد القسم الأول عن الاستخدام التجاري ل ML بالفعل تقريرين. سيتحدث ألكساندر أليكسييف عن استخدام التعلم الآلي للتنبؤ بمبيعات متجر OZON.RU على الإنترنت. سيقدم طريقة لتحسين الأسعار باستخدام نماذج التنبؤ بالطلب ، ويوضح كيفية تطبيق نظرية الاحتمالات في عملية تجديد المستودع ، ووصف دورة تطوير حلول ML للإنتاج. تم تقديم الإصدار الأول في HighLoad ++ وتسبب في اهتمام كبير.

ستخبرك Joom Alexandra Lomakina عن كيفية حل مشكلة تحسين الإعلانات التلفزيونية بنجاح. هذه المهمة شيقة جدًا لأنها متعة باهظة الثمن لا تقدم أي تعليقات تقريبًا - فلن تحسب نسبة النقر إلى الظهور. لكن لا يزال بإمكانك قياس شيء ما ، لكننا سنكتشف كيف وكيف نستخدمه في وقت لاحق في سبتمبر.

في موضوع رؤية الكمبيوتر ، اعتمدنا حتى الآن سوى القليل من التقرير الأكاديمي من جانب غويدو مونتوفار . يخطط Guido للحديث عن نهج لتنظيم النماذج القوية فيما يتعلق ببيانات الإدخال ، ونأمل في الحصول على مزيد من التدريب.

بالإضافة إلى ذلك ، قبلنا Grigory Sapunov في البرنامج مع تقرير عن آخر التطورات في هندسة الشبكات العصبية. وهذه هي الحالة النادرة عندما يكون تقرير المراجعة مناسبًا ، لأن Gregory سيملأه بالتأكيد بالمشورة العملية بناءً على تجربته الهائلة.

اتفقنا أيضًا مع Eduard Tyantov على تقرير حول إدارة مشاريع التعلم الآلي. خاصة بالنسبة له ، بدأنا قسم "الآخر" ، لأن هذا الموضوع يبدو لنا ضروريًا للغاية. إذا كان بإمكان شخص ما أن يخبرك ما هي تفاصيل المشاريع التي تحتوي على الكثير من التعلم الآلي ، وكيفية تطوير منتج وقيادته في الإنتاج ، وكيفية بيعه للأشخاص والمطورين ، فمن المحتمل أن يكون هذا هو إدوارد مع خلفية إطلاق فنانستو وإدارة مجموعات مكافحة البريد العشوائي ومجموعات تعلم الآلة في البريد. .ru.

دعوة للأفكار


إذا قرأت إلى هنا ، إذن ، أولاً ، شكرًا ، نحن في انتظارك في المؤتمر. ثانياً ، إذا لم يكن هناك ما يكفي ، فاكتب في التعليقات. أخبرنا بالموضوعات الأكثر صلة بك شخصيًا ، أخبرني ما هو نوع التقرير الذي تحتاجه ، وما النهج الذي لا يمكنك تفويته (بأي حال ، وما يمكنك تخطيه في البرنامج). ما هي الأسماء التي تود سماعها في مثل هذا المؤتمر - من المحتمل جدًا أننا اتصلنا بالفعل بهذا الاختصاصي ، ولكن إذا لم يكن كذلك ، فسنقوم بذلك بالتأكيد. هناك نفس الأشخاص في لجنة البرنامج - لدينا الكثير من الخبرة ، لكن لا يزال بإمكاننا نسيان شيء ما.
UseData Conf هو مؤتمر لأولئك الذين يحلون المشاكل العملية باستخدام أساليب التعلم الآلي. إرسال التقارير والتسجيل ورؤيتك في 16 سبتمبر.

Source: https://habr.com/ru/post/ar455644/


All Articles