تحليل نتائج مسح 2018 Kaggle ML & DS


Kaggle هي عبارة عن منصة معروفة لاستضافة مسابقات التعلم الآلي حيث تجاوز عدد المستخدمين المسجلين 2.5 مليون. يشارك الآلاف من علماء البيانات من مختلف البلدان في المسابقات ، وأصبح كاغل مهتمًا بماهية الجمهور. في أكتوبر 2018 ، تم تنظيم المسح الثاني وأجاب عليه 23859 شخصًا من 147 دولة.


كان للمسح عدة عشرات من الأسئلة حول مجموعة متنوعة من الموضوعات: الجنس والعمر والتعليم ومجال العمل والخبرة والمهارات ولغات البرمجة والبرامج المستخدمة وأكثر من ذلك بكثير.


لكن Kaggle ليس مجرد مكان منافسة ، يمكنك أيضًا نشر قرارات بحث البيانات أو المنافسة (يطلق عليها kernels وتتشابه مع Jupyter Notebook) ، لذلك كانت مجموعة البيانات مع نتائج الاستطلاع متاحة للجمهور ، وتم تنظيم مسابقة للحصول على أفضل بحث لهذه البيانات. شاركت أيضًا ولم أحصل على جائزة نقدية ، لكن نواة حصلت على المركز السادس في عدد الأصوات. أود مشاركة نتائج تحليلي.


هناك الكثير من البيانات ويمكن عرضها من زوايا مختلفة. كنت مهتمًا بالاختلافات بين الأشخاص من مختلف البلدان ، لذلك ستقوم معظم الأبحاث بمقارنة الأشخاص من روسيا (بما أننا نعيش هنا) ، وأمريكا (كبلد متقدم من حيث DS) ، والهند (كدولة فقيرة بها الكثير من DS) ودول أخرى.


تم الحصول على معظم الرسوم البيانية والتحليلات من نواة بلدي (أولئك الذين يرغبون في رؤية رمز بيثون هناك) ، ولكن هناك أيضًا أفكار جديدة.


مراجعة عامة


ألاحظ على الفور أن أولئك الذين أجابوا على الأسئلة ليسوا عينة تمثيلية من علماء البيانات. ليس الجميع مهتمًا بقضاء الوقت في المسابقات ، فلم يسمع أحد عن هذا البرنامج ، أخيرًا ، حوالي 24 ألف شخص - فقط جزء صغير من جميع المشاركين في Kaggle. ومع ذلك ، لدينا فقط هذه البيانات ، لذلك في المستقبل سأعتبر أن المعلومات المتاحة كافية لاستخلاص استنتاجات حول البلدان وبشكل عام.



في هذه الخريطة ، يمكنك رؤية عدد الأشخاص الذين شملهم الاستطلاع في بلدان مختلفة. معظمهم من أمريكا والهند. في الوقت الحالي ، يمكن تسمية أمريكا بصفتها رائدة في مجال DS ، بالإضافة إلى أن هذه المنطقة أصبحت شائعة هناك من قبل ، وهو ما يفسر الكثير من الناس. الهند بلد به عدد ضخم من السكان منذ فترة طويلة تولي اهتماما لتكنولوجيا المعلومات. بفضل الدورات التدريبية من Siraj Raval DS تكتسب شعبية وجذب عدد كبير من الهنود. الصين متأخرة كثيرا ، لكنني أعتقد أن هذا يرجع إلى قربها من الإنترنت.


في روسيا وكندا والبرازيل وأوروبا ، هناك أيضًا عدد كبير من خدمات الدعم المباشر ، ولكن في هذه البلدان يكون عدد السكان أصغر كثيرًا ، وبالتالي ، لا يمكنهم التنافس من حيث عدد المشاركين في Kaggle.



دعونا نرى مقدار الوقت الذي يقضيه الناس في الاستطلاع. كما ترون ، قضى الكثير من الناس 10-20 دقيقة في الاستطلاع ، وهو ما يكفي لإجابة مدروسة على الأسئلة. أجاب المجيبون على الأسئلة في أقل من دقيقتين ، على ما يبدو ، فورًا أو على الفور أغلقوا الاستبيان. قد لا يحب شخص ما الاستبيان ، وقد يكون شخص ما كسولًا جدًا في الإجابة عليه ، ولا يريد شخص ما الإجابة عن سؤال حول جنسه (المزيد حول ذلك أدناه). بشكل عام ، كان لا يزال هناك أشخاص قضوا عشرات الساعات في المسح. ربما نسوا فقط علامة التبويب المفتوحة :)


العمر والجنس هيكل



بشكل عام ، الصورة ليست مفاجئة. الأهم من ذلك كله ، الشباب الذين تتراوح أعمارهم بين 22-29 ، أو حتى 18-34 ، يشاركون في Kaggle. هؤلاء هم تلاميذ المدارس والطلاب والخريجين الجدد. على الأرجح ، يسعون جميعًا إما إلى اكتساب المعرفة أو تحقيق نتائج رائعة من أجل الحصول على ميزة عند البحث عن عمل. هناك رجال أكثر بكثير من النساء. بشكل عام ، هذا ليس مفاجئًا ، نظرًا لأن مجالنا يجمع بين تكنولوجيا المعلومات والرياضيات وغيرها من المجالات التي طالما كان فيها اختلال التوازن بين الجنسين. هل هناك حاجة إلى القيام بعمل نشط لتصحيح هذا الخلل؟ انا افضل عدم مناقشة هذا المقال.


تجدر الإشارة إلى أنه كان من الممكن أيضًا عدم تحديد الجنس أو تحديده بنفسك. دعونا نلقي نظرة على الخيارات الأكثر شعبية:



من بين الإجابات في شكل حر:


  • غير ثنائي (كاف)
  • مروحية هجومية (باردة! أرغب في رؤية والدي)
  • ذكر (لماذا لا تختار هذا الخيار فقط؟)
  • من أنت لتلمح لدي الجنس؟ (حسنا ، لأنك إنسان؟)
  • Kaggle (حسنا ، على الأقل ليس kagglosexual)
  • صاحب السمو (أنت بالتأكيد لم تخلط بين هذا السؤال والآخرين؟)
  • أشعة الشمس قليلا. :) (هذا لطيف جدا!)
  • ذكر مزدوج (مفتول العضلات على التوالي!)
  • الذكور والإناث من الجنسين وليس الجنس. الجنس هو عبارة عن مجموعة من القوالب النمطية المرتبطة بجنسنا. اسأل عن الجنس الذي نحن عليه لأغراض ديموغرافية ، إذا كان هذا هو المهم. (تم اكتشاف SWJ!)


من المثير للاهتمام أن ننظر إلى الاختلافات في العمر والجنس في مختلف البلدان.
في أمريكا ، نسبة النساء أعلى منها في البلدان الأخرى. هذا لأنه في السنوات القليلة الماضية ، كان هناك صراع نشط ضد "عدم المساواة بين الجنسين". سواء كانت بحاجة إليها أم لا ، فهذا سؤال ، لكن النتائج واضحة.


الهند تبرز مع عدد كبير من الشباب DS. يبدو أن اللاعبين يفكرون مقدمًا في المستقبل ويضخون مهارات من الطفولة. في وقت لاحق سوف نرى أن نظام التعليم في الهند يترك الكثير مما هو مرغوب فيه.


روسيا ككل تشبه البلدان الأخرى.


التعليم





كما ذُكر سابقًا ، يوجد في الهند نسبة عالية من الطلاب أو العزاب ، ولكن لا يوجد من الناحية العملية أي حامل لدرجة الدكتوراه. تبرز روسيا لأن العديد من الطلاب ليس لديهم تعليم رسمي (أو أنهم لا يريدون الإجابة). بشكل عام ، هذا مثير للإعجاب - على ما يبدو أنهم كانوا قادرين على دخول المجال DS مع عملهم الشاق والمثابرة.


من المثير للاهتمام أن نرى كيف تظهر DS في بلدان مختلفة من اتجاهات مختلفة. تسود خدمات العملاء وتكنولوجيا المعلومات والرياضيات / الإحصائيات في جميع البلدان ، ولكن في الهند يكون التحيز في الاتجاه الفني مرئيًا ، كما أن الانضباط التجاري الأمريكي (بما في ذلك الاقتصاد) أكثر أهمية ، وفي الفيزياء في روسيا أكثر أهمية أيضًا.



في هذا السؤال ، سئل الناس عن رأيهم فيما إذا كانت جودة الدورات التدريبية على منصات الإنترنت أفضل أو أسوأ من التعليم التقليدي. وهنا يمكنك أن ترى الفرق بين البلدان. التعليم في الهند ضعيف. ربما لا يوجد عدد كافٍ من المعلمين ، وربما تكون جودة التعليم منخفضة إلى حد ما ، وعلى أي حال ، يفضل معظم الهنود الدورات عبر الإنترنت. أمريكا لديها نظام تعليمي متطور ، نتيجة لذلك ، ما يقرب من ثلث الناس يعتقدون أن التعليم الجامعي هو من نوعية أعلى. في روسيا وبقية العالم ، فإن جودة التعليم التقليدي ليست سيئة ولا تكاد تكون أدنى من المنافسين.


المسمى الوظيفي



كجزء من أحد الأسئلة التي طرحوها للإشارة إلى الموقف ، يبدو لي أنه بالنسبة لمهام هذا التقرير ، لا توجد حاجة إلى العديد من الخيارات. بعد التفكير ، قمت بتكوين 7 مجموعات وحصلت على الصورة التالية:



هنا نرى تأكيدًا آخر بأن العديد من الهنود الحمر هم طلاب و / أو ممثلون عن المزيد من المجالات الفنية. تبرز أمريكا في تأكيدها على التحليلات ، وتبرز روسيا في المجالات التطبيقية.


ولكن دعونا ننظر إلى صورة أكثر تفصيلا:



هنا نرى كم من الوقت عمل الشخص في منصبه الحالي.


أول ما يلفت انتباهك - الغالبية العظمى من الناس في جميع المناصب هم قادمون جدد. أرى تفسرين لهذه الحقيقة: إما خريجين جامعيين أو غيروا نطاق العمل. بدأت Hyp on DS / ML مؤخرًا ، ويبدو لي ، أنها تزداد قوة ، ونتيجة لذلك يرغب المزيد من الناس في الانضمام إلى اتجاه جديد وإنشاء ذكائهم الاصطناعي (لأن الناس خارج DS نادراً ما يدركون أنه لن يكون هناك AI ولن يكونوا في المستقبل سنوات).


ظاهرة أخرى مثيرة للاهتمام هي حصة كبيرة إلى حد ما من مهندس البيانات من ذوي الخبرة. أفترض أن الكثير من المبرمجين ذوي الخبرة قرروا الانتقال إلى DS ، ولكن DE كانت أقرب إليهم - معظم المهارات المتاحة مناسبة لإخراج حلول ML في الإنتاج. من المثير للاهتمام أن حصة DE في روسيا من 5 إلى 10 سنوات و 10 إلى 15 عامًا من الخبرة عالية جدًا ، ويبدو أن هذه هي عبارة عن تطوير متقدم في Java ولغات أخرى ، والتي هي في غاية الطلب على الأنظمة عالية التحميل. شخصيا ، أنا مندهش بشكل منفصل من ارتفاع نسبة الباحثين ذوي الخبرة في روسيا ، حتى أفهم أسباب ذلك.


تبرز أمريكا من بين الدول الأخرى التي لديها نسبة عالية من المحللين. هناك العديد من الأسباب لذلك: حقيقة أنه في أمريكا DS غالبًا ما يتم شغلها في مناصب تحليلية ، وحقيقة أنه في عدد من الشركات الكبيرة ، يقوم محلل البيانات بالفعل بعمل DS ، وأنه يمكن إعادة تدريب الإحصائيات.


بما أننا نتحدث عن العمل ، فلا يسعنا إلا أن نتناول مسألة الرواتب.



كل شيء متوقع هنا: الرواتب في الهند هي الأدنى ، في روسيا أعلى قليلاً ، والمرتبات الأمريكية هي الأعلى.


الثقة بالنفس




مزيج من الإجابات على 2 الأسئلة تبدو مثيرة للاهتمام للغاية بالنسبة لي. السؤال الأول هو تجربة ML ، والثاني هو ما إذا كنت تعتبر نفسك DS. هنا يمكنك ملاحظة وجود اختلاف في النظرة إلى العالم وتصور الذات ، أو فهم مختلف للقضايا.


في معظم البلدان ، يكون للوافدين الجدد الذين لديهم خبرة تقل عن عامين رأي متباين - شخص ما واثق من نفسه بالفعل ، شخص ما يشك في أمره. مع نمو التجربة ، تزداد الثقة بالنفس. في روسيا ، تعتبر الغالبية العظمى من المبتدئين أنفسهم DS ، ولكن مع اكتساب الخبرة ، تقل الثقة في هذا.


سيتم طرح المزيد من الأسئلة حيث يمكن الإشارة إلى العديد من الإجابات ، وبالتالي فإن تجميع الأسهم قد يعطي أكثر من 100٪


الموارد التي تمت زيارتها



Kaggle والمتوسطة احترام كل شيء. في روسيا ، يحبون قراءة مقالات حول ArXiV ، ويفضلون في أمريكا https://fivethirtyeight.com (وهم لا يزورونها أبدًا في بلدان أخرى) ، وهم يحبون سراج في الهند.



أود أيضًا أن أذكر ods.ai ، التي تبين أنها المورد الأكثر شعبية ، من بين تلك التي حددها الأشخاص يدويًا. من آخر ليس في مجتمعنا ، انضم إلى :)


IDE ولغات البرمجة





فيما يتعلق باستخدام IDEs ، يمكن تقسيم الأشخاص إلى مجموعتين رئيسيتين: استخدام IDEs مع التصور المتكامل (Jupyter Notebook ، RStudio ، Spyder) واستخدام IDEs الكلاسيكي (VS Code ، Vim).


تتميز أمريكا بوجود نسبة عالية من المحللين الذين يستخدمون R ، ونتيجة لذلك ، RStudio. ومع ذلك ، IDE مثل Vim أو Atom معروفة أيضًا. Pycharm شائع في روسيا ، ليس فقط بين DS ، ولكن أيضًا بين المبرمجين عمومًا ، وبالتالي فإن عدد الأشخاص الذين يستخدمونه ليس مفاجئًا.


SQl و Java و Bash و C / C ++ هي أيضًا لغات مهمة لـ DS.


الأطر



من المدهش بعض الشيء بالنسبة لي أن حصة استخدام أطر DL ليست أقل بكثير من حصة استخدام sklearn. ربما ينجذب الكثيرون إلى الشبكات العصبية ويريدون دراستها منذ البداية ؛ ربما يبدأ العمل في استخدام الخلايا العصبية في مهامه ؛ وربما يكون الأمر مجرد اهتمام العديد من المشاركين في Kaggle بتجربة المسابقات في الصور والنصوص.


بشكل منفصل ، أود أن أشير إلى النسبة العالية من الناس الذين يستخدمون Pytorch ومكتبات التدرج المعزز في روسيا. LGB / XGB / catboost هي أشهر تطبيق لتعزيز التدرج ، وهي تظهر جودة عالية على البيانات المجدولة. ظهر Pytorch منذ وقت طويل ، لكنه بدأ يكتسب شعبية عالية في السنوات 1-2 الماضية.


التصور




ما تحليل البيانات دون تصورات! بشكل عام ، الصورة ليست مفاجئة. R هو ggplot2 وبراقة. بيثون هو matplotlib + بحار ، مؤامرة / خوخه.


يتيح لك D3 إنشاء تصورات رائعة ، ولكن من الصعب للغاية العمل معها.
Altair هي مكتبة على Vega-Lite ، وآمل أن تكتسب شعبية في المستقبل بفضل التصورات التفاعلية المثيرة للاهتمام المتوفرة فيها.
لا تزال Tableau وغيرها من برامج BI شائعة ، وهذا ليس مفاجئًا - فهذه حلول عالية الجودة مدعومة ويمكنها دمج الكثير مع أي شيء.


منصات للتعليم عبر الإنترنت




كورسيرا هي شركة رائدة في السوق في دورات التعليم عبر الإنترنت. هناك يمكنك العثور على دورات حول أي موضوع ومستوى تقريبا. عامل مهم هو أنه يمكنك التقدم بطلب للحصول على مساعدة مالية وأخذ دورات مجانية. تعد Udacity و Udemy و edX أقل شعبية ، ولكن مع ذلك ، يمكنك أيضًا العثور على عدد كبير من الدورات التدريبية المثيرة للاهتمام. أطلق Kaggle مبادرته التعليمية الخاصة منذ بعض الوقت. الشيء الجميل هو أن الدورات التدريبية مصنوعة في شكل حبات ، والتي تمارس التدريب على استخدام قدرات Kaggle. تحتوي الدورات التدريبية من DataCamp على تنسيق فريد يتيح لك إعطاء تدريب عملي على مواضيع محددة ، ولكن من غير المحتمل أن توفر هذه المنصة معرفة متعمقة.


بشكل منفصل ، تجدر الإشارة إلى أن mls.course.ai من ods.ai هو الأكثر شعبية بين الخيارات المحددة من قبل المستخدمين. في الآونة الأخيرة ، انتهت الدورة الرابعة للدورة التي تم فيها تسجيل أكثر من 7.5 ألف شخص. نظرًا لحقيقة أن الاتصال الرئيسي يحدث في فترة الركود ، تنتهي الدورة بنسبة رائعة من الأشخاص - وهي نسبة أعلى بكثير من دورات ML المجانية الأخرى. توفر هذه الدورة ليس فقط المعرفة النظرية والواجبات المنزلية المعقدة ، ولكن أيضا ممارسة المشاركة في المسابقات في Kaggle.


أدوات التفسير



أخيرًا ، لنرى كيف يحلل الأشخاص المختلفون نتائج النماذج.
يعد تحليل التنبؤات نفسها ومقارنة توزيعها مع توزيع المتغير الهدف طريقة أساسية ولكنها نوعية للتحليل. دراسة معاملات النماذج الخطية أو أهمية الميزات في النماذج الخشبية تتيح لك العثور على الميزات التي تؤثر على معظم التنبؤات.


بالإضافة إلى ذلك ، أصبحت الأطر الخاصة لتحليل النماذج مؤخرًا شائعة: SHAP و LIME و ELI5. إنها لا تسمح لنا بتوضيح الطرز البسيطة فحسب ، بل حتى بعض النماذج التي تُعتبر صناديق سوداء.


ملخص


نظرنا في كيفية اختلاف DS عن بعضها البعض في بلدان مختلفة من العالم ، واكتشفنا أيضًا ما يجمعهم. لا يغطي هذا التحليل جميع البيانات المتاحة ، لكنه يوضح البيانات التي بدا لي أنها الأكثر إثارة للاهتمام. أولئك الذين يرغبون في إجراء أبحاثهم على هذه البيانات :)


شكرا لاهتمامكم!

Source: https://habr.com/ru/post/ar434134/


All Articles