أكثر المهارات المطلوبة في علوم البيانات

فيما يتعلق بالمعرفة ، يتوقع خبراء علوم البيانات الكثير: التعلم الآلي والبرمجة والإحصاءات والرياضيات وتصور البيانات والتواصل والتعلم العميق. يغطي كل مجال من هذه المجالات عشرات اللغات والأطر والتقنيات المتاحة للدراسة. إذن كيف يكون من الأفضل لمحترفي البيانات إدارة ميزانية وقت التدريب الخاصة بهم بحيث يمكن لأصحاب العمل تقديرها؟

لقد درست بعناية مواقع العمل لاكتشاف المهارات الأكثر شيوعًا لدى أصحاب العمل في الوقت الحالي. لقد نظرت في كل من التخصصات الأوسع المرتبطة بالعمل مع البيانات ، بالإضافة إلى لغات وأدوات محددة ، كجزء من دراسة منفصلة. بالنسبة للمواد ، انتقلت إلى LinkedIn ، والواقع ، SimplyHired ، Monster ، و AngelList ، اعتبارًا من 10 أكتوبر 2018. يوضح الرسم البياني أدناه عدد وظائف علوم البيانات الممثلة في كل من هذه الموارد.



لقد درست العديد من الأوصاف والاستطلاعات الوظيفية لفهم المهارات التي يتم ذكرها في أغلب الأحيان. لم يتم تضمين مصطلحات مثل "الإدارة" في التحليل ، حيث يتم استخدامها في مواقع العمل في مجموعة واسعة جدًا من السياقات المتنوعة.

تم إجراء البحث في الولايات المتحدة بناءً على مصطلحات "علوم البيانات" و "الكلمات الرئيسية". من أجل تقليل الناتج ، اخترت فقط التكرارات الدقيقة. بطريقة أو بأخرى ، ضمنت طريقة مماثلة أن جميع النتائج ستكون ذات صلة بعلوم البيانات وستطبق نفس المعايير على جميع الاستعلامات.

لا تقدم AngelList إجمالي عدد الوظائف الشاغرة المتعلقة بالعمل مع البيانات ، ولكن إجمالي عدد الشركات التي تقدم مثل هذه الوظائف الشاغرة. لقد استبعدت هذا الموقع من كلتا الدراستين ، لأن خوارزمية البحث الخاصة به ، على ما يبدو ، تعمل على أساس مبدأ "أو" ولا تجعل من الممكن التبديل إلى نموذج "و" بطريقة أو بأخرى. يمكنك العمل مع AngelList عند إدخال شيء ما بروح "عالم البيانات" "TensorFlow" - في هذه الحالة ، فإن مطابقة الاستعلام الثاني تعني مطابقة الأول. ومع ذلك ، إذا كنت تستخدم الكلمات الرئيسية بروح "عالم البيانات" "response.js" ، فسيكون هناك الكثير من الوظائف الشاغرة التي لا تتعلق بعلوم البيانات.

كما يجب استبعاد المواد ذات Glassdoor. ادعى الموقع أن لديهم معلومات عن 26263 وظيفة شاغرة في العمل مع البيانات ، ولكن في الواقع تم عرض 900 بحد أقصى. بالإضافة إلى ذلك ، يبدو لي أنه من المشكوك فيه للغاية أنهم جمعوا أكثر من ثلاثة أضعاف عدد الوظائف الشاغرة مثل أي موقع كبير آخر.

بالنسبة للمرحلة النهائية من الدراسة ، اخترت الكلمات الرئيسية التي كان لها عائد كبير على LinkedIn: أكثر من 400 نتيجة لمهارات واسعة النطاق ، وأكثر من 200 للتكنولوجيا الخاصة. بالطبع ، كانت هناك بعض العروض المكررة. لقد سجلت نتائج هذه المرحلة في مستند Google .

ثم قمت بتنزيل ملفات csv ، وتحميلها على JupyterLab ، وحساب معدل انتشار كل منها كنسبة مئوية ، وحساب متوسط ​​القيم التي تم الحصول عليها على الموارد المختلفة. ثم قارنت النتائج حسب اللغة مع تلك المعروضة في الدراسة حول الوظائف الشاغرة من قطاع علوم البيانات من Glassdoor في النصف الأول من عام 2017. إذا أضفت إلى هذه المعلومات من الاستطلاع حول استخدام KDNuggets ، يبدو أن بعض المهارات تكتسب شعبية ، بينما يفقد البعض الآخر قيمتها تدريجيًا. لكن المزيد عن ذلك لاحقًا.

ستجد في Kaggle Kernel الرسوم البيانية التفاعلية والتحليل الإضافي. للتصور ، استخدمت Plotly. من أجل العمل مع Plotly و JupyterLab في مجموعة ، عليك أن تلعب شيئًا ، على الأقل في وقت كتابة هذه السطور - يمكن العثور على التعليمات في نهاية Kaggle Kernel ، وكذلك في وثائق Plotly .

مهارات واسعة


فيما يلي رسم بياني يمثل المهارات العامة الأكثر شيوعًا التي يريد أصحاب العمل أن يراها المرشحون.



تظهر النتائج أن التحليلات والتعلم الآلي لا يزالان يشكلان أساس عمل خبراء علوم البيانات. الغرض الرئيسي من هذا التخصص هو تقديم استنتاجات مفيدة بناءً على صفائف البيانات. يهدف التعلم الآلي إلى إنشاء أنظمة يمكنها توقع مسار الأحداث ، على التوالي ، وهي مطلوبة بشكل كبير.

تتطلب معالجة البيانات معرفة الإحصائيات والقدرة على كتابة التعليمات البرمجية - ليس هناك ما يثير الدهشة. بالإضافة إلى ذلك ، فإن الإحصائيات والرياضيات وهندسة البرمجيات هي تخصصات يتم فيها التدريب في الجامعات ، والتي يمكن أن تؤثر أيضًا على تكرار الطلبات.

ومن المثير للاهتمام ، في وصف ما يقرب من نصف الشواغر ، يتم ذكر الاتصال: يحتاج أخصائيو البيانات إلى أن يتمكنوا من نقل نتائجهم إلى الناس والعمل في فريق.

ذكر الذكاء الاصطناعي والتعلم العميق ليس بشكل منتظم مثل بعض الاستفسارات الأخرى. ومع ذلك ، فإن هذه المجالات هي فروع لتعلم الآلة. يتم استخدام التعلم العميق بشكل متزايد في المهام التي تم استخدام خوارزميات التعلم الآلي من أجلها مسبقًا. على سبيل المثال ، أفضل خوارزميات التعلم الآلي للمشكلات التي تنشأ عند معالجة لغة طبيعية ، ترتبط الآن بشكل خاص بمجال التعلم العميق. أعتقد أنه سيصبح أكثر شيوعًا في المستقبل ، وسيبدأ اعتبار التعلم الآلي تدريجيًا على أنه مرادف للأعمق.

ما هي الحلول البرمجية المحددة التي يجب أن يتقنها خبراء علوم البيانات ، وفقًا لأصحاب العمل؟ ننتقل إلى هذا السؤال في القسم التالي.

المهارات التكنولوجية


فيما يلي 20 لغة ومكتبة وأدوات تكنولوجية محددة ، والتي يرى أصحاب العمل أن متخصصي معالجة البيانات لديهم الخبرة.



دعنا نسير عبر القادة بسرعة.



Python هو الخيار الأكثر طلبًا. وأشار العديد إلى حقيقة أن لغة المصدر المفتوح هذه تحظى بشعبية كبيرة بين المبرمجين. بالنسبة للمبتدئين ، يعد هذا خيارًا مناسبًا للغاية: هناك العديد من موارد التدريب. الغالبية العظمى من أدوات البيانات الجديدة متوافقة معها. بناءً على كل هذا ، يمكن تسمية Python اللغة الرئيسية لخبراء علوم البيانات.



R يتبع Python بهامش صغير. ذات مرة ، كان هو اللغة الرئيسية للمتخصصين في علوم البيانات. كانت مفاجأة لي أن الاهتمام النشط به لا يزال قائما. تنشأ هذه اللغة في الإحصائيات ، وبالتالي ، تحظى بشعبية كبيرة بين أولئك الذين يتعاملون معها.

تقريبا كل الوظائف الشاغرة تجعل من الضروري معرفة واحدة من هاتين اللغتين - Python أو R.



SQL أيضا مطلوبة جدا. يشير الاختصار إلى لغة الاستعلام الهيكلية (لغة الاستعلام الهيكلية) ، وهذه اللغة هي الأداة الرئيسية للتفاعل مع قواعد البيانات العلائقية. غالبًا ما يتم تجاهل SQL في مجتمع علوم البيانات ، لكنه يشير إلى المهارات التي يجب أن تتقنها إذا كنت تخطط لدخول سوق العمل.




بعد ذلك يأتي Hadoop و Spark - كلاهما أدوات مفتوحة المصدر من Apache ، مصممة للعمل مع البيانات الضخمة. تم كتابة دروس ومقالات أقل بكثير عن Medium حولها. أفترض أن عدد المتقدمين الذين يملكونهم أقل بكثير من أولئك الذين هم على دراية بـ Python أو R. إذا كنت تعرف كيفية العمل مع Hadoop و Spark أو لديك فرصة لإتقانهم ، فقد يكون ذلك ميزة جيدة بالنسبة لك على منافسيك.




التالي هي Java و SAS . لقد فوجئت بأن هاتين اللغتين كانتا قادرتين على الصعود عاليا جدا. كلاهما من بنات أفكار الشركات الكبيرة وكليهما بعض المواد المجانية. ومع ذلك ، من بين خبراء علوم البيانات ، لا Java ولا SAS ذات أهمية خاصة.



التالي في ترتيب التقنيات الشعبية هو Tableau . وهي عبارة عن منصة تحليلية وأداة تصور قوية وسهلة الاستخدام. شعبيته تنمو باطراد. يحتوي Tableau على إصدار عام مجاني ، ولكن إذا كنت ترغب في العمل مع البيانات في الوضع الخاص ، فيجب عليك الخروج. إذا كنت جديدًا تمامًا على Tableau ، فمن المنطقي أن تأخذ دورة قصيرة - على سبيل المثال ، Tableau 10 AZ على Udemy. إنهم لا يدفعون لي مقابل الإعلانات ، لقد أجريت هذه الدورة بنفسي ووجدتها مفيدة جدًا.

في الرسم البياني أدناه ، يمكنك العثور على قائمة موسعة باللغات والأطر الشائعة وأدوات أخرى للعمل مع البيانات.



مقارنة تاريخية


نشر فريق GlassDoor دراسة عن المهارات العشرة الأكثر شعبية لخبراء علوم البيانات من يناير إلى يوليو 2017. على الرسم البياني أدناه ، تتم مقارنة بياناتهم حول تكرار المصطلحات بمتوسط ​​القيم المحسوبة من قبلي على مواقع LinkedIn و بالفعل و SimplyHired و Monster.



بشكل عام ، النتائج متشابهة. يتفق كل من بحثي وبحثي من Glassdoor على أن الطلب على Python و R و SQL هو الأعلى. تتزامن قمم المهارات أيضًا في التكوين ضمن المواضع التسعة الأولى ، على الرغم من اختلاف الترتيب الدقيق.

استنادًا إلى النتائج ، مقارنة بالنصف الأول من عام 2017 ، انخفض الطلب على R و Hadoop و Java و SAS و MatLab ، بينما أصبح Tableau ، على العكس من ذلك ، أكثر شيوعًا. يجب توقع هذا إذا نظرت على الأقل إلى نتائج استبيان للمطورين من KDnuggets. تظهر بوضوح أن R و Hadoop و Java و SAS في انخفاض منذ عدة سنوات ، في حين أن Tableau مستقر في الارتفاع.

التوصيات


بالنظر إلى هذه الحسابات ، أود أن أقدم عددًا من التوصيات لمتخصصي البيانات الذين دخلوا بالفعل في السوق أو يستعدون لبدء مهنة ، وعلى الرغم من زيادة قدرتهم التنافسية.

  • أظهر أنك تعرف كيفية تحليل البيانات ، ولا تدخر أي جهد لإتقان التعلم الآلي بشكل صحيح
  • انتبه إلى مهارات الاتصال. أنصحك بقراءة كتاب " Made to Stick " ، الذي يصف كيفية إعطاء أفكارك وزنًا أكبر. تدرب أيضًا مع تطبيق Hemmingway Editor لمعرفة كيفية التعبير عن أفكارك بشكل أكثر وضوحًا.
  • تعلم إطار التعلم العميق. أصبح هذا تدريجياً جزءًا لا يتجزأ من عملية التعلم في التعلم الآلي. في مقالتي الأخرى ، أقارن بين أطر عمل مختلفة حول مدى فائدتها واهتمامها وشعبيتها - يمكنك العثور عليها هنا .
  • إذا كنت مترددًا بين Python و R ، فاختر Python. إذا كنت تعرف Python بالفعل على أنها الجزء الخلفي من يدك ، ففكر في التعرف على R. وهذا سيجعلك بالتأكيد مرشحًا أكثر جاذبية في السوق.

عندما يبحث صاحب العمل عن موظف يعمل مع Python ، فإنه يتوقع على الأرجح أن يصبح المرشحون على دراية بالمكتبات الرئيسية لمعالجة البيانات: numpy و pandas و scikit-learn و matplotlib. إذا كنت تريد إتقان هذه المجموعة ، أوصي بالموارد التالية:

  • DataCamp و DataQuest - هناك وهناك يمكنك أخذ دورة تدريبية في علوم البيانات SaaS عبر الإنترنت مقابل القليل من المال ؛ سوف تتعلم بشكل صحيح في عملية كتابة التعليمات البرمجية. تغطي كلا الدورتين مجموعة واسعة من الأدوات.
  • تقدم Data School مجموعة من الموارد المختلفة ، بما في ذلك سلسلة جيدة من مقاطع فيديو YouTube التي تشرح المفاهيم الأساسية لعلوم البيانات.
  • Python وتحليل البيانات بواسطة McKinney. هذا هو عمل مؤلف مكتبة الباندا. في الأساس يتعلق الأمر بذلك ، ولكنه يتطرق أيضًا إلى أساسيات Python و numpy و scikit-التعلم فيما يتعلق بعلوم البيانات.
  • " مقدمة لتعلم الآلة مع Python. دليل لمحترفي البيانات "Muller and Guido. مولر هو المسؤول عن دعم تعلم المعرفة. كتاب رائع لأولئك الذين يدرسون التعلم الآلي بشكل عام وهذه المكتبة بشكل خاص.

إذا كنت ترغب في تحقيق اختراقة في التعلم العميق ، أنصحك بأن تبدأ مع Keras أو FastAI ، ثم انتقل إلى TensorFlow أو PyTorch . " التعلم العميق في بايثون " من Scholl هو مساعدة عظيمة لأولئك الذين يتعلمون العمل مع Keras.

بالإضافة إلى هذه التوصيات ، أعتقد أنه من المفيد التركيز على دراسة ما أنت مهتم به بنفسك ، على الرغم من أنه يمكنك بالطبع تخصيص وقتك للتدريب بناءً على مجموعة متنوعة من الاعتبارات.

إذا كنت تبحث عن وظيفة كأخصائي معالجة بيانات على بوابات الإنترنت ، أنصحك بالبدء مع LinkedIn - فنتائجه هي الأكثر شمولاً باستمرار. أيضًا ، عند البحث عن الوظائف الشاغرة أو نشر السير الذاتية على مواقع الويب ، تلعب الكلمات الرئيسية دورًا مهمًا للغاية. على سبيل المثال ، بالنسبة لجميع الموارد المدروسة ، ينتج عن استعلام "علم البيانات" نتائج أكثر بثلاث مرات من استعلام "عالم البيانات". من ناحية أخرى ، إذا كنت مهتمًا فقط وحصريًا بعروض عالم البيانات ، فمن الأفضل إعطاء الأفضلية لهذا الطلب.

ولكن بغض النظر عن الموارد التي تختارها ، أوصي بإنشاء محفظة عبر الإنترنت توضح مهاراتك في المجالات المطلوبة المختلفة - كلما زاد وجودها ، كان ذلك أفضل. يجب أن يحتوي ملفك الشخصي على LinkedIn بشكل مثالي على بعض الأدلة على المهارات التي تتحدث عنها.

ربما سأقدم بقية نتائج البحث في مقالات أخرى. إذا كنت تريد معرفة المزيد عن التعليمات البرمجية أو الرسومات التفاعلية ، فأنا أدعوك إلى Kaggle Kernel .

Source: https://habr.com/ru/post/ar426557/


All Articles