وفقا
لإحصاءات 2019 ، مهندس البيانات هو حاليا مهنة ، والطلب الذي ينمو بوتيرة أسرع من غيرها. يلعب مهندس البيانات دورًا حاسمًا في المؤسسة - يقوم بإنشاء خطوط أنابيب وقواعد البيانات التي يتم استخدامها لمعالجة البيانات وتحويلها وتخزينها والحفاظ عليها. ما هي المهارات التي يحتاجها ممثلو هذه المهنة أولاً؟ هل القائمة مختلفة عن ما هو مطلوب من علماء البيانات؟ سوف تتعلم كل هذا من مقالتي.
لقد قمت بتحليل الوظائف الشاغرة لمنصب مهندس البيانات بالشكل الذي كانت عليه في يناير 2020 ، من أجل فهم المهارات الفنية الأكثر شيوعًا. ثم قارنت النتائج مع الإحصاءات المتعلقة بالوظائف الشاغرة في منصب عالم البيانات ، وتم الكشف عن بعض الاختلافات المثيرة للاهتمام.
يمكننا الاستغناء عن مقدمات طويلة - إليك أفضل عشرة تقنيات مذكورة في أغلب الأحيان في نصوص الوظائف:
ذكر التكنولوجيا في وظائف لشغل وظيفة مهندس بيانات في عام 2020هيا بنا
مسؤوليات مهندس البيانات
اليوم ، يعد العمل الذي يؤديه مهندسو البيانات ذا أهمية كبيرة بالنسبة للمؤسسات - هؤلاء الأشخاص هم المسؤولون عن تخزين المعلومات وإحضارها بطريقة يمكن للموظفين الآخرين التعامل معها. يقوم مهندسو البيانات بإنشاء خطوط أنابيب لتبسيط تلقي البيانات أو الدفق أو الحزم من مصادر متعددة. بعد ذلك ، تقوم خطوط الأنابيب بعمليات الاستخراج والتحويل والتحميل (بمعنى آخر ، عمليات ETL) ، مما يجعل البيانات أكثر ملاءمة للاستخدام مرة أخرى. بعد ذلك ، يتم نقل البيانات إلى المحللين وعلماء البيانات للمعالجة الأعمق. أخيرًا ، تنهي البيانات رحلتها على لوحات المعلومات والتقارير ونماذج التعلم الآلي.
كنت أبحث عن معلومات من شأنها أن تسمح لنا باستنتاج التقنيات الأكثر طلبًا في عمل مهندس البيانات في الوقت الحالي.
طرق
قمت بجمع معلومات من ثلاثة مواقع للبحث عن الوظائف -
SimplyHired ،
والواقع ، و
Monster ، ونظرت في الكلمات الرئيسية التي
توصلت إليها مهندس البيانات في نصوص الوظائف للمقيمين في الولايات المتحدة. في هذه المهمة ، استعملت مكتبتي بايثون -
طلبات وحساء جميلين . من بين الكلمات الرئيسية ، قمت بتضمين كلٍّ من تلك التي كانت في القائمة السابقة لتحليل الشواغر لموقف عالم البيانات ، وتلك التي اخترتها يدويًا أثناء قراءة عروض العمل لمهندسي البيانات. لم يتم تضمين LinkedIn في قائمة المصادر ، حيث تم حظري هناك بعد آخر محاولة لي لجمع البيانات.
بالنسبة لكل كلمة رئيسية ، قمت بحساب نسبة الزيارات من إجمالي عدد النصوص في كل موقع على حدة ، ثم قمت بحساب متوسط القيمة من ثلاثة مصادر.
النتائج
فيما يلي ثلاثون مصطلحًا فنيًا من هندسة البيانات مع أعلى الدرجات في جميع مواقع العمل الثلاثة.
وهنا الأرقام نفسها ، ولكنها مصممة في شكل جدول:
دعنا نذهب في النظام.
نظرة عامة على النتائجيظهر كل من SQL و Python في أكثر من ثلثي الشواغر التي تم استعراضها. إن هاتين التقنيتين هما المنطقتان للدراسة أولاً.
Python هي لغة برمجة شائعة الاستخدام تستخدم للعمل مع البيانات وإنشاء مواقع الويب وكتابة النصوص.
SQL تعني لغة الاستعلام الهيكلية؛ يفترض وجود معيار تم تنفيذه بواسطة مجموعة من اللغات ، ويستخدم لاستخراج البيانات من قواعد البيانات العلائقية. لقد ظهر منذ زمن طويل و أثبت نفسه بأنه مستقر للغاية.
حول سبارك يقول حوالي نصف الشواغر.
يعد Apache Spark "محركًا مشتركًا لتحليل البيانات الضخمة مع وحدات مدمجة للدفق ، و SQL ، والتعلم الآلي ، ومعالجة الرسوم البيانية". أنها تحظى بشعبية خاصة مع أولئك الذين يعملون مع قواعد البيانات الكبيرة.
AWS يظهر في حوالي 45 ٪ من وظائف شاغرة. هذا هو منصة الحوسبة السحابية الأمازون. تمتلك أكبر حصة في السوق بين جميع المنصات السحابية.
بعد ذلك تأتي Java و Hadoop - أكثر بقليل من 40٪ للأخ. تعد
Java لغة منتشرة ومختبرة في المعارك وفازت في
استطلاع مطوري Stack Overflow Developer Survey بالمركز العاشر بين اللغات التي تفزع المبرمجين. في المقابل ، تحولت بيثون إلى أنها اللغة الثانية الأكثر شعبية. تعمل Java على تشغيل لغة Java ، ويمكن فهم كل شيء تحتاج إلى معرفته على الإطلاق من خلال لقطة الشاشة هذه للصفحة الرسمية في يناير 2020.
مثل آلة الزمنيستخدم
Apache Hadoop نموذج البرمجة MapReduce مع مجموعات الخوادم للبيانات الكبيرة. الآن يتم تجاهل هذا النموذج بشكل متزايد.
بعد ذلك نرى Hive و Scala و Kafka و NoSQL - تم ذكر كل من هذه التقنيات في ربع الشواغر المعروضة. يعد Apache Hive برنامجًا لتخزين البيانات "يبسط قراءة وكتابة وإدارة مجموعات البيانات الكبيرة الموجودة في المستودعات الموزعة باستخدام SQL."
Scala هي لغة برمجة يتم استخدامها بنشاط عند العمل مع البيانات الضخمة. على وجه الخصوص ، تم إنشاء Spark على Scala. في الترتيب المذكور سابقًا للغات المخيفة ، أصبحت سكالا في السطر الحادي عشر.
Apache Kafka عبارة عن منصة موزعة لمعالجة الرسائل المتدفقة. تحظى بشعبية كبيرة كوسيلة لتدفق البيانات.
قواعد بيانات NoSQL تتناقض مع SQL. وهي تختلف من حيث أنها ليست علائقية ، غير منظمة ، ولها قابلية أفقية. اكتسبت NoSQL بعض الشعبية ، ولكن يبدو أن الهوس المحموم لهذا النهج ، وصولًا إلى النبوءات التي ستحل محل SQL كنموذج التخزين السائد ، قد انتهى.
مقارنة مع المصطلحات في الشواغر عالم البيانات
فيما يلي المصطلحات التكنولوجية الثلاثون الأكثر استخدامًا من قِبل أرباب العمل في مجال علوم البيانات. حصلت على هذه القائمة بنفس الطريقة التي وصفتها أعلاه لهندسة البيانات.
ذكر التكنولوجيا في وظائف لعالم البيانات في عام 2020إذا تحدثنا عن العدد الإجمالي ، مقارنةً بالمجموعة التي تمت مراجعتها مسبقًا ، فقد كان هناك 28٪ من الوظائف الشاغرة (12 013 مقابل 9396). دعونا نرى التقنيات الأقل شيوعًا في الوظائف الشاغرة لعلماء البيانات مقارنة بمهندسي البيانات.
أكثر شعبية في هندسة البياناتيعرض الرسم البياني أدناه الكلمات الرئيسية ذات متوسط فرق في القيم أكبر من 10٪ أو أقل من -10٪.
أكبر الاختلافات في وتيرة الكلمات الرئيسية بين مهندس البيانات وعالم البياناتتم العثور على الزيادة الأكثر أهمية من قبل AWS: في هندسة البيانات يبدو 25 ٪ أكثر بانتظام مما كانت عليه في علم البيانات (حوالي 45 ٪ و 20 ٪ من إجمالي عدد الشواغر ، على التوالي). الفرق واضح!
هذه هي نفس البيانات في تمثيل مختلف قليلاً - على الرسم البياني ، توجد نتائج نفس الكلمة الرئيسية في الوظائف الشاغرة لمواقع مهندس البيانات وعالم البيانات جنبًا إلى جنب.
أكبر الاختلافات في وتيرة الكلمات الرئيسية بين مهندس البيانات وعالم البياناتثاني أكبر قفزة لاحظتها في Spark - غالبًا ما يتعين على مهندس البيانات التعامل مع البيانات الضخمة. كما نمت
كافكا بنسبة 20 ٪ ، أي ما يقرب من أربعة أضعاف مقارنة مع الشواغر وظيفة الباحث في البيانات. يعد نقل البيانات إحدى المسؤوليات الرئيسية لمهندس البيانات. أخيرًا ، تحول عدد المراجع إلى 15٪ في مجال هندسة البيانات لجافا و NoSQL و Redshift و SQL و Hadoop.
أقل شعبية في هندسة البياناتالآن لنرى التقنيات الأقل شعبية في الوظائف الشاغرة لمهندس البيانات.
حدث أكبر انخفاض مقارنة بمجال علم البيانات في
R : ظهر في حوالي 56 ٪ من الشواغر ، هنا - فقط في 17 ٪. مثيرة للإعجاب. R هي لغة برمجة تحظى بشعبية لدى العلماء والإحصائيين ، وكذلك الفائز بالمركز الثامن في تصنيف اللغات المرعبة.
يحدث
SAS أيضًا في الوظائف الشاغرة لوظيفة مهندس البيانات بشكل أقل بكثير - الفرق هو 14٪. SAS هي لغة خاصة مصممة للعمل مع الإحصاءات والبيانات. نقطة مثيرة للاهتمام: بالحكم على نتائج
بحثي عن الوظائف الشاغرة لعلماء البيانات ، فقد مؤخراً العديد من المناصب - أكثر من أي تقنية أخرى.
مطلوب في كل من هندسة البيانات وعلوم البياناتتجدر الإشارة إلى أن ثمانية من المراكز العشرة الأولى في كلا المجموعتين هي نفسها. تعد SQL و Python و Spark و AWS و Java و Hadoop و Hive و Scala من بين العشرة الأوائل لكل من هندسة البيانات وعلوم البيانات. في الرسم البياني أدناه ، يمكنك رؤية أكثر خمسة عشر تقنيات شعبية من قبل أرباب عمل مهندسي البيانات ، وبجانبهم معدل شغورهم لعلماء البيانات.
توصيات
إذا كنت ترغب في الانخراط في هندسة البيانات ، فإنني أنصحك بإتقان التقنيات التالية - أدرجها بترتيب الأولوية التقريبية.
تعلم لغة الاستعلامات البنيويه. أنا أقنعك بالتحديد بوحدة PostgreSQL ، لأنها تحتوي على شفرة مفتوحة المصدر ، تحظى بشعبية كبيرة في المجتمع وهي في مرحلة النمو. يمكنك تعلم كيفية استخدام اللغة من كتاب My Memorable SQL - النسخة التجريبية متاحة
هنا .
تعلم بايثون ، وإن لم يكن على المستوى الأكثر المتشددين. My Memorable Python هو للمبتدئين. يمكنك شرائه من
Amazon ، أو نسخة إلكترونية أو نسخة مادية من اختيارك ، أو تنزيلها بتنسيق pdf أو epub
على هذا الموقع .
بمجرد التعرف على Python ، انتقل إلى pandas ، مكتبة Python المستخدمة في تنظيف البيانات ومعالجتها. إذا كنت تركز على العمل في شركة تتطلب القدرة على الكتابة في بيثون (ومعظمها) ، فيمكنك أن تتأكد من أن معرفة الباندا ستفترض افتراضيًا. أنا الآن على الانتهاء من الدليل التمهيدي للعمل مع الباندا - يمكنك
الاشتراك حتى لا تفوت لحظة الإصدار.
ماجستير AWS. إذا كنت تريد أن تصبح مهندسا للبيانات ، لا يمكنك الاستغناء عن نظام أساسي سحابي في zashnik ، و AWS هي الأكثر شعبية بالنسبة لهم. لقد ساعدتني دورات
Linux Academy كثيرًا عندما درست
هندسة البيانات على Google Cloud ، وأعتقد أنه سيكون لديهم أيضًا مواد جيدة على AWS.
إذا كنت قد أتقنت هذه القائمة بأكملها بالفعل وترغب في النمو في أعين أصحاب العمل كمهندس بيانات ، أقترح إضافة Apache Spark للعمل مع البيانات الضخمة. على الرغم من أن البحث الذي أجريته حول الوظائف الشاغرة في علم البيانات قد أظهر انخفاضًا في الاهتمام ، إلا أنه ما زال يومض لمهندسي البيانات في كل ثانية تقريبًا.
في النهاية
آمل أن يكون هذا الاستعراض للتقنيات الأكثر شعبية لمهندس البيانات مفيدًا لك. إذا كنت مهتمًا بكيفية عمل المحللين ، اقرأ
مقالتي الأخرى . هندسة ناجحة!