لماذا عالم البيانات ليس مهندس بيانات؟



"يمكن للعالم اكتشاف نجم جديد ، ولكن لا يمكنه صنعه. للقيام بذلك ، سيتعين عليه الاتصال بمهندس. " جوردون ليندسي جلاس ، تصميم التصميم (1969)

قبل بضعة أشهر كتبت عن الاختلافات بين الخبراء في النظرية وطرق تحليل البيانات (عالم البيانات) والمتخصصين في معالجة البيانات (مهندس البيانات). تحدثت عن مهاراتهم ونقاط البداية المشتركة. حدث شيء مثير للاهتمام: بدأ علماء البيانات في التقدم ، مدعين أنهم كانوا في الواقع مختصين في مجال هندسة البيانات مثل أخصائيي معالجة البيانات. كان هذا مثيرًا للاهتمام لأن خبراء معالجة البيانات لم يعترضوا ولم يقلوا أنهم متخصصون في نظرية تحليل البيانات.

لذلك ، في الأشهر القليلة الماضية ، كنت أجمع المعلومات وأراقب سلوك المتخصصين في نظرية تحليل البيانات في بيئة العمل الطبيعية الخاصة بهم. في هذا المنشور ، سأتحدث أكثر عن سبب كون عالم البيانات ليس مهندس بيانات.

لماذا هذا مهم حتى؟


يشكو البعض من أن الاختلاف بين متخصص في نظرية تحليل البيانات وأخصائي في معالجة البيانات يكمن فقط في الاسم. ويقولون: " يجب ألا تمنع الأسماء الناس من التعلم أو القيام بشيء جديد ". أوافق ، تحتاج إلى التعلم قدر الإمكان. ولكن كن على علم بأن تدريبك لا يمكن أن يرتبط إلا عن بعد بما يجب القيام به في الممارسة. خلاف ذلك ، قد يؤدي هذا إلى فشل المشاريع ذات البيانات الضخمة.

يعتمد الكثير أيضًا على مستوى الإدارة في الشركات. تقوم الإدارة بتعيين متخصصين في تحليل البيانات ، وتتوقع منهم أن يكونوا متخصصين في معالجة البيانات.

سمعت نفس القصة في شركات مختلفة: قررت الشركة أن علم البيانات هو طريقة للحصول على أموال المستثمرين ، وأطنان من الأرباح ، واكتساب المصداقية في مجتمع الأعمال ، وما إلى ذلك. يتم اتخاذ هذا القرار على مستوى الإدارة العليا. على سبيل المثال ، دع Alice معينة تنتمي إلى كبار المديرين. بعد بحث طويل ، وجدت الشركة أفضل متخصص في نظرية تحليل البيانات في العالم - فلنطلق عليه بوب.

وصل أول يوم عمل لبوب. تأتي أليس إليه وتتحدث بلهفة عن جميع خططها.

”رائع. يسأل بوب: أين أنابيب البيانات ومجموعة Spark الخاصة بك؟

تجيب أليس: "هذا ما نتوقعه منك. لقد استأجركم للقيام بتحليل البيانات ".
يقول بوب: "لا أعرف كيف أفعل ذلك".

تبدو أليس في دهشة: "لكنك متخصص في نظرية معالجة البيانات. صحيح؟ هذا ما تفعله ".

"لا ، أستخدم خطوط الأنابيب والبيانات التي تم إنشاؤها بالفعل."

تعود أليس إلى مكتبها لمعرفة ما حدث. تنظر إلى الرسوم البيانية المبسطة مثل تلك الموضحة في الشكل 1 ، ولا يمكنها أن تفهم سبب عدم قدرة بوب على أداء مهام بسيطة بالبيانات الضخمة.


الشكل 1. مخطط Venn مبسط مع أخصائي نظرية تحليل البيانات وأخصائي معالجة البيانات.

تسليط الضوء


تنشأ مسألتان من هذه التفاعلات:

  • لماذا لا تفهم الإدارة أن المتخصص في نظرية تحليل البيانات ليس متخصصًا في معالجة البيانات؟
  • لماذا يعتقد بعض منظري التحليل أنهم يعالجون متخصصين؟

سأبدأ من جانب القيادة. في وقت لاحق سنتحدث عن المتخصصين في نظرية تحليل البيانات أنفسهم.

دعونا نواجه الأمر: معالجة البيانات ليست في دائرة الضوء. لم تعلن أنها أفضل عمل في القرن الحادي والعشرين. لا يتم كتابة الكثير عنها في وسائل الإعلام. في المؤتمرات ، لا يتم إخبار الأشخاص الأوائل للشركة عن فوائد معالجة البيانات. تتعلق جميع الرسائل بتحليل البيانات والبحث عن متخصصين في نظرية وأساليب تحليل البيانات.

لكن الأمور بدأت تتغير. لدينا مؤتمرات حول معالجة البيانات. يتم الاعتراف تدريجياً بالحاجة إلى تطوير أدوات معالجة البيانات التقنية. آمل أن يساعد عملي المنظمات على تحقيق هذه الحاجة الملحة.

الاعتراف والتقدير


حتى في الحالات التي يكون فيها لدى المنظمات فرق من المتخصصين في معالجة البيانات ، غالبًا ما لا يزال عملهم لا يتم تقييمه بشكل كاف.

يمكن ملاحظة عدم الاعتراف خلال المؤتمرات. يقول متخصص في نظرية تحليل البيانات أنه ابتكر. أرى تقنية معالجة بيانات شاملة شكلت أساس نموذجه ، ولكن لم يتم ذكرها أثناء محادثة. لا أتوقع أن يتم دراستها بالتفصيل ، ولكن سيكون من الجيد ملاحظة العمل الذي تم حتى يصبح إنشاء نموذجه ممكنًا. تعتقد الإدارة والمبتدئون في مجال تحليل البيانات أن كل شيء ممكن بمهارات متخصص في نظرية تحليل البيانات.

كيفية تحقيق الاعتراف


في الآونة الأخيرة ، سألني خبراء معالجة البيانات عن كيفية تسليط الضوء على شركاتهم. يشعرون أنه عندما يُظهر الخبراء في نظرية التحليل آخر تطوراتهم ، فإنهم يحصلون على كل الامتنان من القيادة. السؤال الرئيسي الذي يطرحه عليّ المهندسون هو: "كيف يمكنني جعل عالم البيانات يتوقف عن اعتبار عملنا المشترك جدارة؟"

هذا سؤال قائم على أساس جيد ، بناءً على المواقف التي أراها في الشركات. لا تعترف الإدارة (ولا تفصح عن) أعمال معالجة البيانات ، والتي تتعلق بكل شيء يتعلق بتحليل البيانات. إذا قرأت هذا وفكرت:

  • اختصاصيو نظرية تحليل البيانات الخاص بي هم متخصصون في معالجة البيانات.
  • يقوم خبراء نظرية تحليل البيانات لدي بإنشاء خطوط بيانات معقدة حقًا.
  • يجب أن لا يعرف المؤلف عن ماذا يتحدث.

... ثم ربما لديك متخصص في معالجة البيانات ليس في دائرة الضوء.

مع استقالة المتخصصين في نظرية تحليل البيانات في غياب المهندسين ، لذلك سيستقيل المهندس الذي لا يحصل على اعتراف كافٍ بعمله. لا تنخدع. بالنسبة لأخصائيي معالجة البيانات المؤهلين ، فإن سوق العمل ساخن مثل المتخصصين في نظرية تحليل البيانات.

تحليل البيانات ممكن فقط بدعم من أصدقائنا


ربما سمعت عن أسطورة أتلانتا . كعقاب ، اضطر لإبقاء العالم / السماء / الكرة السماوية على نفسه. الأرض موجودة في شكلها الحالي فقط لأن أطلس يحتفظ بها.

وبالمثل ، يدعم علماء البيانات عالم تحليل البيانات. الشخص الذي يحمل العالم كله على كتفيه لا يحظى بتقدير كبير ، على الرغم من أنه يجب عليه. على جميع مستويات المنظمة ، ينبغي أن يكون مفهوما أن تحليل البيانات ممكن فقط بفضل عمل مجموعة من المتخصصين في معالجة البيانات.


التين. 2. حتى الإيطاليين في القرن الرابع عشر يعرفون أهمية المتخصصين في معالجة البيانات.

علماء البيانات ليسوا مهندسي بيانات.


وهذا يقودنا إلى سبب اعتقاد نظرية تحليل البيانات أنهم متخصصون في معالجة البيانات.

قبل أن نواصل ، بعض التحفظات على التحذير من التعليقات:

  • أعلم أن خبراء نظرية تحليل البيانات أذكياء حقًا ، وأنا أحب العمل معهم.
  • أتساءل عما إذا كان مثل هذا الفكر يسبب تأثير Dunning-Kruger IQ أقوى.
  • بعض أفضل خبراء نظرية تحليل البيانات الذين عرفتهم كانوا خبراء في معالجة البيانات ، ولكن كان هناك القليل جدًا.
  • نحن نعيد تقييم مهاراتنا باستمرار.


التين. 3. رسم تخطيطي لإدراك مهاراتهم من قبل المتخصصين في نظرية التحليل بالمقارنة مع مهاراتهم الفعلية.

عند مناقشة مهاراتهم في معالجة البيانات مع الخبراء في نظرية تحليل البيانات ، وجدت أن احترامهم للذات يختلف اختلافًا كبيرًا. هذه تجربة اجتماعية مثيرة للاهتمام مع التحامل. لقد بالغ معظم خبراء نظرية تحليل البيانات في تقدير قدراتهم على معالجة البيانات. أعطى البعض تقييمًا دقيقًا ، لكن لم يعطِ أحد تقييمًا أقل من قدراتهم الفعلية.

شيئان مفقودان في هذا الرسم التخطيطي:

  • ما هو مستوى مهارة محترفي معالجة البيانات؟
  • ما هو مستوى المهارة المطلوب لخط أنابيب بيانات معتدل؟


الشكل 4. رسم تخطيطي تجريبي لمهارات المتخصصين في نظرية التحليل ومعالجة البيانات اللازمة لإنشاء خط أنابيب بيانات معتدل إلى حد ما.

يوضح الشكل الاختلافات في القدرات المطلوبة لمعالجة البيانات. في الواقع ، لقد بالغت قليلاً مع عدد العلماء القادرين على إنشاء خط أنابيب بيانات معتدل إلى حد ما. قد يكون الواقع أن الخبراء في نظرية التحليل يشكلون نصف الحصة الموضحة في الرسم التخطيطي.

بشكل عام ، فإنه يعرض الأجزاء التقريبية من هاتين المجموعتين ، والتي يمكن ولا يمكن إنشاء خطوط بيانات. نعم ، لا يمكن لبعض المتخصصين في معالجة البيانات إنشاء خط أنابيب معقد بشكل معتدل ، مثل معظم الخبراء في نظرية التحليل. هذا يعيدنا إلى المشكلة الملحة: تعطي المنظمات مشاريعها ببيانات كبيرة لأولئك الذين لا تتاح لهم الفرصة لتنفيذها بشكل صحيح.

ما هو خط البيانات المعقدة بشكل معتدل؟


خط أنابيب البيانات المعقدة إلى حد ما هو خطوة واحدة فوق الحد الأدنى المطلوب لإنشاء خط أنابيب البيانات . مثال على الحد الأدنى هو معالجة الملفات النصية المخزنة في HDFS / S3 باستخدام Spark: دعنا نقول ، بداية تحسين التخزين باستخدام قاعدة بيانات NoSQL المستخدمة بشكل صحيح.

أعتقد أن الخبراء في نظرية تحليل البيانات يعتقدون أن خط أنابيبهم البسيط هو معالجة البيانات. لكنهم في الواقع يتحدثون عن أبسط الحلول ، ويلزم حزام ناقل أكثر تعقيدًا. في الماضي ، قام أخصائي معالجة البيانات وراء الكواليس بأداء هندسة معقدة حقًا ، ولم يكن على خبراء نظرية التحليل التعامل معها.

قد تعتقد: "حسنًا ، 20٪ من خبراء نظرية تحليل البيانات لدي يمكنهم التعامل مع ذلك. في النهاية ، لست بحاجة إلى أخصائي معالجة ". أولاً ، تذكر أن هذا المخطط يبالغ في قدرات خبراء نظرية تحليل البيانات. لا يزال المستوى الصعب إلى حد ما منخفضًا إلى حد ما. أحتاج إلى إنشاء رسم تخطيطي آخر لإظهار عدد قليل من منظري تحليل البيانات يمكنهم اتخاذ الخطوة التالية. في هذه المرحلة تنخفض حصتهم بين المتخصصين المشاركين في نظرية تحليل البيانات إلى 1٪ أو أقل.

لماذا علماء البيانات ليسوا مهندسي بيانات؟


في بعض الأحيان أفضل النظر في مظاهر المشاكل المنعكسة. فيما يلي بعض هذه المشاكل التي تجعل خبراء نظرية تحليل البيانات يفتقرون إلى مهارات المعالجة.

الجامعة والدورات


تحليل البيانات هو برنامج شائع جديد للجامعات والدورات عبر الإنترنت. هناك جميع أنواع الاقتراحات ، ولكن توجد نفس المشكلة في كل مكان تقريبًا: إما أن المنهج لا يحتوي على أي من فئات معالجة البيانات على الإطلاق ، أو يبرز زوج واحد فقط.

عندما أرى برنامجًا جديدًا للتدريب على تحليل البيانات ، ألقي نظرة عليه. يُطلب مني أحيانًا التعليق على الدورات التي تقدمها الجامعات. أقول للجميع نفس الشيء: "هل تحتاج إلى مبرمجين ذوي خبرة؟ لأن الدورة التدريبية الخاصة بك لا تتعلق على الإطلاق بالبرمجة أو الأنظمة اللازمة لاستخدام خط البيانات الذي تم إنشاؤه. "

تركز الدورة ، بشكل عام ، على الأدوات الإحصائية والرياضيات اللازمة. هذا يعكس كيف ، وفقا للشركات والعلماء ، يجب أن يبدو تحليل البيانات. لكن العالم الحقيقي يبدو مختلفًا تمامًا. يمكن للطلاب الفقراء التأثير فقط حتى نهاية هذه الفصول غير العادية.

يمكننا أن نتراجع خطوة ونلقي نظرة على كل شيء من وجهة نظر أكاديمية ، مع مراعاة متطلبات الحصول على درجة الماجستير في مجال الأنظمة الموزعة. من الواضح أن المتخصص في نظرية تحليل البيانات لا يحتاج إلى مثل هذا المستوى العميق ، ولكنه يساعد على إظهار الفجوات الموجودة في مهارات المتخصص في نظرية تحليل البيانات. هناك العديد من الثغرات الخطيرة.

معالجة البيانات! = Spark


هناك اعتقاد خاطئ شائع بين الخبراء في نظرية تحليل البيانات وإدارتها هو أنهم يعتقدون أن معالجة البيانات هي مجرد كتابة نوع من رمز سبارك لمعالجة الملف. Spark هو حل جيد دفعة ، لكنه ليس التكنولوجيا الوحيدة التي تحتاجها. يتطلب حل البيانات الضخمة 10-30 تقنية مختلفة ستعمل معًا.

تقع هذه المغالطة في صميم حالات فشل البيانات الضخمة. تعتقد الإدارة أن الشركة لديها حل عالمي جديد لحل مشاكل البيانات الضخمة. الواقع أكثر تعقيدًا.

عندما أنصح المنظمة بشأن قضايا البيانات الضخمة ، أتحقق من وجود هذا الخطأ على جميع مستويات الشركة. إذا كان الأمر كذلك ، فيجب أن أكون متأكدًا من أنني سأدرج جميع التقنيات التي سيحتاجونها. هذا يزيل الاعتقاد الخاطئ بأنه في منطقة البيانات الكبيرة يوجد زر بسيط وتقنية واحدة لحل جميع المشاكل.

من أين أتى الرمز؟


يخبرني خبراء نظرية تحليل البيانات في بعض الأحيان بمدى سهولة تكنولوجيا معالجة البيانات. أسألهم لماذا يعتقدون ذلك؟ "يمكنني الحصول على الرمز الذي أحتاجه من StackOverflow أو Reddit. إذا كنت بحاجة إلى إنشاء شيء ما من الصفر ، يمكنني نسخ مشروع شخص ما في محاضرة في مؤتمر أو في مستند تقني ".

بالنسبة لشخص غريب ، قد يبدو هذا طبيعيًا. بالنسبة لأخصائي معالجة البيانات ، هذا إنذار. بغض النظر عن القضايا القانونية ، هذه ليست معالجة البيانات. في مجال البيانات الضخمة ، هناك عدد قليل جدًا من مشاكل القالب. كل ما يحدث بعد "مرحبًا بالعالم" له هيكل أكثر تعقيدًا ، ويتطلب متخصصًا في معالجة البيانات ، نظرًا لعدم وجود نهج نموذجي للعمل معه. يمكن أن يؤدي نسخ مشروع من الوثائق الفنية إلى أداء ضعيف أو شيء أسوأ .

اضطررت للتعامل مع عدة مجموعات حول نظرية تحليل البيانات التي جربت نهج "القرد يرى - القرد يفعل". لا يعمل بشكل جيد للغاية. ويرجع ذلك إلى الزيادة الحادة في تعقيد البيانات الضخمة والاهتمام الوثيق بحالات الاستخدام. غالبًا ما يرفض فريق من المتخصصين في نظرية تحليل البيانات مشروعًا لأنه يتجاوز قدراتهم في معالجة البيانات. ببساطة ، هناك فرق كبير بين "يمكنني نسخ التعليمات البرمجية من StackOverflow" أو "يمكنني تغيير شيء تمت كتابته بالفعل" و "يمكنني إنشاء هذا النظام من البداية".

أنا شخصياً أشعر بالقلق من أن مجموعات من المتخصصين في نظرية تحليل البيانات قد تصبح مصدراً للديون التقنية الهائلة التي تقلل من فعالية البيانات الضخمة في المنظمات. وبحلول الوقت الذي يصبح فيه هذا واضحًا ، سيكون الدين الفني كبيرًا جدًا بحيث سيكون من المستحيل إصلاحه.

ما هو أطول رمز تم إدخاله للاستخدام الصناعي؟


الفرق الرئيسي بين المتخصصين في نظرية تحليل البيانات هو عمقها. يمكن إظهار هذا العمق بطريقتين. ما هي أطول فترة لتطبيق التعليمات البرمجية الخاصة بهم في الممارسة - وهل تم تنفيذها حتى؟ ما هو البرنامج الأطول أو الأكبر أو الأكثر تعقيدًا الذي كتبوه؟

لا يتعلق الأمر بالمنافسة ، ولكن حول ما إذا كانوا يعرفون ما يحدث عند تشغيل شيء ما ، وكيفية الحفاظ على الرمز. كتابة برنامج مكون من 20 سطرًا من التعليمات البرمجية أمر بسيط نسبيًا. إنها مسألة أخرى تمامًا أن تكتب 1000 سطر من الكود المتماسك ويسهل صيانته. الأشخاص الذين لم يسبق لهم كتابة أكثر من 20 سطرًا لا يفهمون الفرق في سهولة الصيانة. ترتبط جميع شكاواهم حول الإفراط في لغة جافا والحاجة إلى استخدام أفضل الممارسات في البرمجة بمشاريع البرمجيات الكبيرة.

عند تقييم البيانات واكتشافها ، تحتاج إلى العمل بسرعة وإعادة الشفرة. والعمل باستخدام الرمز لاستخدام الإنتاج مطلوب على مستوى مختلف وأعمق. هذا هو السبب في أن رمز معظم الخبراء في نظرية تحليل البيانات يجب إعادة كتابته قبل وضعه قيد التشغيل.

تصميم النظام الموزع


تتمثل إحدى الطرق لمعرفة الفرق بين خبراء نظرية تحليل البيانات وأخصائيي معالجة البيانات في معرفة ما يحدث عندما يكتبون أنظمتهم الموزعة. سيكتب خبير في نظرية تحليل البيانات شيئًا شديد التركيز على الرياضيات لكنه لا يعمل بشكل جيد. سيعمل أخصائي معالجة البيانات الذي يكتب الأنظمة الموزعة على إنشاء حل موزع يعمل بشكل جيد ( ولكن لا تكتب أنظمتك الخاصة بشكل أفضل ). سأروي العديد من القصص حول تفاعلي مع المنظمات التي أنشأ فيها خبراء في نظرية تحليل البيانات نظامًا موزعًا.

لذلك ، في شركة زبوني ، أنشأ قسم يتكون من متخصصين في نظرية تحليل البيانات مثل هذا النظام. تم إرسالي للتحدث معهم وفهم لماذا كتبوا قرارهم الخاص وما الذي يمكن أن يفعله. كانوا منخرطين في معالجة الصور (الموزعة).

لقد بدأت بسؤالهم لماذا أنشأوا نظامهم الموزع الخاص بهم؟ ردوا بأنه كان من المستحيل توزيع الخوارزمية. لتأكيد النتائج التي توصلوا إليها ، وقعوا عقدًا مع متخصص آخر في نظرية تحليل البيانات ، متخصص في معالجة الصور. أكد المقاول استحالة توزيع الخوارزمية.

في الساعتين اللتين قضيتهما مع الفريق ، أصبح من الواضح أنه يمكن توزيع الخوارزمية على محرك حوسبة عالمي ، مثل Spark. , . data scientist'e data engineer', -.

, , . , . . , . . RPC- , .

:

  • , . , .
  • , .
  • : « ?» : « ?»
  • , , , .

?


, , : — . , ? ?

— , big data.


, , . , . هنا بعض منهم:



  • , Agile Scrum
  • IDE




, , , , . , . , , : « » « . . ». , . .


? , - , production ? «». , .

data scientist'? , ( ), . , . «» .

?


, , data scientist' data engineer'. , . : , , .

, , , .

, , data scientist' data engineer' , , . 2-5 . , , .

, . , , , . , , . , , , , , .

, . . , . , , , , .

, . , , , , . :

  • . , , , .
  • , — . , .
  • ? , -?
  • , data scientist'. .
  • , . , . — , .

ماذا تفعل؟


, , ? , . . .

, . , . .

, . .

big data


, big data — . , . big data-, . .

big data- , . , , . ( ) , .

تشكل حالات الفشل المماثلة نمطًا متكررًا. يمكنك الترقية إلى أحدث التقنيات ، ولكن ننسى إصلاح مشكلات النظام. فقط من خلال إصلاح المشكلة الجذرية ، يمكنك بدء رحلتك إلى النجاح.

Source: https://habr.com/ru/post/ar404811/


All Articles