ماذا يفعل محللو البيانات في الواقع؟ نتائج 35 مقابلة

أجرى مؤلف المادة سلسلة من المحادثات مع الخبراء في مجال تحليل البيانات ومعالجتها واستخلص نتائج حول آفاق واتجاهات تطوير علماء البيانات.


تبسط نظرية وطرق معالجة البيانات حل المشكلات المختلفة في مجال التكنولوجيا. وهذا يشمل تحسين نتائج بحث Google ، وتوصيات على LinkedIn ، وتشكيل عناوين على Buzzfeed. ومع ذلك ، فإن العمل مع البيانات يمكن أن يؤثر بشكل كبير على العديد من قطاعات الاقتصاد: من التجزئة ، والاتصالات ، والزراعة ، إلى الرعاية الصحية ، والشحن وأنظمة العقوبات.

ومع ذلك ، فإن مصطلحات "علم البيانات" و "نظرية وأساليب تحليل البيانات" و "عالم البيانات" ليست مفهومة بالكامل. من الناحية العملية ، يتم استخدامها لوصف مجموعة واسعة من طرق العمل مع المعلومات.

ماذا يفعل خبراء علوم البيانات في الواقع؟ كمضيف لبودكاست DataFramed ، حصلت على فرصة رائعة لمقابلة أكثر من 30 خبيرًا في تحليل البيانات من مجموعة واسعة من الصناعات والتخصصات الأكاديمية. من بين أمور أخرى ، كنت دائما أسأل عما يتكون عملهم بالضبط.

علم البيانات هو مجال واسع حقًا. اقترب ضيوفي من محادثاتنا من مختلف المواقف ووجهات النظر. وصفوا مجموعة متنوعة من الأنشطة ، بما في ذلك أطر تطوير المنتجات على نطاق واسع عبر الإنترنت على booking.com و Etsy ، والطرق التي يستخدمها Buzzfeed لحل مشكلة قطاع ماكينات الألعاب المتعددة في تحسين عناوين المواد ، وتأثير تعلم الآلة على اتخاذ القرارات التجارية في Airbnb. المثال الأخير عبر عنه روبرت تشينج ، أخصائي تحليل البيانات في Airbnb. عندما كان يعمل على تويتر ، ركزت الشركة على النمو. تعمل تشنغ الآن في Airbnb على تطوير نماذج تعلُم الآلة الضخمة.

يمكن أن تكون مناهج تطبيق نظرية التحليل ومعالجة البيانات مختلفة تمامًا ، ولا يعتمد اختيار الحل على الصناعة فحسب ، بل يعتمد أيضًا على نوع الأعمال ومهامها.

ومع ذلك ، على الرغم من التنوع ، فإن عددًا من الموضوعات الشائعة مرئية بوضوح في جميع المقابلات.

ماذا يفعل خبراء علوم البيانات؟


نحن نعلم كيف يعمل علم البيانات ، على الأقل في صناعة التكنولوجيا. وضع الباحثون أولاً أساسًا متينًا على شكل معلومات مجمعة من أجل إجراء عمل تحليلي شامل. في المرحلة التالية ، من بين أمور أخرى ، يستخدمون التجارب عبر الإنترنت من أجل التقدم المستدام في حل المشكلة. ونتيجة لذلك ، يتم إنشاء طرق التعلم الآلي والمنتجات المتخصصة التي تعالج البيانات المطلوبة لفهم عملك بشكل أفضل واتخاذ قرارات أفضل. أي أن جوهر طرق معالجة البيانات في مجال التكنولوجيا يعود إلى بناء البنية التحتية وإجراء الاختبارات والتعلم الآلي لاتخاذ القرارات وإنشاء منتجات المعلومات.

يتم اتخاذ خطوات كبيرة في قطاعات أخرى غير التكنولوجيا.


في أحد الاجتماعات ، بحثت أنا بن سكراينكا ، أخصائي معالجة البيانات في القافلة ، الاستخدام الفعال لطرق معالجة المعلومات للابتكار في صناعة نقل البضائع في أمريكا الشمالية. وتحدث ساندي جريفيث من فلاتيرون هيلث عن الدور المهم الذي يلعبه تحليل البيانات في دراسة السرطان. ناقشنا مع Drew Conway شركته Alluvium ، التي "تستخدم الذكاء الاصطناعي والتعلم الآلي لتحديد الأنماط المفيدة بناءً على تدفقات البيانات واسعة النطاق التي تم إنشاؤها أثناء تشغيل الأنظمة الصناعية". تحدث مايك تامير ، الرئيس الحالي لقسم القيادة الذاتية في Uber ، عن العمل في Takt ، حيث ساعد Tamir شركات Fortune 500 على تقديم طرق معالجة البيانات وتحليلها. من بين أمور أخرى ، شارك تجربته في تطوير نظام توصيات لستاربكس.

تحليل البيانات ليس فقط احتمال السيارات المستقلة والذكاء الاصطناعي


كان العديد من ضيوف البودكاست يشككون في تعميم صنم الذكاء الاصطناعي من جانب وسائل الإعلام الشعبية (مثال: مقال VentureBeat "سيتم إنشاء إله ذكاء اصطناعي بحلول عام 2042 ، والذي سيكتب كتابه المقدس. هل ستعبده؟") والضجيج المحيط بالجهاز والعميق تعلم. بالطبع ، كلا هذين المجالين نهجان قويان مع أمثلة مهمة للتطبيقات العملية. ولكن يجب دائمًا معالجة مثل هذه الإثارة بنصيب من الشك الصحي. لاحظ جميع ضيوفي تقريبًا أن الباحثين الحقيقيين في هذه المناطق يكسبون قوتهم من خلال جمع البيانات وتصفيتها ، وإنشاء لوحات تحكم وتقارير ، والقيام بتصور البيانات والتحليل الإحصائي. بالإضافة إلى ذلك ، يجب أن يكونوا قادرين على نقل جوهر النتائج إلى اللاعبين الرئيسيين وإقناع صناع القرار.

مجموعة المهارات التي تتطلبها مهنة عالم البيانات تتغير باستمرار وتجدد (وخبرة العمل في التدريب المتعمق ليست الشرط الرئيسي)


في مقابلة مع جوناثان نوليس ، أحد محللي البيانات الرائدين في سياتل والذي يعمل مع شركات Fortune 500 ، ناقشنا السؤال التالي: "أي من هاتين المهارتين أكثر أهمية لمحترف البيانات هي القدرة على استخدام نماذج معقدة من العمق التدريب أو القدرة على رسم شرائح جيدة في PowerPoint؟ " جادل نوليس لصالح الأخير ، معتقدًا أن التفسير الذي يمكن الوصول إليه لنتائج التحليل يبقى عنصرًا رئيسيًا للعمل مع المعلومات.

موضوع شائع آخر هو تنوع مجموعة من المهارات الأساسية. قد تتغير أهمية بعضها في المستقبل المنظور. أدى التطور السريع لأدوات تحليل البيانات التجارية والمفتوحة إلى حقيقة أننا نشهد الآن انتقالًا هائلاً إلى أتمتة العديد من المهام الروتينية ، مثل تنظيف البيانات وإعدادها الأولي. حتى الآن ، كان الأمر شائعًا عندما قضى 80٪ من الوقت الثمين للباحث على البحث البسيط وتصفية البيانات وتنظيمها ، و 20٪ فقط على تحليلهم. لكن هذه الحالة من غير المرجح أن تستمر. اليوم ، وصلت الأتمتة إلى عمليات الآلة والتعلم العميق. على وجه الخصوص ، في ملف بودكاست منفصل مخصص بالكامل لمثل هذه القضايا ، تحدث راندال أولسون ، وهو متخصص رئيسي في تحليل البيانات ومعالجتها في Life Epigenetics ، عن هذا.

وفقا لنتائج المقابلة ، تعتقد الغالبية العظمى من ضيوفي أن القدرة على إنشاء واستخدام البنى التحتية للتعلم العميق ليست أساسية على الإطلاق. وبدلاً من ذلك ، تشير إلى القدرة على التعلم بسرعة والقدرة على شرح الحسابات التحليلية المعقدة للمشاركين الرئيسيين في العملية بشكل صحيح ، بعيدًا عن القضايا التقنية. لذلك ، يجب أن يولي المتخصصون الهادفون في مجال معالجة البيانات وتحليلها اهتمامًا أكبر قليلاً للعرض الصحيح للمادة بدلاً من طرق معالجة المعلومات. تأتي الأساليب الجديدة وتذهب ، ولكن التفكير النقدي والمهارات المهنية القابلة للقياس عدديًا ستكون دائمًا ذات صلة.

التخصص أصبح أكثر أهمية


على الرغم من عدم وجود مسار وظيفي واضح وعدم كفاية الدعم للمهنيين المبتدئين ، إلا أننا نلاحظ بالفعل ظهور بعض مجالات التخصص. وصفت إميلي روبنسون الفرق بين العلماء من النوعين A و B. ووفقًا لها ، فإن النوع A يشمل المحللين الذين تقترب أنشطتهم من الإحصائيات التقليدية ، لكن ممثلي النوع B يشاركون بشكل أساسي في إنشاء نماذج التعلم الآلي.

يقسم جوناثان نوليس علم البيانات إلى ثلاثة مكونات. المكون الأول هو تحليلات الأعمال ، والتي تتلخص في "أخذ بيانات الشركة وتقديمها إلى الأشخاص المناسبين" في شكل لوحات تحكم وتقارير ورسائل بريد إلكتروني. والثاني هو نظرية القرار ، والتي تهدف إلى "أخذ البيانات ومساعدة الشركة على اتخاذ القرار الأفضل بمساعدتهم". المكون الثالث هو التعلم الآلي ، حيث يسعى المتخصصون للإجابة على السؤال "كيف يمكننا أن نطبق بوعي نماذج تحليلية للمعلومات في مشروع حقيقي؟" على الرغم من حقيقة أن العديد من المتخصصين المتقدمين في أنشطتهم تغطي جميع المجالات الثلاثة ، فقد بدأت المسارات المهنية الملموسة في التبلور بالفعل ، كما هو الحال مع مهندسي التعلم الآلي.

القضايا الأخلاقية والمعنوية - تحد خطير


ربما تخمن أن ممثلي المهنة التحليلية يواجهون قدرا كبيرا من عدم اليقين في طريقهم. عندما سألت هيلاري ماسون في الحلقة الأولى من حديثنا عما إذا كانت هناك أي صعوبات أخرى يواجهها المجتمع المهني ، أجابت: "هل تعتقد حقًا أننا نفتقر إلى المبادئ التوجيهية الأخلاقية والممارسات المعيارية والمصطلحات المبسطة في هذه المرحلة من التطور؟ "؟

النقاط الثلاث مهمة حقًا ، والمشكلتان الأوليان تثيران قلق جميع الضيوف تقريبًا في بث البودكاست DataFramed. ما الدور الذي ستلعبه الأخلاق في الظروف التي تملي علينا الخوارزميات التي طورها محللو المعلومات كيفية التفاعل مع العالم الخارجي؟

كما قال Omuju Miller ، كبير أخصائي التعلم الآلي في GitHub ، في مقابلة:
من الضروري صياغة فهم للقيم الأخلاقية الأساسية ، ووضع مخطط لتدريب المتخصصين ووضع شيء مثل قسم أبقراط. ونحن بحاجة إلى تراخيص حقيقية لمعاقبة أو تجريد ممارسة أخصائي تجاوز الأخلاق. يجب أن نوضح أننا ، كصناعة ، نعارض مثل هذه الأفعال. وبالطبع ، من الضروري مساعدة بطريقة ما أولئك الذين يرتكبون انتهاكات خطيرة والذين انحرفوا عن قواعد الجهل للمساعدة على التحسن لأنهم لم يجتازوا التدريب اللازم.

الموضوع الحالي هو العواقب الخطيرة والضارة واللاأخلاقية لاستخدام علوم البيانات ، كما كان الحال مع تصنيف مخاطر عودة الجريمة COMPAS ، "الذي تم استخدامه للتنبؤ وتحديد المجرمين في المستقبل" ، ووفقًا لـ ProPublica ، تبين أنه "متحيز ضد السود للأمريكيين ".

نحن نتفق تدريجياً على أن المعايير الأخلاقية يجب أن تولد داخل مجتمع المحللين المحترفين ، وكذلك الحصول على الدعم من المشرعين والحركات الاجتماعية والأطراف المعنية الأخرى. جزئيًا ، يتم التركيز بشكل خاص على إمكانية تفسير النماذج بدلاً من الحلول الحديثة التي تعمل على مبدأ الصندوق الأسود. أي أنه من الضروري إنشاء نماذج يمكن أن تفسر سبب قيامهم بذلك أو هذا التنبؤ. يتواءم التعلم العميق مع العديد من المهام ، ولكنه مشهور بعدم إمكانية تفسيره. يحرز الباحثون والمطورون ومحللو البيانات المخلصون تقدمًا في هذا الاتجاه من خلال مشاريع مثل Lime لشرح كيفية عمل نماذج التعلم الآلي.

لقد بدأت للتو الثورة الهائلة في تحليل البيانات في الصناعات البشرية والمجتمع. ليس من الواضح حتى الآن ما إذا كانت مهنة أخصائي تحليل البيانات ستظل العمل الأكثر جاذبية في القرن الحادي والعشرين ، وما إذا كانت ستصبح أكثر تركيزًا أو ستتحول ببساطة إلى مجموعة من المهارات التي يجب أن يمتلكها الباحثون. كما قالت هيلاري ماسون: "هل سيوجد علم البيانات في غضون 10 سنوات؟ "أتذكر عالمًا لم تكن فيه ، ولن أتفاجأ إذا كانت هذه المهنة ستواجه نفس مصير مهنة مشرفي المواقع."

الصورة

Source: https://habr.com/ru/post/ar421845/


All Articles