ما هو الفرق بين الباحث البيانات والإحصائي؟

مرحبا بالجميع. مجموعة الدورة الجديدة من Otus - "Applied Analytics on R" ، والتي تبدأ بالفعل في نهاية هذا الشهر ، مفتوحة. في هذا الصدد ، أود أن أشارك ترجمة المنشور حول الفرق بين محلل البيانات والإحصائي ، الذي بدوره يستخدم R في الممارسة.



مقدمة


على مدى السنوات العشر الماضية ، نمت أحجام البيانات ومعدل ظهورها بشكل كبير. وفقا للتقارير ، أكثر من 3 كوينتيليون بايت من البيانات تظهر كل يوم! ليس من المستغرب أن تظهر مهنة جديدة لعالم البيانات للعمل معهم - متخصص متعدد الاستخدامات في تحليل البيانات ومعالجتها. ومع ذلك ، كان الناس يشاركون في الإحصاءات قبل ظهور أدوات معالجة البيانات الرقمية. ما هي الاختلافات بين هاتين الوظيفتين: باحث البيانات والإحصاء؟


دعونا معرفة ذلك.


من هو مستكشف البيانات؟


باحث البيانات متفوق في الصفات المهنية على أي مهندس برمجيات ، كما أنه على دراية جيدة في تطوير البرمجيات أكثر من أي إحصائي.
يعمل الباحثون في البيانات بكميات كبيرة من البيانات ، والتي هي ، كقاعدة عامة ، في مستودعات المنظمات أو في المواقع ، ولكن في نفس الوقت تكون غير مجدية عملياً من حيث الحصول على مزايا استراتيجية أو مالية. من أجل تقديم توصيات واقتراحات لاتخاذ القرارات المثلى ، يقوم باحثو البيانات بتزويد أنفسهم بالخطط الإحصائية وتقييم البيانات السابقة والحالية من هذه المصادر.


في أنظمة التسويق والتخطيط ، يهتم باحثو البيانات بشكل أساسي بتحديد الأفكار والمؤشرات الإحصائية التي يمكن أن تكون مفيدة لإعداد وتنفيذ وتتبع سياسات التسويق الموجهة نحو تحقيق النتائج.


ما هي الإحصاءات؟


يقوم الإحصائيون بجمع وتقييم المعلومات بحثًا عن أنماط السلوك أو أوصاف البيئة. بناء على هذه المعلومات ، يبنون النماذج. هذه النماذج يمكن استخدامها للتنبؤ وفهم الكون.


على سبيل المثال ، تشير الإحصاءات إلى أنه من الآمن الاحتفال بعيد ميلاد - كلما كان الشخص أكبر سناً ، زاد عدد أعياد الميلاد التي احتفل بها.


يقوم الباحث في مجال الإحصاء بإنشاء واستخدام نماذج إحصائية أو رياضية للمساعدة في حل المشكلات الحقيقية على أساس البيانات المفيدة المجمعة والمعممة. يتم جمع البيانات وتحليلها واستخدامها في مختلف المجالات ، بما في ذلك الهندسة والعلوم والأعمال. تساعد البيانات العددية المتراكمة الشركات وعملائها على فهم المؤشرات الكمية وتتبع أو التنبؤ بالاتجاهات المفيدة في اتخاذ القرارات التجارية.


الاختلافات المهارة


مستكشف البيانات


1. التعليم
عادة ما يكون علماء الكمبيوتر حاصلين على درجة عالية من التعليم - 88 ٪ منهم يحملون درجة الماجستير ، و 46 ٪ منهم مرشحون للحصول على درجة مرشح. على الرغم من وجود استثناءات لهذه القاعدة ، بشكل عام ، للحصول على المعرفة والمهارات اللازمة للخبير في مجال علم المعلومات ، كقاعدة عامة ، مطلوب تدريب قوي.


2. البرمجة في R
يفضل أن يعرف محللو البيانات أداة واحدة على الأقل. تم إنشاء R خصيصًا لاحتياجات علوم البيانات. باستخدام R ، يمكنك معالجة أي معلومات للأغراض العلمية. يستخدم 43 ٪ من الباحثين في البحث R لحل المشكلات الإحصائية. ومع ذلك ، R لديه مسار شائك إلى حد ما من الدراسة.


3. البرمجة في بيثون
Python ، إلى جانب Java و Perl و C / C ++ ، هي واحدة من لغات البرمجة الأكثر شيوعًا لعلوم البيانات. للباحثين عن البيانات ، بيثون هو خيار جيد.


4. Hadoop منهاج
ليس في كل شيء ، ولكن في كثير من الحالات ، ملكية هذه الأداة مرغوب فيها للغاية. تزيد قيمة الأخصائي إذا كان لديه خبرة في Hive أو Pig. الأدوات السحابية مثل Amazon S3 قد تكون مفيدة أيضًا.


5. مزود: العمل مع قواعد البيانات والبرمجة
يجب أن يكون الباحثون في البيانات بارعين في SQL. تم تصميم لغة البرمجة هذه خصيصًا للعمل مع البيانات. يتيح لك الحصول على المعلومات التي تهتم بها من قواعد البيانات باستخدام تعليمات الاستعلام الموجزة - بسرعة ودون كتابة التعليمات البرمجية المرهقة.


6. تعلم الآلة والذكاء الاصطناعي
لا يعرف الكثير من الباحثين في البيانات خوارزميات وأساليب التعلم الآلي ، دون فهم أي شيء في الشبكات العصبية ، والتعلم العميق والتنافسي ، وأشياء مماثلة. ومع ذلك ، إذا كنت تريد أن تبرز من بقية الباحثين في البيانات ، فأنت تفهم بشكل أفضل أساليب مثل التعلم الآلي مع المعلم ، وأشجار القرار ، والانحدار اللوجستي ، إلخ.


7. التصور البيانات
كمية البيانات في عالم الشركات ضخمة. أنها تتطلب تحويل إلى تنسيقات أسهل للفهم. كقاعدة عامة ، يدرك الأشخاص البيانات بشكل أفضل في شكل رسوم بيانية ومخططات.


8. البيانات غير المهيكلة
يجب أن يكون مستكشف البيانات جاهزًا للعمل مع البيانات غير المهيكلة. هذه البيانات بتنسيق تعسفي ولا يتم تخزينها في قواعد البيانات - على سبيل المثال ، الصور وإدخالات المدونة وتعليقات العملاء والمنشورات على الشبكات الاجتماعية ومقاطع الفيديو والملفات الصوتية ، إلخ.


9. معرفة مبادئ العمل
لكي تكون باحثًا في مجال المعلومات ، تحتاج إلى فهم القطاع الذي تعمل فيه ، بالإضافة إلى مهام العمل التي تواجهها شركتك.


10. مهارات الاتصال
تحتاج الشركات التي تبحث عن باحث قوي في البيانات إلى شخص يمكنه نقل النتائج الفنية بشكل مفهوم ومفهوم إلى جمهور غير أساسي ، مثل المسوقين أو المتخصصين في المبيعات.


إحصائيات


  • معرفة عميقة بنظرية الاحتمالات والإحصاء الاستقرائي.
  • القدرة على العمل بالأرقام - تعكس هذه المهارة المستوى العام للذكاء ، ويساهم تطورها إلى حد كبير في تحقيق أهداف المنظمة.
  • المهارات التحليلية - القدرة على جمع البيانات وتقييمها وحل المشكلات واتخاذ الخيارات. ستساعد هذه المهارات في حل المشكلات التي تواجهها الشركة وزيادة إنتاجية العمل وتحقيق أهداف الشركة.
  • مهارات الكتابة والتواصل الشفوي.
  • المهارات الشخصية الجيدة هي ميزات وسلوكيات نظهرها عند التفاعل مع الآخرين. تعتبر واحدة من أكثر المهارات الاجتماعية والنفسية ذات الصلة. نستخدمها في جميع حالات التفاعل اللفظي وغير اللفظي. في الواقع ، فإن سمات الشخصية الرئيسية وموقف الشخص من العمل لها تأثير حاسم على قدرته على النجاح في منصب معين.

أداة الاختلافات


أدوات الإحصاء


1. SPSS
تعتبر الحزمة الإحصائية للعلوم الاجتماعية (SPSS) من أكثر البرامج الإحصائية شيوعًا في مجال أبحاث السلوك البشري. تتيح لك الواجهة البصرية لـ SPSS الجمع بين الإحصائيات الوصفية ونتائج التحليل البارامترية وغير البارامترية ، المقدمة في شكل رسوم بيانية. SPSS لديه القدرة على إنشاء نصوص لأتمتة التقديرات أو الحسابات الإحصائية المعقدة.


2. ر
R عبارة عن حزمة برامج مجانية يتم استخدامها بنشاط في دراسات السلوك البشري ومجالات أخرى. تتوفر الأدوات المستندة إلى R والتي تبسط الخطوات المختلفة لعملية معالجة المعلومات للعديد من التطبيقات. R برنامج عالي الأداء ، لكن إتقانه ليس بهذه البساطة. بالإضافة إلى ذلك ، سيتطلب استخدامه مهارات كتابة التعليمات البرمجية.


3. MATLAB (Mathworks)
MatLab عبارة عن منصة تحليل وبرمجة تستخدم على نطاق واسع من قبل الخبراء التقنيين والباحثين. كما في حالة R ، يكون مسار التطوير شائكًا ، وستحتاج في مرحلة معينة إلى كتابة برامجك الخاصة. ستساعد مجموعة متنوعة من الأدوات على التعامل مع مهام البحث (على سبيل المثال ، تم تصميم أداة EEGLab لتحليل بيانات EEG). على الرغم من أنه سيكون من الصعب على المبتدئين استخدام MatLab ، فإن هذه الحزمة توفر إمكانيات واسعة جدًا ، شريطة أن تتمكن من كتابة التعليمات البرمجية (أو على الأقل تشغيل الأدوات اللازمة).

4. مايكروسوفت اكسل
يوفر Microsoft Excel مجموعة من أدوات التصور والوظائف الإحصائية سهلة الاستخدام ، على الرغم من أنها ليست أداة تحليل إحصائية كاملة. من السهل التعامل مع الأرقام وحساب مجاميع الملخص وإنشاء رسومات بيانية مخصصة. هذه أدوات مفيدة لأولئك الذين يرغبون في معرفة البيانات الموجودة في صلب المعلومات المتاحة. نظرًا لاستخدام Excel من قِبل العديد من الأشخاص والشركات ، يمكن اعتباره خيارًا مقبولًا للمبتدئين.

5. GraphPad بريزم
يوفر GraphPad Prism العديد من الفرص التي يمكن تطبيقها في مجموعة متنوعة من المجالات ، وخاصة في الإحصائيات المتعلقة بالبيولوجيا. مثل SPSS ، يمكن أتمتة التحليل والحسابات الإحصائية المعقدة هنا باستخدام البرامج النصية.

6. مينيتاب
توفر حزمة البرامج Minitab العديد من الأدوات الإحصائية الأساسية ومتطورة إلى حد ما لتقييم المعلومات. مثل GraphPad Prism ، بفضل واجهة المستخدم الرسومية والبرامج النصية ، يمكن الوصول إليها لكل من المبتدئين والمستخدمين الذين يحتاجون إلى تحليل أكثر تعقيدًا.


أدوات الباحث البيانات


1. ر
R عبارة عن حزمة برامج مجانية للحسابات الإحصائية وتصورها. يقوم R بترجمة وتشغيل العديد من أنظمة تشغيل UNIX و Windows و macOS.


2. بيثون
Python هي لغة برمجة شائعة طورها Guido van Rossum. تم نشر الكود المصدري للغة لأول مرة في عام 1991. يستخدم Python لتطوير الواجهة الخلفية وتصنيع الكمبيوتر والرياضيات والبرامج النصية للأنظمة.


3. جوليا
تم إنشاء لغة جوليا في الأصل من أجل الحوسبة عالية الأداء. بالنسبة لأنظمة LLVM المختلفة ، يتم تجميع برامج Julia في كود أصلي فعال. Julia هي لغة برمجة ديناميكية للكتابة تبدو وكأنها لغة برمجة ولديها نصائح تفاعلية رائعة في بيئة التطوير.


4. تابلوه
تعد Tableau واحدة من أسرع أدوات عرض البيانات نمواً في قطاع ذكاء الأعمال. هذه هي أفضل طريقة لتحويل البيانات الخام إلى تنسيقات سهلة الفهم لا تتطلب معرفة فنية ومهارات برمجة.


5. QlikView
QlikView هي واحدة من المنصات الرئيسية لاكتشاف بيانات المؤسسة. إنه يختلف عن أنظمة ذكاء الأعمال التقليدية في عدد من الخصائص. كأداة لتحليل المعلومات ، تقوم دائمًا بتصور العلاقة بين البيانات باستخدام اللون ، كما تعرض المعلومات غير ذات الصلة. يتم تنفيذ البحث المباشر وغير المباشر عن طريق إدخال الاستعلامات في رؤوس القائمة.


6. AWS
تقدم خدمات الحوسبة وموارد قواعد البيانات وخدمات توصيل المحتوى ، حيث تساعد Amazon Web Services (AWS) ، وهي نظام سحابي آمن ، الشركات على تنمية أعمالها. يستخدم ملايين العملاء بالفعل AWS والبدائل لتطوير التطبيقات المعقدة بمرونة كبيرة وقابلية للتوسعة والموثوقية.


7. شرارة
أباتشي سبارك هو إطار سريع للحوسبة العنقودية. وهو يدعم واجهات برمجة التطبيقات عالية المستوى لجافا ، Scala ، Python ، و R ، وكذلك محرك معالجة الرسم البياني الأمثل.


8. رابيد مينر
RapidMiner هي عبارة عن منصة تقنية لمعالجة البيانات. ويشمل وظائف إعداد البيانات ، والتعلم الآلي وخوارزميات التعلم العميق ، وأدوات تحليل النص ، وبيئة التحليلات التنبؤية. يدعم RapidMiner جميع أدوات التعلم الآلية ، بما في ذلك إعداد المعلومات ، وتصور النتائج ، والتحقق من الامتثال لمتطلبات المشروع ، والتحسين. يستخدم RapidMiner في الأعمال التجارية ، والصناعة ، للتدريب والتعليم ، والنماذج الأولية السريعة وتطوير البرمجيات.


9. Databricks
تم تصميم منصة Databricks ، التي تجمع بين معالجة البيانات ودعم تقنية الأعمال ، لمتخصصي البيانات والمهندسين والباحثين. تدعم المنصة دورة حياة تعلم الآلة بالكامل: من إعداد المعلومات إلى الاختبار والتنفيذ.


الاختلافات في الأجور


لا يقتصر البحث على البيانات على الطلب من عمل الإحصائيين فحسب ، بل أيضًا بأجر أفضل. وفقًا لـ Glassdoor ، فإن متوسط ​​الراتب لباحث البيانات في الولايات المتحدة هو 118709 دولارًا ، والإحصاءات 75.069 دولارًا. Data Researcher - متخصص متعدد الاستخدامات للمؤسسة ، قادر على تقديم إجابات للأسئلة المهمة. عادة ما يحصل على سؤال مفتوح. يكتشف المتخصص المعلومات المطلوبة ، ويحدد الموعد النهائي للمهمة ، ويؤدي النمذجة والتحليل ، ويكتب برنامجًا رائعًا يسمح لك بالحصول على إجابة.


الفرص الوظيفية


إحصائيات الفرص الوظيفية


فني احصاء
يقوم خبراء الإحصاء عمومًا بتحليل المعلومات تحت إشراف خبير إحصائي كبير ، والذي قد يكون أيضًا معلمه. بعد مرور بعض الوقت ، يترك العديد من هؤلاء المتخصصين وراء الكواليس للحصول على وظائف أكثر مسؤولية ومستقلة وتولي مهام تقنية معقدة.


الإحصاء التطبيقي
يعد الإحصائيون التطبيقيون مسؤولين عن ضمان جمع البيانات المناسبة وإعدادها للتحليل لكل قضية مهمة (أو إجراء تحليل مناسب) وإعداد تقرير بالنتائج. إنهم يعملون عن كثب مع الخبراء التقنيين الآخرين والإدارة ، كجزء لا يتجزأ من فريق المشروع.


كبير الإحصائيين
خبير إحصائي كبير لديه مجموعة من المسؤوليات أكبر من الإحصاءات المطبقة. يستكشف القضايا بشكل شامل لإيجاد صلات مع أهداف المنظمة ككل. لتقديم أفكار جديدة من شأنها أن تعود بالنفع على المنظمات والعملاء مع مرور الوقت ، فإن كبار الإحصائيين استباقيون. غالبًا ما يتصلون في المراحل الأولى من المشروع ، ويساعدون في تحديد المشكلات بناءً على الأرقام ، والتوصية بطرق لحلها للإدارة العليا. ثم يتم تجنيدهم لإعداد وتقديم النتائج. في المسائل الإحصائية ، غالبًا ما يكونون أفضل مصدر للمعلومات والخبرات.


رئيس الإحصاء
يشارك رؤساء الإدارات الإحصائية ، وخاصة الأصغر سنا ، في تخطيط المشروع ، مما يساعد على تحديد ما يجب أن يحدث. يقومون بتوظيف الموظفين ، وتقديم المشورة ، وهم مسؤولون عن النتائج الإجمالية للمشروعات. يقومون بإبلاغ كبار المديرين بإنجازات القسم ومساعدة موظفيهم في التطوير الوظيفي وتحديد اتجاهات التطوير. تشمل واجباتهم الإدارية تعيين الموظفين وتطويرهم ، وكذلك تقييم فعالية عملهم. لأسباب واضحة ، مطلوب عدد أقل من المديرين من العمال العاديين.


مستشار خاص في الإحصاء
يصبح بعض الإحصائيين التطبيقيين مستشارين خاصين مستقلين. يؤدون دراسات خاصة ، وغالبًا ما يتم تكليفهم من قبل منظمات ليس لديها إحصائيون ، أو يقومون بتقييم عمل الإحصائيين الآخرين. غالبًا ما يشارك الاستشاريون الإحصائيون كخبراء في حل المشكلات القانونية.


محلل بيانات الفرص الوظيفية


مستكشف البيانات
يعمل باحثو البيانات مع النماذج الإحصائية والرياضية المستخدمة لمعالجة المعلومات. سيكون العقل المشرق لأحد أخصائي تحليل البيانات مفيدًا عند إنشاء نظام لتقييم عدد القروض التي لا يمكن سدادها في الشهر المقبل.


أخصائي معالجة البيانات
يستخدم هؤلاء المتخصصون ذوو القاعدة العريضة أنظمة الحوسبة لمعالجة مجموعات البيانات الكبيرة ، بالاعتماد على معرفتهم بتطوير البرمجيات. عادة ، يعرف كل منهم عدة لغات البرمجة ، مثل بايثون وجافا. عادة ، يركز هؤلاء الموظفون على كتابة التعليمات البرمجية ، ومسح البيانات ، وتنفيذ استفسارات من الباحثين في البيانات . لتحويل النموذج التنبؤي الذي أنشأه باحث البيانات إلى رمز البرنامج ، يلجأون عادة إلى خدمات أخصائي معالجة البيانات.


المحلل
وأخيرًا ، هناك خبراء يقومون بالبحث في البيانات وإنشاء التقارير وتصور ما تحمله هذه البيانات. يساعد المحللون موظفي الشركة في الحصول على معلومات حول قضايا محددة.


ملخص


محلل بارز هو متخصص قيمة. هو الأمثل أسلوبه الترميز من حيث السرعة. لكنه ليس إحصائيًا ، ولا حتى سيئًا ، لأنه لا يقدم استنتاجات نهائية تستند إلى الحقائق. تتمثل المهمة الرئيسية للمحلل في: "هذا هو ما تحتويه بياناتنا. قول ما يلي من هذا ليس مهمتي. ربما يريد صانع القرار الحصول على إحصاءات لمعرفة ذلك. "


هذا كل شيء ، نحن ننتظر الجميع في الدورة .

Source: https://habr.com/ru/post/ar459354/


All Articles