محلل بيانات المكدس الكامل

غالبًا ما يتم تنظيم تحليل البيانات على هذا النحو: هنا لدينا مطورو المستودع ، وهنا لدينا المحللين. في DWH (مستودع البيانات ، التخزين) يمكنهم SQL ، ويمكن لمحللينا العمل مع Excel. إذا كنا بحاجة إلى تحليل شيء ما ، فانتقل إلى المحللين ، ويذهبون للحصول على البيانات إلى DWH للحصول على البيانات. يبدو أنه منطقي. ويرى الكثير أن هذا تقسيم طبيعي للعمل. في هذه المقالة ، أود أن أنقل فكرة أن تقسيم العمل هذا خاطئ ويقلل بشكل كبير من كفاءة وإنتاجية عملية تحليل البيانات بأكملها.


تبدو دورة العمل النموذجية بشأن مشكلة تحليلية كما يلي:


  1. يأتي العمل بمشكلة ويطلب إجابة.
  2. يناقش المحللون مع رجال الأعمال ما يجب القيام به.
  3. أدرك المحللون أنهم يريدون عملًا منهم وفهم ما يحتاجونه تقريبًا في البيانات.
  4. يكتب المحللون استفسارًا في DWH للحصول على البيانات.
  5. DWH يأخذ طلب ، يقرأ ، يسأل ، يوضح ، يسترجع البيانات ، يعطي.
  6. يفهم المحللون أنهم لم يأخذوا كل شيء أو يسيئون فهمهم ، يكتبون الطلب مرة أخرى في DWH للحصول على البيانات.
  7. DWH يأخذ طلب ، يقرأ ، يسأل ، يوضح ، يسترجع البيانات ، يعطي.
  8. يفهم المحللون أنهم لم يأخذوا كل شيء أو يسيئون فهمهم ، يكتبون الطلب مرة أخرى في DWH للحصول على البيانات.
  9. كرر الخطوتين 7 و 8

ذات مرة ، يقول الرجال في DWH إنهم لا يستطيعون إعطاء بيانات أو أنهم غير مستعدين لمعالجة العديد من الطلبات من المحللين. استجابة لذلك ، يبدأ المحللون في تجميع بياناتهم بعيدًا عن DWH في نوع ما من التفوق. هناك يبدأون في جمع عمليات ETL الخاصة بهم ، قدر الإمكان ، بناءً على ما يمكنهم الحصول عليه من DWH "بدون قتال".


ماذا لدينا نتيجة لذلك:


  1. DWH لا تغطي احتياجات المستهلكين بشكل كاف (حسنًا ، من جانب DWH ، يبدو أن المستخدمين لا يعرفون ما يريدون).
  2. يبدأ المحللون في كتابة عمليات ETL السيئة وإنشاء DWHs الزائفة وفقًا لحجم بياناتهم ، ولكن بدون احتياطي ، والتحكم في الوصول ، والأداء المنخفض ، إلخ.
  3. تفاعل DWH والمحللين يعاني بسبب لا يهتم أحد بالأعمال ، والثاني لا يفهم "لغة الطيور".
  4. تأخرت عملية الحصول على إجابة لسؤال العمل ، لأن عملية معالجة البيانات الآن عبارة عن مجموعة من العمل اليدوي خارج DWH. ولماذا قمنا ببناء DWH ، باستثناء مستودع واحد؟
  5. التغييرات الطفيفة في بيان المشكلة من الأعمال تبدأ دورة تحليل البيانات من الصفر تقريبًا ، لأنه لن تظهر DWH مرة أخرى المرونة ، ولن يكون لدى المحللين بيانات في سياق جديد.

ماذا يمكن أن يكون الحل؟ إذا كنت ترغب في التخلص من مشكلة التفاعل بين DWH والمحللين ، فيجب عليك تقريب كفاءات DWH والمحللين. يمكن استدعاء الشخص الذي يجمع بين هذه الكفاءات محلل بيانات.


ما الذي يجب أن يفعله محلل بيانات Full Stack؟


  1. العمل مع مصادر البيانات الأولية ، وفهم كيفية عمل تخزين البيانات.
  2. لصياغة ما يجب تغييره في المستودع من حيث محتوى البيانات ، وما هي البيانات التي يجب إضافتها وكيفية معالجتها بشكل منهجي بحيث يمكن لمطوري DWH المتشددين تنفيذها.
  3. فهم احتياجات العمل ومناقشة المتطلبات ومساعدة عميلك ، داخليًا أو خارجيًا ، على صياغة مشكلة وحل لها.
  4. القدرة على تصميم حل تحليلي ، أي فهم كيفية حل المشكلة ، وما هي البيانات المطلوبة ، وما يجب "اختراعه" ، وما هي الافتراضات التي يجب إجراؤها
  5. أن تكون قادرًا على تصور نتائجك وإبلاغ عملائك (داخليًا أو خارجيًا)
  6. لكي تتمكن من إجراء دراسة "قابلة للتكرار" ، هذا تحليل يمكن تكراره دائمًا على نفس البيانات والحصول على نفس النتيجة. للقيام بذلك ، تحتاج إلى أن تكون قادرًا على العمل مع R / python أو الأنظمة التي تسمح لك بإضفاء الطابع الرسمي على عملية التحليل.

إذا قمت بدمج الكفاءات التقنية والتحليلية في تحليلات واحدة ، فستحصل على موظف متكامل حقًا يمكنه حل المشكلة من البداية إلى النهاية. وهذا مهم جدا للمهام التحليلية ، مثل فقط هذا المحلل لديه فهم لما يفعله ولماذا. يؤدي التقسيم إلى أولئك الذين "يحللون" وأولئك الذين "يعالجون البيانات" إلى حقيقة أن كل واحد من هؤلاء الموظفين معطل: المحلل بلا أيدي ، لأن لا يمكن الحصول على أي شيء ومعالجته على نطاق واسع ، ومهندس البيانات "بدون أدمغة" ، كما كان. لا يعتقد كيف سيتم استخدامه وما هي الفرضيات الموجودة.


إن تقسيم العمل مهم للغاية ، ولكن يجب أن يتم في مستوى مختلف قليلاً. يجب أن يكون المحلل قادرًا على الحصول على كل ما يحتاجه للتحليل ، ومهمة مهندس البيانات هي بناء أنظمة توفر بفعالية البيانات في أي أقسام محتملة تهم المحلل. بالنسبة لمهندس البيانات ، هذا يعني أنه يجب تخزين البيانات في شكل مرن إلى حد ما ، ولكن في نفس الوقت في شكل مناسب للاستخدام: غير طبيعي جزئيًا ، جزئيًا مع إمكانية الوصول عبر المكعبات ، مجمعة جزئيًا ومحسوبة جزئيًا.


وإذا لم تتمكن من العثور على محلل Full Stack بنفسك ، فقم على الأقل بتضمين Data Engeneer في فريق التحليلات بحيث لا يتم نقل الكفاءة في العمل مع البيانات من التحليل إلى خدمة خارجية.


ليس من عمل محلل البيانات دعم استرداد البيانات من google adwords API ، ولكن ليس من شأن Data Engeneer كتابة تحديد للحصول على بيانات عن الإيرادات في الشهر الماضي.

Source: https://habr.com/ru/post/ar427999/


All Articles