كيف تعرف على وجه اليقين ما هو داخل الكعكة؟
ربما تبتلعه ، وداخله نهر؟ © تانيا Zadorozhnaya
ما هو علم البيانات اليوم ، على ما يبدو ، ليس فقط الأطفال ، ولكن أيضا الحيوانات الأليفة يعرفون. اسأل أي قطة ، وسيقول: الإحصائيات ، Python ، R ، BigData ، التعلم الآلي ، التصور والعديد من الكلمات الأخرى ، اعتمادًا على المؤهلات. لكن ليس كل القطط ، وكذلك أولئك الذين يرغبون في أن يصبحوا متخصصين في علوم البيانات ، يعرفون بالضبط كيف يتم تنظيم مشروع علوم البيانات ، وما هي المراحل التي يتكون منها وكيف يؤثر كل منهم على النتيجة النهائية ، ومدى كثافة الموارد في كل مرحلة من مراحل المشروع. وعادة ما تستخدم المنهجية للإجابة على هذه الأسئلة. ومع ذلك ، فإن معظم الدورات التدريبية المخصصة لعلوم البيانات لا تذكر أي شيء عن المنهجية ، ولكن ببساطة تكشف بشكل أو بآخر عن جوهر التقنيات المذكورة أعلاه ، ويتعرف كل مبتدئ في عالم البيانات على بنية المشروع من تجربته الخاصة (وأشعل النار). لكن شخصياً ، أود الذهاب إلى الغابة بخريطة وبوصلة ، وأحب أن أتخيل مقدمًا خطة المسار الذي تسير فيه. بعد بعض عمليات البحث ، تمكنت من العثور على منهجية جيدة من IBM ، وهي شركة تصنيع معروفة للأدلة وطرق إدارة أي شيء.
لذلك ، في مشروع علوم البيانات ، هناك 3 كتل من 3 مراحل في كل منها ، ما مجموعه 9 مراحل. باختصار ، يتكون المشروع من العمل مع متطلبات العمل والبيانات والنموذج نفسه.
العمل مع متطلبات العمل
في هذه الخطوة ، لا نعرف أي شيء عن البيانات التي لدينا. يجب علينا الخوض في بيان المشكلة ، وفهم النتيجة المطلوبة للحصول عليها من المشروع ، ومعرفة كل شيء عن المشاركين وأصحاب المصلحة. علاوة على ذلك ، وفقًا لمهمة محددة ، يجب أن نقرر الطريقة التي سيتم بها حل المشكلة. ستكون نتيجة هذه الخطوة هي متطلبات البيانات: حسنًا ، المهمة واضحة ، وقد تم اختيار الطريقة ، والآن سنفكر فيما قد نحتاج إليه لحل ناجح؟
العمل مع البيانات
في الخطوة الثانية ، نبدأ في البحث عن بيانات لحل المشكلة: نكتشف المصادر المتاحة لنا ، ونشكل نموذجًا سنواصل العمل معه. بعد جمع البيانات ، من الضروري إجراء سلسلة من الدراسات من أجل فهم أفضل للكيفية التي يتم بها تنظيم العينة: لاستكشاف الموقع المركزي والتباين ، وتحديد الارتباط بين الميزات ، وإنشاء رسوم بيانية للتوزيع. بعد هذه المرحلة ، يمكنك البدء في إعداد البيانات. كقاعدة عامة ، هذه المرحلة هي الأكثر استهلاكا للوقت ويمكن أن تستغرق ما يصل إلى 90 ٪ من وقت المشروع بأكمله ، ولكن نجاح المشروع بأكمله يعتمد على مدى اكتماله.
التطوير والتنفيذ
وأخيرا ، الخطوة الثالثة. بمجرد أن تصبح البيانات جاهزة ، يمكنك متابعة التطوير الفعلي والتنفيذ. نبرمج النموذج ، ونضعه في نموذج التدريب ، ونفحصه في الاختبار الأول ، إذا كانت النتيجة مرضية ، ثم قدمه إلى العميل ، وقم بتطبيقه ، وتجميع الملاحظات ، ... يمكنك البدء من جديد.
يتم تقديم العملية برمتها في شكل حلقة مفرغة: بطريقة جيدة ، لا يمكن أبدًا اعتبار مشروع DS نهائيًا (تقريبًا ، مثل الإصلاح ، والذي ، كما تعلم ، لا يمكن إكماله ، ولكن يمكن إيقافه فقط):

دعنا نذهب إلى مزيد من التفاصيل في كل مرحلة من المراحل.
1. فهم التحدي الأعمال
هذه المرحلة هي الأساس لجميع الأعمال اللاحقة: بدونها لا يمكنك بناء أي شيء. من الضروري تحديد الغرض من الدراسة بوضوح: ما هي المشكلة؟ لماذا يجب حل المشكلة؟ من المتأثر بالمشكلة؟ ما هي البدائل؟ والأهم من ذلك: بأي مقاييس سيتم قياس نجاح المشروع؟
بمعنى آخر ، من الضروري تحديد هدف العميل بوضوح. على سبيل المثال ، يسأل مالك النشاط التجاري: هل يمكننا تقليل تكلفة نشاط معين؟ بحاجة إلى توضيح: هل الهدف هو زيادة فعالية هذا النشاط؟ أو زيادة إيرادات الأعمال؟
بمجرد تحديد الهدف ، يمكنك المتابعة إلى الخطوة التالية.
2. النهج التحليلي
أنت الآن بحاجة إلى اختيار نهج تحليلي لحل مشكلة العمل. يعتمد اختيار الطريقة على نوع الإجابة التي تحتاج إلى الحصول عليها في النهاية: إذا كان يجب أن تكون الإجابة بنعم / لا ، فإن مصنف Bayes الساذج مناسب. إذا كنت بحاجة إلى إجابة على شكل علامة رقمية ، فإن نماذج الانحدار مناسبة. يمكن لأشجار القرار التعامل مع كل من البيانات العددية والفئوية. إذا كان السؤال هو تحديد احتمالات بعض النتائج ، فمن الضروري استخدام نموذج تنبؤي. إذا كانت الروابط تحتاج إلى تحديد ، يتم استخدام نهج وصفي.
3. متطلبات البيانات
عندما يتم تحديد الغرض من الدراسة بوضوح ويتم اختيار المنهج ، أي أننا نفهم بوضوح نوع الإجابة على السؤال الذي نبحث عنه ، فمن الضروري تحديد البيانات التي ستمكننا من تقديم الإجابة المطلوبة. يجب أن نعد متطلبات البيانات: المحتوى والأشكال والمصادر التي سيتم استخدامها في المرحلة التالية من المشروع.
4. جمع البيانات
في هذه المرحلة ، نقوم بجمع البيانات من المصادر المتاحة: نتأكد من أن المصادر متاحة وموثوقة ويمكن استخدامها للحصول على البيانات المطلوبة بالجودة المطلوبة. بعد الانتهاء من جمع البيانات الأولية ، من الضروري أن نفهم ما إذا كنا تلقينا البيانات التي أردناها. في هذه المرحلة ، يمكنك مراجعة متطلبات البيانات واتخاذ القرارات بشأن الحاجة إلى بيانات إضافية (أي ، من المحتمل أنك ستضطر إلى العودة إلى المرحلة 3). يمكن تحديد الثغرات في البيانات ويمكن وضع خطة حول كيفية إغلاقها أو العثور على بديل.
5. تحليل البيانات
يشمل تحليل البيانات جميع أعمال تصميم العينات. في هذه المرحلة ، من الضروري الحصول على إجابة على السؤال: هل ممثل البيانات الذي تم جمعه للمهمة؟
نحن هنا بحاجة إلى إحصاءات وصفية. ينطبق على جميع المتغيرات التي سيتم استخدامها في النموذج المحدد: يتم فحص الموضع المركزي (الوسط ، الوسيط ، الوضع) ، والبحث عن القيم الخارجية وتقدير التباين (كقاعدة عامة ، هذا هو الحجم والتباين والانحراف المعياري). كما يتم إنشاء رسوم بيانية لتوزيع المتغيرات. تعد الرسوم البيانية أداة جيدة لفهم كيفية توزيع قيم البيانات ونوع الإعداد اللازم حتى يكون المتغير مفيدًا جدًا عند إنشاء نموذج. قد تكون أدوات التصور الأخرى ، مثل مربعات الشارب ، مفيدة أيضًا.
بعد ذلك ، يتم إجراء مقارنات زوجية: يتم حساب الارتباطات بين المتغيرات لتحديد أي منها يرتبط ومدى ارتباطه. إذا كان هناك ارتباط كبير بين المتغيرات ، فقد يتم تجاهل بعضها كمكرر.
6. إعداد البيانات
إلى جانب جمع وتحليل البيانات ، يعد إعداد البيانات أحد أكثر الأنشطة كثافة في استخدام الموارد للمشروع: يمكن أن تستغرق هذه المراحل 70 أو حتى 90٪ من وقت المشروع. في هذه المرحلة ، نقوم بمعالجة البيانات بطريقة ملائمة للعمل بها: حذف التكرارات ومعالجة البيانات المفقودة أو غير الصحيحة ، والتحقق من تصحيح الأخطاء ، وإذا لزم الأمر ، تصحيحه.
في هذه المرحلة أيضًا ، نقوم ببناء مجموعة من العوامل التي سيعمل عليها التعلم الآلي في المراحل التالية: نقوم باستخراج وتحديد الميزات التي من المحتمل أن تساعد في حل مشكلة العمل. قد تتحول الأخطاء في هذه المرحلة إلى أهمية حاسمة بالنسبة للمشروع بأكمله ، وبالتالي فإن الأمر يستحق الاهتمام به بشكل خاص: يمكن أن يؤدي العدد المفرط من السمات إلى إعادة تدريب النموذج ، وعدم كفاية النموذج الذي يتم تدريبه على نحو ناقص.
7. بناء نموذج
اختيار النموذج ، كما ترون ، يتم في بداية العمل ويعتمد على مهمة العمل. وبالتالي ، عندما يتم تحديد نوع النموذج وهناك عينة تدريب ، يقوم المحلل بتطوير النموذج والتحقق من كيفية عمله على مجموعة الميزات التي تم إنشاؤها في الخطوة 6.
8. تطبيق النموذج
يرتبط تطبيق النموذج ارتباطًا وثيقًا بالبناء الفعلي للنموذج: تتناوب الحسابات مع تكوين النموذج. في هذه المرحلة ، يجب علينا الإجابة على سؤال حول ما إذا كان النموذج المصمم يلبي مهمة العمل أم لا.
يتكون حساب النموذج من مرحلتين: يتم إجراء قياسات تشخيصية تساعد على فهم ما إذا كان النموذج يعمل كما هو مقصود أم لا. إذا تم استخدام نموذج تنبؤي ، فيمكن استخدام شجرة القرارات لفهم أن مخرجات النموذج تتوافق مع الخطة الأصلية. في المرحلة الثانية ، يتم فحص الأهمية الإحصائية للفرضية. من الضروري التأكد من استخدام البيانات الموجودة في النموذج وتفسيرها بشكل صحيح وأن النتيجة التي تم الحصول عليها تتجاوز الخطأ الإحصائي.
9. التنفيذ
إذا كان النموذج يعطينا إجابة مرضية على السؤال ، يجب أن تبدأ هذه الإجابة لتكون مفيدة. عندما يتم تطوير النموذج ، ويكون المحلل واثقًا من نتيجة عمله ، فمن الضروري تعريف العميل بالأداة المطورة. من المنطقي جذب ليس فقط مالك المنتج ، ولكن أيضًا الأطراف المعنية الأخرى: التسويق والمطورين ومسؤولي النظام: كل شخص يمكنه التأثير بطريقة أو بأخرى على زيادة استخدام نتائج المشروع. بعد ذلك ، تحتاج إلى الانتقال إلى التنفيذ. يمكن أن يحدث التنفيذ على مراحل ، على سبيل المثال ، لمجموعة محدودة من المستخدمين أو في بيئة اختبار. من الضروري أيضًا إنشاء نظام للتغذية الراجعة من أجل تتبع مدى نجاح النموذج المطور في التعامل مع المهمة. بعد مرور بعض الوقت ، ستكون هذه التعليقات مفيدة من أجل تحسين النموذج. مصادر بيانات جديدة ، قد يظهر أيضًا أصحاب مصلحة جدد ، ناهيك عن حقيقة أن مهمة العمل نفسها يمكن تحديدها. وبالتالي ، لا يوجد حد للكمال: حتى النموذج المضمن لا يمكن اعتباره مثاليًا أبدًا.