قرر عالم البيانات: جعل الاعتماد على احتمال وقوع حادث على تجربة القيادة والعوامل الخارجية



ويعتقد أن العالم ينفذ معظم العمليات بمساعدة حلول المكتبة الجاهزة. ولكن في الواقع ، في المشاكل النموذجية ، يجب أن تكون قادرًا على التحقق من مدى ملاءمة الطريقة المحددة ، وإذا لزم الأمر ، قم بتعديلها لتناسب ظروفك. جنبا إلى جنب مع بيتر لوكيانشنكو ، مدرس الرياضيات العليا لعلوم البيانات في OTUS ، وفي الماضي ، فريق تحليلات الرصاص في لامودا ، نقوم بتحليل كيف تساعد الرياضيات في مشاكل العمل الحقيقية.



يخصص الجزء الأول من ثلاثة أجزاء من هذا الموضوع لتحليل الانحدار .

هدف العمل: تحتاج شركة مشاركة السيارات إلى تحديد التبعية ، لأن سلسلة من العوامل - تجربة القيادة ، والظروف الجوية ، وظروف سطح السيارة والطريق ، وحركة المرور ، وسكان المدينة ، إلخ - تؤثر على احتمال وقوع حادث.

بالنسبة لـ Data Scientist ، تبدو هذه المهمة كما يلي: حساب معادلة الاعتماد على مجموعة واحدة من الملاحظات على مجموعة من المعلمات الأخرى.

مشكلة الحل النموذجي: النماذج التي تقدم المكتبات افتراضيًا إلى خطأ توزيع عادي. حسابها تقريبي إلى حد ما ، ونادراً ما يقترب من الاعتماد الذي تم الحصول عليه. علاوة على ذلك ، يؤدي إدراج خطأ غير دقيق في المعادلة إلى حقيقة أنه مع كل مجموعة جديدة من المعلمات يصبح التنبؤ أقل وأقل دقة.

كيف تحفظ الرياضيات


لنبدأ بوصف العلاقة لعامل واحد - تجربة القيادة. يستخدم نموذج الانحدار الخطي الكلاسيكي المزدوج معاملين. المعامل الأول α (ألفا) هو قيمة غير مشروطة عندما يكون هناك ببساطة احتمال عام لحادث ، بغض النظر عن أي معلمات ، ببساطة عن طريق الصدفة. يحدد المعامل الثاني (بيتا) حساسية عامل تجربة القيادة لاحتمال وقوع حادث. يُسمى المعامل β الميل في معادلة التبعية. ونظرًا لأنه ستكون هناك دائمًا عوامل نسيناها أو لم نتمكن من أخذها في الاعتبار ، يجب أن نضيف بعض الخطأ U i إلى المعادلة.

نحصل على المعادلة: y i = α + βx i + U i .



في الواقع ، تتمثل مهمة المحلل في البحث عن مثل هذه المعاملات التي يكون فيها الخطأ U هو الأصغر.

هناك عدد لا بأس به من أنواع حساب الخطأ. بسبب بساطته ، فإن الخطأ المطلق الأكثر شعبية هو انحراف القيمة المتوقعة من القيمة المطلقة. الخطأ الشائع في هذه الحالة هو مجموع الوحدات. مشكلة الوحدة النمطية هي أن هذه الوظيفة لا يمكن تمييزها على كامل مساحة الأرقام. ثم توصل علماء الرياضيات إلى فكرة التحول المستمر من أجل تعميم الخطأ ، وبدأوا في تلخيص مربعات هذه الانحرافات. نظرًا لأن هذه الوظيفة مستمرة ، يمكننا تطبيق تحسين Lagrange (تحسين وظيفة اثنين من المتغيرات). بعد حساب مشتقات الوظيفة فيما يتعلق بـ α و β ، نجد نقاط extrema ، ثم نقوم بتصنيفها من خلال خاصية Hessian (وفقًا لقاعدة Hesse). يتم تشكيل اثنين من المعاملات α ' و β' المقابلة لطريقة المربعات الصغرى. إنها تقوم على أساس نظرية Gauss-Markov ، وهو نموذج الانحدار الزوجي الأمثل. الدرجات التي حصلت عليها هي الأفضل ، ولا يمكن مقاطعة نتائجها بأي طريقة أخرى.



مقياس العملية


نصل الآن إلى حقيقة أن احتمال الدخول في حادث يتأثر بالعديد من البارامترات الأخرى التي يمكن التعبير عنها في تقييم كمي. اتضح أن Y تعتمد على العدد التاسع للمتغيرات X. حتى لا نكرر نفس الحساب لجميع المعاملات α و β لكل معلمة ، ننتقل إلى معادلة المصفوفة الخاصة بالاعتماد. بعد التمييز بيننا بعناية ، يمكننا الحصول على مصفوفة من المعاملات ، لذلك نحن نعمم معادلة الانحدار المزدوج على الأبعاد المتعددة.

الخطأ هو المفتاح


نقطة أخرى مهمة في حل مشاكل الانحدار تتعلق باختيار الخطأ. في كثير من الأحيان ، يختار المحللون خطأ موزعة بشكل طبيعي. في الواقع ، هذه طريقة قديمة. لا يزال يعمل بشكل جيد في الظروف النظرية ، لكنه بالفعل بدائي للغاية بالنسبة لخوارزمياتنا التي أصبحت باستمرار أكثر تعقيدًا وتسعى إلى الحقيقة. بالنسبة للأخصائي المختص ، يعد الخطأ موضوعًا بحثيًا يساعد في فهم جوهر الانحدار بشكل أفضل. بعد أن بنى انحدارًا واحدًا ، يبحث في الأخطاء التي أحدثتها ويستكشف سحابة الأخطاء بأكملها. على سبيل المثال ، إذا ازدادت الانحرافات ، فهذه علامة على تبدل الجنس الآخر ، أي ثم نسينا أن نأخذ في الاعتبار بعض متغيرات X ولم نحسبها. إذا اكتشف أن الأخطاء تقع وفقًا لبعض القوانين ولاحظ وجود ارتباط تلقائي فيها ، فهذه علامة على أننا ارتكبنا خطأً في النموذج. من الناحية المثالية ، يجب أن تسعى جاهدين لتقليل انحراف الخطأ من الصفر.

لذا ، ما هي المعرفة بالرياضيات العليا التي احتجنا إليها لبناء اعتماد معقد على احتمال وقوع حادث على مجموعة من العوامل:

  1. حصيرة. تحليل لتحسين وظيفة الانحدار
  2. الجبر الخطي ، أي تعريف وخصائص وتمايز المصفوفات ، للانتقال من الانحدار الزوجي إلى متعدد الأبعاد
  3. تحليل واختيار نوع توزيع الخطأ. على سبيل المثال ، قد يأخذ المتخصص توزيعًا عامًا معممًا أو توزيعًا تجريبيًا أو توزيعًا للطلاب. هذا ضروري بشكل خاص في الحالات التي لا توجد فيها عينة جيدة وعندما لا يمكن تحسينها. وأيضًا عندما تنتهك حالة نظرية غاوس - ماركوف وتثور الحاجة إلى بناء معادلة الانحدار بشكل مختلف أو استخدام طرق أخرى لتصنيف الاحتمال وتقديره.

تعد القدرة على العمل مع جهاز رياضي ميزة مهمة لـ "عالم البيانات" ، والتي تتيح له التحقق من النتائج وحل المشكلات غير التقليدية. في المقال التالي سوف نتحدث عن الحلول الرياضية للخدمات الاستشارية. في غضون ذلك ، ندعوك إلى دورات في الرياضيات لعلوم البيانات ، والتي ستبدأ هذا الأسبوع.

بالنسبة للدورة الأساسية - بدءًا من 29 كانون الثاني (يناير) - معرفة كافية بالمنهاج المدرسي ، للمتقدم - ابتداءً من 31 كانون الثاني (يناير) - مطلوب معرفة 1-2 دورات للمعهد .

لديك الوقت للتسجيل واجتياز اختبار القبول.

Source: https://habr.com/ru/post/ar485944/


All Articles