فكر في كيفية عمل الخوارزميات في تسجيل النتائج المصرفية ، وما المقاييس المستخدمة وما هي معلمات المقترض التي تؤثر على ما إذا كانوا سيعطون قرضًا أم لا. توضح المقالة
المنافسة السابقة
مع kaggle على التنبؤ باحتمال التخلف عن السداد وتوفر المعلمات التي تؤثر على خطر التخلف عن السداد.
خطأ من النوع الأول والثاني
هدف البنك هو كسب المال. الخطر الأول الذي تواجهه مؤسسة الائتمان هو منح قرض للمقترض الذي يتخلف عن السداد. يمكن أن يكون للتقصير أسباب مختلفة ، من الصعوبات المالية للمقترض إلى الاحتيال.
بالنسبة للبنك ، هذا خطأ من النوع الأول.
لكن إذا اتبع البنك سياسة صارمة ولم يصدر قروضًا لأي شخص ، حتى أولئك الذين سيعودون بالمال ، فلن يجني البنك فائدة. رفض قرض لمقترض مسؤول هو خطأ من النوع الثاني.
لتقييم جودة القرارات التي اتخذتها الخوارزمية ، يتم استخدام معامل جيني (GINI). في الاقتصاد وعلوم البيانات ، لمعامل جيني تفسير مختلف. لتسجيل الائتمان ، يتم احتسابها على أنها
GINI = 2 ROC AUC - 1
لتقييم الدرجات المصرفية ، يتم استخدام منحنى ROC AUC القياسي!

الشكل. 1 ROC AUC منحنى. تُظهر المنطقة الموجودة أسفل المنحنى جودة الخوارزمية. إذا كانت المساحة 0.5 ، فهذا يمثل تنبؤًا عشوائيًا (بالنسبة لمصنف ثنائي) ، 1 يمثل توقعات مثالية.
سجل الخوارزميات
ميزة تسجيل الخوارزميات هي شرط التفسير. في هذا الصدد ، غالبا ما تستخدم النماذج الخطية.
لزيادة الجودة ، من المنطقي استخدام تركيبات الأشجار مثل مجموعة التفرعات العشوائية و XGboost. بالنسبة للحالات التي تحتوي على كمية كبيرة من بيانات المعاملات ، تعد بنيات DNN مناسبة أيضًا ، لكن يُنصح باستخدام الشبكات العصبية فقط لأكبر المؤسسات الائتمانية.
غالبًا ما يكون استخدام الخوارزميات في المؤسسات الائتمانية ليس بسبب زيادة الجودة ، ولكن بسبب متطلبات عملية صنع القرار ، لذا تأكد من أن شبكتك العصبية قابلة للتفسير بشكل كاف قبل إطلاق الحل في المعركة!
المعلمات التي تؤثر على المخاطر الافتراضية
سنقوم بتحليل العوامل المؤثرة باستخدام مثال الحلول من المنافسة في Kaggle - Home Credit Default Risk ، التي حدثت قبل عام.
في مجموعة من 220 المعلمات.

الشكل 2: توزيع القروض المتعثرة والسداد.
تم التقاط عدد من الصور من أجهزة الكمبيوتر المحمولة التي نشرها المتسابقون ، لمزيد من التفاصيل حول الحلول يمكن العثور عليها
هنا .
المصادر:
1 ،
2 ،
3الفئات غير متوازنة ، التخلف عن السداد أقل من القروض المسددة.
نحن نتصور توزيع المعلمات لتحديد ما إذا كانت القروض الافتراضية لها توزيع مختلف.

الشكل 3 مثال على توزيع القروض المتعثرة والسداد حسب العمر.
من الصورة 3 ، يترتب على ذلك أن المقترضين الشباب يواجهون مخاطر أكبر للتقصير.
بالإضافة إلى الخصائص الموصوفة للمقترض ، هناك أيضًا معلمات مثل EXT_SOURCE 1،2،3. في مجموعة البيانات هذه ، هذه معلمات تم الحصول عليها من مكاتب الائتمان وموفري البيانات الخارجيين. تعد شركة DATA4 التي أعمل معها مثالًا على مثل هذا المزود ، لكن مجموعة البيانات الخاصة بنا غير متوفرة. اللاعبون النشطون في سوق تداول البيانات هم مشغلو الهواتف المحمولة و BKI.
سنبني مصفوفة ارتباط لمعرفة المعلمات التي ترتبط بها توقعات موفري البيانات الخارجيين وكيفية تأثيرها على جودة الخوارزمية.

نحن نبني التوزيعات وفقًا لبيانات الموردين الخارجيين ، وسنرى أن لديهم اختلافات في القروض المتعثرة.
للحصول على مزيد من الميزات ، نحصل على الصورة التالية ، والتي يصعب تفسيرها ، والتي تعطي رؤية شاملة.


ابحث عن العوامل الافتراضية حسب feature_importances

دعونا نبني مخططًا لأهمية سمات خوارزمية التردد اللاسلكي.

ما التأثيرات
1) التسجيل من مكاتب الائتمان ومقدمي البيانات الخارجيين مثل شركتنا
2) العمر والجنس
3) الوقت الذي عاش فيه المقترض في مكان آخر تسجيل
4) مدة القرض
5) نوع القرض المطلوب
6) النسبة المئوية للقرض على التدفق النقدي ورواتب العملاء
7) الوقت الذي يستخدم فيه المقترض رقم الهاتف الأخير
8) الوقت في آخر مكان للعمل ، وحصة من إجمالي طول الخدمة
9) التدفق النقدي الائتمان
10) مبلغ القرض
فحص المقال مبادئ تسجيل الائتمان ، وأظهر المعلمات التي تقدم أكبر مساهمة في اتخاذ قرار بشأن القرض. تبدو النتائج معقولة ، وكلما كان السجل الائتماني للمقترض أفضل ، كلما كان المقترض يعمل في وظيفة واحدة ، وكلما قمت بتغيير رقم الهاتف ومكان الإقامة ، وكلما قل نصيب القرض من الدخل المتاح ، قل خطر التخلف عن السداد. ولكن يجب أن نتذكر أن النتائج تستند إلى بيانات مؤسسة إقراض معينة ، وقد لا تكون مناسبة لحالة أخرى.