التعلم الآلي في التمويل الأصغر: بناء نموذج تسجيل للعملاء الذين لديهم سجل ائتماني فارغ

لا يوجد سجل ائتماني - لا تقدم قروضًا ، ولا تقدم قروضًا - لا يوجد سجل ائتماني. حلقة مفرغة من نوع ما. ما يجب القيام به هيا بنا


تحية! اسمي مارك ، أنا عالم بيانات في Devim. في الآونة الأخيرة ، أطلقنا نموذجًا لتسجيل درجات للمقترضين من مؤسسة التمويل الدولية "هل الراتب" الذين ليس لديهم سجل ائتماني. أرغب في مشاركة تجربة استرداد البيانات وميزات التصميم وتفسير الميزات.



ينقسم هذا الموضوع إلى منشورين ، في أول ما سأتحدث عن عملية البحث وبناء العلامات. الجزء الثاني يدور حول مقارنة بنيات النماذج وتحليل النتائج وتفسير قرارات التسجيل.


الجزء الأول ميزة التصميم


تعتمد نماذج التعلم الآلي على البيانات التي تعد جودتها واكتمالها عاملاً محددًا في نجاح أو فشل النموذج. ولكن ماذا لو كان هناك القليل من البيانات؟ أو إذا كانت البيانات ليست بالمعلومات كافية أو غير دقيقة؟ أين يمكن العثور على معلومات إضافية وكيفية استخدامها عند إنشاء نموذج؟ اسمحوا لي أن أخبركم كيف حلت هذه المشكلة.


عوامل تقييم مخاطر الائتمان


يعتمد تسجيل الائتمان على تحليل لخصائص المقترض المرتبط بمخاطر تقصير القرض. يمكن تقسيمها إلى الاقتصادية العامة والفردية.


العوامل الاقتصادية العامة


البيئة الاقتصادية لها تأثير كبير على الحالة المالية والنفسية للمقترض. من الممكن إجراء تقييم أكثر دقة لدرجة التأثير من خلال تسليط الضوء على العوامل المتعلقة بالمقترض. وهي مقسمة إلى مستويين:


  • عوامل المستوى الكلي هي عوامل خارجية للمقترض. وهي تشمل عادة الناتج المحلي الإجمالي والتضخم وأسعار الصرف ، إلخ.
  • عوامل المستوى الجزئي هي تلك التي تميز المقترض المعين ، على سبيل المثال ، المهنة ، الصناعة ، متوسط ​​الراتب ، إلخ.
    تجدر الإشارة على الفور إلى أن العوامل الاقتصادية العامة تعمل كعوامل إضافية. وفقًا لكثير من الباحثين ، فإن المعلومات التي تحتويها عامة وتميز ضعيفًا عن مقترض معين.

العوامل الفردية


تحتوي العوامل الفردية على المعلومات الأكثر قيمة لنموذج التسجيل. يمكن أيضًا تقسيمها إلى فئات:


  • الديموغرافية - العمر ، الجنس ، الحالة الاجتماعية ، إلخ.
  • المالية - الإيرادات والمصروفات ، والوصول إلى الموارد المالية ، وتوافر الاحتياطيات المالية.
  • نفسية - واحدة من أكثر إفادة. أفضل مصدر لمثل هذه البيانات هو تاريخ الائتمان. تاريخ الائتمان يميز الانضباط المالي للعميل ، ويحتوي على معلومات حول القدرة على سداد مبالغ محددة ، ويظهر الفائدة الحالية في القرض. إذا لم يتم تكوين سجل الائتمان ، فيجب عليك البحث عن مصادر أخرى للمعلومات: الشبكات الاجتماعية ، والسلوك عند ملء الطلب ، إلخ.
  • معلومات الاتصال - حجمها وتكوينها يؤثر على خطر التخلف عن سداد القرض.

وصف مجموعة البيانات


مجموعة التدريب لهذا النموذج هي 9500 مقترض حصلوا على قرض لأول مرة من مايو إلى ديسمبر 2018. بيانات الاختبار - 1500 مقترض للفترة من يناير إلى مارس 2019.


يستخدم الفصل المؤقت للمقترضين لعدة أسباب. أولاً ، هذا الفصل يجعل تسرب المعلومات من المستقبل غير مرجح. ثانياً ، هذا يسمح لنا بتقييم ثبات النموذج بمرور الوقت. في القروض الصغيرة ( قرض يوم الدفع ) PDL ، تكون المبالغ والشروط صغيرة بالمقارنة مع الأنواع الأخرى من القروض ، وبالتالي ، تم اختيار ما يلي كسمة الهدف: تأخير في الدفعات لأكثر من 15 يومًا.


ميزة التصميم


نبدأ في بناء العلامات بأكثر عامة - الاقتصادية ، ثم سننتقل إلى العلامات الفردية.


من بين العوامل الاقتصادية العامة العامة ، تم العثور على عامل واحد مستقر ويمكن الوصول إليه وتحديثه بانتظام - سعر صرف الروبل. وهو متاح على موقع البنك المركزي على الإنترنت لفترة طويلة من الزمن (من الممكن تحميل البيانات بتنسيق مناسب) ، والأهم من ذلك ، يتم تحديثه يوميًا. الروبل لديه اتجاه هبوطي مستقر. في الشكل الخام ، مثل هذا العامل هو الأفضل عدم استخدامها. بعد فترة زمنية معينة ، ستتجاوز القيم المميزة البيانات الموجودة في مجموعة التدريب وسيتم تفسيرها بشكل غير صحيح بواسطة النموذج.


لتجنب العواقب السلبية ، سنقوم بتحويل سعر صرف الروبل فيما يتعلق بالسعر الحالي (في وقت النظر في الطلب) إلى القيمة المتوسطة للـ 35 يومًا السابقة. الآن لا تميز العلامة القيمة المطلقة لسعر صرف الروبل ، ولكن الاتجاه (النمو ، الانخفاض ، الحالة المستقرة) في الفترة قيد النظر. في الرسم البياني 1 ، البيانات التي تم الحصول عليها. يوضح الرسم البياني 2 النسبة المئوية للعملاء الافتراضيون حسب الفئة (هبوط ، استقرار ، نمو).



الرسم البياني 1. التغيير في سعر صرف الروبل بالنسبة إلى القيمة المتوسطة على مدى الأيام الـ 35 الماضية.



الرسم البياني 2. عدد العملاء الافتراضية اعتمادا على التغير في السعر.


من العوامل الاقتصادية الصغيرة المتاحة: المنطقة التي يعمل فيها المقترض ، ونوع المنظمة ، والمهنة.


للوهلة الأولى ، ترتبط منطقة العمل بالعوامل الفردية أكثر من العوامل الاقتصادية العامة. ومع ذلك ، فمن الممكن إضافة معلومات اقتصادية عامة إلى البيانات من خلال مجموعة من المناطق. يوفر موقع Rosstat معلومات حول المؤشرات الاقتصادية المختلفة لمنطقة معينة. اتضح أن احتمال التخلف عن السداد هو بيانات عن متوسط ​​مستوى الأجور في المنطقة ، وتكلفة مجموعة ثابتة من المنتجات ومقدار المدفوعات المتأخرة على قرض للفرد الواحد. لتجميع المناطق ، تم اختيار خوارزمية التجميع التكتل. تم استخدام طريقة Ward ، التي تجمع بين المجموعات بحيث يكون كسب التشتت في الحد الأدنى ، كمعيار للاتصال. مجموعات البيانات الناتجة في رسم بياني ثلاثي الأبعاد.



جدول المنطقة المجمعة
123456
منطقة بيلغورودمنطقة موسكومنطقة كالوغاريازان المنطقةمنطقة تيومينجمهورية القرم
منطقة بريانسكموسكوجمهورية كاريليامنطقة سمولينسكجمهورية ساخا (ياقوتيا)سيفاستوبول
منطقة فلاديميرجمهورية كوميمنطقة أرخانجيلسكمنطقة تفيرمنطقة ماجادانجمهورية داغستان
منطقة فورونيجمنطقة مورمانسكمنطقة لينينغرادمنطقة تولاجمهورية انغوشيا
منطقة ايفانوفوسانت بطرسبرغمنطقة بيرممنطقة فولوغداجمهورية الشيشان
كوستروما المنطقةإقليم كامتشاتكامنطقة سفيردلوفسكمنطقة كالينينغراد
منطقة كورسكسخالين أوبلاستإقليم كراسنويارسكمنطقة نوفغورود
ليبيتسك المنطقةمنطقة ايركوتسكجمهورية كالميكيا
منطقة أوريولمنطقة نوفوسيبيرسكإقليم كراسنودار
منطقة تامبوفإقليم خاباروفسكمنطقة استراخان
منطقة ياروسلافلامور المنطقةمنطقة روستوف
منطقة بسكوفجمهورية باشكورتوستان
جمهورية أديغياجمهورية تتارستان
منطقة فولغوغرادجمهورية أودمورت
كاباردينو-بلقاريان ر.جمهورية تشوفاش
كاراتشاي-تشيركيس ر.كيروف المنطقة
جمهورية اوسيتيا الشمالية - الانيانيجني نوفغورود المنطقة
إقليم ستافروبولمنطقة أورينبورغ
جمهورية ماري ايلمنطقة سمارة
جمهورية موردوفيامنطقة أوليانوفسك
منطقة بينزامنطقة كورغان
ساراتوف المنطقةمنطقة تشيليابينسك
جمهورية التايجمهورية بورياتيا
إقليم التايجمهورية توفا
جمهورية خكاسيا
إقليم ترانبايكال
منطقة كيميروفو
منطقة أومسك
منطقة تومسك
إقليم بريمورسكي

عامل مهم آخر للاقتصاد الجزئي هو المهنة. يوضح الشكل أدناه البيانات المتعلقة بحصة العملاء الافتراضيين حسب المهنة من مجموعة بيانات التدريب.



يوضح الرسم البياني بوضوح اعتماد احتمال التقصير على المهنة. بالنسبة للمقترضين من المجموعات ، يُنصح بتطبيق أحد المبادئ المقبولة عمومًا في المجتمع الاقتصادي. يرتبط التصنيف إلى فئات من موقع Rosstat ارتباطًا جيدًا بالبيانات المقدمة على الرسم البياني.


تقسيم الموظفين إلى فئات الموظفين
حسب فئات الموظفين ، ينقسم العمال إلى مدراء وأخصائيين وغيرهم من الموظفين والعمال.
  • يشمل المديرون الموظفين الذين يشغلون مناصب رؤساء المنظمات والتقسيمات الهيكلية ونوابهم (المديرون ، رؤساء: الإدارات ، الأقسام ، التحولات ، إلخ. ، المديرون: الإنتاج ، المقصف ، القسم ، المستودع ، الغسيل ، النادي ، النزل ، غرفة الأمتعة و وما إلى ذلك ، المديرين ، رؤساء ، رؤساء ، كبار المحاسبين والمهندسين ، الحرفيين ، إلخ.).
  • يشمل المتخصصون العمال الذين يعملون في وظائف تتطلب عادة التعليم المهني العالي أو الثانوي: المهندسين ، الأطباء ، المعلمين ، الاقتصاديين ، المحاسبين ، الجيولوجيين ، المرسلين ، المفتشين ، المراجعين ، علماء الرياضيات ، الممرضات ، الميكانيكا ، التطبيع ، المبرمجون ، علماء النفس ، المحررين والمراجعين ، الخ وتشمل المتخصصين أيضا مساعدين ومساعدين للمتخصصين المعينين.
  • الموظفون الآخرون هم الموظفون الذين يقومون بإعداد وتنفيذ الوثائق والمحاسبة والرقابة ، والتدبير المنزلي ، على وجه الخصوص ، الوكلاء ، وأمناء المحفوظات ، والقابلات ، والكتبة ، والصرافون ووحدات التحكم (باستثناء العمال) ، والقادة ، ونسخ الوثائق التقنية ، والآلات الكاتبة ، والمشرفين ، إحصائيات ، مصممي الأزياء ، آلات ضبط الوقت ، المحاسبين ، الرسامين.
  • يشمل العمال الأشخاص المشتركين مباشرة في عملية تكوين الثروة ، وكذلك أولئك الذين يشاركون في الإصلاح ، وحركة البضائع ، ونقل الركاب ، وتوفير الخدمات المادية ، إلخ.


يمكن للمهن التي تتم مواجهتها بشكل متكرر ، مثل السائق أو المدير أو المحاسب أو ما إلى ذلك ، وصف المقترض بطرق مختلفة ، اعتمادًا على منطقة أو نوع معين من المؤسسة. على سبيل المثال ، السائق الذي يعمل في سيارة أجرة وسائق يعمل في إدارة المدينة من المقترضين مختلفين تمامًا.


لإضافة هذه المعلومات إلى النموذج ، سنقسم المقترضين على نوع المؤسسات التي يعملون فيها:


  • المنظمات التجارية
  • المنظمات الحكومية
  • رجال الأعمال الفردية والعاملين لحسابهم الخاص
  • كسر
  • نوع المنظمة غير محدد

للتحقق مما إذا كان فصل المعلومات يضيف ، نلقي نظرة على الرسم البياني "حصة المقترضين الافتراضيين مجمعة حسب المهنة ونوع المنظمة"



تسمية المهن وأنواع المنظمات
مهنةنوع العمل
0غير محدد0غير محدد
1قادة1تجاري
2المتخصصين2جمهور
3الموظفين الآخرين3الامم المتحدة لحسابهم الخاص
4العمل4لا تعمل
5آخر

يوضح الرسم البياني أنه بالنسبة لبعض المهن ، يوجد اختلاف كبير في نوع المؤسسة التي يعمل بها المقترض. يتم الحصول على نتائج غير متوقعة عندما يشير المقترض إلى أنه لا يعمل ، ولكن في الوقت نفسه يشير إلى المهنة. أظهر تحليل إضافي للبيانات أن مثل هذا السلوك هو سمة لكبار السن.


وآخر عامل اقتصادي عام يستخدم في النموذج هو يوم الشهر الذي يتم فيه تقديم طلب القرض. ربما يرجع هذا إلى القواعد المقبولة عمومًا لدفع الأجور في روسيا (على سبيل المثال ، 10 و 25). تنقسم أيام الشهر إلى فترتين من اليوم التاسع إلى اليوم الحادي والعشرين كليًا والأيام المتبقية من الشهر.


العوامل الفردية


التركيبة السكانية


في بياناتي ، هناك أربع خصائص سكانية فقط:


  • عمر المقترض (إجمالي السنوات)
  • الأقدمية في آخر مكان عمل (بالأشهر)
  • الحالة الاجتماعية (أعزب ، متزوج ، زواج مدني ، مطلق ، أعزب ، أرمل / أرمل ، غير مكتمل)
  • عدد أفراد الأسرة (الذين يعيشون جنبا إلى جنب مع المقترض)

مالي


تحتوي البيانات الخاصة بالمقترضين على معلومات حول الأجور والإيرادات الإضافية. غالبًا ما يبالغ العملاء في تقدير أهمية هذه العوامل ، لذا فهي لا تحتوي على معلومات دقيقة حول الوضع المالي للمقترض ، ولكنها تسمح لك بتقييمها تقريبًا.


نفسي


السكان المختارون من المقترضين ليس لديهم قروض ، وبالتالي ، ليس لدينا المعلومات النفسية (السلوكية) الأساسية. لكن 90٪ من العملاء لديهم معلومات حول عدد طلبات سجل الائتمان لسنة أو ربع أو شهر أو أسبوع أو يوم أو ساعة. وبالتالي ، من الممكن تقييم الحاجة إلى قرض في الوقت الحالي والحاجة إلى قرض من منظور تاريخي. يضيف عدد طلبات القروض المودعة في فترة قصيرة معلومات حول النمط النفسي للمقترض. (ما إذا كان قد قدم طلبًا واحدًا وينتظر قرارًا ، ثم يقدم الطلب الثاني في حالة الرفض. وفي هذه الحالة ، سيكون هناك عدد قليل من القروض في الساعة الأخيرة ، لكن الكثير في اليوم الأخير. أو يقدم المقترض طلبات إلى منظمات مختلفة وينتظر قرارًا من الجميع في الحال.)


معلومات الاتصال


عند التقديم ، يجب ملء معلومات الاتصال الخاصة بك. من المستحسن أيضًا تقديم تفاصيل الاتصال لاثنين من الأصدقاء المقربين. يتيح لك إنشاء علامتين ثنائيتين إضافيتين:


  • شغل أو عدم الاتصال 2
  • شغل أو عدم الاتصال 3

نتيجة لذلك ، حصلنا على العلامات التالية:


  1. تغيير سعر صرف الروبل ، علامة عددية
  2. مكان العمل ، العلامة الفئوية (6 فئات)
  3. المهنة ، العلامة الفئوية (5 فئات)
  4. نوع المنظمة التي يعمل فيها المقترض ، السمة الفئوية (5 فئات)
  5. يوم الشهر الذي يتم فيه تقديم الطلب ، علامة ثنائية - يقع في الفترة الفاصلة من اليوم التاسع إلى اليوم الحادي والعشرين أو لا
  6. عدد طلبات سجل الائتمان لـ:
    • ساعة
    • يوم
    • اسبوع
    • شهر
    • ربع
    • عام
  7. الحالة العائلية ، العلامة الفئوية (8 فئات)
  8. عدد أفراد الأسرة ، السمة العددية
  9. تجربة في آخر مكان العمل ، علامة عددية
  10. عمر المقترض ، السمة العددية
  11. الدخل الشهري ، السمة العددية
  12. دخل إضافي ، السمة العددية
  13. شغل أو عدم الاتصال 2 ، علامة الثنائية
  14. شغل أو عدم الاتصال 3 ، علامة الثنائية

جميع البيانات الواردة أعلاه قابلة للحياة اقتصاديًا وسهلة التجميع. على الرغم من حقيقة أنها لا تحتوي على معلومات كاملة حول المقترض ، فمن الممكن بناءً على أساسها نموذج عمل فعال من حيث التكلفة.


سأتحدث عن عملية اختيار الهيكل والنتائج التي تم الحصول عليها في المقالة التالية.
آمل أن تكون مثيرة للاهتمام ومفيدة.


Panenko مارك ، ديديم

Source: https://habr.com/ru/post/ar454574/


All Articles