التعلم الآلي ضد مخاطر الائتمان ، أو "هيا ، جيني ، هيا"

البنك ، بحكم تعريفه ، هو "مؤسسة نقدية" ، ويعتمد مستقبله على مدى نجاح هذه المنظمة في إصدار القروض وتسديدها. للعمل بنجاح مع القروض ، تحتاج إلى فهم الوضع المالي للمقترضين ، والذي يساعده عوامل مخاطر الائتمان (FCR). يقوم محللو الائتمان بتحديدهم بكميات ضخمة من المعلومات المصرفية ، ومعالجة هذه العوامل والتنبؤ بمزيد من التغييرات. عادةً ما يتم استخدام التحليلات الوصفية والتشخيصية لهذا ، لكننا قررنا ربط أدوات التعلم الآلي بالعمل. اقرأ عن ما حدث في المنشور.



بعض عوامل مخاطر الائتمان تكمن على السطح ، في حين أن هناك عوامل أخرى تحتاج إلى البحث العميق في أحشاء البيانات المصرفية. التغييرات في سعر صرف الدولار ، وعائدات العملاء ، وعبء الديون ، وانخفاض المبيعات والتصنيفات ، والمحاكم ، والقضايا الجنائية ، وعمليات الدمج والاستحواذ - كل هذا يعطي إشارة إحصائية عن نقاط القوة المختلفة. من أجل تكوين الصورة العامة للمقترض بشكل صحيح ، من الضروري ليس فقط التقاط جميع الإشارات المرتبطة بها ، ولكن أيضًا لتقييم قوتها.

عملت التحليلات الوصفية والتشخيصية بشكل جيد في العمل مع FCR ، ولكن مع ذلك ، لا تخلو هذه الأساليب من العوائق. يقتصر استخدام التحليلات على المنظمين - لا يمكن اعتماد جميع الأساليب والنماذج المتقدمة من قبلهم. إن Analytics ليس مرنًا ولا يوفر فرصة لعرض البيانات في شريحة عشوائية - وغالبًا ما يكون ذلك ضروريًا للغاية. ومع الكفاءة في هذه الحالة ، ليس كل شيء رائعًا. ويحدث أيضًا أنه بالنسبة لبعض النماذج التحليلية ، لا توجد بيانات كافية ببساطة.

لماذا لا تجرب التعلم الآلي لهذه الأغراض؟ لذلك ، من الممكن تحسين حساب أهمية عوامل مخاطر الائتمان ، من الناحية الفنية - لزيادة مؤشر جيني بعدة نقاط مئوية ، والذي نقوم من خلاله بتقييم دقة نماذج التنبؤ. كلما كان حساب FKR أفضل ، كلما كان تقييم الحالة المالية للعملاء أكثر دقة - زادت جودة محفظة قروض البنك. وتنخفض نسبة العمل اليدوي.

تقدم المشروع


تم اختيار Cloudera Hadoop لتخزين البيانات الكبيرة ، وتم نشر Apache Spark و Apache Hive SQL للوصول إلى البيانات الأولية ، وتم استخدام Apache Oozie لتنسيق وبدء التحميل وحساب تدفقات البيانات. باستخدام Apache و Zeppelin و JupyterHub تصور البيانات واستكشفها. بالإضافة إلى ذلك ، استخدموا عددًا من مكتبات التعلم الآلي التي تدعم المعالجة المتوازية - Spark MLIB و PySpark و H20.



تم تخصيص سبع عقد لكل هذا:

  • 3 عقد رئيسية بسعة 64 جيجابايت vRAM و 2 تيرابايت من مساحة القرص لكل منهما
  • 3 عقد بيانات بسعة 512 جيجابايت vRAM و 8 تيرابايت لكل منهما
  • عقدة واحدة للتطبيقات بسعة 128 جيجابايت vRAM ، 2.5 تيرابايت



استغرق المشروع بأكمله ثلاثة أشهر ويتكون من ثلاث مراحل تجريبية ، وأربع سباقات أسبوعية في كل منها. للحساب ، تم اختيار 22 من عوامل مخاطر الائتمان خلال المشروع.

في المرحلة الأولى ، قمنا بنشر البنية التحتية وربطنا مصادر البيانات الأولى:

  • تخزين معلومات الشركات (FIR) - التخزين الرئيسي في البنك. من أجل العمل بحرية مع البيانات داخل Data Lake وعدم إنشاء حمل على أنظمة الإنتاج ، قمنا بتحميله في الواقع ككل.
  • يعد نظام حساب التصنيف () أحد قواعد البيانات الرئيسية لتقييم المخاطر المرتبطة بأنشطة عملاء الشركات. أنه يحتوي على معلومات عن تصنيفات الشركات ، ومؤشرات البيانات المالية.
  • بيانات من مصادر خارجية تعكس الانتماء ومعايير أخرى.
  • فصل الملفات التي تحتوي على معلومات وبيانات إضافية لعمل علماء البيانات.

في المرحلة الثانية ، تم حساب PCF الأول ، حاولنا بناء نماذج بناءً على هذه المؤشرات ، وقمنا بتثبيت أداة BI وناقشنا كيفية تصور ديناميكيات PCF. ونتيجة لذلك ، قررنا الحفاظ على بنية جدول بيانات Excel المألوفة في الأداة الجديدة ، تاركين تصورات متقدمة للمستقبل.

وأخيرًا ، في المرحلة النهائية ، قمنا بتنزيل جميع البيانات المفقودة ، بما في ذلك من مصدر خارجي. خشي البنك أن تكون أهميتها الإحصائية صغيرة ، لذا أجرينا اختبارات إحصائية أثبتت عكس ذلك. أظهر العرض النهائي تشغيل أدوات علم البيانات ، BI ، التحميل المنتظم وتحديث البيانات. من بين 22 عاملاً ، لم يتم حساب عاملين فقط داخل البرنامج التجريبي ، لأسباب خارجية - نقص بيانات الجودة المطلوبة.

النتيجة


الكتلة على Hadoop قابلة للتوسع بسهولة وتسمح للنماذج بتغذية المزيد من البيانات ، ويمكنها إجراء حسابات بالتوازي. نما مؤشر جيني - تنبأت النماذج بشكل أكثر دقة ببعض الأحداث المتعلقة بعوامل مخاطر الائتمان.

في وقت سابق ، كان على المحللين الاتصال بقسم تكنولوجيا المعلومات لكتابة استعلامات SQL إلى مستودع الشركة ، ثم معالجة النماذج على أجهزة الكمبيوتر الشخصية الخاصة بهم. والآن ، تسمح المجموعة التجريبية للمحللين بكتابة الاستفسارات بأنفسهم ، أي أن جمع البيانات الأولية ونماذج المعالجة أسرع بكثير.

الخطط


هذا العام سنواصل تطوير المشروع. سننشر البنية التحتية لبحيرة البيانات على المعدات المتخصصة لزيادة سرعة أخذ العينات والمعالجة. ننظم على أساس "البحيرة" موردا مركزيا واحدا لتحليلات الائتمان. أضف المزيد من مصادر البيانات وقم بتوصيل مكتبات التعلم الآلي الجديدة.

أصبحت أقسام أخرى من البنك مهتمة بمشروعنا - إدارة علاقات العملاء ، التدقيق الداخلي (البحث عن المحتالين ، تحديد المعاملات المشبوهة) ، الدعم التشغيلي (مكافحة الاحتيال) ، محللي الصناعة. عند استخدام "sandbox" ، نمنحهم تطوراتنا ، وسوف يتمكنون من الوصول بسهولة إلى البيانات ، والقدرة على ربط أي مصادر بيانات وتجربتها باستخدام نماذج التعلم الآلي.

Source: https://habr.com/ru/post/ar417739/


All Articles