Ce qui affecte l'émission de crédit. Aperçu de la concurrence pour le risque de défaut de crédit

Examinez le fonctionnement des algorithmes dans la notation bancaire, les mesures utilisĂ©es et les paramĂštres de l'emprunteur qui affectent l'octroi ou non d'un prĂȘt. L'article dĂ©crit la concurrence passĂ©e avec kaggle sur la prĂ©diction de la probabilitĂ© de dĂ©faut et fournit des paramĂštres qui influencent le risque de dĂ©faut.

Erreur du premier et du deuxiĂšme type


Le but de la banque est de gagner de l'argent. Le premier risque auquel un Ă©tablissement de crĂ©dit est confrontĂ© est d'accorder un prĂȘt Ă  un emprunteur qui fait dĂ©faut. Le dĂ©faut peut avoir diffĂ©rentes raisons, des difficultĂ©s financiĂšres de l'emprunteur Ă  la fraude.

Pour une banque, il s'agit d'une erreur de premiĂšre nature.

Mais si la banque poursuit une politique difficile et n'accorde de prĂȘts Ă  personne, mĂȘme Ă  ceux qui voudraient restituer l'argent, alors la banque ne gagnera pas d'intĂ©rĂȘts. Refuser un prĂȘt Ă  un emprunteur responsable est une erreur de second ordre.

Pour évaluer la qualité des décisions prises par l'algorithme, le coefficient de Gini (GINI) est utilisé. En économie et en Data Science, le coefficient de Gini a une interprétation différente. Pour le pointage de crédit, il est calculé comme suit:

GINI = 2 ROC AUC - 1

Pour évaluer la notation bancaire, une courbe ROC AUC standard est utilisée!




Fig.1 Courbe ROC AUC. La zone sous la courbe montre la qualité de l'algorithme. Si la zone est de 0,5, alors il s'agit d'une prévision aléatoire (pour un classificateur binaire), 1 est une prévision idéale.

Algorithmes de notation


Une caractĂ©ristique des algorithmes de notation est l'exigence d'interprĂ©tabilitĂ©. À cet Ă©gard, des modĂšles linĂ©aires sont souvent utilisĂ©s.

Pour maximiser la qualitĂ©, il est logique d'utiliser des compositions d'arbres telles que la forĂȘt alĂ©atoire et XGboost. Pour les cas avec une grande quantitĂ© de donnĂ©es transactionnelles, les architectures DNN conviennent Ă©galement, mais il est conseillĂ© d'utiliser des rĂ©seaux de neurones uniquement pour les plus grands Ă©tablissements de crĂ©dit.

L'utilisation d'algorithmes dans les établissements de crédit est souvent causée non pas par la maximisation de la qualité, mais par les exigences du processus décisionnel, alors assurez-vous que votre réseau de neurones est suffisamment interprétable avant de lancer la solution au combat!

ParamÚtres affectant le risque de défaut


Nous analyserons les paramĂštres d'influence en utilisant l'exemple des solutions de la concurrence de Kaggle - Home Credit Default Risk, qui a eu lieu il y a un an.

Dans un ensemble de 220 paramĂštres.


Fig. 2 RĂ©partition des prĂȘts en dĂ©faut et remboursĂ©s.
Un certain nombre d'images ont été prises à partir d'ordinateurs portables publiés par des candidats, pour plus de détails sur les solutions, cliquez ici .

Sources: 1 , 2 , 3

Les classes sont dĂ©sĂ©quilibrĂ©es, les dĂ©fauts de paiement sont infĂ©rieurs aux prĂȘts remboursĂ©s.

Nous visualisons la distribution des paramĂštres pour dĂ©terminer si les prĂȘts par dĂ©faut ont une distribution diffĂ©rente.



Fig. 3 Un exemple de la rĂ©partition des prĂȘts en dĂ©faut et remboursĂ©s par Ăąge.

Il ressort de l'image 3 que les jeunes emprunteurs courent un plus grand risque de défaut.

En plus des caractéristiques décrites de l'emprunteur, il existe également des paramÚtres tels que EXT_SOURCE 1,2,3. Dans cet ensemble de données, il s'agit de paramÚtres obtenus auprÚs des bureaux de crédit et des fournisseurs de données externes. La société DATA4 pour laquelle je travaille est un exemple d'un tel fournisseur, mais notre ensemble de données n'est pas disponible. Les acteurs actifs sur le marché de l'échange de données sont les opérateurs mobiles et BKI.

Nous allons construire une matrice de corrélation pour voir avec quels paramÚtres les prévisions des fournisseurs de données externes sont en corrélation et comment elles affectent la qualité de l'algorithme.



Nous construisons les distributions en fonction des donnĂ©es des fournisseurs externes, et nous verrons qu'ils ont des diffĂ©rences pour les prĂȘts en dĂ©faut.

Pour plus de fonctionnalités, nous obtenons l'image suivante, qui est difficile à interpréter, mais qui donne une vue holistique.





Rechercher les facteurs par défaut par fonction_importances



Construisons un diagramme de l'importance des attributs pour l'algorithme RF.



Quelles influences


1) Scoring auprÚs des bureaux de crédit et des fournisseurs de données externes tels que notre entreprise
2) Âge et sexe
3) Le temps que l'emprunteur a vécu au lieu de la derniÚre inscription
4) DurĂ©e du prĂȘt
5) Type de prĂȘt demandĂ©
6) Le pourcentage que le prĂȘt sera sur les flux de trĂ©sorerie et les salaires des clients
7) L'heure à laquelle l'emprunteur a utilisé le dernier numéro de téléphone
8) Temps passé au dernier lieu de travail et part de la durée totale de service
9) Flux de trésorerie de crédit
10) Montant du prĂȘt

L'article a examinĂ© les principes de la notation du crĂ©dit et a montrĂ© les paramĂštres qui contribuent le plus Ă  la dĂ©cision sur le prĂȘt. Les rĂ©sultats semblent plausibles, meilleurs sont les antĂ©cĂ©dents de crĂ©dit de l'emprunteur, plus l'emprunteur travaille longtemps Ă  un emploi, moins vous changez de numĂ©ro de tĂ©lĂ©phone et de lieu de rĂ©sidence, et plus la part du prĂȘt provenant du revenu disponible est petite, plus le risque de dĂ©faut est faible. Mais il ne faut pas oublier que les rĂ©sultats sont basĂ©s sur les donnĂ©es d'un Ă©tablissement de crĂ©dit particulier et peuvent ne pas convenir Ă  un autre cas.

Source: https://habr.com/ru/post/fr483820/


All Articles