Apprentissage automatique en microfinance: construire un modèle de notation pour les clients avec un historique de crédit vide

Pas d'antécédents de crédit - n'accordez pas de prêts, n'accordez pas de prêts - pas d'antécédents de crédit. Un cercle vicieux en quelque sorte. Que faire Faisons les choses correctement.


Salut Je m'appelle Mark, je suis data scientist chez Devim. Récemment, nous avons lancé un modèle de notation des emprunteurs de la SFI «Do Salary», qui n'ont pas d'antécédents de crédit. Je souhaite partager l'expérience de la récupération de données, des fonctionnalités de conception et de l'interprétation des fonctionnalités.



Ce sujet est divisé en deux publications, dans la première je parlerai du processus de recherche et de construction des signes. La deuxième partie concerne la comparaison des architectures du modèle, l'analyse des résultats et l'interprétation des décisions de notation.


Première partie Conception des fonctionnalités


Les modèles d'apprentissage automatique sont basés sur des données dont la qualité et l'exhaustivité sont un facteur déterminant du succès ou de l'échec d'un modèle. Mais que se passe-t-il s'il y a peu de données? Ou si les données ne sont pas suffisamment informatives ou inexactes? Où trouver des informations supplémentaires et comment les utiliser lors de la création d'un modèle? Permettez-moi de vous dire comment j'ai résolu ce problème.


Facteurs d'évaluation du risque de crédit


La notation du crédit est basée sur une analyse des caractéristiques de l'emprunteur associées au risque de défaut de crédit. Ils peuvent être divisés en général économique et individuel.


Facteurs économiques généraux


L'environnement économique a un impact majeur sur la situation financière et psychologique de l'emprunteur. Il est possible d'évaluer plus précisément le degré d'influence en mettant en évidence les facteurs liés à l'emprunteur. Ils sont conditionnellement divisés en deux niveaux:


  • Les facteurs au niveau macro sont des facteurs externes à l'emprunteur. Ils comprennent généralement le PIB, l'inflation, les taux de change, etc.
  • Les micro-facteurs sont ceux qui caractérisent un emprunteur particulier, par exemple la profession, l'industrie, le salaire moyen, etc.
    Il convient de noter immédiatement que les facteurs économiques généraux servent de facteurs supplémentaires. Selon de nombreux chercheurs , les informations qu'ils contiennent sont générales et caractérisent faiblement un emprunteur spécifique.

Facteurs individuels


Les facteurs individuels contiennent les informations les plus précieuses pour le modèle de notation. Ils peuvent également être divisés en catégories:


  • Démographique - âge, sexe, état matrimonial, etc.
  • Finances - revenus et dépenses, accès aux ressources financières, disponibilité de réserves financières.
  • Psychologique - l'un des plus informatifs. La meilleure source de ces données est l'historique de crédit. L'historique de crédit caractérise la discipline financière du client, contient des informations sur la capacité de rembourser des montants spécifiques, montre l'intérêt actuel du prêt. Si l'historique de crédit n'est pas formé, vous devez rechercher d'autres sources d'informations: réseaux sociaux, comportement lors du remplissage d'une candidature, etc.
  • Coordonnées - son volume et sa composition affectent le risque de défaut de paiement.

Description de l'ensemble de données


L'ensemble pour la formation du modèle est de 9500 emprunteurs qui ont reçu un prêt pour la première fois de mai à décembre 2018. Données de test - 1500 emprunteurs pour la période de janvier à mars 2019.


La séparation temporaire des emprunteurs est utilisée pour plusieurs raisons. Premièrement, une telle séparation rend improbable la fuite d'informations de l'avenir. Deuxièmement, cela nous permet d'évaluer la stabilité du modèle dans le temps. Dans les microcrédits PDL ( prêt sur salaire ), les montants et les conditions sont faibles par rapport à d'autres types de prêts, par conséquent, l'élément suivant a été choisi comme attribut cible: retard de paiement de plus de 15 jours.


Conception des fonctionnalités


Nous commençons la construction de panneaux avec des panneaux plus généraux - économiques, puis nous passerons à des panneaux individuels.


Parmi les macro-facteurs économiques généraux, un seul facteur stable, accessible et régulièrement mis à jour a été trouvé - le taux de change du rouble. Il est disponible sur le site Web de la Banque centrale pendant une longue période (il est possible de télécharger des données dans un format pratique) et, surtout, il est mis à jour quotidiennement. Le rouble a une tendance baissière stable. Dans sa forme brute, un tel facteur est préférable de ne pas utiliser. Après un certain laps de temps, les valeurs caractéristiques dépasseront les données tombées dans l'ensemble d'apprentissage et seront mal interprétées par le modèle.


Pour éviter des conséquences négatives, nous convertirons le taux de change du rouble par rapport au taux actuel (au moment de l'examen de la demande) en la valeur médiane des 35 derniers jours. Or, le signe caractérise non pas la valeur absolue du taux de change du rouble, mais la tendance (croissance, déclin, état stable) au cours de la période considérée. Dans le graphique 1, les données obtenues. Le graphique 2 montre le pourcentage de clients par défaut par catégorie (baisse, stabilité, croissance).



Graphique 1. Variation du taux de change du rouble par rapport à la valeur médiane au cours des 35 derniers jours.



Graphique 2. Le nombre de clients par défaut en fonction du changement de taux.


Parmi les micro-facteurs économiques disponibles: la région dans laquelle l'emprunteur travaille, le type d'organisation, la profession.


À première vue, la région de travail est davantage liée à des facteurs individuels qu'à des facteurs économiques généraux. Cependant, il est possible d'ajouter des informations économiques générales aux données grâce à un regroupement de régions. Le site Internet de Rosstat fournit des informations sur divers indicateurs économiques d'une région particulière. La probabilité de défaut s'est avérée être des données sur le niveau moyen des salaires dans la région, le coût d'un ensemble fixe de produits et le montant des paiements en souffrance sur un prêt par habitant. Pour regrouper les régions, un algorithme de regroupement aggloméré a été choisi. La méthode de Ward, qui combine des grappes de sorte que le gain de dispersion soit minime, a été utilisée comme critère de connexion. Les grappes de données résultantes sont dans un graphique en trois dimensions.



Table des régions groupées
123456
Région de BelgorodRégion de MoscouRégion de KalougaRégion de RyazanRégion de TioumenRépublique de Crimée
Région de BrianskMoscouRépublique de CarélieRégion de SmolenskRépublique de Sakha (Yakoutie)Sébastopol
Région de VladimirRépublique des KomisRégion d'ArkhangelskRégion de TverRégion de MagadanRépublique du Daghestan
Région de VoronejRégion de MourmanskRégion de LéningradRégion de TulaRépublique d'Ingouchie
Région d'IvanovoSaint-PétersbourgRégion de PermRégion de VologdaRépublique tchétchène
Région de KostromaTerritoire du KamchatkaRégion de SverdlovskRégion de Kaliningrad
Région de KourskOblast de SakhalineTerritoire de KrasnoïarskRégion de Novgorod
Région de LipetskRégion d'IrkoutskRépublique de Kalmoukie
Région d'OrelRégion de NovossibirskTerritoire de Krasnodar
Région de TambovTerritoire de KhabarovskRégion d'Astrakhan
Région de YaroslavlRégion de l'AmourRégion de Rostov
Région de PskovRépublique du Bachkortostan
République d'AdygeaRépublique du Tatarstan
Région de VolgogradRépublique d'Oudmourtie
Kabardino-Balkarien R.République tchouvache
Karachay-Cherkess R.Région de Kirov
République d'Ossétie du Nord - AlanieRégion de Nijni Novgorod
Territoire de StavropolRégion d'Orenbourg
République de Mari ElRégion de Samara
République de MordovieRégion d'Oulianovsk
Région de PenzaRégion de Kurgan
Région de SaratovRégion de Tcheliabinsk
République de l'AltaïRépublique de Bouriatie
Territoire de l'AltaïRépublique de Touva
République de Khakassie
Territoire Transbaikal
Région de Kemerovo
Région d'Omsk
Région de Tomsk
Territoire de Primorsky

Un autre facteur microéconomique important est la profession. La figure ci-dessous montre les données sur la part des clients par défaut par profession à partir de l'ensemble de données de formation.



Le graphique montre clairement la dépendance de la probabilité de défaillance de la profession. Pour regrouper les emprunteurs, il est conseillé d'appliquer l'un des principes généralement admis dans la communauté économique. La ventilation en catégories du site Web de Rosstat correspond bien aux données présentées sur le graphique.


Répartition des employés en catégories de personnel
Par catégories de personnel, les travailleurs sont divisés en gestionnaires, spécialistes, autres employés et travailleurs.
  • Les gestionnaires comprennent les employés occupant les postes de chefs d'organisations, de divisions structurelles et de leurs adjoints (directeurs, chefs: départements, divisions, équipes, etc., gestionnaires: production, cantine, section, entrepôt, blanchisserie, club, auberge, salle de bagages et etc., gestionnaires, présidents, capitaines, comptables et ingénieurs en chef, artisans, etc.).
  • Les spécialistes comprennent les travailleurs occupant des emplois qui nécessitent généralement une formation professionnelle supérieure ou secondaire: ingénieurs, médecins, enseignants, économistes, comptables, géologues, répartiteurs, inspecteurs, relecteurs, mathématiciens, infirmières, mécaniciens, normalisateurs, programmeurs, psychologues, éditeurs, auditeurs, etc. Les spécialistes comprennent également des assistants et des assistants des spécialistes nommés.
  • Les autres employés sont des employés qui préparent et exécutent la documentation, la comptabilité et le contrôle, l'entretien ménager, en particulier, les agents, archivistes, préposés, commis, caissiers et contrôleurs (à l'exception des travailleurs), les commandants, les copistes de la documentation technique, les machines à écrire, les superviseurs, statistiques, sténographes, chronométreurs, comptables, dessinateurs.
  • Les travailleurs comprennent les personnes directement impliquées dans le processus de création de richesse, ainsi que celles impliquées dans la réparation, la circulation des marchandises, le transport des passagers, la fourniture de services matériels, etc.


Les professions fréquemment rencontrées, comme chauffeur, gestionnaire, comptable, etc., peuvent caractériser un emprunteur de différentes manières, en fonction d'un domaine ou d'un type d'organisation spécifique. Par exemple, un chauffeur travaillant dans un taxi et un chauffeur travaillant dans l'administration de la ville sont des emprunteurs complètement différents.


Pour ajouter ces informations au modèle, nous diviserons les emprunteurs par type d'organisations dans lesquelles ils travaillent:


  • Organisations commerciales
  • Organisations gouvernementales
  • Entrepreneurs individuels et indépendants
  • Inactif
  • Type d'organisation non spécifié

Pour vérifier si la séparation des informations ajoute, nous regardons le graphique «la part des emprunteurs défaillants regroupés par profession et type d'organisation».



Désignation des professions et types d'organisations
professiontype de travail
0non spécifié0non spécifié
1cadres1commercial
2spécialistes2état
3autres employés3non travailleur indépendant
4les travailleurs4ne fonctionne pas
5autre

Le graphique montre que pour certaines professions, il existe une différence significative dans le type d'organisation de l'emprunteur. Des résultats inattendus sont obtenus lorsque l'emprunteur indique qu'il ne travaille pas, mais indique en même temps la profession. Une analyse supplémentaire des données a montré qu'un tel comportement est caractéristique des seniors.


Et le dernier facteur économique général utilisé dans le modèle est le jour du mois où la demande de prêt est soumise. Cela est probablement dû aux règles généralement acceptées pour le paiement des salaires en Russie (par exemple, 10 et 25). Les jours du mois sont divisés en deux périodes du 9 au 21 inclusivement et les jours restants du mois.


Facteurs individuels


Démographique


Dans mes données, il n'y a que quatre caractéristiques démographiques:


  • Âge de l'emprunteur (nombre total d'années)
  • Ancienneté au dernier lieu de travail (en mois)
  • État matrimonial (célibataire, marié, mariage civil, divorcé, célibataire, veuf / veuve, non complété)
  • Nombre de membres de la famille (vivant avec l'emprunteur)

Financière


Les données sur les emprunteurs contiennent des informations sur les salaires et les revenus supplémentaires. L'importance de ces facteurs est souvent surestimée par les clients, ils ne contiennent donc pas d'informations précises sur la situation financière de l'emprunteur, mais vous permettent de l'évaluer grossièrement.


Psychologique


La population d'emprunteurs sélectionnée n'a aucun prêt, par conséquent, nous ne disposons pas des informations psychologiques (comportementales) de base. Mais 90% des clients ont des informations sur le nombre de demandes d'historique de crédit pour un an, un trimestre, un mois, une semaine, un jour, une heure. Ainsi, il est possible d'évaluer la nécessité d'un prêt au moment actuel et la nécessité d'un prêt dans une perspective historique. Le nombre de demandes de prêt déposées sur une courte période ajoute des informations sur le psychotype de l'emprunteur. (s'il a soumis une demande et attend une décision, puis soumet la deuxième en cas de refus. Dans ce cas, il y aura peu de prêts au cours de la dernière heure, mais beaucoup le dernier jour. Ou l'emprunteur soumet des demandes à différentes organisations et attend une décision de tout le monde à la fois.)


Coordonnées


Lors de votre candidature, vous devez remplir vos propres coordonnées. Il est également souhaitable de fournir les coordonnées de deux amis proches. Cela vous permet de créer deux signes binaires supplémentaires:


  • rempli ou non contact 2
  • rempli ou non contact 3

En conséquence, nous obtenons les signes suivants:


  1. Changement du taux de change du rouble, signe numérique
  2. Région de travail, signe catégorique (6 catégories)
  3. Profession, signe catégorique (5 catégories)
  4. Type d'organisation dans laquelle l'emprunteur travaille, attribut catégoriel (5 catégories)
  5. Le jour du mois où la demande est déposée, signe binaire - tombe dans l'intervalle du 9 au 21 jour ou non
  6. Nombre de demandes d'historique de crédit pour:
    • heure
    • jour
    • une semaine
    • mois
    • trimestre
    • année
  7. Situation familiale, signe catégorique (8 catégories)
  8. Nombre de membres de la famille, caractéristique numérique
  9. Expérience au dernier lieu de travail, signe numérique
  10. Âge de l'emprunteur, caractéristique numérique
  11. Revenu mensuel, caractéristique numérique
  12. Revenu supplémentaire, caractéristique numérique
  13. Rempli ou pas de contact 2, signe binaire
  14. Rempli ou pas de contact 3, signe binaire

Toutes les données ci-dessus sont économiquement viables et faciles à collecter. Malgré le fait qu'ils ne contiennent pas d'informations complètes sur l'emprunteur, il est possible sur leur base de construire un modèle rentable et fonctionnel.


Je parlerai du processus de choix d'une architecture et des résultats obtenus dans le prochain article.
J'espère que c'était intéressant et utile.


Panenko Mark, Devim

Source: https://habr.com/ru/post/fr454574/


All Articles