Maschinelles Lernen in der Mikrofinanzierung: Aufbau eines Bewertungsmodells fĂŒr Kunden mit einer leeren BonitĂ€tshistorie

Keine BonitÀtshistorie - keine Kredite vergeben, keine Kredite vergeben - keine BonitÀtshistorie. Eine Art Teufelskreis. Was zu tun ist? Lass es uns richtig machen.


Hallo! Mein Name ist Mark, ich bin Datenwissenschaftler bei Devim. KĂŒrzlich haben wir ein Modell fĂŒr die Bewertung von IFC-Kreditnehmern „Do Salary“ eingefĂŒhrt, die keine BonitĂ€tshistorie haben. Ich möchte die Erfahrungen mit dem Abrufen von Daten, Designmerkmalen und der Interpretation von Merkmalen teilen.



Dieses Thema ist in zwei Veröffentlichungen unterteilt. In der ersten werde ich ĂŒber den Prozess des Suchens und Konstruierens von Zeichen sprechen. Im zweiten Teil geht es darum, Modellarchitekturen zu vergleichen, Ergebnisse zu analysieren und Bewertungsentscheidungen zu interpretieren.


Teil Eins Feature-Design


Modelle fĂŒr maschinelles Lernen basieren auf Daten, deren QualitĂ€t und VollstĂ€ndigkeit ein entscheidender Faktor fĂŒr den Erfolg oder Misserfolg eines Modells sind. Aber was ist, wenn es nur wenige Daten gibt? Oder wenn die Daten nicht informativ genug oder nicht korrekt sind? Wo finde ich zusĂ€tzliche Informationen und wie verwende ich sie beim Erstellen eines Modells? Lassen Sie mich Ihnen sagen, wie ich dieses Problem gelöst habe.


Bewertungsfaktoren fĂŒr das Kreditrisiko


Die Kreditbewertung basiert auf einer Analyse der Merkmale des Kreditnehmers, die mit dem Risiko eines Kreditausfalls verbunden sind. Sie können in allgemeine wirtschaftliche und individuelle unterteilt werden.


Allgemeine wirtschaftliche Faktoren


Das wirtschaftliche Umfeld hat einen großen Einfluss auf die finanzielle und psychologische Situation des Kreditnehmers. Es ist möglich, den Grad des Einflusses genauer zu bewerten, indem Faktoren hervorgehoben werden, die mit dem Kreditnehmer zusammenhĂ€ngen. Sie sind bedingt in zwei Ebenen unterteilt:


  • Faktoren auf Makroebene sind Faktoren, die außerhalb des Kreditnehmers liegen. Sie umfassen normalerweise BIP, Inflation, Wechselkurse usw.
  • Faktoren auf Mikroebene sind diejenigen, die einen bestimmten Kreditnehmer charakterisieren, z. B. Beruf, Branche, Durchschnittsgehalt usw.
    Es ist sofort erwÀhnenswert, dass allgemeine wirtschaftliche Faktoren als zusÀtzliche Faktoren dienen. Vielen Forschern zufolge sind die darin enthaltenen Informationen allgemein und charakterisieren einen bestimmten Kreditnehmer nur schwach.

Einzelne Faktoren


Einzelne Faktoren enthalten die wertvollsten Informationen fĂŒr das Bewertungsmodell. Sie können auch in Kategorien unterteilt werden:


  • Demografisch - Alter, Geschlecht, Familienstand usw.
  • Finanziell - Einnahmen und Ausgaben, Zugang zu Finanzmitteln, VerfĂŒgbarkeit von Finanzreserven.
  • Psychologisch - eine der informativsten. Die beste Quelle fĂŒr solche Daten ist die BonitĂ€t. Die BonitĂ€tshistorie kennzeichnet die Finanzdisziplin des Kunden, enthĂ€lt Informationen ĂŒber die FĂ€higkeit zur RĂŒckzahlung bestimmter BetrĂ€ge und zeigt die aktuellen Zinsen fĂŒr das Darlehen. Wenn die BonitĂ€tshistorie nicht erstellt wurde, mĂŒssen Sie nach anderen Informationsquellen suchen: soziale Netzwerke, Verhalten beim AusfĂŒllen eines Antrags usw.
  • Kontaktinformationen - Umfang und Zusammensetzung wirken sich auf das Risiko eines Kreditausfalls aus.

Datensatzbeschreibung


FĂŒr die Schulung des Modells sind 9.500 Kreditnehmer vorgesehen, die von Mai bis Dezember 2018 erstmals einen Kredit erhalten haben. Testdaten - 1.500 Kreditnehmer fĂŒr den Zeitraum von Januar bis MĂ€rz 2019.


Die vorĂŒbergehende Trennung von Kreditnehmern wird aus mehreren GrĂŒnden verwendet. Erstens macht eine solche Trennung den Verlust von Informationen aus der Zukunft unwahrscheinlich. Zweitens können wir so die StabilitĂ€t des Modells ĂŒber die Zeit bewerten. Bei PDL-Mikrokrediten (Zahltagdarlehen) sind die BetrĂ€ge und Konditionen im Vergleich zu anderen Arten von Darlehen gering. Daher wurde Folgendes als Zielattribut ausgewĂ€hlt: Zahlungsverzögerung um mehr als 15 Tage.


Feature-Design


Wir beginnen den Bau von Zeichen mit allgemeineren - wirtschaftlichen, dann gehen wir zu einzelnen ĂŒber.


Von den allgemeinen wirtschaftlichen Makrofaktoren wurde nur ein stabiler, zugĂ€nglicher und regelmĂ€ĂŸig aktualisierter Faktor gefunden - der Rubelwechselkurs. Es ist ĂŒber einen langen Zeitraum auf der Website der Zentralbank verfĂŒgbar (es ist möglich, Daten in einem geeigneten Format hochzuladen) und wird vor allem tĂ€glich aktualisiert. Der Rubel hat einen stabilen AbwĂ€rtstrend. In seiner Rohform ist es besser, einen solchen Faktor nicht zu verwenden. Nach einer bestimmten Zeit gehen die charakteristischen Werte ĂŒber die Daten hinaus, die in den Trainingssatz gefallen sind, und werden vom Modell falsch interpretiert.


Um negative Folgen zu vermeiden, werden wir den Rubel-Wechselkurs in Bezug auf den aktuellen Kurs (zum Zeitpunkt der PrĂŒfung des Antrags) in den Medianwert der letzten 35 Tage umrechnen. Das Vorzeichen kennzeichnet nun nicht den absoluten Wert des Rubelkurses, sondern die Tendenz (Wachstum, RĂŒckgang, stabiler Zustand) im betrachteten Zeitraum. In Grafik 1 sind die Daten erhalten. Grafik 2 zeigt den Prozentsatz der Standardkunden nach Kategorien (RĂŒckgang, StabilitĂ€t, Wachstum).



Grafik 1. Änderung des Rubel-Wechselkurses im VerhĂ€ltnis zum Medianwert in den letzten 35 Tagen.



Grafik 2. Die Anzahl der Standardkunden in AbhĂ€ngigkeit von der Änderung der Rate.


Von den verfĂŒgbaren wirtschaftlichen Mikrofaktoren: die Region, in der der Kreditnehmer arbeitet, Art der Organisation, Beruf.


Auf den ersten Blick bezieht sich die Arbeitsregion mehr auf einzelne als auf allgemeine wirtschaftliche Faktoren. Es ist jedoch möglich, allgemeine wirtschaftliche Informationen zu den Daten durch eine Gruppierung von Regionen hinzuzufĂŒgen. Die Website von Rosstat bietet Informationen zu verschiedenen Wirtschaftsindikatoren einer bestimmten Region. Es stellte sich heraus, dass die Ausfallwahrscheinlichkeit Daten zum durchschnittlichen Lohnniveau in der Region, zu den Kosten eines festen Satzes von Produkten und zur Höhe der ĂŒberfĂ€lligen Zahlungen fĂŒr ein Pro-Kopf-Darlehen waren. Um die Regionen zu gruppieren, wurde ein agglomerativer Clustering-Algorithmus gewĂ€hlt. Als Verbindungskriterium wurde die Ward-Methode verwendet, bei der Cluster so kombiniert werden, dass der Dispersionsgewinn minimal war. Die resultierenden Datencluster befinden sich in einem dreidimensionalen Diagramm.



Gruppierte Regionstabelle
123456
Belgorod RegionRegion MoskauKaluga RegionRegion RjasanTjumen RegionRepublik Krim
Region BrjanskMoskauRepublik KarelienSmolensk RegionRepublik Sacha (Jakutien)Sewastopol
Wladimir RegionKomi RepublikRegion ArchangelskTver RegionMagadan RegionRepublik Dagestan
Voronezh RegionMurmansk RegionGebiet LeningradTula RegionRepublik Inguschetien
Ivanovo RegionSt. PetersburgDauerwelle RegionWologda RegionTschetschenische Republik
Region KostromaKamtschatka-TerritoriumGebiet SwerdlowskRegion Kaliningrad
Kursk RegionOblast SachalinRegion KrasnojarskRegion Nowgorod
Region LipezkRegion IrkutskRepublik KalmĂŒckien
Oryol RegionNovosibirsk RegionRegion Krasnodar
Tambow RegionChabarowsk-TerritoriumAstrachan Region
Jaroslawl RegionAmur RegionRostower Gebiet
Region PskowDie Republik Baschkortostan
Republik AdygeaRepublik Tatarstan
Wolgograd RegionRepublik Udmurt
Kabardino-Balkarian R.Tschuwaschische Republik
Karachay-Cherkess R.Kirov Region
Republik Nordossetien - AlaniaRegion Nischni Nowgorod
Region StawropolOrenburg Region
Republik Mari ElSamara Region
Republik MordowienRegion Uljanowsk
Penza RegionKurgan Region
Saratow RegionRegion Tscheljabinsk
Altai RepublikRepublik Burjatien
Altai-RegionTuva Republik
Republik Khakassia
Transbaikales Territorium
Region Kemerowo
Omsk Region
Tomsker Region
Primorsky-Territorium

Ein weiterer wichtiger mikroökonomischer Faktor ist der Beruf. Die folgende Abbildung zeigt die Daten zum Anteil der Standardkunden nach Beruf aus dem Schulungsdatensatz.



Die Grafik zeigt deutlich die AbhĂ€ngigkeit der Ausfallwahrscheinlichkeit vom Beruf. FĂŒr die Gruppierung von Kreditnehmern ist es ratsam, eines der in der Wirtschaftsgemeinschaft allgemein anerkannten GrundsĂ€tze anzuwenden. Die Aufteilung in Kategorien von der Rosstat-Website korreliert gut mit den in der Grafik dargestellten Daten.


Einteilung der Mitarbeiter in Personalkategorien
Nach Personalkategorien werden die Arbeitnehmer in Manager, Spezialisten, andere Arbeitnehmer und Arbeitnehmer unterteilt.
  • Zu den Managern zĂ€hlen Mitarbeiter, die die Positionen von Leitern von Organisationen, strukturellen Abteilungen und deren Stellvertretern innehaben (Direktoren, Leiter: Abteilungen, Abteilungen, Schichten usw.), Manager: Produktion, Kantine, Abteilung, Lager, WĂ€scherei, Club, Herberge, GepĂ€ckraum und usw., Manager, Vorsitzende, KapitĂ€ne, Hauptbuchhalter und Ingenieure, Handwerker usw.).
  • Zu den Spezialisten zĂ€hlen Arbeitnehmer, die in Berufen beschĂ€ftigt sind, die normalerweise eine höhere oder sekundĂ€re Berufsausbildung erfordern: Ingenieure, Ärzte, Lehrer, Wirtschaftswissenschaftler, Buchhalter, Geologen, Disponenten, Inspektoren, Korrektoren, Mathematiker, Krankenschwestern, Mechaniker, Normalisierer, Programmierer, Psychologen, Redakteure, WirtschaftsprĂŒfer usw. Zu den Spezialisten gehören auch Assistenten und Assistenten der genannten Spezialisten.
  • Andere Mitarbeiter sind Mitarbeiter, die Dokumentation, Buchhaltung und Kontrolle, Haushalt, insbesondere Agenten, Archivare, Bedienstete, Angestellte, Kassierer und Kontrolleure (außer Arbeiter), Kommandanten, Kopisten technischer Dokumentationen, Schreibmaschinen, Vorgesetzte, vorbereiten und ausfĂŒhren. Statistiken, Stenographen, Zeitnehmer, Buchhalter, Zeichner.
  • Zu den Arbeitnehmern zĂ€hlen Personen, die direkt am Prozess der Schaffung von Wohlstand beteiligt sind, sowie Personen, die an der Reparatur, dem Warenverkehr, dem Transport von Passagieren, der Erbringung materieller Dienstleistungen usw. beteiligt sind.


HÀufig anzutreffende Berufe wie Fahrer, Manager, Buchhalter usw. können einen Kreditnehmer je nach Bereich oder Art der Organisation auf unterschiedliche Weise charakterisieren. Zum Beispiel sind ein Fahrer, der in einem Taxi arbeitet, und ein Fahrer, der in der Stadtverwaltung arbeitet, völlig unterschiedliche Kreditnehmer.


Um diese Informationen zum Modell hinzuzufĂŒgen, teilen wir die Kreditnehmer nach der Art der Organisationen auf, in denen sie arbeiten:


  • Kommerzielle Organisationen
  • Regierungsorganisationen
  • Einzelunternehmer und SelbststĂ€ndige
  • Leerlauf
  • Organisationstyp nicht angegeben

Um zu ĂŒberprĂŒfen, ob die Trennung von Informationen hinzugefĂŒgt wird, sehen wir uns die Tabelle „Anteil der Standardkreditnehmer, gruppiert nach Beruf und Art der Organisation“ an.



Bezeichnung von Berufen und Arten von Organisationen
BerufArt der Arbeit
0nicht angegeben0nicht angegeben
1FĂŒhrungskrĂ€fte1kommerziell
2Spezialisten2Zustand
3andere Mitarbeiter3nicht selbstÀndig
4Arbeiter4funktioniert nicht
5andere

Die Grafik zeigt, dass es fĂŒr einige Berufe einen signifikanten Unterschied in der Art der Organisation gibt, in der der Kreditnehmer arbeitet. Unerwartete Ergebnisse werden erzielt, wenn der Kreditnehmer angibt, dass er nicht arbeitet, aber gleichzeitig den Beruf angibt. Eine zusĂ€tzliche Analyse der Daten ergab, dass ein solches Verhalten fĂŒr Senioren charakteristisch ist.


Der letzte im Modell verwendete allgemeine Wirtschaftsfaktor ist der Tag des Monats, an dem der Kreditantrag eingereicht wird. Dies ist wahrscheinlich auf die allgemein anerkannten Regeln fĂŒr die Zahlung von Löhnen in Russland zurĂŒckzufĂŒhren (z. B. 10 und 25). Die Tage des Monats sind in zwei ZeitrĂ€ume vom 9. bis einschließlich 21. Tag und die verbleibenden Tage des Monats unterteilt.


Einzelne Faktoren


Demografisch


In meinen Daten gibt es nur vier demografische Merkmale:


  • Alter des Kreditnehmers (Gesamtjahre)
  • Dienstalter am letzten Arbeitsplatz (in Monaten)
  • Familienstand (ledig, verheiratet, standesamtlich, geschieden, ledig, Witwer / Witwe, nicht abgeschlossen)
  • Anzahl der Familienmitglieder (zusammen mit dem Kreditnehmer)

Finanziell


Die Daten zu Kreditnehmern enthalten Informationen zu Löhnen und zusĂ€tzlichen Einnahmen. Die Bedeutung dieser Faktoren wird von den Kunden hĂ€ufig ĂŒberschĂ€tzt, sodass sie keine genauen Informationen ĂŒber die finanzielle Situation des Kreditnehmers enthalten, sondern eine grobe Bewertung ermöglichen.


Psychologisch


Die ausgewĂ€hlte Population von Kreditnehmern hat keine Kredite, daher verfĂŒgen wir nicht ĂŒber die grundlegenden psychologischen (Verhaltens-) Informationen. 90% der Kunden haben jedoch Informationen ĂŒber die Anzahl der BonitĂ€tsanfragen fĂŒr ein Jahr, ein Quartal, einen Monat, eine Woche, einen Tag oder eine Stunde. Somit ist es möglich, den aktuellen Kreditbedarf und den Kreditbedarf in historischer Perspektive zu beurteilen. Die Anzahl der in kurzer Zeit eingereichten KreditantrĂ€ge fĂŒgt Informationen ĂŒber den Psychotyp des Kreditnehmers hinzu. (ob er einen Antrag eingereicht hat und auf eine Entscheidung wartet und dann den zweiten im Falle einer Ablehnung einreicht. In diesem Fall gibt es in der letzten Stunde nur wenige Kredite, aber am letzten Tag viele. Oder der Kreditnehmer reicht AntrĂ€ge bei verschiedenen Organisationen ein und wartet auf eine Entscheidung von allen gleichzeitig.)


Kontaktinformationen


Bei der Bewerbung mĂŒssen Sie Ihre eigenen Kontaktinformationen eingeben. Es ist auch wĂŒnschenswert, Kontaktdaten von zwei engen Freunden anzugeben. Auf diese Weise können Sie zwei zusĂ€tzliche BinĂ€rzeichen erstellen:


  • gefĂŒllt oder nicht Kontakt 2
  • gefĂŒllt oder nicht Kontakt 3

Als Ergebnis erhalten wir die folgenden Zeichen:


  1. Rubel WechselkursÀnderung, numerisches Vorzeichen
  2. Arbeitsbereich, kategoriales Zeichen (6 Kategorien)
  3. Beruf, kategorisches Zeichen (5 Kategorien)
  4. Art der Organisation, in der der Kreditnehmer arbeitet, kategoriales Attribut (5 Kategorien)
  5. Der Tag des Monats, an dem der Antrag eingereicht wird, BinÀrzeichen - liegt im Intervall vom 9. bis zum 21. Tag oder nicht
  6. Anzahl der BonitĂ€tsanfragen fĂŒr:
    • Stunde
    • Tag
    • eine Woche
    • Monat
    • Quartal
    • Jahr
  7. Familienstand, kategoriales Zeichen (8 Kategorien)
  8. Anzahl der Familienmitglieder, numerisches Merkmal
  9. Erfahrung am letzten Arbeitsplatz, Zahlenzeichen
  10. Alter des Kreditnehmers, numerisches Merkmal
  11. Monatliches Einkommen, numerisches Merkmal
  12. ZusÀtzliches Einkommen, numerisches Merkmal
  13. GefĂŒllt oder nicht Kontakt 2, BinĂ€rzeichen
  14. GefĂŒllt oder nicht Kontakt 3, BinĂ€rzeichen

Alle oben genannten Daten sind wirtschaftlich und einfach zu sammeln. Trotz der Tatsache, dass sie keine vollstĂ€ndigen Informationen ĂŒber den Kreditnehmer enthalten, ist es auf ihrer Grundlage möglich, ein kostengĂŒnstiges und funktionierendes Modell zu erstellen.


Ich werde ĂŒber den Prozess der Auswahl einer Architektur und die im nĂ€chsten Artikel erzielten Ergebnisse sprechen.
Hoffe es war interessant und hilfreich.


Panenko Mark, Devim

Source: https://habr.com/ru/post/de454574/


All Articles