Was beeinflusst die Kreditvergabe? Home Credit Default Risk Wettbewerbsübersicht

Überlegen Sie, wie die Algorithmen beim Banking-Scoring funktionieren, welche Metriken verwendet werden und welche Parameter des Kreditnehmers Einfluss darauf haben, ob er einen Kredit ausgibt oder nicht. Der Artikel beschreibt den bisherigen Wettbewerb mit kaggle um die Vorhersage der Ausfallwahrscheinlichkeit und liefert Parameter, die das Ausfallrisiko beeinflussen.

Fehler der ersten und zweiten Art


Das Ziel der Bank ist es, Geld zu verdienen. Das erste Risiko, dem ein Kreditinstitut ausgesetzt ist, ist die Gewährung eines Kredits an einen Kreditnehmer, der in Zahlungsverzug gerät. Der Ausfall kann verschiedene Gründe haben, von den finanziellen Schwierigkeiten des Kreditnehmers bis zum Betrug.

Für eine Bank ist dies ein Fehler der ersten Art.

Aber wenn die Bank eine strenge Politik verfolgt und niemandem Kredite gewährt, auch nicht jenen, die das Geld zurückgeben würden, wird die Bank keine Zinsen verdienen. Die Verweigerung eines Kredits an einen verantwortlichen Kreditnehmer ist ein Fehler der zweiten Art.

Zur Beurteilung der Qualität der vom Algorithmus getroffenen Entscheidungen wird der Gini-Koeffizient (GINI) verwendet. In der Wirtschaft und in den Datenwissenschaften hat der Gini-Koeffizient eine andere Interpretation. Für das Kredit-Scoring wird berechnet als

GINI = 2 ROC AUC - 1

Zur Bewertung des Bankscorings wird eine Standard-ROC-AUC-Kurve verwendet!




Abb. 1 ROC AUC-Kurve. Der Bereich unter der Kurve zeigt die Qualität des Algorithmus. Wenn die Fläche 0,5 ist, dann ist dies eine zufällige Vorhersage (für einen binären Klassifikator), 1 ist eine ideale Vorhersage.

Bewertungsalgorithmen


Ein Merkmal von Bewertungsalgorithmen ist die Anforderung an die Interpretierbarkeit. In dieser Hinsicht werden häufig lineare Modelle verwendet.

Um die Qualität zu maximieren, ist es sinnvoll, Baumkompositionen wie Random Forest und XGboost zu verwenden. Für Fälle mit einer großen Menge von Transaktionsdaten sind DNN-Architekturen ebenfalls geeignet, es wird jedoch empfohlen, neuronale Netze nur für die größten Kreditinstitute zu verwenden.

Die Verwendung von Algorithmen in Kreditinstituten wird häufig nicht durch die Maximierung der Qualität, sondern durch die Anforderungen des Entscheidungsprozesses verursacht. Stellen Sie daher sicher, dass Ihr neuronales Netzwerk ausreichend interpretierbar ist, bevor Sie die Entscheidung in den Kampf ziehen!

Parameter, die das Ausfallrisiko beeinflussen


Wir werden die Einflussgrößen am Beispiel von Lösungen aus dem Wettbewerb bei Kaggle - Home Credit Default Risk vor einem Jahr analysieren.

In einem Satz von 220 Parametern.


Abb. 2 Verteilung der Ausfall- und Tilgungsdarlehen.
Einige Bilder wurden von Laptops aufgenommen, die von Teilnehmern veröffentlicht wurden. Weitere Informationen zu den Lösungen finden Sie hier .

Quellen: 1 , 2 , 3

Klassen sind unausgewogen, Ausfälle sind weniger als zurückgezahlte Kredite.

Wir visualisieren die Verteilung der Parameter, um festzustellen, ob die Standarddarlehen eine andere Verteilung haben.



Abb. 3 Ein Beispiel für die Verteilung der ausgefallenen und getilgten Kredite nach Alter.

Aus Bild 3 folgt, dass junge Kreditnehmer ein höheres Ausfallrisiko haben.

Neben den beschriebenen Eigenschaften des Kreditnehmers gibt es auch Parameter wie EXT_SOURCE 1,2,3. In diesem Datensatz handelt es sich um Parameter, die von Auskunfteien und externen Datenanbietern bezogen werden. Die DATA4-Firma, für die ich arbeite, ist ein Beispiel für einen solchen Anbieter, aber unser Datensatz ist nicht verfügbar. Aktive Akteure im Datenhandelsmarkt sind Mobilfunkbetreiber und BKI.

Wir werden eine Korrelationsmatrix erstellen, um zu sehen, mit welchen Parametern die Prognosen externer Datenanbieter korrelieren und wie sie sich auf die Qualität des Algorithmus auswirken.



Wir konstruieren die Verteilungen nach den Daten externer Lieferanten und werden feststellen, dass sie Unterschiede bei den Ausfalldarlehen aufweisen.

Für weitere Funktionen erhalten wir das folgende Bild, das schwer zu interpretieren ist, jedoch eine ganzheitliche Sichtweise bietet.





Finden Sie Standardfaktoren anhand von feature_importances



Lassen Sie uns ein Diagramm der Wichtigkeit von Attributen für den RF-Algorithmus erstellen.



Welche Einflüsse


1) Scoring von Auskunfteien und externen Datenanbietern wie unserem Unternehmen
2) Alter und Geschlecht
3) Die Zeit, zu der der Kreditnehmer am Ort der letzten Registrierung gelebt hat
4) Darlehenslaufzeit
5) Art des beantragten Darlehens
6) Der Prozentsatz, in dem sich das Darlehen auf den Cashflow und die Kundengehälter bezieht
7) Der Zeitpunkt, zu dem der Kreditnehmer die letzte Telefonnummer verwendet hat
8) Zeit am letzten Arbeitsplatz und Anteil an der Gesamtdienstzeit
9) Kredit-Cashflow
10) Darlehensbetrag

Der Artikel untersuchte die Grundsätze der Kreditwürdigkeitsprüfung und zeigte die Parameter auf, die den größten Beitrag zur Kreditentscheidung leisten. Die Ergebnisse erscheinen plausibel, je besser die Bonität des Kreditnehmers ist, je länger der Kreditnehmer an einem Arbeitsplatz arbeitet, je weniger Sie die Telefonnummer und den Wohnort ändern und je geringer der Anteil des Kredits am verfügbaren Einkommen ist, desto geringer ist das Ausfallrisiko. Es ist jedoch zu beachten, dass die Ergebnisse auf den Daten eines bestimmten Kreditinstituts beruhen und möglicherweise nicht für einen anderen Fall geeignet sind.

Source: https://habr.com/ru/post/de483820/


All Articles