Lo que afecta la emisión de crédito. Descripción general de la competencia de riesgo de incumplimiento de crédito de vivienda

Considere cómo funcionan los algoritmos en la calificación bancaria, qué métricas se utilizan y qué parámetros del prestatario afectan si otorgarán un préstamo o no. El artículo describe la competencia pasada con kaggle en la predicción de la probabilidad de incumplimiento y proporciona parámetros que influyen en el riesgo de incumplimiento.

Error del primer y segundo tipo


El objetivo del banco es ganar dinero. El primer riesgo que enfrenta una institución de crédito es otorgar un préstamo a un prestatario que no paga. El incumplimiento puede tener varias razones, desde las dificultades financieras del prestatario hasta el fraude.

Para un banco, este es un error del primer tipo.

Pero si el banco sigue una política difícil y no otorga préstamos a nadie, ni siquiera a aquellos que devolverían el dinero, entonces el banco no ganará intereses. Rechazar un préstamo a un prestatario responsable es un error del segundo tipo.

Para evaluar la calidad de las decisiones tomadas por el algoritmo, se utiliza el coeficiente de Gini (GINI). En economía y en ciencia de datos, el coeficiente de Gini tiene una interpretación diferente. Para la calificación crediticia, se calcula como

GINI = 2 ROC AUC - 1

Para evaluar el puntaje bancario, se utiliza una curva ROC AUC estándar.




Fig. 1 Curva ROC AUC. El área debajo de la curva muestra la calidad del algoritmo. Si el área es 0.5, entonces este es un pronóstico aleatorio (para un clasificador binario), 1 es un pronóstico ideal.

Algoritmos de puntuación


Una característica de los algoritmos de puntuación es el requisito de interpretabilidad. En este sentido, a menudo se utilizan modelos lineales.

Para maximizar la calidad, tiene sentido usar composiciones de árboles como bosque aleatorio y XGboost. Para los casos con una gran cantidad de datos transaccionales, las arquitecturas DNN también son adecuadas, pero es aconsejable utilizar redes neuronales solo para las instituciones de crédito más grandes.

El uso de algoritmos en las instituciones de crédito a menudo no se debe a la maximización de la calidad, sino a los requisitos para el proceso de toma de decisiones, ¡así que asegúrese de que su red neuronal sea lo suficientemente interpretable antes de lanzar la solución a la batalla!

Parámetros que afectan el riesgo de incumplimiento


Analizaremos los parámetros que influyen utilizando el ejemplo de soluciones de la competencia en Kaggle - Home Credit Default Risk, que tuvo lugar hace un año.

En un conjunto de 220 parámetros.


Fig. 2 Distribución de préstamos impagos y reembolsados.
Se tomaron varias imágenes de computadoras portátiles publicadas por los concursantes, para obtener más detalles sobre las soluciones se pueden encontrar aquí .

Fuentes: 1 , 2 , 3

Las clases no están equilibradas, los impagos son inferiores a los préstamos reembolsados.

Visualizamos la distribución de parámetros para determinar si los préstamos predeterminados tienen una distribución diferente.



Fig. 3 Un ejemplo de distribución de préstamos impagos y reembolsados ​​por edad.

De la imagen 3 se deduce que los jóvenes prestatarios tienen un mayor riesgo de incumplimiento.

Además de las características descritas del prestatario, también existen parámetros tales como EXT_SOURCE 1,2,3. En este conjunto de datos, estos son parámetros obtenidos de agencias de crédito y proveedores de datos externos. La empresa DATA4 para la que trabajo es un ejemplo de dicho proveedor, pero nuestro conjunto de datos no está disponible. Los jugadores activos en el mercado de comercio de datos son los operadores móviles y BKI.

Construiremos una matriz de correlación para ver con qué parámetros se correlacionan los pronósticos de los proveedores de datos externos y cómo afectan la calidad del algoritmo.



Construimos las distribuciones de acuerdo con los datos de proveedores externos, y veremos que tienen diferencias para los préstamos en mora.

Para obtener más funciones, obtenemos la siguiente imagen, que es difícil de interpretar, pero que ofrece una visión holística.





Encuentre factores predeterminados por feature_importances



Construyamos un diagrama de la importancia de los atributos para el algoritmo de RF.



Que influye


1) Puntuación de agencias de crédito y proveedores de datos externos como nuestra empresa
2) edad y género
3) El tiempo que el prestatario vivió en el último lugar de registro
4) Plazo del préstamo
5) Tipo de préstamo solicitado
6) El porcentaje que el préstamo será sobre el flujo de caja y los salarios de los clientes.
7) La hora en que el prestatario usó el último número de teléfono
8) Tiempo en el último lugar de trabajo y una parte de la duración total del servicio.
9) flujo de efectivo de crédito
10) Monto del préstamo

El artículo examinó los principios de calificación crediticia y mostró los parámetros que hacen la mayor contribución a la decisión sobre el préstamo. Los resultados parecen plausibles, cuanto mejor sea el historial crediticio del prestatario, cuanto más tiempo trabaje el prestatario en un trabajo, menos cambiará el número de teléfono y el lugar de residencia, y cuanto menor sea la parte del préstamo del ingreso disponible, menor será el riesgo de incumplimiento. Pero debe recordarse que los resultados se basan en los datos de una institución de crédito en particular y pueden no ser adecuados para otro caso.

Source: https://habr.com/ru/post/483820/


All Articles