Sin historial de crédito - no otorgue préstamos, no otorgue préstamos - sin historial de crédito. Un círculo vicioso de algún tipo. Que hacer Vamos a hacerlo bien.
Hola Mi nombre es Mark, soy científico de datos en Devim. Recientemente, lanzamos un modelo para calificar a los prestatarios de la CFI "Do Salario", que no tienen historial crediticio. Quiero compartir la experiencia de minería de datos, características de diseño e interpretación de características.

Este tema se divide en dos publicaciones, en la primera hablaré sobre el proceso de búsqueda y construcción de signos. La segunda parte se trata de comparar arquitecturas modelo, analizar resultados e interpretar decisiones de puntuación.
Primera parte Diseño de funciones
Los modelos de aprendizaje automático se basan en datos cuya calidad e integridad son un factor determinante en el éxito o el fracaso de un modelo. Pero, ¿y si hay pocos datos? ¿O si los datos no son lo suficientemente informativos o no son precisos? ¿Dónde encontrar información adicional y cómo usarla al construir un modelo? Déjame decirte cómo resolví este problema.
Factores de evaluación del riesgo de crédito
La calificación crediticia se basa en un análisis de las características del prestatario asociadas con el riesgo de incumplimiento del préstamo. Se pueden dividir en económicos generales e individuales.
Factores económicos generales
El entorno económico tiene un gran impacto en la condición financiera y psicológica del prestatario. Es posible evaluar con mayor precisión el grado de influencia destacando los factores relacionados con el prestatario. Se dividen condicionalmente en dos niveles:
- Los factores a nivel macro son factores externos al prestatario. Suelen incluir el PIB, la inflación, los tipos de cambio, etc.
- Los factores de nivel micro son aquellos que caracterizan a un prestatario particular, por ejemplo, profesión, industria, salario promedio, etc.
Vale la pena señalar de inmediato que los factores económicos generales sirven como factores adicionales. Según muchos investigadores , la información que contienen es general y caracteriza débilmente a un prestatario específico.
Factores individuales
Los factores individuales contienen la información más valiosa para el modelo de puntuación. También se pueden dividir en categorías:
- Demografía : edad, sexo, estado civil, etc.
- Financiero - ingresos y gastos, acceso a recursos financieros, disponibilidad de reservas financieras.
- Psicológico : uno de los más informativos. La mejor fuente de dichos datos es el historial de crédito. El historial de crédito caracteriza la disciplina financiera del cliente, contiene información sobre la capacidad de pagar cantidades específicas, muestra el interés actual en el préstamo. Si no se forma el historial de crédito, debe buscar otras fuentes de información: redes sociales, comportamiento al completar una solicitud, etc.
- Información de contacto : su volumen y composición afectan el riesgo de incumplimiento de préstamo.
Descripción del conjunto de datos
El conjunto para capacitar al modelo es de 9.500 prestatarios que recibieron un préstamo por primera vez de mayo a diciembre de 2018. Datos de prueba: 1,500 prestatarios para el período de enero a marzo de 2019.
La separación temporal de los prestatarios se utiliza por varias razones. En primer lugar, tal separación hace que la filtración de información del futuro sea poco probable. En segundo lugar, esto nos permite evaluar la estabilidad del modelo a lo largo del tiempo. En los micropréstamos PDL ( préstamos de día de pago ), los montos y plazos son pequeños en comparación con otros tipos de préstamos, por lo tanto, se eligió lo siguiente como atributo objetivo: demora en los pagos por más de 15 días.
Diseño de funciones
Comenzamos la construcción de letreros con otros más generales: económicos, luego pasaremos a los individuales.
De los macrofactores económicos generales, solo se encontró un factor estable, accesible y actualizado regularmente: el tipo de cambio del rublo. Está disponible en el sitio web del Banco Central durante un largo período de tiempo (es posible cargar datos en un formato conveniente), y lo más importante, se actualiza diariamente. El rublo tiene una tendencia bajista estable. En forma cruda, tal factor es mejor no usar. Después de un cierto período de tiempo, los valores característicos irán más allá de los datos que cayeron en el conjunto de entrenamiento y serán interpretados incorrectamente por el modelo.
Para evitar consecuencias negativas, convertiremos el tipo de cambio del rublo en relación con el tipo actual (en el momento de la consideración de la solicitud) al valor medio de los 35 días anteriores. Ahora el signo no caracteriza el valor absoluto del tipo de cambio del rublo, sino la tendencia (crecimiento, disminución, estado estable) en el período considerado. En el gráfico 1, los datos obtenidos. El gráfico 2 muestra el porcentaje de clientes predeterminados por categoría (caída, estabilidad, crecimiento).

Gráfico 1. Cambio en el tipo de cambio del rublo en relación con el valor medio en los últimos 35 días.

Gráfico 2. El número de clientes predeterminados según el cambio en la tarifa.
De los microfactores económicos disponibles: la región en la que trabaja el prestatario, tipo de organización, profesión.
A primera vista, la región de trabajo se relaciona más con factores individuales que con factores económicos generales. Sin embargo, es posible agregar información económica general a los datos a través de una agrupación de regiones. El sitio web de Rosstat proporciona información sobre varios indicadores económicos de una región en particular. La probabilidad de incumplimiento resultó ser datos sobre el nivel promedio de salarios en la región, el costo de un conjunto fijo de productos y la cantidad de pagos vencidos de un préstamo per cápita. Para agrupar las regiones, se eligió un algoritmo de agrupamiento aglomerativo. El método Ward, que combina grupos para que la ganancia de dispersión sea mínima, se utilizó como criterio de conexión. Los grupos de datos resultantes están en un gráfico tridimensional.

Tabla de regiones agrupadas Otro factor microeconómico importante es la profesión. La siguiente figura muestra los datos sobre el porcentaje de clientes predeterminados por profesión del conjunto de datos de capacitación.

El gráfico muestra claramente la dependencia de la probabilidad de incumplimiento de la profesión. Para los prestatarios grupales, es aconsejable aplicar uno de los principios generalmente aceptados en la comunidad económica. El desglose en categorías del sitio web de Rosstat se correlaciona bien con los datos presentados en el gráfico.
División de empleados en categorías de personal.Por categorías de personal, los trabajadores se dividen en gerentes, especialistas, otros empleados y trabajadores.
- Los gerentes incluyen empleados que ocupan los puestos de jefes de organizaciones, divisiones estructurales y sus diputados (directores, jefes: departamentos, divisiones, turnos, etc., gerentes: producción, cantina, sección, almacén, lavandería, club, hostal, sala de equipajes y etc., gerentes, presidentes, capitanes, contadores principales e ingenieros, artesanos, etc.).
- Los especialistas incluyen trabajadores empleados en trabajos que generalmente requieren educación vocacional superior o secundaria: ingenieros, médicos, maestros, economistas, contadores, geólogos, despachadores, inspectores, correctores, matemáticos, enfermeras, mecánicos, normalizadores, programadores, psicólogos, editores, auditores, etc. Los especialistas también incluyen asistentes y asistentes de los especialistas nombrados.
- Otros empleados son empleados que preparan y ejecutan documentación, contabilidad y control, limpieza, en particular, agentes, archiveros, asistentes, empleados, cajeros y controladores (excepto trabajadores), comandantes, copistas de documentación técnica, máquinas de escribir, supervisores, estadísticas, taquígrafos, cronometradores, contadores, dibujantes.
- Los trabajadores incluyen a personas directamente involucradas en el proceso de creación de riqueza, así como a aquellos que se dedican a la reparación, movimiento de mercancías, transporte de pasajeros, prestación de servicios materiales, etc.
Las profesiones que se encuentran con frecuencia, como un conductor, gerente, contador, etc., pueden caracterizar a un prestatario de diferentes maneras, dependiendo de un área específica o tipo de organización. Por ejemplo, un conductor que trabaja en un taxi y un conductor que trabaja en la administración de la ciudad son prestatarios completamente diferentes.
Para agregar esta información al modelo, dividiremos a los prestatarios por el tipo de organizaciones en las que trabajan:
- Organizaciones comerciales
- Organizaciones gubernamentales
- Empresarios individuales y autónomos
- Inactivo
- Tipo de organización no especificado
Para verificar si la separación de información agrega, miramos el cuadro "la proporción de prestatarios predeterminados agrupados por profesión y tipo de organización".

Designación de profesiones y tipos de organizaciones. El gráfico muestra que para algunas profesiones hay una diferencia significativa en qué tipo de organización trabaja el prestatario. Se obtienen resultados inesperados cuando el prestatario indica que no está trabajando, pero al mismo tiempo indica la profesión. Un análisis adicional de los datos mostró que tal comportamiento es característico de las personas mayores.
Y el último factor económico general utilizado en el modelo es el día del mes en que se presenta la solicitud de préstamo. Esto probablemente se deba a las reglas generalmente aceptadas para el pago de salarios en Rusia (por ejemplo, 10 y 25). Los días del mes se dividen en dos períodos, del 9 al 21, inclusive, y los días restantes del mes.
Factores individuales
Demográfica
En mis datos, solo hay cuatro características demográficas:
- Edad del prestatario (años totales)
- Antigüedad en el último lugar de trabajo (en meses)
- Estado civil (soltero, casado, matrimonio civil, divorciado, soltero, viudo / viuda, no completado)
- Número de miembros de la familia (que conviven con el prestatario)
Financiera
Los datos sobre prestatarios contienen información sobre salarios e ingresos adicionales. Los clientes a menudo sobreestiman la importancia de estos factores, por lo que no contienen información precisa sobre la situación financiera del prestatario, pero le permiten evaluarla de manera aproximada.
Psicologico
La población seleccionada de prestatarios no tiene préstamos, por lo tanto, no tenemos la información psicológica (conductual) básica. Pero el 90% de los clientes tienen información sobre la cantidad de solicitudes de historial de crédito por año, trimestre, mes, semana, día y hora. Por lo tanto, es posible evaluar la necesidad de un préstamo en el momento actual y la necesidad de un préstamo en una perspectiva histórica. El número de solicitudes de préstamo presentadas en un período corto agrega información sobre el psicotipo del prestatario. (si presentó una solicitud y espera una decisión, y luego envía la segunda en caso de rechazo. En este caso habrá pocos préstamos en la última hora, pero muchos en el último día. O el prestatario presenta solicitudes a diferentes organizaciones y espera una decisión de todos a la vez).
Al realizar la solicitud, se requiere completar su propia información de contacto. También es deseable proporcionar detalles de contacto de dos amigos cercanos. Eso le permite crear dos signos binarios adicionales:
- lleno o no contacto 2
- lleno o no contacto 3
Como resultado, obtenemos los siguientes signos:
- Cambio del tipo de cambio del rublo, signo numérico
- Región de trabajo, signo categórico (6 categorías)
- Profesión, signo categórico (5 categorías)
- Tipo de organización en la que trabaja el prestatario, atributo categórico (5 categorías)
- El día del mes en que se presenta la solicitud, el signo binario cae en el intervalo del 9 al 21 día o no
- Número de solicitudes de historial de crédito para:
- hora
- dia
- una semana
- mes
- cuarto
- año
- Estado familiar, signo categórico (8 categorías)
- Número de miembros de la familia, característica numérica.
- Experiencia en el último lugar de trabajo, signo numérico.
- Edad del prestatario, característica numérica
- Renta mensual, característica numérica
- Ingresos adicionales, característica numérica
- Lleno o no contacto 2, signo binario
- Lleno o no contacto 3, signo binario
Todos los datos anteriores son económicamente viables y fáciles de recopilar. A pesar de que no contienen información completa sobre el prestatario, sobre la base de esto es posible construir un modelo rentable y funcional.
Hablaré sobre el proceso de elección de una arquitectura y los resultados obtenidos en el próximo artículo.
Espero que haya sido interesante y útil.
Panenko Mark, Devim