O que afeta a emissão de crédito. Visão geral da competição de risco padrão de crédito residencial

Considere como os algoritmos funcionam na pontuação bancária, quais métricas são usadas e quais parâmetros do mutuário afetam se eles concederão um empréstimo ou não. O artigo descreve a competição anterior com o kaggle na previsão da probabilidade de inadimplência e fornece parâmetros que influenciam o risco de inadimplência.

Erro do primeiro e do segundo tipo


O objetivo do banco é ganhar dinheiro. O primeiro risco que uma instituição de crédito enfrenta é conceder um empréstimo a um mutuário com inadimplência. O padrão pode ter vários motivos, desde as dificuldades financeiras do mutuário até a fraude.

Para um banco, isso é um erro do primeiro tipo.

Mas se o banco adotar uma política rígida e não emitir empréstimos a ninguém, nem mesmo aos que devolveram o dinheiro, o banco não ganhará juros. Recusar um empréstimo a um mutuário responsável é um erro do segundo tipo.

Para avaliar a qualidade das decisões tomadas pelo algoritmo, é utilizado o coeficiente de Gini (GINI). Na economia e na ciência de dados, o coeficiente de Gini tem uma interpretação diferente. Para pontuação de crédito, é calculado como

GINI = 2 ROC AUC - 1

Para avaliar a pontuação do banco, é usada uma curva ROC AUC padrão!




Fig. 1 Curva ROC AUC. A área sob a curva mostra a qualidade do algoritmo. Se a área for 0,5, então esta é uma previsão aleatória (para um classificador binário), 1 é uma previsão ideal.

Algoritmos de pontuação


Um recurso dos algoritmos de pontuação é o requisito para interpretabilidade. Nesse sentido, modelos lineares são frequentemente usados.

Para maximizar a qualidade, faz sentido usar composições de árvores como floresta aleatória e XGboost. Para casos com uma grande quantidade de dados transacionais, as arquiteturas DNN também são adequadas, mas é aconselhável usar redes neurais apenas para as maiores instituições de crédito.

O uso de algoritmos em instituições de crédito geralmente é causado não pela maximização da qualidade, mas pelos requisitos do processo de tomada de decisão; portanto, verifique se a sua rede neural é suficientemente interpretável antes de lançar a solução na batalha!

Parâmetros que afetam o risco padrão


Analisaremos os parâmetros de influência usando o exemplo de soluções da competição no Kaggle - Home Credit Default Risk, que ocorreu há um ano.

Em um conjunto de 220 parâmetros.


Fig. 2 Distribuição dos empréstimos inadimplentes e reembolsados.
Várias imagens foram tiradas de laptops publicados pelos concorrentes, para mais detalhes sobre as soluções podem ser encontradas aqui .

Fontes: 1 , 2 , 3

As classes são desequilibradas, os padrões são inferiores aos empréstimos reembolsados.

Visualizamos a distribuição de parâmetros para determinar se os empréstimos padrão têm uma distribuição diferente.



Fig. 3 Um exemplo da distribuição de empréstimos inadimplentes e reembolsados ​​por idade.

Da imagem 3, segue-se que os jovens tomadores de empréstimos têm um risco maior de inadimplência.

Além das características descritas do mutuário, também existem parâmetros como EXT_SOURCE 1,2,3. Nesse conjunto de dados, são parâmetros obtidos de agências de crédito e provedores de dados externos. A empresa DATA4 em que trabalho é um exemplo desse provedor, mas nosso conjunto de dados não está disponível. Os participantes ativos no mercado de negociação de dados são operadoras de celular e BKI.

Construiremos uma matriz de correlação para ver com quais parâmetros as previsões de provedores de dados externos se correlacionam e como elas afetam a qualidade do algoritmo.



Construímos as distribuições de acordo com os dados de fornecedores externos e veremos que eles têm diferenças para empréstimos inadimplentes.

Para mais recursos, temos a seguinte imagem, difícil de interpretar, mas com uma visão holística.





Encontre fatores padrão por feature_importances



Vamos construir um diagrama da importância dos atributos para o algoritmo de RF.



O que influencia


1) Pontuação de agências de crédito e provedores de dados externos, como nossa empresa
2) Idade e sexo
3) A hora em que o mutuário morou no local do último registro
4) Prazo do empréstimo
5) Tipo de empréstimo solicitado
6) A porcentagem que o empréstimo estará no fluxo de caixa e nos salários dos clientes
7) A hora em que o mutuário usou o último número de telefone
8) Tempo no último local de trabalho e uma parte da duração total do serviço
9) Fluxo de caixa de crédito
10) Montante do empréstimo

O artigo examinou os princípios da pontuação de crédito e mostrou os parâmetros que mais contribuem para a decisão sobre o empréstimo. Os resultados parecem plausíveis, quanto melhor o histórico de crédito do tomador, quanto mais ele trabalha em um emprego, menos você altera o número de telefone e o local de residência e quanto menor a parcela do empréstimo da renda disponível, menor o risco de inadimplência. Mas deve-se lembrar que os resultados são baseados nos dados de uma instituição de crédito específica e podem não ser adequados para outro caso.

Source: https://habr.com/ru/post/pt483820/


All Articles