Considere como os algoritmos funcionam na pontuação bancária, quais métricas são usadas e quais parâmetros do mutuário afetam se eles concederão um empréstimo ou não. O artigo descreve a
competição anterior
com o kaggle na previsão da probabilidade de inadimplência e fornece parâmetros que influenciam o risco de inadimplência.
Erro do primeiro e do segundo tipo
O objetivo do banco é ganhar dinheiro. O primeiro risco que uma instituição de crédito enfrenta é conceder um empréstimo a um mutuário com inadimplência. O padrão pode ter vários motivos, desde as dificuldades financeiras do mutuário até a fraude.
Para um banco, isso é um erro do primeiro tipo.
Mas se o banco adotar uma política rígida e não emitir empréstimos a ninguém, nem mesmo aos que devolveram o dinheiro, o banco não ganhará juros. Recusar um empréstimo a um mutuário responsável é um erro do segundo tipo.
Para avaliar a qualidade das decisões tomadas pelo algoritmo, é utilizado o coeficiente de Gini (GINI). Na economia e na ciência de dados, o coeficiente de Gini tem uma interpretação diferente. Para pontuação de crédito, é calculado como
GINI = 2 ROC AUC - 1
Para avaliar a pontuação do banco, é usada uma curva ROC AUC padrão!

Fig. 1 Curva ROC AUC. A área sob a curva mostra a qualidade do algoritmo. Se a área for 0,5, então esta é uma previsão aleatória (para um classificador binário), 1 é uma previsão ideal.
Algoritmos de pontuação
Um recurso dos algoritmos de pontuação é o requisito para interpretabilidade. Nesse sentido, modelos lineares são frequentemente usados.
Para maximizar a qualidade, faz sentido usar composições de árvores como floresta aleatória e XGboost. Para casos com uma grande quantidade de dados transacionais, as arquiteturas DNN também são adequadas, mas é aconselhável usar redes neurais apenas para as maiores instituições de crédito.
O uso de algoritmos em instituições de crédito geralmente é causado não pela maximização da qualidade, mas pelos requisitos do processo de tomada de decisão; portanto, verifique se a sua rede neural é suficientemente interpretável antes de lançar a solução na batalha!
Parâmetros que afetam o risco padrão
Analisaremos os parâmetros de influência usando o exemplo de soluções da competição no Kaggle - Home Credit Default Risk, que ocorreu há um ano.
Em um conjunto de 220 parâmetros.

Fig. 2 Distribuição dos empréstimos inadimplentes e reembolsados.
Várias imagens foram tiradas de laptops publicados pelos concorrentes, para mais detalhes sobre as soluções podem ser encontradas
aqui .
Fontes:
1 ,
2 ,
3As classes são desequilibradas, os padrões são inferiores aos empréstimos reembolsados.
Visualizamos a distribuição de parâmetros para determinar se os empréstimos padrão têm uma distribuição diferente.

Fig. 3 Um exemplo da distribuição de empréstimos inadimplentes e reembolsados por idade.
Da imagem 3, segue-se que os jovens tomadores de empréstimos têm um risco maior de inadimplência.
Além das características descritas do mutuário, também existem parâmetros como EXT_SOURCE 1,2,3. Nesse conjunto de dados, são parâmetros obtidos de agências de crédito e provedores de dados externos. A empresa DATA4 em que trabalho é um exemplo desse provedor, mas nosso conjunto de dados não está disponível. Os participantes ativos no mercado de negociação de dados são operadoras de celular e BKI.
Construiremos uma matriz de correlação para ver com quais parâmetros as previsões de provedores de dados externos se correlacionam e como elas afetam a qualidade do algoritmo.

Construímos as distribuições de acordo com os dados de fornecedores externos e veremos que eles têm diferenças para empréstimos inadimplentes.
Para mais recursos, temos a seguinte imagem, difícil de interpretar, mas com uma visão holística.


Encontre fatores padrão por feature_importances

Vamos construir um diagrama da importância dos atributos para o algoritmo de RF.

O que influencia
1) Pontuação de agências de crédito e provedores de dados externos, como nossa empresa
2) Idade e sexo
3) A hora em que o mutuário morou no local do último registro
4) Prazo do empréstimo
5) Tipo de empréstimo solicitado
6) A porcentagem que o empréstimo estará no fluxo de caixa e nos salários dos clientes
7) A hora em que o mutuário usou o último número de telefone
8) Tempo no último local de trabalho e uma parte da duração total do serviço
9) Fluxo de caixa de crédito
10) Montante do empréstimo
O artigo examinou os princípios da pontuação de crédito e mostrou os parâmetros que mais contribuem para a decisão sobre o empréstimo. Os resultados parecem plausíveis, quanto melhor o histórico de crédito do tomador, quanto mais ele trabalha em um emprego, menos você altera o número de telefone e o local de residência e quanto menor a parcela do empréstimo da renda disponível, menor o risco de inadimplência. Mas deve-se lembrar que os resultados são baseados nos dados de uma instituição de crédito específica e podem não ser adequados para outro caso.