Sem histórico de crédito - não conceda empréstimos, não conceda empréstimos - sem histórico de crédito. Um círculo vicioso de algum tipo. O que fazer Vamos acertar.
Oi Meu nome é Mark, sou cientista de dados na Devim. Recentemente, lançamos um modelo para classificar os mutuários da IFC “Do Salary”, que não têm histórico de crédito. Quero compartilhar a experiência de recuperação de dados, recursos de design e interpretação de recursos.

Este tópico está dividido em duas publicações. Na primeira, falarei sobre o processo de busca e construção de sinais. A segunda parte é sobre a comparação de arquiteturas de modelo, análise de resultados e interpretação de decisões de pontuação.
Parte I Design de Recursos
Os modelos de aprendizado de máquina são baseados em dados cuja qualidade e integridade são um fator determinante no sucesso ou falha de um modelo. Mas e se houver poucos dados? Ou se os dados não são informativos o suficiente ou não são precisos? Onde encontrar informações adicionais e como usá-las na construção de um modelo? Deixe-me contar como eu resolvi esse problema.
Fatores de avaliação de risco de crédito
A pontuação de crédito é baseada em uma análise das características do mutuário associadas ao risco de inadimplência. Eles podem ser divididos em econômico geral e individual.
Fatores econômicos gerais
O ambiente econômico tem um grande impacto na condição financeira e psicológica do mutuário. É possível avaliar com mais precisão o grau de influência, destacando os fatores relacionados ao mutuário. Eles são condicionalmente divididos em dois níveis:
- Fatores no nível macro são fatores externos ao mutuário. Eles geralmente incluem PIB, inflação, taxas de câmbio, etc.
- Fatores de nível micro são aqueles que caracterizam um determinado tomador, por exemplo, profissão, setor, salário médio, etc.
Importa notar imediatamente que fatores econômicos gerais servem como fatores adicionais. Segundo muitos pesquisadores , as informações que eles contêm são gerais e caracterizam fracamente um mutuário específico.
Fatores individuais
Fatores individuais contêm as informações mais valiosas para o modelo de pontuação. Eles também podem ser divididos em categorias:
- Dados demográficos - idade, sexo, estado civil, etc.
- Financeiro - receitas e despesas, acesso a recursos financeiros, disponibilidade de reservas financeiras.
- Psicológico - um dos mais informativos. A melhor fonte desses dados é o histórico de crédito. O histórico de crédito caracteriza a disciplina financeira do cliente, contém informações sobre a capacidade de reembolsar valores específicos, mostra o interesse atual no empréstimo. Se o histórico de crédito não for formado, é necessário procurar outras fontes de informação: redes sociais, comportamento ao preencher um aplicativo, etc.
- Informações de contato - seu volume e composição afetam o risco de inadimplência do empréstimo.
Descrição do conjunto de dados
O conjunto para o treinamento do modelo é de 9.500 mutuários que receberam um empréstimo pela primeira vez entre maio e dezembro de 2018. Dados de teste - 1.500 mutuários no período de janeiro a março de 2019.
A separação temporária de mutuários é usada por várias razões. Em primeiro lugar, essa separação torna improvável o vazamento de informações do futuro. Em segundo lugar, isso nos permite avaliar a estabilidade do modelo ao longo do tempo. No microcrédito do PDL ( empréstimo com dia de pagamento ), os valores e prazos são pequenos em comparação com outros tipos de empréstimos, portanto, foi escolhido o seguinte como atributo de destino: atraso nos pagamentos por mais de 15 dias.
Design de Recursos
Começamos a construção dos sinais com sinais mais gerais - econômicos, depois passamos aos sinais individuais.
Dos macro-fatores econômicos gerais, apenas um fator estável, acessível e atualizado regularmente foi encontrado - a taxa de câmbio do rublo. Está disponível no site do Banco Central por um longo período (é possível fazer o upload de dados em um formato conveniente) e, o mais importante, é atualizado diariamente. O rublo tem uma tendência de baixa estável. Na sua forma bruta, é melhor não usar esse fator. Após um certo período de tempo, os valores das características vão além dos dados que caíram no conjunto de treinamento e serão interpretados incorretamente pelo modelo.
Para evitar consequências negativas, converteremos a taxa de câmbio do rublo em relação à taxa atual (no momento da análise do aplicativo) para o valor mediano dos 35 dias anteriores. Agora, o sinal caracteriza não o valor absoluto da taxa de câmbio do rublo, mas a tendência (crescimento, declínio, estado estável) no período considerado. No gráfico 1, os dados obtidos. O gráfico 2 mostra a porcentagem de clientes inadimplentes por categoria (queda, estabilidade, crescimento).

Gráfico 1. Alteração da taxa de câmbio do rublo em relação ao valor mediano nos últimos 35 dias.

Gráfico 2. O número de clientes padrão, dependendo da mudança na taxa.
Dos micro-fatores econômicos disponíveis: a região em que o mutuário trabalha, tipo de organização, profissão.
À primeira vista, a região do trabalho relaciona-se mais a fatores individuais do que a fatores econômicos gerais. No entanto, é possível adicionar informações econômicas gerais aos dados por meio de um agrupamento de regiões. O site da Rosstat fornece informações sobre vários indicadores econômicos de uma região específica. A probabilidade de inadimplência acabou sendo dados sobre o nível médio de salários na região, o custo de um conjunto fixo de produtos e a quantidade de pagamentos em atraso de um empréstimo per capita. Para agrupar as regiões, foi escolhido um algoritmo aglomerado de agrupamento. O método de Ward, que combina clusters para que o ganho de dispersão fosse mínimo, foi utilizado como critério de conexão. Os clusters de dados resultantes estão em um gráfico tridimensional.

Tabela de região agrupada Outro fator microeconômico importante é a profissão. A figura abaixo mostra os dados sobre o compartilhamento de clientes padrão por profissão do conjunto de dados de treinamento.

O gráfico mostra claramente a dependência da probabilidade de inadimplência da profissão. Para agrupar os mutuários, é aconselhável aplicar um dos princípios geralmente aceitos na comunidade econômica. A divisão em categorias no site da Rosstat se correlaciona bem com os dados apresentados no gráfico.
Divisão de empregados em categorias de pessoalPor categorias de pessoal, os trabalhadores são divididos em gerentes, especialistas, outros funcionários e trabalhadores.
- Os gerentes incluem funcionários que ocupam os cargos de chefes de organizações, divisões estruturais e seus substitutos (diretores, chefes: departamentos, divisões, turnos etc.), gerentes: produção, cantina, seção, armazém, lavanderia, clube, albergue, sala de bagagens e etc., gerentes, presidentes, capitães, contadores e engenheiros, artesãos etc.).
- Os especialistas incluem trabalhadores empregados em empregos que geralmente exigem educação profissional superior ou secundária: engenheiros, médicos, professores, economistas, contadores, geólogos, despachantes, inspetores, revisores, matemáticos, enfermeiros, mecânicos, normalizadores, programadores, psicólogos, editores, auditores etc. Os especialistas também incluem assistentes e assistentes dos especialistas nomeados.
- Outros funcionários são funcionários que preparam e executam documentação, contabilidade e controle, serviço de limpeza, em particular agentes, arquivistas, atendentes, funcionários, caixas e controladores (exceto trabalhadores), comandantes, copistas de documentação técnica, máquinas de escrever, supervisores, estatísticas, estenógrafos, cronometristas, contadores, relatores de parecer.
- Os trabalhadores incluem pessoas diretamente envolvidas no processo de criação de riqueza, bem como as envolvidas no reparo, movimentação de mercadorias, transporte de passageiros, prestação de serviços materiais, etc.
As profissões encontradas com freqüência, como motorista, gerente, contador, etc., podem caracterizar um mutuário de diferentes maneiras, dependendo de uma área ou tipo específico de organização. Por exemplo, um motorista que trabalha em um táxi e um motorista que trabalha na administração da cidade são mutuários completamente diferentes.
Para adicionar essas informações ao modelo, dividiremos os mutuários pelo tipo de organização em que trabalham:
- Organizações comerciais
- Organizações governamentais
- Empresários individuais e autônomos
- Inativo
- Tipo de organização não especificado
Para verificar se a separação de informações aumenta, olhamos para o gráfico “a parcela de tomadores de inadimplência agrupados por profissão e tipo de organização”.

Designação de profissões e tipos de organizações O gráfico mostra que, para algumas profissões, há uma diferença significativa em que tipo de organização o mutuário trabalha. Resultados inesperados são obtidos quando o mutuário indica que ele não está trabalhando, mas ao mesmo tempo indica a profissão. Uma análise adicional dos dados mostrou que esse comportamento é característico dos idosos.
E o último fator econômico geral usado no modelo é o dia do mês em que o pedido de empréstimo é enviado. Provavelmente, isso se deve às regras geralmente aceitas para o pagamento de salários na Rússia (por exemplo, 10 e 25). Os dias do mês são divididos em dois períodos, do 9º ao 21º dia, inclusive, e nos dias restantes do mês.
Fatores individuais
Dados demográficos
Nos meus dados, existem apenas quatro características demográficas:
- Idade do mutuário (total de anos)
- Antiguidade no último local de trabalho (em meses)
- Estado civil (solteiro, casado, casamento civil, divorciado, solteiro, viúvo / viúvo, não completado)
- Número de membros da família (morando junto com o mutuário)
Financeiro
Os dados sobre os mutuários contêm informações sobre salários e renda adicional. A importância desses fatores é geralmente superestimada pelos clientes, para que eles não contenham informações precisas sobre a situação financeira do mutuário, mas permitem que você a avalie aproximadamente.
Psicológico
A população selecionada de tomadores de empréstimos não possui empréstimos; portanto, não temos as informações psicológicas (comportamentais) básicas. Mas 90% dos clientes têm informações sobre o número de solicitações de histórico de crédito para um ano, trimestre, mês, semana, dia, hora. Assim, é possível avaliar a necessidade de um empréstimo no momento atual e a necessidade de um empréstimo em uma perspectiva histórica. O número de pedidos de empréstimo apresentados em um curto período adiciona informações sobre o psicótipo do mutuário. (se ele enviou um pedido e aguarda uma decisão e, em seguida, o segundo em caso de recusa. Nesse caso, haverá poucos empréstimos na última hora, mas muitos no último dia.
Ao se inscrever, é necessário preencher suas próprias informações de contato. Também é desejável fornecer detalhes de contato de dois amigos íntimos. Isso permite que você crie dois sinais binários adicionais:
- preenchido ou não contatar 2
- preenchido ou não contatar 3
Como resultado, obtemos os seguintes sinais:
- Alteração da taxa de câmbio do rublo, sinal numérico
- Região de trabalho, sinal categórico (6 categorias)
- Profissão, sinal categórico (5 categorias)
- Tipo de organização na qual o mutuário trabalha, atributo categórico (5 categorias)
- O dia do mês em que o pedido é enviado, sinal binário - cai no intervalo do 9º ao 21º dia ou não
- Número de pedidos de histórico de crédito para:
- hora
- dia
- uma semana
- mês
- quarto
- ano
- Estatuto familiar, sinal categórico (8 categorias)
- Número de membros da família, característica numérica
- Experiência no último local de trabalho, sinal numérico
- Idade do mutuário, característica numérica
- Renda mensal, característica numérica
- Renda adicional, característica numérica
- Preenchido ou não, contato 2, sinal binário
- Preenchido ou não, contate 3, sinal binário
Todos os dados acima são economicamente viáveis e fáceis de coletar. Apesar de não conterem informações completas sobre o mutuário, é possível, com base nisso, criar um modelo econômico e funcional.
Vou falar sobre o processo de escolha de uma arquitetura e os resultados obtidos no próximo artigo.
Espero que tenha sido interessante e útil.
Panim Mark, Devim