Count Scoring de la Fer ou um estudo sobre credit scoring como parte da ampliação de seus horizontes. Parte 1

AntipovSN e MihhaCF


UPD parte dois aqui
UPD parte três aqui


A primeira parte, na qual o conde ainda não se tornou Athos, não conheceu Milady e está tudo bem com ele


Introdução dos autores:


Boa tarde Hoje estamos iniciando uma série de artigos dedicados à pontuação e ao uso da teoria dos grafos (T.G.). Espero que tenhamos bastante fusível, força e paciência, porque o tópico é bastante volumoso e, em nossa opinião, interessante.


Apesar do nome dos quadrinhos, tentaremos abordar tópicos distantes dos quadrinhos que já afetam a vida de muitos de nós e, em um futuro próximo, podem afetar a todos, sem exceção.


Todas as alegorias, inserções etc. de quadrinhos são projetadas para aliviar um pouco a narrativa e não permitir que ela caia em uma palestra tediosa. Pedimos desculpas a todos que não entendem nosso humor


Agora ao ponto.


O objetivo deste artigo: em não mais de 30 minutos, apresentar ao leitor o problema de pesquisa, determinar o nível de consideração do problema, descrever o conceito básico do estudo e introduzir termos básicos.


Termos e definições:


  • A pontuação é um sistema de avaliação pontual de um objeto com base em métodos estatísticos numéricos.
  • Um gráfico é uma maneira de modelar relacionamentos entre objetos. Imagine que você está jogando pôquer com seus amigos e deseja simular quem deve a quem agora. Por exemplo, "D'Artagnan deve Athos 10 louis"


Um gráfico completo pode ficar assim:

Aramis sempre foi astuto ... em sua mente, até Athos lhe devia. Porthos, até conhecer Madame Koknar, não tinha dinheiro para comprar um curativo e conseguiu um mendigo para D'artanyan, embora, francamente, eles mutilassem alguma coisa juntos ...


Os gráficos consistem em nós e arestas. Um nó pode ser conectado diretamente a vários outros nós. Esses nós são chamados vizinhos.


  • Um gráfico ponderado é um gráfico com um peso atribuído a cada aresta. Um gráfico sem pesos é chamado de não ponderado.
  • Um gráfico direcionado ou direcionado é um gráfico cujas bordas recebem uma direção
  • Um gráfico acíclico direcionado é um caso de um gráfico direcionado no qual não há ciclos direcionados, ou seja, caminhos que começam e terminam no mesmo vértice.
  • Data Mining é um nome coletivo usado para denotar um conjunto de métodos para detectar interpretações de conhecimento anteriormente desconhecidas, não triviais, praticamente úteis e acessíveis nos dados necessários para tomar decisões em vários campos da atividade humana.
  • O algoritmo de busca em largura primeiro (BFS, busca em largura por primeira) responde a duas perguntas: existe o caminho do nó A para o nó B e qual é o caminho mais curto do nó A para o nó B. O desvio é realizado por níveis: os nós de primeiro nível são verificados, seus nós filhos são adicionados à fila e assim por diante até o final
  • Algoritmo de pesquisa de profundidade (DFS) - uma estratégia de pesquisa profunda é aprofundar o gráfico o máximo possível. O algoritmo de busca é descrito recursivamente: classificamos todas as arestas provenientes do vértice em questão. Se a aresta leva a um vértice que não foi considerado anteriormente, executamos o algoritmo a partir desse vértice não examinado e, depois disso, retornamos e continuamos a classificar as arestas. O retorno ocorre se não houver arestas no vértice em consideração que levam ao vértice não examinado. Se, após a conclusão do algoritmo, nem todos os vértices foram considerados, é necessário executar o algoritmo a partir de um dos vértices não examinados
  • Algoritmo de Dijkstra - Encontra os caminhos mais curtos de um dos vértices do gráfico para todos os outros. O algoritmo funciona apenas para gráficos acíclicos com arestas ponderadas, sem peso negativo.

Bem, com os conceitos mais básicos descobertos, você pode se aproximar do assunto.


A pontuação pode ser usada para avaliar quase tudo, que pode ser expresso em indicadores estatísticos. Trata-se de uma avaliação da capacidade creditícia de um indivíduo / entidade jurídica (pontuação do solicitante) e uma avaliação da probabilidade de fraude (pontuação da fraude) e uma avaliação do segurado (pontuação do seguro), uma avaliação do fornecedor / cliente (pontuação da contraparte), avaliação do comportamento do consumidor (pontuação comportamental), avaliação social (Pontuação "chinesa") etc.


A teoria dos grafos, por sua vez, também é uma ferramenta universal que pode ser usada em qualquer campo de atividade em que é necessário processar grandes volumes de dados em vários níveis.


Essas duas ferramentas são criadas uma para a outra, como D'artanyan e Constance ( você só precisa seguir Constance normalmente e não deixar Miladya ir ).


Não escreveremos nada sobre a importância e a atualidade da pontuação, pois basta olhar mais de perto e ficar claro imediatamente que temos uma pontuação explícita ou não explícita por um longo tempo, então será mais divertido.


Na série de artigos, tentaremos demonstrar claramente como a pontuação funciona usando a teoria dos grafos no setor bancário. Ou seja, determinaremos a credibilidade das entidades legais (talvez até enganemos os físicos) com base nos dados que eles fornecem e nos relacionamentos que mantêm com outras organizações - a chamada "pontuação do mutuário" .


Como segue a definição oficial, a pontuação do mutuário é projetada para eliminar a subjetividade da decisão do inspetor de crédito, reduzir o nível de fraude interna e aumentar a velocidade da tomada de decisão sobre o empréstimo. Vamos ver se é assim, expandir o doce, por assim dizer, e ver do que ele é feito.


O setor bancário não foi escolhido por acaso - os bancos têm fontes extensas de informação e estão utilizando a automação de forma cada vez mais ativa.


Um pouco mais perto do assunto. Lembra como D'artagnan lutou com o Sr. de Jussac? Um passo ali, um passo aqui, então corremos ao redor da árvore e só então começamos a esfaquear um ao outro. Nós não vamos conseguir assim, mas também não faz sentido esfaquear imediatamente - não ficará claro.


Então! Em um sistema de combate, uma bola de pontuação será calculada com base em dois grupos de indicadores:


  • Indicadores obtidos diretamente do mutuário e do estado. órgãos:
    • relatórios fiscais;
    • detalhes do passaporte dos proprietários, gene. diretores, cap. contador;
    • Declarações do Registro de Pessoa Jurídica do Estado Unificado, EGRIP;
    • documentos de título;
    • dados de dívida;
    • dados do tribunal;
    • e assim por diante
  • Indicadores obtidos usando análise de gráficos e mineração de dados:
    • interação com o estado. órgãos - em uma linha / subcontrato / fornecimento;
    • interação com empresas dos 100 melhores;
    • a presença no ambiente do mutuário de empresas falidas, devedores, empresas com baixa pontuação;
    • participação em organizações de caridade
    • e assim por diante

Com base nos indicadores listados, um modelo será construído: os vértices do gráfico serão todas as organizações com as quais o mutuário interagiu de uma maneira ou de outra, as bordas do gráfico terão peso. O peso da conexão será definido no intervalo de 1 a 5, caracterizando o grau de influência dos nós um no outro.


Por exemplo:


  • O mutuário, que, neste caso, é o fornecedor, está vinculado a contratos com o Cliente por 1 milhão de rublos. O faturamento anual do mutuário é de 5 milhões e o faturamento anual do cliente é de 100 milhões de rublos. É claramente visto que o Fornecedor depende mais do Cliente do que o Cliente do fornecedor. Assim, para o Fornecedor, a conexão será 5 (por exemplo) e para o Cliente 1.
    É claro que o exemplo é puramente especulativo e, na vida real, faremos uma análise mais detalhada. Esta é uma questão dos seguintes artigos, e agora não faz sentido ir tão fundo.

O grau de interação e as próprias interações serão determinadas, entre outras coisas, usando algoritmos de busca de gráficos.


Em nosso sistema de teste, usaremos o mesmo tópico com os mosqueteiros e suas conexões. O modelo estará o mais próximo possível do combate e demonstrará suficientemente a nossa ideia. Em última análise, a que chegamos, como será o modelo? Não se apresse em dizer: "Canalia!" ou "Eu não preciso de academias. Qualquer Gascon desde a infância é um acadêmico! Tudo não será tão primitivo quanto parece.



Breve descrição: nossos mosqueteiros decidiram criar uma sociedade anônima (NPAO), que fornecerá jóias e fornecerá serviços de segurança, eles precisam de um empréstimo para iniciar a atividade. A instituição de crédito é a PJSC Korol, que encomendou a avaliação da NPO One for All


Características do gráfico apresentado:


  • O gráfico é não orientado (bidirecional) e ponderado.
  • Cada costela tem um peso - o grau de interação. Na figura, não complicamos e fizemos nosso valor de conexão em cada direção, de nó para nó. Nos limitamos a uma única avaliação de comunicação agregada. Mas no algoritmo de cálculo isso será levado em consideração.
  • Organizações marcadas em vermelho que se opõem à nossa e de todas as formas interferem nela. Na vida real, serão concorrentes, empresas falidas, inadimplentes maliciosos, empresas contra as quais o litígio está em andamento etc.
  • Provavelmente, você já pode adivinhar que precisará avaliar os relacionamentos por níveis e direções, ou seja, precisará levar em conta não apenas o nível de comunicação, mas também a direção. Será necessário levar em consideração a influência mútua dos nós e muito mais.

Temos muito trabalho pela frente. Bem, como parte deste artigo, terminamos. Os objetivos declarados do artigo, como nos parece, foram alcançados. Esperamos que tenhamos conseguido lhe interessar e você leia até o fim.

Source: https://habr.com/ru/post/pt464447/


All Articles