Count Scoring de la Fer oder eine Studie zum Kredit-Scoring als Teil der Erweiterung des eigenen Horizonts. Teil 1

AntipovSN und MihhaCF


UPD Teil zwei hier
UPD Teil drei hier


Teil eins, in dem der Graf noch nicht Athos geworden ist, hat Milady nicht getroffen und alles ist gut mit ihm


Einführung der Autoren:


Guten Tag! Heute beginnen wir mit einer Reihe von Artikeln, die sich mit dem Scoring und der Verwendung der Graphentheorie befassen (T.G.). Ich hoffe wir haben genug Sicherung, Kraft und Geduld, weil Das Thema ist ziemlich umfangreich und unserer Meinung nach interessant.


Trotz des Comic-Namens werden wir versuchen, weit entfernt von Comic-Themen zu sprechen, die bereits das Leben vieler von uns betreffen und in naher Zukunft ausnahmslos alle betreffen können.


Alle Comic-Allegorien, Beilagen usw. sollen die Erzählung leicht entlasten und nicht in einen langwierigen Vortrag fallen lassen. Wir entschuldigen uns bei allen, die nicht auf unseren Humor eingehen


Nun zum Punkt.


Der Zweck dieses Artikels: Führen Sie den Leser in nicht mehr als 30 Minuten in das Forschungsproblem ein, bestimmen Sie den Grad der Berücksichtigung des Problems, beschreiben Sie das Grundkonzept der Studie und führen Sie grundlegende Begriffe ein.


Begriffe und Definitionen:


  • Die Bewertung ist ein System zur Punktbewertung eines Objekts auf der Grundlage numerischer statistischer Methoden.
  • Ein Diagramm ist eine Möglichkeit, die Beziehungen von Objekten zu modellieren. Stellen Sie sich vor, Sie spielen mit Ihren Freunden Poker und möchten simulieren, wer wem jetzt etwas schuldet. Zum Beispiel "D'Artagnan schuldet Athos 10 Louis"


Ein vollständiges Diagramm könnte folgendermaßen aussehen:

Aramis war immer gerissen ... in seinen Gedanken schuldete ihm sogar Athos etwas. Porthos konnte es sich nicht leisten, ein Dressing zu kaufen, bis er Madame Koknar kennenlernte, und es gelang ihm, D'artanyan einen Bettler zu schulden, obwohl sie offen gesagt etwas zusammen verstümmelt hatten ...


Diagramme bestehen aus Knoten und Kanten. Ein Knoten kann direkt mit mehreren anderen Knoten verbunden werden. Diese Knoten werden Nachbarn genannt.


  • Ein gewichtetes Diagramm ist ein Diagramm, dem jeder Kante ein Gewicht zugewiesen ist. Ein Diagramm ohne Gewichte wird als ungewichtet bezeichnet.
  • Ein gerichteter oder gerichteter Graph ist ein Graph, dessen Kanten eine Richtung zugewiesen bekommen
  • Ein gerichteter azyklischer Graph ist ein Fall eines gerichteten Graphen, in dem es keine gerichteten Zyklen gibt, dh Pfade, die am gleichen Scheitelpunkt beginnen und enden.
  • Data Mining ist ein Sammelbegriff für eine Reihe von Methoden zur Erkennung bisher unbekannter, nicht trivialer, praktisch nützlicher und zugänglicher Interpretationen des Wissens, das für Entscheidungen in verschiedenen Bereichen menschlicher Aktivitäten erforderlich ist
  • Der Breitensuchalgorithmus (BFS, Breitensuche) beantwortet zwei Fragen: Gibt es den Pfad von Knoten A zu Knoten B und den kürzesten Pfad von Knoten A zu Knoten B. Die Umgehung erfolgt nach Ebenen: Knoten der ersten Ebene werden überprüft, Ihre untergeordneten Knoten werden der Warteschlange hinzugefügt und so weiter bis zum Ende
  • DFS-Algorithmus (Depth-First Search) - Eine Deep-Search- Strategie besteht darin, so weit wie möglich tiefer in das Diagramm einzusteigen. Der Suchalgorithmus wird rekursiv beschrieben: Wir sortieren alle Kanten, die vom betreffenden Scheitelpunkt stammen. Wenn die Kante zu einem Scheitelpunkt führt, der zuvor nicht berücksichtigt wurde, führen wir den Algorithmus von diesem nicht untersuchten Scheitelpunkt aus. Danach kehren wir zurück und sortieren die Kanten weiter. Die Rückgabe erfolgt, wenn im betrachteten Scheitelpunkt keine Kanten vorhanden sind, die zum nicht untersuchten Scheitelpunkt führen. Wenn nach Abschluss des Algorithmus nicht alle Scheitelpunkte berücksichtigt wurden, muss der Algorithmus von einem der nicht untersuchten Scheitelpunkte aus ausgeführt werden
  • Dijkstra-Algorithmus - Findet die kürzesten Wege von einem der Eckpunkte des Graphen zu allen anderen. Der Algorithmus funktioniert nur für azyklische Graphen mit gewichteten Kanten ohne negatives Gewicht.

Nun, mit den grundlegendsten Konzepten können Sie dem Punkt näher kommen.


Mit der Bewertung kann fast alles bewertet werden, was in statistischen Indikatoren ausgedrückt werden kann. Dies ist eine Bewertung der Kreditwürdigkeit einer natürlichen / juristischen Person (Bewertung des Antragstellers) und eine Bewertung der Betrugswahrscheinlichkeit (Bewertung aufgrund von Betrug) sowie eine Bewertung des Versicherten (Versicherungsbewertung), eine Bewertung des Lieferanten / Kunden (Bewertung der Gegenpartei), eine Bewertung des Verbraucherverhaltens (Verhaltensbewertung) und eine soziale Bewertung ("Chinesische" Wertung) usw.


Die Graphentheorie wiederum ist ein universelles Werkzeug, das in jedem Tätigkeitsbereich eingesetzt werden kann, in dem große Datenmengen auf mehreren Ebenen verarbeitet werden müssen.


Diese beiden Werkzeuge sind wie D'artanyan und Constance für einander erstellt ( Sie müssen Constance nur normal folgen und dürfen keine Miladya loslassen ).


Wir werden nichts über die Wichtigkeit und Aktualität des Scorings schreiben, denn es reicht aus, sich genauer umzuschauen, und es wird sofort klar, dass wir schon lange explizit oder nicht explizit punkten, es wird nur noch mehr Spaß machen.


In der Artikelserie werden wir versuchen, anhand der Graphentheorie im Bankensektor klar zu demonstrieren, wie Scoring funktioniert. Das heißt, wir werden die Kreditwürdigkeit juristischer Personen (vielleicht werden wir sogar Physiker einbinden) anhand der von ihnen bereitgestellten Daten und der Beziehungen, die sie zu anderen Organisationen unterhalten, ermitteln - dem sogenannten "Kreditnehmer-Scoring" .


Wie aus der offiziellen Definition hervorgeht, soll die Bewertung des Kreditnehmers die Subjektivität der Entscheidung des Kreditinspektors beseitigen, das Ausmaß des internen Betrugs verringern und die Entscheidungsgeschwindigkeit für den Kredit erhöhen. Mal sehen, ob das so ist, erweitern Sie die Süßigkeiten sozusagen und sehen Sie, woraus sie bestehen.


Der Bankensektor wurde nicht zufällig ausgewählt - Banken verfügen über umfangreiche Informationsquellen und bewerten mithilfe von Automatisierung immer aktiver.


Ein bisschen näher am Punkt. Erinnerst du dich, wie D'artagnan mit Mr. de Jussac gekämpft hat? Ein Schritt dorthin, ein Schritt hierher, dann rannten wir um den Baum herum und begannen erst dann, uns gegenseitig zu erstechen. Wir werden nicht so ziehen, aber es macht auch keinen Sinn, sofort zu erstechen - es wird nicht klar sein.


Also! In einem Kampfsystem wird ein Wertungsball anhand von zwei Gruppen von Indikatoren berechnet:


  • Indikatoren direkt vom Kreditnehmer und vom Staat erhalten. Organe:
    • Steuerberichterstattung;
    • Passdetails der Besitzer, Gen. Direktoren, ch. Buchhalter;
    • Erklärungen des einheitlichen staatlichen Registers der juristischen Personen, EGRIP;
    • Titeldokumente;
    • Schuldendaten;
    • Gerichtsdaten;
    • und so weiter
  • Mit Graphanalyse und Data Mining erhaltene Indikatoren:
    • Interaktion mit dem Staat. Körper - in einer Reihe / Unterauftrag / Lieferung;
    • Interaktion mit Unternehmen aus den Top 100;
    • die Präsenz bankrotter Unternehmen, Schuldner und Unternehmen mit niedriger Punktzahl im Umfeld des Kreditnehmers;
    • Teilnahme an Wohltätigkeitsorganisationen
    • und so weiter

Basierend auf den aufgelisteten Indikatoren wird ein Modell erstellt: Die Eckpunkte des Diagramms sind alle Organisationen, mit denen der Kreditnehmer auf die eine oder andere Weise interagiert hat. Die Kanten des Diagramms haben Gewicht. Das Gewicht der Verbindung wird im Bereich von 1 bis 5 eingestellt, wodurch der Grad des Einflusses der Knoten aufeinander charakterisiert wird.


Z.B:


  • Der Kreditnehmer, der in diesem Fall der Lieferant ist, ist an Verträge mit dem Kunden über 1 Million Rubel gebunden. Der Jahresumsatz des Kreditnehmers beträgt 5 Millionen. Der Jahresumsatz des Kunden beträgt 100 Millionen Rubel. Es ist deutlich zu erkennen, dass der Lieferant mehr vom Kunden als vom Kunden vom Lieferanten abhängt. Für den Lieferanten beträgt die Verbindung also 5 (zum Beispiel) und für den Kunden 1.
    Es ist klar, dass das Beispiel rein spekulativ ist und wir im wirklichen Leben eine detailliertere Analyse durchführen werden. Dies ist eine Frage der folgenden Artikel, und jetzt macht es keinen Sinn, so tief zu gehen.

Der Grad der Interaktion und die Interaktionen selbst werden unter anderem mithilfe von Graphensuchalgorithmen bestimmt.


In unserem Testsystem werden wir das gleiche Thema mit den Musketieren und ihren Verbindungen verwenden. Das Modell wird so nah wie möglich am Kampf sein und unsere Idee ausreichend demonstrieren. Was werden wir letztendlich erreichen, wie wird das Modell aussehen? Nehmen Sie sich Zeit zu sagen: "Canalia!" oder „Ich brauche keine Akademien. Jeder Gascon von Kindheit an ist ein Akademiker! “ Alles wird nicht so primitiv sein, wie es scheint.



Kurzbeschreibung: Unsere Musketiere haben beschlossen, eine nicht öffentliche Aktiengesellschaft (NPAO) zu gründen, die Schmuck und Sicherheitsdienste liefert. Sie benötigen einen Kredit, um die Aktivität zu starten. Das Kreditinstitut ist PJSC Korol, das die Bewertung von NPO One for All in Auftrag gegeben hat


Merkmale des dargestellten Diagramms:


  • Das Diagramm ist nicht orientiert (bidirektional) und gewichtet.
  • Jede Rippe hat ein Gewicht - den Grad der Interaktion. In der Abbildung haben wir unseren Verbindungswert in jeder Richtung von Knoten zu Knoten nicht kompliziert und festgelegt. Wir haben uns auf eine einzige aggregierte Kommunikationsbewertung beschränkt. Im Berechnungsalgorithmus wird dies jedoch berücksichtigt.
  • Rot markierte Organisationen, die sich unseren widersetzen und sie in jeder Hinsicht stören. Im wirklichen Leben werden es Konkurrenten, bankrotte Unternehmen, böswillige Säumige, Unternehmen sein, gegen die Rechtsstreitigkeiten laufen, usw.
  • Wahrscheinlich können Sie bereits erraten, dass Sie die Beziehungen nach Ebenen und Richtungen bewerten müssen, dh Sie müssen nicht nur die Kommunikationsebene, sondern auch die Richtung berücksichtigen. Es wird notwendig sein, die gegenseitige Beeinflussung der Knoten und vieles mehr zu berücksichtigen.

Wir haben noch viel Arbeit vor uns. Nun, als Teil dieses Artikels sind wir fertig. Die erklärten Ziele des Artikels wurden, wie es uns scheint, erreicht. Wir hoffen, wir haben es geschafft, Sie zu interessieren, und Sie haben bis zum Ende gelesen.

Source: https://habr.com/ru/post/de464447/


All Articles