Wie berechnet man die "Ähnlichkeit" von Zahlen in PĂ€ssen? Und das Gleiche auch mit Tippfehlern



HFLabs-Produkte suchen nach doppelten Kunden in den Datenbanken von Bundesunternehmen. Der naheliegendste Weg, um die gleichen Kundenkarten zu finden, ist der Vergleich von PĂ€ssen oder anderen Ausweispapieren.

Zuvor haben wir die Anzahl der Dokumente streng verglichen: das Gleiche - ausgezeichnet, nein - sorry. FĂŒr die manuelle Analyse blieben aufgrund eines Tippfehlers im Raum sogar Karten mit demselben Namen und derselben Adresse ĂŒbrig. Diese Vorgehensweise hat das Kundenpersonal unnötig belastet.

Deshalb sind wir in die Daten eingestiegen, haben die Statistiken untersucht und daraus die Kriterien abgeleitet - wenn unterschiedliche Zahlen wirklich unterschiedlich sind und wenn es um Tippfehler geht. Ich sage Ihnen, wie der Algorithmus funktioniert.

EinfĂŒhrung des Ähnlichkeitskoeffizienten


Es ist zu unhöflich, die Anzahl der PÀsse und anderen Dokumente in "Match-not-Match" zu unterteilen. Sie können feiner handeln und einfache Fehler abfangen.

Angenommen, das Unternehmen hat die folgenden Regeln zum Auffinden von Duplikaten (DUL - IdentitÀtsdokument):

  • "Name, Adresse und DUL stimmen völlig ĂŒberein" - Verdopplungsfaktor - 100;
  • "VollstĂ€ndiger Name und vollstĂ€ndiger Name" - 97;
  • "Name und Anschrift stimmen völlig ĂŒberein" - 95
  • „Namen stimmen völlig ĂŒberein“ - 80.

Die Automatisierung kombiniert Karten mit einem VerhĂ€ltnis von mehr als 97. Der Rest wird eines Tages von speziellen Personen - Datenverwaltern - auseinander genommen. Wenn Sie GlĂŒck haben und der Turn kommt.

Das Ergebnis - in der Warteschlange fĂŒr die manuelle Analyse sind ganz offensichtliche Duplikate. Sogar Karten mit dem gleichen Namen und der gleichen Adresse wie Passnummern werden durch einen gemeinsamen Tippfehler unterschieden. Wie bei 4 6 01 859473 und 4 5 01 859473 (die Tasten 6 und 5 befinden sich in der NĂ€he, sie werden hĂ€ufig verwechselt.) Datenverwalter werden durch einfache Tippfehler abgelenkt, und echte Duplikate werden langsamer erkannt.

Mit Blick auf das Geschehen haben wir unseren Produkten beigebracht, die „Ähnlichkeit“ von Zahlen in Dokumenten zu zĂ€hlen. Kunden verwenden bereits die neue Option in den Regeln fĂŒr das automatische ZusammenfĂŒhren von Duplikaten.

Wir betrachten "Ähnlichkeit" nach klaren Regeln


Beim Vergleichen von Dokumenten entfernt der Algorithmus zunĂ€chst den MĂŒll aus den Zahlen. LĂ€sst nur Buchstaben und Zahlen: A - Z, A - YaE, 0–9. Und dann beginnt die Magie, fĂŒr die ich diesen Artikel geschrieben habe - die Berechnung des "Ähnlichkeitskoeffizienten".

Wichtiger Vorbehalt: Chancen sind unwahrscheinlich. Diese Nummer wird benötigt, um Duplikate in Gruppen mit der gleichen Art von Fehlern zu unterteilen. Es spielt keine Rolle, wie Ă€hnlich der absolute Wert ist - es ist nur ein Parameter fĂŒr den Vergleich von Zahlen.

Und nun zu den Berechnungsregeln.
Die RegelÄhnlichkeitsverhĂ€ltnisBeispielKommentar
Volle Übereinstimmung100
  • 46 07 324654;
  • 46 07 324654
Es gibt nichts zu besprechen, alles ist klar
Transgraphics100
  • AB 4358333;
  • AB 4358333
Transgraphics ist, wenn die Buchstaben eines Alphabets durch die gleichen von einem anderen ersetzt werden.

Im ersten Fall sind die Zeichen kyrillisch, im zweiten lateinisch.

Typisch harmloser Tippfehler
Ein hÀufiger Tippfehler95
  • 50 16 631 5 02;
  • 50 16 631 6 02
Ein hÀufiger Tippfehler ist, wenn sich Zeichen in einem der Ziffernblöcke der Tastatur befinden oder in der Schreibweise Àhnlich sind.

Der "Faktor" sucht nach hĂ€ufigen Tippfehlern in der "Ähnlichkeitstabelle" , die unsere Analysten zusammengestellt haben. (Es ist besser, es frĂŒher herunterzuladen, bis Ihre Kollegen gezwungen sind, den Link zu entfernen.)
LayoutÀnderung94
  • AS 98787;
  • GJ 98787
Es funktioniert, wenn in einer Zeile nur Zahlen und Kyrillisch und in der anderen Zeile nur Zahlen und Latein stehen. Andernfalls scheint es nicht so zu sein, als hÀtte eine Person in gutem Glauben einen Fehler beim Layout gemacht
Ersetzen römischer Ziffern durch Arabisch93
  • XIX 987987;
  • 19 987987
Funktioniert nur am Anfang einer Zeile. Die Logik ist folgende: "ehrliche" römische Ziffern können nur in einer Reihe und eine Reihe sein - nur am Anfang
Ein hÀufiger Tippfehler90
  • 1 234 987987;
  • 3 234 987987
UnĂŒblicher Tippfehler - ein Tippfehler, der nicht in der Tabelle von common enthalten ist
Eine Permutation von zwei Zeichen90
  • 3,554 46 36 78;
  • 3554 46 63 78
Typischer Tippfehler, da gibt es nichts hinzuzufĂŒgen
Zeichenpaare sind vertauscht89
  • 12 34 987987
  • 34 12 987987
Funktioniert nur fĂŒr Folgen, die lĂ€nger als vier Zeichen sind.

Wir betrachten es nur dann als Tippfehler, wenn es am Anfang der Zeile steht. Dies ist ein typischer Fehler bei der Eingabe einer Reihe von Dokumenten. Kein Wunder, denn auf einem Formular wird eine Serie mit zwei Zahlenpaaren gedruckt.

In der Mitte und am Ende einer Zeile sind solche Permutationen ein Fehler.
Eine Nummer ist in einer anderen enthalten88
  • 12 3456789 ;
  • 3456789
Mit diesem Vergleich erfassen wir FĂ€lle von „Lost the Series“.

Funktioniert nur fĂŒr Zeichenfolgen mit einer LĂ€nge von sechs oder mehr Zeichen. Sechs Zeichen - die Mindestanzahl der uns bekannten Dokumente.

Bei Tippfehlern wird nur am Anfang oder am Ende der Zeile gezĂ€hlt. Ansonsten kommt es nicht zu zufĂ€llig zugeschnittenen Requisiten, sondern zu fragmentarischen Vorkommen einiger Sequenzen in anderen. So können Sie die Postleitzahl in der TIN fĂŒr einen guten Tippfehler nehmen
Beliebige zwei Tippfehler80
  • 15 02 47864 3 ;
  • 15 0 5 47 864 8

Schon ziemlich nah an der Grenze, aber Fehler scheinen immer noch „ehrliche“ Tippfehler zu sein
Alle anderen FĂ€lle0
  • 46 07 987987;
  • 32 34 987987
Das Aufschreiben der verbleibenden Unstimmigkeiten ist gefÀhrlich. Die Wahrscheinlichkeit eines Fehlers ist zu hoch

"Ähnlichkeit" wird als Parameter verwendet, wenn wir nach denselben Kunden suchen


Die Bundesbank wendet die neuen Regeln bereits an - mit deren Hilfe suchen sie nach Duplikaten bei potenziellen Kunden. Als nĂ€chstes werden wir eine große Versicherung abschließen.

WĂ€hrend der Integration passen wir die doppelten Suchskripte an, um die „Ähnlichkeit“ der Nummern in Dokumenten zu berĂŒcksichtigen.

ZurĂŒck zu den typischen Regeln fĂŒr das Finden von Duplikaten, habe ich sie am Anfang beschrieben:

  • "Name, Adresse und DUL stimmen völlig ĂŒberein" - Verdopplungsfaktor - 100;
  • "VollstĂ€ndiger Name und vollstĂ€ndiger Name" - 97;
  • "Name und Anschrift stimmen völlig ĂŒberein" - 95
  • „Namen stimmen völlig ĂŒberein“ - 80.

Durch die EinfĂŒhrung neuer Regeln fĂŒr den Vergleich von Zahlen Ă€ndern wir die Skripte zum Auffinden von Duplikaten beim Kunden:

  • "VollstĂ€ndiger Name, Adresse, DUL" - 100;
  • "VollstĂ€ndiger Name, Anschrift, DUL 90 und höher" - 98;
  • "VollstĂ€ndiger Name und vollstĂ€ndiger Name" - 97;
  • "Name und Anschrift stimmten völlig ĂŒberein" - 95;
  • „Namen stimmen völlig ĂŒberein“ - 80.

Die Automatisierung „klebt“ immer noch alle Karten mit einem Koeffizienten ĂŒber 97 zusammen. Bei neuen Bestellungen werden Karten, die sich nicht nur in Tippfehlern in Dokumentennummern unterscheiden, nicht fĂŒr die manuelle Analyse entfernt. Explizite Duplikate brechen sofort zusammen und Datenverwalter klĂ€ren wirklich komplexe FĂ€lle.

Der Artikel erschien zuerst im HFLabs-Blog .

Source: https://habr.com/ru/post/de483348/


All Articles