🕺 🏂 🆘 Wie berechnet man die "Ähnlichkeit" von Zahlen in Pässen? Und das Gleiche auch mit Tippfehlern 👨‍👧‍👦 🍽️ 📢

HFLabs-Produkte suchen nach doppelten Kunden in den Datenbanken von Bundesunternehmen. Der naheliegendste Weg, um die gleichen Kundenkarten zu finden, ist der Vergleich von Pässen oder anderen Ausweispapieren.

Zuvor haben wir die Anzahl der Dokumente streng verglichen: das Gleiche - ausgezeichnet, nein - sorry. Für die manuelle Analyse blieben aufgrund eines Tippfehlers im Raum sogar Karten mit demselben Namen und derselben Adresse übrig. Diese Vorgehensweise hat das Kundenpersonal unnötig belastet.

Deshalb sind wir in die Daten eingestiegen, haben die Statistiken untersucht und daraus die Kriterien abgeleitet - wenn unterschiedliche Zahlen wirklich unterschiedlich sind und wenn es um Tippfehler geht. Ich sage Ihnen, wie der Algorithmus funktioniert.

Einführung des Ähnlichkeitskoeffizienten

Es ist zu unhöflich, die Anzahl der Pässe und anderen Dokumente in "Match-not-Match" zu unterteilen. Sie können feiner handeln und einfache Fehler abfangen.

Angenommen, das Unternehmen hat die folgenden Regeln zum Auffinden von Duplikaten (DUL - Identitätsdokument):

"Name, Adresse und DUL stimmen völlig überein" - Verdopplungsfaktor - 100;
"Vollständiger Name und vollständiger Name" - 97;
"Name und Anschrift stimmen völlig überein" - 95
„Namen stimmen völlig überein“ - 80.

Die Automatisierung kombiniert Karten mit einem Verhältnis von mehr als 97. Der Rest wird eines Tages von speziellen Personen - Datenverwaltern - auseinander genommen. Wenn Sie Glück haben und der Turn kommt.

Das Ergebnis - in der Warteschlange für die manuelle Analyse sind ganz offensichtliche Duplikate. Sogar Karten mit dem gleichen Namen und der gleichen Adresse wie Passnummern werden durch einen gemeinsamen Tippfehler unterschieden. Wie bei 4 6 01 859473 und 4 5 01 859473 (die Tasten 6 und 5 befinden sich in der Nähe, sie werden häufig verwechselt.) Datenverwalter werden durch einfache Tippfehler abgelenkt, und echte Duplikate werden langsamer erkannt.

Mit Blick auf das Geschehen haben wir unseren Produkten beigebracht, die „Ähnlichkeit“ von Zahlen in Dokumenten zu zählen. Kunden verwenden bereits die neue Option in den Regeln für das automatische Zusammenführen von Duplikaten.

Wir betrachten "Ähnlichkeit" nach klaren Regeln

Beim Vergleichen von Dokumenten entfernt der Algorithmus zunächst den Müll aus den Zahlen. Lässt nur Buchstaben und Zahlen: A - Z, A - YaE, 0–9. Und dann beginnt die Magie, für die ich diesen Artikel geschrieben habe - die Berechnung des "Ähnlichkeitskoeffizienten".

Wichtiger Vorbehalt: Chancen sind unwahrscheinlich. Diese Nummer wird benötigt, um Duplikate in Gruppen mit der gleichen Art von Fehlern zu unterteilen. Es spielt keine Rolle, wie ähnlich der absolute Wert ist - es ist nur ein Parameter für den Vergleich von Zahlen.

Und nun zu den Berechnungsregeln.

Die Regel	Ähnlichkeitsverhältnis	Beispiel	Kommentar
Volle Übereinstimmung	100	46 07 324654; 46 07 324654	Es gibt nichts zu besprechen, alles ist klar
Transgraphics	100	AB 4358333; AB 4358333	Transgraphics ist, wenn die Buchstaben eines Alphabets durch die gleichen von einem anderen ersetzt werden. Im ersten Fall sind die Zeichen kyrillisch, im zweiten lateinisch. Typisch harmloser Tippfehler
Ein häufiger Tippfehler	95	50 16 631 5 02; 50 16 631 6 02	Ein häufiger Tippfehler ist, wenn sich Zeichen in einem der Ziffernblöcke der Tastatur befinden oder in der Schreibweise ähnlich sind. Der "Faktor" sucht nach häufigen Tippfehlern in der "Ähnlichkeitstabelle" , die unsere Analysten zusammengestellt haben. (Es ist besser, es früher herunterzuladen, bis Ihre Kollegen gezwungen sind, den Link zu entfernen.)
Layoutänderung	94	AS 98787; GJ 98787	Es funktioniert, wenn in einer Zeile nur Zahlen und Kyrillisch und in der anderen Zeile nur Zahlen und Latein stehen. Andernfalls scheint es nicht so zu sein, als hätte eine Person in gutem Glauben einen Fehler beim Layout gemacht
Ersetzen römischer Ziffern durch Arabisch	93	XIX 987987; 19 987987	Funktioniert nur am Anfang einer Zeile. Die Logik ist folgende: "ehrliche" römische Ziffern können nur in einer Reihe und eine Reihe sein - nur am Anfang
Ein häufiger Tippfehler	90	1 234 987987; 3 234 987987	Unüblicher Tippfehler - ein Tippfehler, der nicht in der Tabelle von common enthalten ist
Eine Permutation von zwei Zeichen	90	3,554 46 36 78; 3554 46 63 78	Typischer Tippfehler, da gibt es nichts hinzuzufügen
Zeichenpaare sind vertauscht	89	12 34 987987 34 12 987987	Funktioniert nur für Folgen, die länger als vier Zeichen sind. Wir betrachten es nur dann als Tippfehler, wenn es am Anfang der Zeile steht. Dies ist ein typischer Fehler bei der Eingabe einer Reihe von Dokumenten. Kein Wunder, denn auf einem Formular wird eine Serie mit zwei Zahlenpaaren gedruckt. In der Mitte und am Ende einer Zeile sind solche Permutationen ein Fehler.
Eine Nummer ist in einer anderen enthalten	88	12 3456789 ; 3456789	Mit diesem Vergleich erfassen wir Fälle von „Lost the Series“. Funktioniert nur für Zeichenfolgen mit einer Länge von sechs oder mehr Zeichen. Sechs Zeichen - die Mindestanzahl der uns bekannten Dokumente. Bei Tippfehlern wird nur am Anfang oder am Ende der Zeile gezählt. Ansonsten kommt es nicht zu zufällig zugeschnittenen Requisiten, sondern zu fragmentarischen Vorkommen einiger Sequenzen in anderen. So können Sie die Postleitzahl in der TIN für einen guten Tippfehler nehmen
Beliebige zwei Tippfehler	80	15 02 47864 3 ; 15 0 5 47 864 8	Schon ziemlich nah an der Grenze, aber Fehler scheinen immer noch „ehrliche“ Tippfehler zu sein
Alle anderen Fälle	0	46 07 987987; 32 34 987987	Das Aufschreiben der verbleibenden Unstimmigkeiten ist gefährlich. Die Wahrscheinlichkeit eines Fehlers ist zu hoch

"Ähnlichkeit" wird als Parameter verwendet, wenn wir nach denselben Kunden suchen

Die Bundesbank wendet die neuen Regeln bereits an - mit deren Hilfe suchen sie nach Duplikaten bei potenziellen Kunden. Als nächstes werden wir eine große Versicherung abschließen.

Während der Integration passen wir die doppelten Suchskripte an, um die „Ähnlichkeit“ der Nummern in Dokumenten zu berücksichtigen.

Zurück zu den typischen Regeln für das Finden von Duplikaten, habe ich sie am Anfang beschrieben:

"Name, Adresse und DUL stimmen völlig überein" - Verdopplungsfaktor - 100;
"Vollständiger Name und vollständiger Name" - 97;
"Name und Anschrift stimmen völlig überein" - 95
„Namen stimmen völlig überein“ - 80.

Durch die Einführung neuer Regeln für den Vergleich von Zahlen ändern wir die Skripte zum Auffinden von Duplikaten beim Kunden:

"Vollständiger Name, Adresse, DUL" - 100;
"Vollständiger Name, Anschrift, DUL 90 und höher" - 98;
"Vollständiger Name und vollständiger Name" - 97;
"Name und Anschrift stimmten völlig überein" - 95;
„Namen stimmen völlig überein“ - 80.

Die Automatisierung „klebt“ immer noch alle Karten mit einem Koeffizienten über 97 zusammen. Bei neuen Bestellungen werden Karten, die sich nicht nur in Tippfehlern in Dokumentennummern unterscheiden, nicht für die manuelle Analyse entfernt. Explizite Duplikate brechen sofort zusammen und Datenverwalter klären wirklich komplexe Fälle.

Der Artikel erschien zuerst im HFLabs-Blog .

Wie berechnet man die "Ähnlichkeit" von Zahlen in Pässen? Und das Gleiche auch mit Tippfehlern

Einführung des Ähnlichkeitskoeffizienten

Wir betrachten "Ähnlichkeit" nach klaren Regeln

"Ähnlichkeit" wird als Parameter verwendet, wenn wir nach denselben Kunden suchen

More articles: