HFLabs-Produkte suchen nach doppelten Kunden in den Datenbanken von Bundesunternehmen. Der naheliegendste Weg, um die gleichen Kundenkarten zu finden, ist der Vergleich von PĂ€ssen oder anderen Ausweispapieren.
Zuvor haben wir die Anzahl der Dokumente streng verglichen: das Gleiche - ausgezeichnet, nein - sorry. FĂŒr die manuelle Analyse blieben aufgrund eines Tippfehlers im Raum sogar Karten mit demselben Namen und derselben Adresse ĂŒbrig. Diese Vorgehensweise hat das Kundenpersonal unnötig belastet.
Deshalb sind wir in die Daten eingestiegen, haben die Statistiken untersucht und daraus die Kriterien abgeleitet - wenn unterschiedliche Zahlen wirklich unterschiedlich sind und wenn es um Tippfehler geht. Ich sage Ihnen, wie der Algorithmus funktioniert.
EinfĂŒhrung des Ăhnlichkeitskoeffizienten
Es ist zu unhöflich, die Anzahl der PÀsse und anderen Dokumente in "Match-not-Match" zu unterteilen. Sie können feiner handeln und einfache Fehler abfangen.
Angenommen, das Unternehmen hat die folgenden Regeln zum Auffinden von Duplikaten (DUL - IdentitÀtsdokument):
- "Name, Adresse und DUL stimmen völlig ĂŒberein" - Verdopplungsfaktor - 100;
- "VollstÀndiger Name und vollstÀndiger Name" - 97;
- "Name und Anschrift stimmen völlig ĂŒberein" - 95
- âNamen stimmen völlig ĂŒbereinâ - 80.
Die Automatisierung kombiniert Karten mit einem VerhĂ€ltnis von mehr als 97. Der Rest wird eines Tages von speziellen Personen - Datenverwaltern - auseinander genommen. Wenn Sie GlĂŒck haben und der Turn kommt.
Das Ergebnis - in der Warteschlange fĂŒr die manuelle Analyse sind ganz offensichtliche Duplikate. Sogar Karten mit dem gleichen Namen und der gleichen Adresse wie Passnummern werden durch einen gemeinsamen Tippfehler unterschieden. Wie bei
4 6 01 859473 und
4 5 01 859473 (die Tasten 6 und 5 befinden sich in der NÀhe, sie werden hÀufig verwechselt.) Datenverwalter werden durch einfache Tippfehler abgelenkt, und echte Duplikate werden langsamer erkannt.
Mit Blick auf das Geschehen haben wir unseren Produkten beigebracht, die âĂhnlichkeitâ von Zahlen in Dokumenten zu zĂ€hlen. Kunden verwenden bereits die neue Option in den Regeln fĂŒr das automatische ZusammenfĂŒhren von Duplikaten.
Wir betrachten "Ăhnlichkeit" nach klaren Regeln
Beim Vergleichen von Dokumenten entfernt der Algorithmus zunĂ€chst den MĂŒll aus den Zahlen. LĂ€sst nur Buchstaben und Zahlen: A - Z, A - YaE, 0â9. Und dann beginnt die Magie, fĂŒr die ich diesen Artikel geschrieben habe - die Berechnung des "Ăhnlichkeitskoeffizienten".
Wichtiger Vorbehalt: Chancen sind unwahrscheinlich. Diese Nummer wird benötigt, um Duplikate in Gruppen mit der gleichen Art von Fehlern zu unterteilen. Es spielt keine Rolle, wie Ă€hnlich der absolute Wert ist - es ist nur ein Parameter fĂŒr den Vergleich von Zahlen.
Und nun zu den Berechnungsregeln.
"Ăhnlichkeit" wird als Parameter verwendet, wenn wir nach denselben Kunden suchen
Die Bundesbank wendet die neuen Regeln bereits an - mit deren Hilfe suchen sie nach Duplikaten bei potenziellen Kunden. Als nĂ€chstes werden wir eine groĂe Versicherung abschlieĂen.
WĂ€hrend der Integration passen wir die doppelten Suchskripte an, um die âĂhnlichkeitâ der Nummern in Dokumenten zu berĂŒcksichtigen.
ZurĂŒck zu den typischen Regeln fĂŒr das Finden von Duplikaten, habe ich sie am Anfang beschrieben:
- "Name, Adresse und DUL stimmen völlig ĂŒberein" - Verdopplungsfaktor - 100;
- "VollstÀndiger Name und vollstÀndiger Name" - 97;
- "Name und Anschrift stimmen völlig ĂŒberein" - 95
- âNamen stimmen völlig ĂŒbereinâ - 80.
Durch die EinfĂŒhrung neuer Regeln fĂŒr den Vergleich von Zahlen Ă€ndern wir die Skripte zum Auffinden von Duplikaten beim Kunden:
- "VollstÀndiger Name, Adresse, DUL" - 100;
- "VollstÀndiger Name, Anschrift, DUL 90 und höher" - 98;
- "VollstÀndiger Name und vollstÀndiger Name" - 97;
- "Name und Anschrift stimmten völlig ĂŒberein" - 95;
- âNamen stimmen völlig ĂŒbereinâ - 80.
Die Automatisierung âklebtâ immer noch alle Karten mit einem Koeffizienten ĂŒber 97 zusammen. Bei neuen Bestellungen werden Karten, die sich nicht nur in Tippfehlern in Dokumentennummern unterscheiden, nicht fĂŒr die manuelle Analyse entfernt. Explizite Duplikate brechen sofort zusammen und Datenverwalter klĂ€ren wirklich komplexe FĂ€lle.
Der Artikel erschien zuerst im HFLabs-Blog .