Les produits HFLabs recherchent des clients en double dans les bases de données des sociétés fédérales. La façon la plus évidente de trouver les mêmes cartes client est de comparer les passeports ou autres pièces d'identité.
Auparavant, nous comparions strictement le nombre de documents: le même - excellent, non - désolé. Pour une analyse manuelle, en raison d'une faute de frappe dans la pièce, même les cartes qui avaient le même nom et la même adresse ont été laissées. Cette approche a inutilement alourdi le personnel du client.
Par conséquent, nous avons grimpé dans les données, examiné les statistiques et déduit les critères - lorsque différents nombres sont vraiment différents et en ce qui concerne les fautes de frappe. Je vous explique comment fonctionne l'algorithme.
Introduit le coefficient des nombres de "similitude"
Diviser le nombre de passeports et d'autres documents en «match-not match» est une décision trop grossière. Vous pouvez agir plus finement et attraper des erreurs simples.
Disons que l'entreprise a les règles suivantes pour trouver des doublons (DUL - document d'identité):
- «Nom, adresse et DUL coïncident complètement» - facteur de duplication - 100;
- «Nom complet et nom complet» - 97;
- «Le nom et l'adresse coïncident complètement» - 95
- «Les noms coïncident complètement» - 80.
L'automatisation combine des cartes avec un ratio supérieur à 97. Le reste sera un jour démonté par des personnes spéciales - des gestionnaires de données. Si vous avez de la chance et que le tour arrive.
Le résultat - dans la file d'attente pour l'analyse manuelle sont des doublons assez évidents. Même les cartes portant le même nom et la même adresse que les numéros de passeport se distinguent par une faute de frappe courante. Comme dans le cas des
4 6 01 859473 et
4 5 01 859473 (les touches 6 et 5 sont proches, elles sont souvent confuses.) Les gestionnaires de données sont distraits par de simples fautes de frappe et les doublons réels sont détectés plus lentement.
En regardant ce qui se passait, nous avons appris à nos produits à compter la «similitude» des nombres dans les documents. Les clients utilisent déjà la nouvelle option dans les règles de prise de fusion automatique.
Nous considérons la "similitude" selon des règles claires
En comparant les documents, l'algorithme nettoie tout d'abord les nombres des ordures. Ne laisse que des lettres et des chiffres: A - Z, A - YaE, 0–9. Et puis la magie commence, pour laquelle j'ai écrit cet article - le calcul du coefficient de "similitude".
Avertissement important: les probabilités sont peu probables. Ce nombre est nécessaire pour diviser les doublons en groupes avec le même type d'erreurs. Peu importe la «similitude» en valeur absolue - c'est juste un paramètre pour comparer les nombres.
Et maintenant - aux règles de calcul.
La «similitude» est prise comme paramètre lorsque nous recherchons les mêmes clients
La banque fédérale utilise déjà les nouvelles règles - avec l'aide d'elle, elle recherche des doublons parmi les clients potentiels. Ensuite, nous connecterons une grande assurance.
Lors de l'intégration, nous ajustons les scripts de recherche en double afin de prendre en compte la «similitude» des numéros dans les documents.
Revenant aux règles typiques pour trouver des doublons, je les ai décrites au début:
- «Nom, adresse et DUL coïncident complètement» - facteur de duplication - 100;
- «Nom complet et nom complet» - 97;
- «Le nom et l'adresse coïncident complètement» - 95
- «Les noms coïncident complètement» - 80.
En introduisant de nouvelles règles de comparaison des nombres, nous modifions les scripts de recherche de doublons auprès du client:
- «Nom complet, adresse, DUL» - 100;
- «Nom complet, adresse, DUL coïncidait à 90 et plus» - 98;
- «Nom complet et nom complet» - 97;
- «Le nom et l'adresse coïncident complètement» - 95;
- «Les noms coïncident complètement» - 80.
L'automatisation «colle toujours» toutes les cartes avec un coefficient supérieur à 97. Mais avec les nouvelles commandes, les cartes qui ne diffèrent pas seulement par des fautes de frappe dans les numéros de documents ne disparaîtront pas pour une analyse manuelle. Les doublons explicites s'effondrent instantanément et les gestionnaires de données trient les cas vraiment complexes.
L'article est d'abord apparu sur le blog HFLabs .