Comment calculer la "similitude" des numéros dans les passeports. Et trouver la même chose même avec des fautes de frappe



Les produits HFLabs recherchent des clients en double dans les bases de données des sociétés fédérales. La façon la plus évidente de trouver les mêmes cartes client est de comparer les passeports ou autres pièces d'identité.

Auparavant, nous comparions strictement le nombre de documents: le même - excellent, non - désolé. Pour une analyse manuelle, en raison d'une faute de frappe dans la pièce, même les cartes qui avaient le même nom et la même adresse ont été laissées. Cette approche a inutilement alourdi le personnel du client.

Par conséquent, nous avons grimpé dans les données, examiné les statistiques et déduit les critères - lorsque différents nombres sont vraiment différents et en ce qui concerne les fautes de frappe. Je vous explique comment fonctionne l'algorithme.

Introduit le coefficient des nombres de "similitude"


Diviser le nombre de passeports et d'autres documents en «match-not match» est une décision trop grossière. Vous pouvez agir plus finement et attraper des erreurs simples.

Disons que l'entreprise a les règles suivantes pour trouver des doublons (DUL - document d'identité):

  • «Nom, adresse et DUL coïncident complètement» - facteur de duplication - 100;
  • «Nom complet et nom complet» - 97;
  • «Le nom et l'adresse coïncident complètement» - 95
  • «Les noms coïncident complètement» - 80.

L'automatisation combine des cartes avec un ratio supérieur à 97. Le reste sera un jour démonté par des personnes spéciales - des gestionnaires de données. Si vous avez de la chance et que le tour arrive.

Le résultat - dans la file d'attente pour l'analyse manuelle sont des doublons assez évidents. Même les cartes portant le même nom et la même adresse que les numéros de passeport se distinguent par une faute de frappe courante. Comme dans le cas des 4 6 01 859473 et 4 5 01 859473 (les touches 6 et 5 sont proches, elles sont souvent confuses.) Les gestionnaires de données sont distraits par de simples fautes de frappe et les doublons réels sont détectés plus lentement.

En regardant ce qui se passait, nous avons appris à nos produits à compter la «similitude» des nombres dans les documents. Les clients utilisent déjà la nouvelle option dans les règles de prise de fusion automatique.

Nous considérons la "similitude" selon des règles claires


En comparant les documents, l'algorithme nettoie tout d'abord les nombres des ordures. Ne laisse que des lettres et des chiffres: A - Z, A - YaE, 0–9. Et puis la magie commence, pour laquelle j'ai écrit cet article - le calcul du coefficient de "similitude".

Avertissement important: les probabilités sont peu probables. Ce nombre est nécessaire pour diviser les doublons en groupes avec le même type d'erreurs. Peu importe la «similitude» en valeur absolue - c'est juste un paramètre pour comparer les nombres.

Et maintenant - aux règles de calcul.
La règleRatio de similitudeExempleCommentaire
Match complet100
  • 46 07 324654;
  • 46 07 324654
Il n'y a rien à dire, tout est clair
Transgraphiques100
  • AB 4358333;
  • AB 4358333
La transgraphie, c'est quand les caractères d'un alphabet sont remplacés par les mêmes d'un autre.

Dans le premier cas, les caractères sont cyrilliques, dans le second - latin.

Typo inoffensif typique
Une faute de frappe courante95
  • 50 16 631 5 02;
  • 50 16 631 6 02
Une faute de frappe courante est lorsque les caractères sont situés étroitement sur l'un des blocs de chiffres du clavier ou ont une orthographe similaire.

Le «facteur» recherche des fautes de frappe courantes sur le tableau de «similitude» que nos analystes ont compilé. (Il vaut mieux le télécharger plus tôt jusqu'à ce que vos collègues soient obligés de supprimer le lien)
Changement de mise en page94
  • AS 98787;
  • FY 98787
Cela fonctionne s'il n'y a que des chiffres et du cyrillique sur une ligne, et seulement des chiffres et du latin sur l'autre. Sinon, il ne semble pas qu’une personne de bonne foi ait fait une erreur de mise en page
Remplacement des chiffres romains par l'arabe93
  • XIX 987987;
  • 19 987987
Fonctionne uniquement au début d'une ligne. La logique est la suivante: les chiffres romains "honnêtes" ne peuvent être que dans une série, et une série - seulement au début
Une faute de frappe courante90
  • 1 234 987987;
  • 3 234 987987
Faute de frappe non courante - celle qui n'est pas incluse dans le tableau des
Une permutation de deux caractères90
  • 3.554 46 36 78;
  • 3554 46 63 78
Typo typique, il n'y a rien à ajouter
Les paires de personnages sont mélangées89
  • 12 34 987987
  • 34 12 987987
Ne fonctionne que pour les épisodes de plus de quatre personnages.

Nous la considérons comme une faute de frappe uniquement si elle se produit au début de la ligne. Il s'agit d'une erreur de déclaration typique lors de la saisie d'une série de documents. Et pas étonnant - sur un formulaire, une série est imprimée avec deux paires de chiffres.

Au milieu et à la fin d'une ligne, ces permutations sont une erreur.
Un numéro est inclus dans un autre88
  • 12 3456789 ;
  • 3456789
Avec cette comparaison, nous attrapons des cas de «perte de la série».

Fonctionne uniquement pour les chaînes de six caractères ou plus. Six caractères - la longueur minimale du nombre dans les documents que nous connaissons.

Pour les fautes de frappe, nous ne comptons qu'au début ou à la fin de la ligne. Sinon, au lieu d'accessoires recadrés au hasard, il y aura des occurrences fragmentaires de certaines séquences dans d'autres. Vous pouvez donc prendre le code postal à l'intérieur du TIN pour une bonne faute de frappe
Deux fautes de frappe80
  • 15 0 2 47864 3 ;
  • 15 0 5 47 864 8

Déjà assez proche de la frontière, mais les erreurs semblent toujours être des fautes de frappe «honnêtes»
Tous les autres cas0
  • 46 07 987987;
  • 32 34 987987
Taper les écarts restants est dangereux. La probabilité d'une erreur est trop élevée

La «similitude» est prise comme paramètre lorsque nous recherchons les mêmes clients


La banque fédérale utilise déjà les nouvelles règles - avec l'aide d'elle, elle recherche des doublons parmi les clients potentiels. Ensuite, nous connecterons une grande assurance.

Lors de l'intégration, nous ajustons les scripts de recherche en double afin de prendre en compte la «similitude» des numéros dans les documents.

Revenant aux règles typiques pour trouver des doublons, je les ai décrites au début:

  • «Nom, adresse et DUL coïncident complètement» - facteur de duplication - 100;
  • «Nom complet et nom complet» - 97;
  • «Le nom et l'adresse coïncident complètement» - 95
  • «Les noms coïncident complètement» - 80.

En introduisant de nouvelles règles de comparaison des nombres, nous modifions les scripts de recherche de doublons auprès du client:

  • «Nom complet, adresse, DUL» - 100;
  • «Nom complet, adresse, DUL coïncidait à 90 et plus» - 98;
  • «Nom complet et nom complet» - 97;
  • «Le nom et l'adresse coïncident complètement» - 95;
  • «Les noms coïncident complètement» - 80.

L'automatisation «colle toujours» toutes les cartes avec un coefficient supérieur à 97. Mais avec les nouvelles commandes, les cartes qui ne diffèrent pas seulement par des fautes de frappe dans les numéros de documents ne disparaîtront pas pour une analyse manuelle. Les doublons explicites s'effondrent instantanément et les gestionnaires de données trient les cas vraiment complexes.

L'article est d'abord apparu sur le blog HFLabs .

Source: https://habr.com/ru/post/fr483348/


All Articles