Cómo calcular la "similitud" de los números en los pasaportes. Y encuentra lo mismo incluso con errores tipográficos



Los productos de HFLabs buscan clientes duplicados en las bases de datos de empresas federales. La forma más obvia de encontrar las mismas tarjetas de cliente es comparar pasaportes u otros documentos de identificación.

Anteriormente, comparamos estrictamente la cantidad de documentos: lo mismo, excelente, no, lo siento. Para el análisis manual, debido a un error tipográfico en la habitación, incluso se dejaron aquellas tarjetas que tenían el mismo nombre y dirección. Este enfoque agobiaba innecesariamente al personal del cliente.

Por lo tanto, subimos a los datos, examinamos las estadísticas y dedujimos los criterios, cuando los diferentes números son realmente diferentes y cuando se trata de errores tipográficos. Te cuento cómo funciona el algoritmo.

Introdujo el coeficiente de números de "similitud"


Dividir la cantidad de pasaportes y otros documentos en "coincidencia no coincidencia" es una decisión demasiado grosera. Puede actuar con mayor precisión y detectar errores simples.

Digamos que la compañía tiene las siguientes reglas para encontrar duplicados (DUL - documento de identidad):

  • "Nombre, dirección y DUL coincidieron completamente" - factor de duplicación - 100;
  • "Nombre completo y nombre completo" - 97;
  • “Nombre y dirección completamente coincidieron” - 95
  • "Los nombres coincidieron por completo" - 80.

La automatización combina tarjetas con una proporción superior a 97. El resto algún día será desarmado por personas especiales: administradores de datos. Si tienes suerte y llega el turno.

El resultado: en la cola para el análisis manual hay duplicados bastante obvios. Incluso aquellas tarjetas con el mismo nombre y dirección que los números de pasaporte se distinguen por un error tipográfico común. Como en el caso de 4 6 01 859473 y 4 5 01 859473 (las teclas 6 y 5 están cerca, a menudo se confunden). Los administradores de datos se distraen con errores tipográficos simples y los duplicados reales se detectan más lentamente.

Al observar lo que estaba sucediendo, enseñamos a nuestros productos a contar la "similitud" de los números en los documentos. Los clientes ya están utilizando la nueva opción en las reglas para la fusión automática de duplicados.

Consideramos la "similitud" de acuerdo con reglas claras


Comparando documentos, el algoritmo, en primer lugar, limpia los números de la basura. Deja solo letras y números: A - Z, A - YaE, 0–9. Y entonces comienza la magia, para lo cual escribí este artículo: el cálculo del coeficiente de "similitud".

Advertencia importante: las probabilidades no son probables. Este número es necesario para dividir duplicados en grupos con el mismo tipo de errores. Ni siquiera importa cuál sea la "similitud" en el valor absoluto: es solo un parámetro para comparar números.

Y ahora, a las reglas de cálculo.
La reglaRatio de similitudEjemploComentario
Partido completo100
  • 46 07 324654;
  • 46 07 324654
No hay nada de qué hablar, todo está claro.
Transgraphics100
  • AB 4358333;
  • AB 4358333
La transgrafía es cuando los caracteres de un alfabeto se reemplazan por el mismo de otro.

En el primer caso, los caracteres son cirílicos, en el segundo, latín.

Error tipico inofensivo
Un error tipográfico común95
  • 50 16 631 5 02;
  • 50 16 631 6 02
Un error tipográfico común es cuando los caracteres se encuentran cerca de uno de los bloques numéricos del teclado o tienen una ortografía similar.

El "factor" está buscando errores tipográficos comunes en la tabla de "similitud" que nuestros analistas han compilado. (Es mejor descargarlo antes hasta que sus colegas se vean obligados a eliminar el enlace)
Cambio de diseño94
  • AS 98787;
  • FY 98787
Funciona si solo hay números y cirílico en una línea, y solo números y latín en la otra. De lo contrario, no parece que una persona de buena fe haya cometido un error con el diseño
Sustitución de números romanos por arábigos93
  • XIX 987987;
  • 19 987987
Solo funciona al comienzo de una línea. La lógica es esta: los números romanos "honestos" solo pueden estar en una serie y en una serie, solo al principio
Un error tipográfico común90
  • 1 234 987987;
  • 3 234 987987
Typo no común: uno que no está incluido en la tabla de common
Una permutación de dos personajes.90
  • 3.554 46 36 78;
  • 3554 46 63 78
Error tipográfico típico, no hay nada que agregar
Los pares de personajes se mezclan89
  • 12 34 987987
  • 34 12 987987
Solo funciona para episodios de más de cuatro personajes.

Lo consideramos un error tipográfico solo si ocurre al comienzo de la línea. Este es un error de declaración típico al ingresar una serie de documentos. Y no es de extrañar: en un formulario se imprime una serie con dos pares de números.

En el medio y al final de una línea, tales permutaciones son un error.
Un número está incluido en otro88
  • 12 3456789 ;
  • 3456789
Con esta comparación, detectamos casos de "pérdida de la serie".

Solo funciona para cadenas con una longitud de seis caracteres o más. Seis caracteres: la longitud mínima del número en los documentos que conocemos.

Para los errores tipográficos solo contamos al principio o al final de la línea. De lo contrario, en lugar de accesorios recortados al azar, habrá ocurrencias fragmentarias de algunas secuencias en otras. Para que pueda tomar el código postal dentro del TIN para un buen error tipográfico
Cualquier dos errores tipográficos80
  • 15 0 2 47864 3 ;
  • 15 0 5 47 864 8

Ya está bastante cerca de la frontera, pero los errores aún parecen errores tipográficos "honestos"
Todos los demás casos0 0
  • 46 07 987987;
  • 32 34 987987
Escribir las discrepancias restantes es peligroso. La probabilidad de un error es demasiado alta.

La "similitud" se toma como parámetro cuando buscamos los mismos clientes


El banco federal ya está utilizando las nuevas reglas; con la ayuda de ellas, buscan duplicados entre los clientes potenciales. A continuación conectaremos un seguro grande.

Durante la integración, ajustamos los scripts de búsqueda duplicados para tener en cuenta la "similitud" de los números en los documentos.

Volviendo a las reglas típicas para encontrar duplicados, los describí al principio:

  • "Nombre, dirección y DUL coincidieron completamente" - factor de duplicación - 100;
  • "Nombre completo y nombre completo" - 97;
  • “Nombre y dirección completamente coincidieron” - 95
  • "Los nombres coincidieron por completo" - 80.

Al introducir nuevas reglas para comparar números, cambiamos los scripts para encontrar duplicados del cliente:

  • "Nombre completo, dirección, DUL" - 100;
  • "Nombre completo, dirección, DUL coincidió con 90 y más" - 98;
  • "Nombre completo y nombre completo" - 97;
  • "Nombre y dirección completamente coincidieron" - 95;
  • "Los nombres coincidieron por completo" - 80.

La automatización aún "mantiene juntas" todas las tarjetas con un coeficiente superior a 97. Pero con los nuevos pedidos, las tarjetas que no difieren solo en errores tipográficos en los números de documento no desaparecerán para el análisis manual. Los duplicados explícitos colapsan instantáneamente, y los administradores de datos resuelven casos realmente complejos.

El artículo apareció por primera vez en el blog de HFLabs .

Source: https://habr.com/ru/post/483348/


All Articles