Los productos de HFLabs buscan clientes duplicados en las bases de datos de empresas federales. La forma más obvia de encontrar las mismas tarjetas de cliente es comparar pasaportes u otros documentos de identificación.
Anteriormente, comparamos estrictamente la cantidad de documentos: lo mismo, excelente, no, lo siento. Para el análisis manual, debido a un error tipográfico en la habitación, incluso se dejaron aquellas tarjetas que tenían el mismo nombre y dirección. Este enfoque agobiaba innecesariamente al personal del cliente.
Por lo tanto, subimos a los datos, examinamos las estadísticas y dedujimos los criterios, cuando los diferentes números son realmente diferentes y cuando se trata de errores tipográficos. Te cuento cómo funciona el algoritmo.
Introdujo el coeficiente de números de "similitud"
Dividir la cantidad de pasaportes y otros documentos en "coincidencia no coincidencia" es una decisión demasiado grosera. Puede actuar con mayor precisión y detectar errores simples.
Digamos que la compañía tiene las siguientes reglas para encontrar duplicados (DUL - documento de identidad):
- "Nombre, dirección y DUL coincidieron completamente" - factor de duplicación - 100;
- "Nombre completo y nombre completo" - 97;
- “Nombre y dirección completamente coincidieron” - 95
- "Los nombres coincidieron por completo" - 80.
La automatización combina tarjetas con una proporción superior a 97. El resto algún día será desarmado por personas especiales: administradores de datos. Si tienes suerte y llega el turno.
El resultado: en la cola para el análisis manual hay duplicados bastante obvios. Incluso aquellas tarjetas con el mismo nombre y dirección que los números de pasaporte se distinguen por un error tipográfico común. Como en el caso de
4 6 01 859473 y
4 5 01 859473 (las teclas 6 y 5 están cerca, a menudo se confunden). Los administradores de datos se distraen con errores tipográficos simples y los duplicados reales se detectan más lentamente.
Al observar lo que estaba sucediendo, enseñamos a nuestros productos a contar la "similitud" de los números en los documentos. Los clientes ya están utilizando la nueva opción en las reglas para la fusión automática de duplicados.
Consideramos la "similitud" de acuerdo con reglas claras
Comparando documentos, el algoritmo, en primer lugar, limpia los números de la basura. Deja solo letras y números: A - Z, A - YaE, 0–9. Y entonces comienza la magia, para lo cual escribí este artículo: el cálculo del coeficiente de "similitud".
Advertencia importante: las probabilidades no son probables. Este número es necesario para dividir duplicados en grupos con el mismo tipo de errores. Ni siquiera importa cuál sea la "similitud" en el valor absoluto: es solo un parámetro para comparar números.
Y ahora, a las reglas de cálculo.
La "similitud" se toma como parámetro cuando buscamos los mismos clientes
El banco federal ya está utilizando las nuevas reglas; con la ayuda de ellas, buscan duplicados entre los clientes potenciales. A continuación conectaremos un seguro grande.
Durante la integración, ajustamos los scripts de búsqueda duplicados para tener en cuenta la "similitud" de los números en los documentos.
Volviendo a las reglas típicas para encontrar duplicados, los describí al principio:
- "Nombre, dirección y DUL coincidieron completamente" - factor de duplicación - 100;
- "Nombre completo y nombre completo" - 97;
- “Nombre y dirección completamente coincidieron” - 95
- "Los nombres coincidieron por completo" - 80.
Al introducir nuevas reglas para comparar números, cambiamos los scripts para encontrar duplicados del cliente:
- "Nombre completo, dirección, DUL" - 100;
- "Nombre completo, dirección, DUL coincidió con 90 y más" - 98;
- "Nombre completo y nombre completo" - 97;
- "Nombre y dirección completamente coincidieron" - 95;
- "Los nombres coincidieron por completo" - 80.
La automatización aún "mantiene juntas" todas las tarjetas con un coeficiente superior a 97. Pero con los nuevos pedidos, las tarjetas que no difieren solo en errores tipográficos en los números de documento no desaparecerán para el análisis manual. Los duplicados explícitos colapsan instantáneamente, y los administradores de datos resuelven casos realmente complejos.
El artículo apareció por primera vez en el blog de HFLabs .