تبحث منتجات HFLabs عن عملاء مكررة في قواعد بيانات الشركات الفيدرالية. الطريقة الأكثر وضوحًا للعثور على بطاقات العملاء نفسها هي مقارنة جوازات السفر أو مستندات الهوية الأخرى.
سابقا ، قارنا عدد الوثائق بدقة: نفس - ممتاز ، لا - آسف. للتحليل اليدوي ، بسبب وجود خطأ مطبعي في الغرفة ، تم ترك حتى تلك البطاقات التي تحمل نفس الاسم والعنوان. هذا النهج أثقل كاهل موظفي العملاء.
لذلك ، صعدنا إلى البيانات ، وفحصنا الإحصائيات واستخلصنا المعايير - عندما تكون الأرقام المختلفة مختلفة حقًا ، وعندما يتعلق الأمر بالأخطاء المطبعية. أقول لك كيف تعمل الخوارزمية.
قدم معامل أرقام "التشابه"
قرار تقسيم أعداد جوازات السفر والمستندات الأخرى إلى "تطابق غير مطابق" هو قرار فظ للغاية. يمكنك التصرف بشكل أدق والقبض على أخطاء بسيطة.
دعنا نقول أن الشركة لديها القواعد التالية للعثور على التكرارات (DUL - وثيقة الهوية):
- "الاسم والعنوان و DUL تزامن تماما" - عامل الازدواجية - 100 ؛
- "الاسم الكامل والاسم الكامل" - 97 ؛
- "الاسم والعنوان متزامنان تمامًا" - 95
- "الأسماء تزامنت تماما" - 80.
يجمع التنفيذ التلقائي بين البطاقات ذات النسبة الأعلى من 97. أما الباقي فسيتم تفكيكه في يوم ما بواسطة أشخاص خاصين - حماة البيانات. إذا كنت محظوظاً ويأتي الدور.
النتيجة - في قائمة الانتظار للتحليل اليدوي هي التكرارات واضحة جدا. حتى تلك البطاقات التي تحمل نفس الاسم والعنوان كأرقام جواز السفر تتميز عن طريق خطأ مطبعي شائع. كما في حالة
859473 4 6 و
4 5 01 859473 (المفاتيح 6 و 5 قريبة ، غالباً ما يتم الخلط بينهما). يتم تشتيت حراس البيانات عن طريق الأخطاء المطبعية البسيطة ، ويتم اكتشاف التكرارات الحقيقية بشكل أبطأ.
بالنظر إلى ما كان يحدث ، قمنا بتدريس منتجاتنا لحساب "تشابه" الأرقام في المستندات. يستخدم العملاء بالفعل الخيار الجديد في قواعد الدمج التلقائي المكرر.
نحن نعتبر "التشابه" وفقًا لقواعد واضحة
مقارنة المستندات ، تقوم الخوارزمية أولاً وقبل كل شيء بتنظيف الأرقام من البيانات المهملة. يترك فقط الأحرف والأرقام: A - Z ، A - YaE ، 0–9. ثم يبدأ السحر ، الذي كتبت من أجله هذه المقالة - حساب معامل "التشابه".
تحذير هام: الاحتمالات ليست مرجحة. هذا الرقم ضروري لتقسيم التكرارات إلى مجموعات لها نفس النوع من الأخطاء. لا يهم ما هو "التشابه" في القيمة المطلقة - إنه مجرد معلمة لمقارنة الأرقام.
والآن - لقواعد الحساب.
يتم أخذ "التشابه" كمعلمة عندما نبحث عن نفس العملاء
يستخدم البنك الفيدرالي بالفعل القواعد الجديدة - بمساعدة منهم يبحثون عن التكرارات بين العملاء المحتملين. بعد ذلك سوف نقوم بتوصيل تأمين كبير.
أثناء الدمج ، نقوم بضبط نصوص البحث المكررة حتى نراعي "تشابه" الأرقام في المستندات.
العودة إلى القواعد النموذجية للعثور على التكرارات ، لقد وصفتها في البداية:
- "الاسم والعنوان و DUL تزامن تماما" - عامل الازدواجية - 100 ؛
- "الاسم الكامل والاسم الكامل" - 97 ؛
- "الاسم والعنوان متزامنان تمامًا" - 95
- "الأسماء تزامنت تماما" - 80.
من خلال تقديم قواعد جديدة لمقارنة الأرقام ، نقوم بتغيير البرامج النصية للعثور على التكرارات من العميل:
- "الاسم الكامل ، العنوان ، DUL" - 100 ؛
- "الاسم الكامل ، العنوان ، DUL تزامن 90 وما فوق" - 98 ؛
- "الاسم الكامل والاسم الكامل" - 97 ؛
- "الاسم والعنوان متزامنان تمامًا" - 95 ؛
- "الأسماء تزامنت تماما" - 80.
لا يزال التنفيذ التلقائي "يتمسك" جميع البطاقات بمعامل أعلى من 97. ولكن مع الطلبات الجديدة ، لن تختفي البطاقات التي لا تختلف فقط في الأخطاء المطبعية في أرقام المستندات للتحليل اليدوي. التكرار الصريح ينهار على الفور ، ويقوم القائمون على إدارة البيانات بحل الحالات المعقدة حقًا.
ظهر المقال أولاً على مدونة HFLabs .