كيفية حساب "تشابه" الأرقام في جوازات السفر. وتجد نفسها حتى مع الأخطاء المطبعية



تبحث منتجات HFLabs عن عملاء مكررة في قواعد بيانات الشركات الفيدرالية. الطريقة الأكثر وضوحًا للعثور على بطاقات العملاء نفسها هي مقارنة جوازات السفر أو مستندات الهوية الأخرى.

سابقا ، قارنا عدد الوثائق بدقة: نفس - ممتاز ، لا - آسف. للتحليل اليدوي ، بسبب وجود خطأ مطبعي في الغرفة ، تم ترك حتى تلك البطاقات التي تحمل نفس الاسم والعنوان. هذا النهج أثقل كاهل موظفي العملاء.

لذلك ، صعدنا إلى البيانات ، وفحصنا الإحصائيات واستخلصنا المعايير - عندما تكون الأرقام المختلفة مختلفة حقًا ، وعندما يتعلق الأمر بالأخطاء المطبعية. أقول لك كيف تعمل الخوارزمية.

قدم معامل أرقام "التشابه"


قرار تقسيم أعداد جوازات السفر والمستندات الأخرى إلى "تطابق غير مطابق" هو ​​قرار فظ للغاية. يمكنك التصرف بشكل أدق والقبض على أخطاء بسيطة.

دعنا نقول أن الشركة لديها القواعد التالية للعثور على التكرارات (DUL - وثيقة الهوية):

  • "الاسم والعنوان و DUL تزامن تماما" - عامل الازدواجية - 100 ؛
  • "الاسم الكامل والاسم الكامل" - 97 ؛
  • "الاسم والعنوان متزامنان تمامًا" - 95
  • "الأسماء تزامنت تماما" - 80.

يجمع التنفيذ التلقائي بين البطاقات ذات النسبة الأعلى من 97. أما الباقي فسيتم تفكيكه في يوم ما بواسطة أشخاص خاصين - حماة البيانات. إذا كنت محظوظاً ويأتي الدور.

النتيجة - في قائمة الانتظار للتحليل اليدوي هي التكرارات واضحة جدا. حتى تلك البطاقات التي تحمل نفس الاسم والعنوان كأرقام جواز السفر تتميز عن طريق خطأ مطبعي شائع. كما في حالة 859473 4 6 و 4 5 01 859473 (المفاتيح 6 و 5 قريبة ، غالباً ما يتم الخلط بينهما). يتم تشتيت حراس البيانات عن طريق الأخطاء المطبعية البسيطة ، ويتم اكتشاف التكرارات الحقيقية بشكل أبطأ.

بالنظر إلى ما كان يحدث ، قمنا بتدريس منتجاتنا لحساب "تشابه" الأرقام في المستندات. يستخدم العملاء بالفعل الخيار الجديد في قواعد الدمج التلقائي المكرر.

نحن نعتبر "التشابه" وفقًا لقواعد واضحة


مقارنة المستندات ، تقوم الخوارزمية أولاً وقبل كل شيء بتنظيف الأرقام من البيانات المهملة. يترك فقط الأحرف والأرقام: A - Z ، A - YaE ، 0–9. ثم يبدأ السحر ، الذي كتبت من أجله هذه المقالة - حساب معامل "التشابه".

تحذير هام: الاحتمالات ليست مرجحة. هذا الرقم ضروري لتقسيم التكرارات إلى مجموعات لها نفس النوع من الأخطاء. لا يهم ما هو "التشابه" في القيمة المطلقة - إنه مجرد معلمة لمقارنة الأرقام.

والآن - لقواعد الحساب.
القاعدةنسبة التشابهمثالتعليق
مباراة كاملة100
  • 46 07 324654؛
  • 46 07 324654
لا يوجد شيء يمكن الحديث عنه ، كل شيء واضح
Transgrafika100
  • AB 4358333 ؛
  • AB 4358333
يتم Transgraphics عندما يتم استبدال أحرف الأبجدية بأخرى من أخرى.

في الحالة الأولى ، الأحرف هي السيريلية ، في الحالة الثانية - اللاتينية.

مطبعي ضرر نموذجي
خطأ مطبعي واحد مشترك95
  • 50 16 631 5 02 ؛
  • 50 16 631 6 02
خطأ مطبعي شائع هو عندما يتم وضع الأحرف عن قرب على أحد كتل الأرقام في لوحة المفاتيح أو عندما تكون متشابهة في الإملاء.

يبحث "العامل" عن الأخطاء المطبعية الشائعة على جدول "التشابه" الذي جمعه محللوننا. (من الأفضل تنزيله عاجلاً حتى يضطر زملائك إلى إزالة الرابط)
تغيير التخطيط94
  • AS 98787 ؛
  • السنة المالية 98787
يعمل إذا كانت هناك أرقام وسريلية فقط في سطر واحد ، وأرقام فقط واللاتينية في الآخر. خلاف ذلك ، لا يبدو أن شخصًا بحسن نية ارتكب خطأً في المخطط
استبدال الأرقام الرومانية بالعربية93
  • XIX 987987 ؛
  • 19 987987
يعمل فقط في بداية السطر. المنطق هو أن الأرقام الرومانية "الصادقة" لا يمكن أن تكون إلا في سلسلة ، وسلسلة - فقط في البداية
خطأ مطبعي واحد مشترك90
  • 1 234 987987 ؛
  • 3 234 987987
خطأ مطبعي غير شائع - لا يتم تضمينه في جدول المشترك
التقليب واحد من حرفين90
  • 3555 46 36 78 ؛
  • 3554 46 63 78
خطأ مطبعي نموذجي ، لا يوجد شيء لإضافة
يتم خلط أزواج الأحرف89
  • 12 34 987987
  • 34 12 987987
يعمل فقط للحلقات أطول من أربعة أحرف.

نحن نعتبر أنه خطأ مطبعي فقط إذا حدث في بداية السطر. هذا خطأ بيان نموذجي عند إدخال سلسلة من المستندات. ولا عجب - على شكل سلسلة تطبع مع اثنين من أزواج من الأرقام.

في منتصف ونهاية الخط ، هذه التباديل هي خطأ
يتم تضمين رقم واحد في آخر88
  • 12 3456789 ؛
  • 3456789
مع هذه المقارنة ، نلاحظ حالات "فقد المسلسل".

يعمل فقط للسلاسل التي يبلغ طولها ستة أحرف أو أكثر. ستة أحرف - الحد الأدنى لطول العدد في المستندات المعروفة لنا.

بالنسبة للأخطاء المطبعية ، فإننا نعول فقط في بداية أو في نهاية السطر. وإلا ، فبدلاً من الدعائم المقطوعة عشوائياً ، ستكون هناك بعض الأحداث المجزأة لبعض التسلسلات في الأجزاء الأخرى. حتى تتمكن من أخذ الرمز البريدي داخل TIN للحصول على خطأ مطبعي جيد
أي اثنين من الأخطاء المطبعية80
  • 15 - 2 47864 3 ؛
  • 15 - 5 47 864 8

بالفعل قريبة جداً من الحدود ، لكن الأخطاء لا تزال تبدو وكأنها أخطاء مطبعية
جميع الحالات الأخرى0
  • 46 07 987987؛
  • 32 34 987987
كتابة الاختلافات المتبقية أمر خطير. احتمال وجود خطأ مرتفع للغاية

يتم أخذ "التشابه" كمعلمة عندما نبحث عن نفس العملاء


يستخدم البنك الفيدرالي بالفعل القواعد الجديدة - بمساعدة منهم يبحثون عن التكرارات بين العملاء المحتملين. بعد ذلك سوف نقوم بتوصيل تأمين كبير.

أثناء الدمج ، نقوم بضبط نصوص البحث المكررة حتى نراعي "تشابه" الأرقام في المستندات.

العودة إلى القواعد النموذجية للعثور على التكرارات ، لقد وصفتها في البداية:

  • "الاسم والعنوان و DUL تزامن تماما" - عامل الازدواجية - 100 ؛
  • "الاسم الكامل والاسم الكامل" - 97 ؛
  • "الاسم والعنوان متزامنان تمامًا" - 95
  • "الأسماء تزامنت تماما" - 80.

من خلال تقديم قواعد جديدة لمقارنة الأرقام ، نقوم بتغيير البرامج النصية للعثور على التكرارات من العميل:

  • "الاسم الكامل ، العنوان ، DUL" - 100 ؛
  • "الاسم الكامل ، العنوان ، DUL تزامن 90 وما فوق" - 98 ؛
  • "الاسم الكامل والاسم الكامل" - 97 ؛
  • "الاسم والعنوان متزامنان تمامًا" - 95 ؛
  • "الأسماء تزامنت تماما" - 80.

لا يزال التنفيذ التلقائي "يتمسك" جميع البطاقات بمعامل أعلى من 97. ولكن مع الطلبات الجديدة ، لن تختفي البطاقات التي لا تختلف فقط في الأخطاء المطبعية في أرقام المستندات للتحليل اليدوي. التكرار الصريح ينهار على الفور ، ويقوم القائمون على إدارة البيانات بحل الحالات المعقدة حقًا.

ظهر المقال أولاً على مدونة HFLabs .

Source: https://habr.com/ru/post/ar483348/


All Articles