كيف علمنا الشبكة العصبية للتعرف على الوثائق



في هذا الصيف ، قمنا بتدريس الشبكة العصبية لتحديد ما إذا كانت الوثيقة موجودة على الصورة ، وإذا كان الأمر كذلك ، فما هي الوثيقة.

لماذا هو مطلوب


لتفريغ الموظفين وحماية الناس من المحتالين. نستخدم الشبكة العصبية الجديدة في منطقتين: عندما يستعيد المستخدم الوصول إلى الصفحة وإخفاء المستندات الشخصية من البحث العام.

استعادة الوصول إلى الصفحات. تساعد صور المستندات في إعادة الحسابات إلى أصحابها الحقيقيين. على سبيل المثال ، ربما فقد المستخدم الوصول إلى رقم هاتفه أو تم تنشيط المصادقة المكونة من خطوتين على الصفحة ، ولم تعد هناك أي فرصة لتلقي رمز لمرة واحدة لتأكيد الإدخال. يسرع التطوير الجديد من النظر في التطبيقات: لم يعد المشرفون مضطرين إلى إعادة التطبيقات المعبأة بشكل غير صحيح في كل مرة. لا يسمح النظام ببساطة للزائر بإرسال النموذج دون الصور اللازمة ويطلب استبدال الصورة العشوائية بمستند. بالطبع ، لا يزال بإمكاننا إعادة الوصول إلى الصفحة نفسها فقط إذا كانت تحتوي على صور حقيقية للمالك. نحن نتحدث عن أمن الحسابات والحفاظ على البيانات الشخصية - مما يعني أنه لا يمكن ببساطة أن يكون هناك أي أخطاء وحوادث.

تصفية نتائج البحث في قسم " المستندات ". يتم إخفاء جميع المستندات التي يقوم المستخدمون بتحميلها إلى هذا القسم أو إرسالها عبر رسائل خاصة عن أعين المتطفلين بشكل افتراضي ولا تقع ضمن نتائج البحث. ولكن يمكن تكوين مستوى الخصوصية يدويًا بنفسك - لكل ملف فردي. قبل ظهور الشبكة العصبية ، يمكن للمرء أن يجد كمية مناسبة من الوثائق ذات البيانات الحساسة باستخدام الكلمات الرئيسية. قام مالكو هذه الملفات بأنفسهم بتغيير إعدادات الخصوصية. قمنا بتأمين المستخدمين وبدأنا في إزالة الصور من البحث العام الذي يمكننا من خلاله تحديد وجود المستند.

كيف حللنا المشكلة


يبدو أن أسهل طريقة لتحديد المستندات في الصورة هي إنشاء شبكة عصبية أو تدريبها من نقطة الصفر في عينة كبيرة. ولكن ليس بهذه البساطة.

يجب أن تكون العينة ممثلة. من الصعب العثور على عدد كافٍ من العينات الحقيقية لكل خيار: لا توجد قواعد بيانات عامة تحتوي على هذه المستندات في المجال العام.

هناك العديد من الأنظمة التي تتعرف على المستندات وتحللها. عادة ما تهدف إلى الحصول على معلومات محددة من صورة فوتوغرافية وتقترح الجودة المثالية للصورة الأصلية. على سبيل المثال ، قد يُطلب من المستخدم محاذاة جواز السفر على طول حواف القالب ، حيث يعمل على بوابة خدمات الدولة.

هذه الأنظمة ليست مناسبة لمهامنا. نوضح بشكل منفصل أنه عند الاتصال بنا لاستعادة الوصول ، يمكن للمستخدم إغلاق جميع البيانات الموجودة في المستند ، باستثناء الصور والاسم الأول واسم العائلة والطباعة. في الوقت نفسه ، ما زلنا بحاجة إلى تحديد المستند - حتى إذا تم إخفاء المسلسل والرقم عليه ، إذا تم أخذ جواز السفر مع المناطق المحيطة ، أو ، على العكس ، ظهر جزء فقط من المستند مع الصورة على الصورة. لا تزال بحاجة إلى النظر في الإضاءة والزوايا المختلفة. يجب أن تقبل الشبكة العصبية جميع هذه المواد. السؤال هو كيف نعلمها هذا.

هناك صعوبات أخرى. على سبيل المثال ، من الصعب فصل جواز السفر عن أنواع أخرى من المستندات ، وكذلك من مختلف الأوراق المكتوبة بخط اليد والمطبوعة.

لم تكن محاولة السير في الطريق السهل ناجحة للغاية. تبين أن المصنف الناتج ضعيف ، مع وجود خطأ صغير من النوع الأول وخطأ كبير من النوع الثاني. على سبيل المثال ، كانت هناك حالات مثيرة للاهتمام عندما كتب شخص اسمًا ولقبًا يدويًا ، ورسم صورة ، وغطاء جواز سفر - وكان النظام يقبل ببراعة مثل هذه الوثيقة.

إلى ماذا وصلنا


في حالتنا ، كان أفضل حل للمشكلة هو استخدام مجموعة من الشبكات وكاشفات الوجه للتعرف على مستند وتحديد نوعه. أضفنا أيضًا مصنفًا تفاضليًا ، والذي يتضمن برنامج تشفير لإبراز الميزات المميزة ، ومصنف نموذج يسمح لك بتمييز صور المستندات من الملفات غير ذات الصلة. بالإضافة إلى ذلك ، يتم إجراء مجموعة أولية من مجموعة التدريب من أجل تطبيع مجموعة البيانات. من بين البنى ، أثبتت VGG و ResNet أنها الأفضل .

مخطط الشبكة العصبية

يعمل المصنف الأساسي "مستند / غير مستند" على أساس VGG مضبوط مع 19 طبقة وعينة مخصصة للمناطق. علاوة على ذلك ، يتم استخدام مجموعة مجمعة من المصنفات ، مما يقلل من خطأ النوع الثاني ويميز النتيجة. يأتي أولاً أخذ العينات الطبقية ، ثم جهاز تشفير لاستخراج المعلومات القريبة من الحلقة ، ثم VGG المعدل وأخيرًا شبكة واحدة. هذا النهج جعل من الممكن تقليل الأخطاء من النوع الأول إلى مستوى حوالي 0.002. يعتمد احتمال السلبية الكاذبة في هذه الحالة على مجموعة البيانات المحددة والتطبيق المحدد.

تعلمنا الآن كيفية اكتشاف وجود جوازات السفر ورخص القيادة في الصورة تلقائيًا. يحدث التعرف بنجاح في أي زاوية ، مع أي خلفية ، حتى في ظروف الإضاءة السيئة - الشيء الرئيسي هو أن الصورة تحتوي على جزء من المستند مع صورة واسم. ومع ذلك ، لتحديد أنواع أخرى من المستندات ، لن يلزم سوى مجموعات البيانات ذات الصلة. ندرب الشبكة على بياناتنا الخاصة ، حجم عينة المستندات من خمسة إلى عشرة آلاف (لكنها ليست ممثلة). بالنسبة للصور الأخرى ، تكون العينة تعسفية ، ولكن هناك تجمع أولي هناك وهناك.

من وجهة نظر فنية ، فإن النظام مكتوب بلغة python / keras / tensorflow / glib / opencv . من أجل التطبيق العملي للنظام الجديد ، يكفي دمجه في معالجات الثعبان للبنية التحتية للتعلم الآلي. في نفس المرحلة ، تمت إضافة أداة الكشف عن تغيير الصور في برامج تحرير الرسومات ، ولكن هذا الموضوع يستحق مقالة منفصلة.

ما هي النتيجة


يتم الآن إعادة 6٪ من طلبات استعادة الوصول تلقائيًا إلى المؤلف مع طلب إضافة أو استبدال صورة للمستند ، و 2.5٪ من الطلبات مرفوضة. إذا نظرت إلى تحليل الصور ككل ، بما في ذلك الاستدلال والبحث عن الوجوه في الصورة ، فإنه يقوم بأتمتة حتى 20٪ من عمل القسم .

بعد إطلاق الشبكة العصبية ، تمكنا أيضًا من حساب عدد جوازات السفر التي تم تحميلها إلى قسم "المستندات". اتضح أنه في نتائج البحث العام كان كل يوم حوالي ألفي بطاقة هوية. الآن احتمال أن تقع في أيدي غريبة هي الحد الأدنى.

تساعدنا الشبكات العصبية بالفعل في مكافحة الرسائل غير المرغوب فيها وجميع أنواع الاحتيال. نحن لا نوقف التجارب ونواصل الحديث عنها في مدونتنا.

Source: https://habr.com/ru/post/ar427057/


All Articles