صعوبات تطبيق تقنيات التعرف الضوئي على الحروف في أنظمة DLP ، أو كيفية تحضير التعرف الضوئي على الحروف

صورة حل مشكلة التعرف على الصور (OCR) محفوف بمختلف الصعوبات. لا يمكن التعرف على تلك الصورة بسبب نظام الألوان غير القياسي أو بسبب التشويه. أن العميل يريد التعرف على جميع الصور دون أي قيود ، وهذا أبعد ما يكون عن أن يكون ممكنًا دائمًا. المشاكل مختلفة ، ولا يمكن حلها دائمًا على الفور. في هذا المنشور ، سنقدم بعض النصائح المفيدة استنادًا إلى تجربة حل المواقف الحقيقية مع العملاء.

ولكن أولا ، القليل من التاريخ. لقد مر وقت طويل منذ نشر المقال حول كيفية إعادة كتابة خدمة التصفية . تحدثنا فيه قليلاً عن التصفية ومعالجة الرسائل ، وعن كيفية ترتيب خدمة التصفية ككل. هذه المرة سنحاول الإجابة على السؤال "كيف نتعامل مع الصور ، وكيف تتفاعل الخدمات ، وماذا يحدث للنظام قيد التحميل؟" إذا عملنا على مقال حول خدمة التصفية ، فسننظر الآن في فرع واحد فقط من تفاعل الخدمة - وهو تفاعل خدمة التصفية و OCR.



ما هو التعرف الضوئي على الحروف؟


قبل الحديث عن تفاعل الخدمات ومشاكل استخدام التعرف الضوئي على الحروف ، دعونا نحاول فهم ما هو التعرف الضوئي على الحروف. خذ التعريف المعقد من ويكيبيديا.

التعرف الضوئي على الأحرف (OCR) - الترجمة الميكانيكية أو الإلكترونية للصور النصية المكتوبة بخط اليد أو المكتوبة أو المكتوبة في بيانات نصية تستخدم لتمثيل الأحرف في الكمبيوتر (على سبيل المثال ، في محرر نصوص).

ببساطة ، أخذوا صورة ، وأرسلوها للاعتراف بها ، ثم كان السحر خارج هوجورتس وتلقى النص.



يمكنك أيضًا أخذ تعريف OCR من موقع ABBYY ، والذي يبدو أكثر بساطة.

التعرف الضوئي على الأحرف (OCR) هي تقنية تسمح لك بتحويل أنواع مختلفة من المستندات ، مثل المستندات الممسوحة ضوئيًا أو ملفات PDF أو صور من كاميرا رقمية ، إلى تنسيقات قابلة للبحث.

ولماذا نحتاج (التعرف على الصور)؟


يمكننا استخدام التعرف على الصور حتى على جهاز الكمبيوتر المنزلي الخاص بنا لتحويل الصور الرقمية إلى بيانات نصية قابلة للتحرير ، لكن المهمة الماثلة أمامنا أوسع بكثير (نظام DLP بعد كل شيء): نحن بحاجة إلى التحكم في تدفق المعلومات في المؤسسة.

ظهرت أنظمة DLP منذ فترة طويلة في السوق وهي الآن جزء من ترسانة مألوفة من أنظمة أمن معلومات الشركات (أدوات حماية المعلومات). تواجه DLP مهمة التحكم في حركة المعلومات الرسومية (المستندات الممسوحة ضوئيًا ، لقطات الشاشة ، الصور). وليس فقط التحكم في حركة ملفات الرسومات ، ولكن أولاً وقبل كل شيء ، تحليل محتوياتها. يجب أن يكون النظام قادرًا على فهم المعلومات التي صادفها تمامًا ومقارنتها بعينات من المعلومات المحمية وإتاحة الفرص للمستخدم لمزيد من البحث عن هذه المعلومات. يعد استخدام أدوات التحليل الأخرى ، مثل المقارنة بالبصمات الرقمية وحساب التجزئة والتحليل حسب تنسيق الملف وحجمه وبنيته ، أيضًا مصادر قيمة للمعلومات ، لكنها لا تسمح بالإجابة على السؤال: "ما النص الذي يتم إرساله في هذه الصورة؟" وفي الوقت نفسه ، لا يزال النص هو الناقل الأكثر شيوعًا للمعلومات المنظمة ، بما في ذلك ملفات الرسومات.

تقليديا ، يتم استخدام تقنية التعرف الضوئي على الحروف للتعرف على المعلومات الرسومية (ما حددناه بالفعل). في الواقع ، OCR هي عمومًا الفئة الوحيدة من التقنيات التي توفر القدرة على استخراج المعلومات النصية من الصور. لذلك ، لا يتعلق الأمر بالنهج التقليدي ، بل يتعلق بعدم الاختيار.

كم عدد الصور التي تتم معالجتها في نظام DLP؟


لا يمكنك الاستغناء عن OCR؟ هل هناك بالفعل الكثير من الصور في DLP تحتاج إلى تطبيق التعرف الضوئي على الحروف؟ الجواب على هذا السؤال هو "نعم!" يمكن لأكثر من مليون صورة دخول النظام يوميًا ، وقد تحتوي كل هذه الصور على نص.



يتم استخدام التعرف الضوئي على الحروف كجزء من نظام Rostelecom-Solar DLP من قبل شركات النفط والغاز والوكالات الحكومية. يستخدم جميع العملاء التعرف الضوئي على الحروف للكشف عن البيانات الحساسة في المستندات الممسوحة ضوئيًا. ما الذي يمكن تضمينه في هذا "الجدول"؟ نعم اي شيء يمكن أن تكون هذه عمليات مسح لمستندات داخلية مختلفة ، على سبيل المثال ، تحتوي على PD. أو معلومات من فئة الأسرار التجارية واللوح (للاستخدام الرسمي) والبيانات المالية ، إلخ.

كيف يتعرف التعرف الضوئي على الحروف على الصور؟


العملية على النحو التالي: اعتراض DLP رسالة تحتوي على صورة (مسح المستند ، صورة فوتوغرافية ، وما إلى ذلك) ، تحدد أن الصورة موجودة بالفعل في الرسالة ، وتقوم باستخراجها وإرسالها إلى OCR للتعرف عليها. عند الإخراج ، يتلقى DLP معلومات حول محتويات الصورة (والرسالة ككل) في شكل TEXT / PLAIN المستخرج.

إذا تحدثنا عن تفاعل الخدمات مباشرة في نظام Solar Dozor الخاص بنا ، فإن خدمة التصفية ترسل الصور (إن وجدت) من الرسالة إلى خدمة استخراج نص الصورة (OCR). هذا الأخير ، بعد اكتمال الاعتراف ، يرسل النص المستلم إلى mailfilter. اتضح شيء مثل الصور شعوذة والنص.



دعنا نعتبر آلية التعرف أعمق بواسطة مثال تقنيات التعرف الضوئي على الحروف ABBYY ، والتي نستخدمها في DLP الخاص بنا.

ربما تكون المشكلة الرئيسية في التعرف الضوئي على الحروف عند التعرف على النص هي تهجئة الحرف. إذا أخذنا أي حرف من الحروف الأبجدية (على سبيل المثال ، الروسية أو الإنجليزية) ، فسنجد لك خيارات إملائية لكل منها. محركات OCR تحل هذه المشكلة بعدة طرق:

  1. العثور على شخصية حسب النمط. على سبيل المثال ، باستخدام مجموعة متنوعة من الخطوط الإملائية.
  2. تحديد علامات لكتابة شخصية.

إذا أعطيت مثالًا صريحًا عن العمل ، فسيقوم OCR بتقسيم النص إلى أحرف سبق تحديدها في الصورة ، ويفرضها على قوالب جاهزة. ثم يتم التحقق مما إذا كان الرمز يشبه تهجئة القالب أم لا. عند تحديد حرف ، يتم تحويله إلى رمز الحرف في الترميز المستخدم. نتيجة لهذه العملية ، يتم إضافة الرموز في الكلمات والجمل في النص النهائي.

هناك الكثير من المقالات المختلفة حول عمل التعرف الضوئي على الحروف. يمكنك قراءة المزيد حول عمل OCR ، على سبيل المثال ، هنا https://sysblok.ru/knowhow/iz-pikselej-v-bukvy-kak-rabotaet-raspoznavanie-teksta/

كيفية إعداد التعرف الضوئي على الحروف ككل للاعتراف؟


لقد اكتشفنا بالفعل أنه يمكن الوصول إلى أكثر من مليون صورة في DLP. لكن هل كل الصور من هذا المليون مفيدة لنا؟

الإجابة على السؤال أكثر من واضحة - بالطبع لا. ولكن لماذا لا تكون جميع الصور مفيدة لنا؟ إجابة هذا السؤال شفافة أيضًا: الكثير من الصور من التواقيع في الرسائل "تمشي" في البريد. ربما 90 ٪ من الرسائل (إن لم يكن أكثر) سوف تحتوي على شعار الشركة.

هذه الصور أصغر من أن يتم التعرف عليها ؛ قد لا يكون هناك أي نص فيها على الإطلاق. يمكن أن ننصح هنا (ونوصي بشدة) بوضع قيود على حجم الصور المعترف بها. في هذه الحالة ، يجب تعيين القيود على الحدود الدنيا وعلى الحدود العليا. إن احتمال إرسال ملفات ثقيلة للمعالجة أقل من احتمال الحصول على صور من توقيع ، ولكنه لا يزال مرتفعًا للغاية.

تجدر الإشارة إلى أن الصور الرقمية غالباً ما يكون لها عيوب مختلفة. من غير المرجح أن تحصل DLP دائمًا على عمليات مسح المستندات بدقة جيدة. على العكس من ذلك ، لن تكون عمليات المسح دائمًا في أفضل حالاتها ولديها الكثير من العيوب.

على سبيل المثال ، في صورة رقمية ، قد يتم تشويه المنظور ، وقد يتحول إلى تسليط الضوء عليه أو عكسه ، وقد تكون خطوط المسح الضوئي منحنية. مثل هذا التشويه يمكن أن يعقد الاعتراف. لذلك ، يمكن لمحركات التعرف الضوئي على الحروف معالجة الصور مسبقًا لإعدادها للتعرف عليها. على سبيل المثال ، يمكن أن تكون الصورة ملتوية ، وتحويلها إلى b / w ، وعكس الألوان ، وتصحيح تعرجات الخط. كل هذا يمكن ضبطه في إعدادات التعرف الضوئي على الحروف ، ونتيجة لذلك ، يمكن لهذه الأدوات أن تساعد في تحسين التعرف على النص في الصور.

نتيجة لذلك ، توصلنا إلى المبادئ الأساسية لإعداد التعرف الضوئي على الحروف للتعرف عليها:

  1. حدد أحجام الصور التي سنتعرف عليها ، بالبكسل وفي ميغابايت.
  2. تمكين معالجة الصور المسبقة.

لزيادة كفاءة التعرف الضوئي على الحروف ، يمكنك أيضًا تخزين البيانات المعترف بها مؤقتًا حتى لا ترسل الصور نفسها عدة مرات للتعرف عليها.

ما الذي يجب الانتباه إليه عند إعداد التعرف الضوئي على الحروف (OCR) ، وسوف نوضح أدناه أمثلة على استخدام هذه التكنولوجيا في ممارسة القتال.

ما هي التحديات الممكنة عند استخدام OCR في DLP تحت عبء ثقيل؟


1. حدود واسعة للغاية لحجم الصور المعترف بها

لنبدأ بما ذكرناه بالفعل - بحدود.

بناءً على ممارستنا ، يضع العملاء غالبًا حدودًا واسعة جدًا لحجم ملفات الصور المعترف بها. نعم ، لكي يعمل OCR بشكل جيد ، يجب عليك تحديد أحجام الصور. لكن العملاء يبذلون قصارى جهدهم للسيطرة على كل شيء ، معتقدين أنه حتى في صورة بحجم 100 × 100 بكسل وحجم 5 كيلوبايت ، يمكن أن تتسرب البيانات القيمة. بشكل عام ، بالطبع ، 100 × 100 بكسل و 5 كيلوبايت هي أيضًا قيود ، لكن هذه العتبات منخفضة جدًا.

الطرف الآخر هو الرغبة في التعرف على الملفات الثقيلة من عدة مئات من ميغابايت. من الواضح أن هذه الصور لن يتم الزحف إليها عبر بريد الشركة نظرًا للقيود المفروضة على حجم الرسائل المرسلة. ولكن هنا على قنوات الاعتراض الأخرى (على سبيل المثال ، من كرة شبكة الشركة) تسعى الملفات ذات الثقل المستمر إلى التعرف عليها. إذا كان العميل يريد أن يضيف إلى هذا كمية كبيرة من الصور عالية الدقة ، فأنت بحاجة إلى الحصول على إمكانات الخادم المناسبة لهذا الغرض. نتيجة لذلك ، مع الحد الأدنى والحد الأقصى العتبات لحجم الملفات المعترف بها ، يتم إنشاء تحميل المعالج عالية على الخوادم ، مما يبطئ تشغيل جميع النظم الفرعية.

ما يمكن التوصية به هنا؟ بادئ ذي بدء ، قم بتحليل أي "جدول" تستخدمه الشركة يحتوي على بيانات سرية ، ثم قم بتقدير الحد الأدنى والحد الأقصى المعقول من القيود على حجم الصور التي تتم مراقبتها. نوصي عادةً العملاء بإصلاح الحد الأدنى لدقة الصورة من 200 بكسل ، من الناحية المثالية من 400 بكسل (على طول محوري X و Y) ، وأحجام الملفات التي لا تقل عن 20 كيلو بايت ، أكبر. ليس من المنطقي أيضًا إرسال صور ثقيلة إلى OCR - فهي ببساطة ستفرط في تحميل خوادمك وليس حقيقة أنه سيتم التعرف عليها.

2. تصفية قوائم الانتظار وطلب مهلة المعالجة

الحمل المفرط على الخوادم ، الناشئة للأسباب المذكورة أعلاه ، يؤدي على طول السلسلة لزيادة وقت التعرف على الصور ومعالجة الاستعلام بشكل عام. نتيجة لذلك ، قائمة انتظار الرسائل للتصفية تبدأ في الزيادة في نظام DLP. بالإضافة إلى ذلك ، يمكن أن تصل الملفات الرسومية التي لا يمكن التعرف عليها من حيث المبدأ (الملفات الثقيلة ، النوعية الرديئة ، وما إلى ذلك) إلى وحدة التعرف الضوئي على الحروف ، مما يؤدي إلى مهلات معالجة الصور. إذا كان هناك الكثير من الملفات غير المعترف بها ، وكان لدى النظام مهلات عالية للاعتراف ، فستنتظر خدمة التصفية حتى يحدث هذا المهلة ، وعندها فقط يبدأ معالجة الطلب التالي. عملية المعالجة بأكملها يمكن أن تمنع بشكل خطير.

ماذا يمكن أن ننصح؟ إذا كان هناك قائمة انتظار لمعالجة الصور الرسومية ، فأنت بحاجة إلى النظر في إعدادات التعرف الضوئي على الحروف في نظام DLP ومحاولة العثور على سبب الكبح. قد يحدث هذا ، على سبيل المثال ، بسبب مشاكل الاتصال interprocess على الخادم نفسه. بشكل عام ، هذه المشاكل تستحق مناقشة منفصلة. يمكن العثور على بعض التفاصيل حول المشكلات العامة في مقالة "تقديم اتصالات Interprocess على Linux" .

بالإضافة إلى ذلك ، هناك نقطة مهمة عند إعداد التعرف الضوئي على الحروف (OCR) وهي تحديد مهلات مناسبة للتعرف على الصور. بشكل عام ، 90 ثانية تكفي للتعرف على الصورة بدقة. إذا لم يتم استخراج أي نص من الصورة في 90 ثانية ، فيمكن افتراض أن التعرف الضوئي على الحروف لا يتعرف على الصورة من حيث المبدأ. في هذه المرحلة ، قد تحدث مشكلات في تكوين التعرف الضوئي على الحروف أيضًا عند تعيين مهلات التعرف عالية وبالتالي محاولة التعرف على غير المعترف بها.

ماذا يمكن أن يسبب مهلة؟ هنا نعود إلى مسألة تكوين النظام. تعمل خدمة التصفية ، مثل خدمة OCR ، مع مؤشرات الترابط التي تعالج الرسائل والصور. قد لا يتم تكوين النظام بشكل صحيح من حيث عدد معالجات خدمة التصفية وعدد معالجات OCR. على سبيل المثال ، سيكون لدى خدمة التصفية العديد من معالجات الخيوط ، بينما سيكون OCR واحدًا فقط. في مثل هذه الحالة ، قد لا يتوفر لدى OCR في بعض النقاط الوقت الكافي لمعالجة جميع طلبات الاعتراف ، وبالتالي ستظهر مهلات معالجة الصور.

يوحي سلوك هذا النظام بأفكار حول مشاكل التصميم والأخطاء في البنية ، لكن في الحقيقة لا. توفر بنية DLP لدينا المرونة لتكوين النظام وتخصيصه حسب احتياجات العملاء. على سبيل المثال ، يمكننا ببساطة تكوين OCR واحد للعمل مع اثنين من خدمات التصفية دون التضحية بالأداء.

3. الصور غير المعترف بها

إذا دخلت صورة لا يمكن التعرف عليها على OCR في نظام DLP لتحليلها ، فهناك العديد من الحلول للمشكلة.

لأي أسباب قد لا يتم التعرف على الصور؟ على سبيل المثال ، عن طريق ما يلي:

1. نظام الألوان غير قياسي للصورة.

2. صورة دقة منخفضة.

3. الاتجاه غير الصحيح للصورة والنص الموجود فيها في الفضاء.

4. خط انحرافات وتشويه نسب النص في الصورة ، إلخ.
فيما يلي مثال: اكتشف أحد العملاء أثناء عملية المراقبة أن OCR لا يتعرف على مستندات pdf المنفذة في نظام ألوان غير قياسي. أي أنه تم استخراج الصورة من وثيقة PDF في الوضع العادي ، ولكن عندما يتعلق الأمر بمعالجة وحدة التعرف الضوئي على الحروف ، لم يفهم مخطط الألوان للصورة وأنتج "مربع ماليفيتش" في الإخراج. في واجهتنا ، بدت الصورة على النحو التالي:



لمحركات التعرف الضوئي على الحروف وظائف مختلفة للتصحيح التلقائي للصورة ، مما يزيد بشكل كبير من فرص التعرف بنجاح على النص الموجود فيه. ومع ذلك ، في الممارسة العملية ، هذه الأدوات السحرية لا تعمل دائما. في هذه الحالة بالذات ، قمنا بتخصيص وحدة التعرف الضوئي على الحروف للعميل بحيث يتعرف على نظام الألوان غير القياسي هذا.

5. عدم تناسق أحد معلمات المستند للأحجام المحددة المعترف بها
الصور.

على سبيل المثال ، في تكوين النظام ، يتم تعيين حدود حجم الصور التي تم التعرف عليها على 200 × 1000 بكسل ، ويتم استلام ملف بحجم 500 × 1500 بكسل في OCR (تم تجاوز الحد الأعلى). في هذه الحالة ، تحتاج إلى تصحيح إعدادات التعرف الضوئي على الحروف للتعرف على هذه الصور.
ربما يكون هذا أحد أكثر سيناريوهات إعادة تهيئة النظام شيوعًا بعد إخبارنا بأن OCR لا يعمل.

لماذا لا يتم التعرف الضوئي على الحروف على الوكلاء؟


يتم تطبيق OCR في أنظمة DLP في نسختين - على الوكلاء والخوادم. نحن نؤيد الطريقة الثانية ، لأن التعرف على الصور مباشرة على محطة العمل يخلق عبئًا كبيرًا على المعالج الخاص به ، وبالتالي يبطئ عمل التطبيقات الأخرى. تعد تقنية التعرف الضوئي على الحروف (OCR) نفسها تقنية متقدة للغاية ، حتى بالنسبة للخوادم ، ويتطلب تطبيقها التخطيط السليم لقدرات المعالج ومراقبة الأداء.

ومع ذلك ، فإن العديد من الشركات المحلية ، وخاصة في القطاع العام ، لا تزال تمتلك أسطول كمبيوتر قديم إلى حد ما. ماذا يحدث في هذه الحالة؟ يبدأ المستخدمون في تقديم شكوى إلى قسم تكنولوجيا المعلومات حول "الكبح" للكمبيوتر ، وأخيراً اكتشف متخصصو تكنولوجيا المعلومات أن سبب الكبح هو وحدة التعرف الضوئي على الحروف في نظام DLP. هذا يزعجهم ، والمستخدمين الذين لا يستطيعون حل مهام العمل بسرعة. في النهاية ، كل هذا يضيف إلى الصداع لحارس الأمن الذي لديه العديد من المهام الأخرى.

لا يمكن تبرير استخدام OCR على العوامل إلا عندما يعمل نظام DLP "بمعزل". في هذه الحالة ، يجب أن يحدث التعرف على الصور بالضبط في الوقت الذي ينفذ فيه المستخدم إجراءات باستخدام ملف الرسوم هذا على محطة العمل الخاصة به. أي ، يجب على نظام DLP تحديد مصير المستند الذي يحتوي على هذه الصورة على الفور - السماح بإرساله / نسخه أو حظره. ولكن في الممارسة العملية ، يستخدم عدد قليل فقط من العملاء نظام DLP في وضع الحظر النشط ، وهذا لا ينطبق فقط على DLP الخاص بنا. هنا يعمل المبدأ: "يجب إجراء كل شيء يمكن إجراؤه لإجراء فحوصات على الخادم على الخادم."

في المجموع


توفر تقنيات التعرف الضوئي على الحروف قدرات التعرف على الرسومات ، وبالإضافة إلى ذلك ، نقدم دائمًا توصيات عامة لتكوين النظام. ومع ذلك ، في مشروع معين ، قد يكون من الضروري إعادة تكوين وحدة التعرف الضوئي على الحروف لتلبية الاحتياجات المحددة للعميل في مرحلتي التجريب والتنفيذ للحل ، وفي مرحلة تشغيله الصناعي. هذه ليست طبيعية فقط - إنها الطريقة الصحيحة الوحيدة التي ستعطي نتائج ملموسة ، وتجعل OCR تعمل في الشركة بأكبر قدر ممكن من الكفاءة وتقلل من تسرب المعلومات السرية من خلال الصور الرسومية.

نيكيتا إيغونكين ، كبير مهندسي الخدمات ، Rostelecom Solar

Source: https://habr.com/ru/post/ar460881/


All Articles