
بدأت محاولات تعليم الأنظمة المختلفة لرؤية العالم وفهمه بالطريقة التي يعمل بها الشخص منذ عدة عقود ، ولكن الآن أصبحت هذه التقنيات مثالية لدرجة أنها تستخدم بنشاط في العديد من مجالات حياتنا. يحتوي Habré بالفعل على مقالات مفصلة حول رؤية الماكينة والشبكات العصبية وخوارزميات التعرف ، لذلك لن نتعمق أكثر ونصف هذه التقنيات المعقدة مرة أخرى ، وسوف نتحدث عن الاستخدام العملي لهذه الأنظمة في العالم الواقعي.
كيف يعمل؟ لفترة وجيزة
ما هو التصوير الفوتوغرافي بالنسبة لنا ، لنظام التعرف على الصور ، هو مجرد مجموعة من البكسل مع معلمات مختلفة الألوان. لتعليم النظام التعرف على الكائنات الفردية في صورة ما ، يجب عليك تزويدها بمجموعة بيانات - مجموعة من آلاف الصور التي تشير إلى مكان الكائن المطلوب بالضبط. على سبيل المثال ، إذا أردنا أن يتعلم النظام التعرف على الأشخاص في الصور ، فعلينا أن نعرض عليه الكثير من صور الأشخاص من مختلف الأعمار ، في أشكال مختلفة وملابس مختلفة في ظروف مختلفة. بعد هذا التدريب ، سيتمكن النظام من التعرف بدقة على الشخص الموجود في الصور. ومع ذلك ، يطرح سؤال آخر: إذا كانت الصورة بالنسبة لنظام ما هي مجرد مجموعة من وحدات البكسل ، فكيف تفهم الشبكة العصبية ما يتم تصويره بالضبط في الصورة؟
يتم استخدام طرق متنوعة للتعرف على الكائنات في الصورة ، ولكن إحدى الطرق الواعدة هي طريقة الرسم البياني للتدرج الموجه (HOG). يتم تغيير لون الصورة ، ثم في كتل 16 × 16 بكسل ، يجد النظام اتجاه تغيير اللون (ناقل التدرج) ، ويقوم بإنشاء خريطة لهذه المتجهات على الصورة بأكملها ، وبالتالي "لقطة" علامات الكائن ، والتي لا تتغير اعتمادًا على الموضع / الموضع والإضاءة. تسمى النسخة المحسنة من الخوارزمية CoHOG - فهي تأخذ في الاعتبار حدود الكائنات ، أي أنها تتعرف على الشكل وليس فقط المتجهات التدرجية.
حسنت Toshiba طريقة CoHOG ، مما أدى إلى تحسين التعرف بشكل ملحوظ في الإضاءة المنخفضة - على سبيل المثال ، فإن أداء CoHOG التقليدي ، على سبيل المثال ، يعمل بشكل سيء مع التعرف السريع في الظلام ، عندما يكون المشاة غير مرئيين في المصابيح الأمامية.
تحدد طريقة ECoHOG (تقنية الرسوم البيانية للوجود المشترك للتدرجات الموجهة) الشخص من خلال تحليل إضافي لتوجيهات وأحجام الخطوط العريضة له ، والعثور على رأسه وساقيه والذراعين والكتفين. إذا كان CoHOG يعزل ببساطة الخطوط العريضة للأنثروبومترية على الصورة (تحليل "حدود الكائن - المتجهات الحدودية") ، إذن بالنسبة إلى ECoHOG ، تكون أبعاد حدود الكائن بالنسبة لبعضها البعض مهمة.
خمسة مجالات رئيسية للتطبيق
التسويق
التعرف على الأنماط هو مجال واعد في مجال الإعلان والتسويق. يُسمح للشبكات العصبية بتعلم الأشياء في غضون ساعات ، ويتطلب البحث عنها في حالات أخرى فريقًا كبيرًا من المهنيين والأسابيع أو حتى أشهر من البحث. على سبيل المثال ، تتعقب خدمة YouScan الروسية ، وهي نظام لمراقبة وسائل التواصل الاجتماعي ، ذكر العلامات التجارية على الشبكات الاجتماعية. علاوة على ذلك ، يفعل هذا ليس فقط في نص المنشورات ، ولكن أيضًا في الصور ، ويساعد أيضًا في استخلاص استنتاجات معينة حول المنتج. باستخدام التعرف على الأنماط في الصورة ،
تم العثور على
نمط مثير
للإعجاب ، ولم يكن البحث عنه قد حدث أبدًا: بين الحيوانات ، يتم العثور على القطط غالبًا باستخدام تقنية Apple ، والكلاب التي تحمل علامة Adidas التجارية. يمكن أن تكون هذه المعلومات غير المعتادة مفيدة لاستهداف الإعلانات.
عند البحث عن شعار Adidas ، قامت خدمة YouScan بتصفية الصور باستخدام الهواتف الذكية في أيدي أصحابها. حقوق النشر: YouScanالمراقبة بالفيديو
ربما يكون التعرف على الأنماط على كاميرات المراقبة الحضرية هو أكثر الاحتمالات حتمًا لاستخدام رؤية الماكينة. منذ عام 2017 ، تم اختبار نظام مراقبة فيديو ذكي في موسكو من أجل تحديد المجرمين في الأماكن المزدحمة. التكنولوجيا من شركة NTechLab الروسية ، التي ساعدت بالفعل في اعتقال عشرات المخالفين ، متصلة بشبكة كاميرات المدينة. في الصين ، نظام
المراقبة بالفيديو هذا قادر على التعرف ليس فقط على الوجوه ، ولكن أيضًا على العلامات التجارية للسيارات والملابس في الأماكن العامة ، والتي يمكن استخدامها لاحقًا من قبل المسوقين لأبحاثهم.
يُظهر الفيديو العمل الحقيقي للتعرف على الصور ووجوه SenseTimeالطب
لقد أصبح التعرف على الأنماط بالفعل طفرة حقيقية في مجال الطب - في كثير من الحالات ، تلاحظ أجهزة الكمبيوتر أشياء لا يفوتها حتى أكثر الأطباء خبرة. إنهم يقومون بدور المساعدين الغريبين ، الذين يؤكد رأيهم "الفني" على فرضية الطبيب أو يؤدي إلى بحث أعمق.
في روسيا ، يجري تطوير أنظمة برمجية لتشخيص السرطان على الصور المقطعية والرنين المغناطيسي والتصوير المقطعي المحوسب. للقيام بذلك ، يتم نقل الآلاف من الصور ذات العلامات عبر الشبكة العصبية ، وبعد ذلك تزداد دقة التعرف على الصور الجديدة إلى 95-97٪. من بين أمور أخرى ، يتم تنفيذ تطوير مثل هذه المنصة بواسطة قسم تكنولوجيا المعلومات في موسكو باستخدام مكتبة Google TensorFlow المفتوحة.
تقوم الشبكة العصبية التي أنشأتها Google بإنشاء التحليل المجهري لخزعة العقدة الليمفاوية بحثًا عن الخلايا السرطانية في الغدد الثديية. بالنسبة لشخص ما ، هذه عملية طويلة وشاقة للغاية ، يسهل خلالها ارتكاب خطأ أو تفويت شيء مهم ، حيث يكون حجم الصورة في بعض الحالات 100000 × 100000 بكسل. توفر الشبكة العصبية التأسيسية حساسية حوالي 92٪ مقابل 72٪ لدى الطبيب. لن تغفل الشبكة العصبية جميع المناطق المشبوهة من الصور ، على الرغم من السماح بإنذارات كاذبة ، والتي سيقوم الطبيب بترشيحها لاحقًا.
سيارات
يعد التعرف على الكائنات في السيارات جزءًا ضروريًا من أنظمة الأمان ADAS (أنظمة مساعدة السائق المتقدمة). يمكن تنفيذ ADAS باستخدام أدوات متطورة ، مثل الرادار وأجهزة استشعار الأشعة تحت الحمراء ، أو باستخدام كاميرا أحادية. في
مقالة سابقة ، قلنا بالفعل أن كاميرا فيديو واحدة كافية للسيارة للتعرف على المشاة والإشارات وإشارات المرور في الوقت الحقيقي. ومع ذلك ، فإن مثل هذا التعرّف "سريعًا" مهمة كثيفة الاستخدام للموارد ، والتي تتطلب معالجًا متخصصًا. تقوم شركة Toshiba بتطوير سلسلة من المعالجات لعدة سنوات. وهي تبني نموذجًا ثلاثي الأبعاد يعتمد على صورة متحركة من كاميرا واحدة ، وبالتالي تلاحظ وجود عقبات غير معروفة على الطريق. في الواقع ، إذا تم تدريب الشبكة العصبية على التعرف على الأشخاص والعلامات والعلامات فقط ، فلن يتم التعرف على إطار أو قطعة من السياج التي ترقد على الإسفلت واعتبارها خطرة.
تقوم معالجات Visconti بتحديد المناطق في الصورة وتصنيفها ومساعدة الطيار الآلي أو ADAS في اتخاذ قرار. المصدر: توشيباطائرات بدون طيار
في الطائرات بدون طيار ، يتم استخدام التعرف على الأشياء لأغراض الترفيه والأغراض العلمية. في عام 2015 ، تم إنتاج الكثير من الضوضاء من خلال طائرة Lily بدون طيار مع بدء تشغيل المحرك تلقائيًا عند القذف وتتبع وظيفة المالك. استهدفت ليلى العدسة على المالك ، بغض النظر عن المسار وسرعة حركته. صحيح أن وظيفة Lily لا علاقة لها بالتعرف على الأنماط ، لأن الطائرة بدون طيار لم تشاهد صورة الشخص فحسب ، بل لوحة التحكم ، التي وضعت على يد المالك.
تستخدم الطائرات بدون طيار التعرف على الصور أيضا لأشياء أكثر خطورة. على سبيل المثال ، قامت الشركة النرويجية eSmart Systems بتطوير حلول الشبكات الذكية. في أحد مشاريعها ، Connected Drone ، يتم استخدام الطائرات بدون طيار لاستكشاف خطوط الكهرباء وإصلاحها. يتم تدريبهم في التعرف على عناصر شبكة الطاقة ، ويقومون بالتحقق من سلامة الأسلاك والعوازل وأجزاء أخرى من خطوط الطاقة. هذا مهم بشكل خاص لتوطين العطل بسرعة عندما يعتمد مصدر الطاقة لمدينة أو مؤسسة على الخط. نظرًا لأن خطوط الكهرباء غالبًا ما يتم بناؤها في أماكن يصعب الوصول إليها ، فإن إرسال طاقم من الطائرات بدون طيار لإيجاد خلل في مكان ما في التايغا أو في الجبال يكون أكثر فاعلية بكثير من إرسال فريق من الناس.
تجد طائرات ESmart بدون طيار عناصر البنية التحتية للطاقة ، وفي حالة حدوث ضرر ، قم بتمييز الكائن ، مما يترك تحذيرًا للمشغل. المصدر: أنظمة eSmart