سوف تتعرف سيارات Google على المشاة بدقة عالية



قبل ظهور سيارات بدون طيار للبيع ، لم يبق الكثير من الوقت. تذكر Google تقنية رؤية الماكينة وأحد أهم العناصر - التعرف على المشاة في الوقت الفعلي.

قدم باحثو البحث في Google Alex Krizhevsky و Anelia Angelova وزملاؤه طريقة جديدة لاكتشاف المشاة باستخدام الشبكات العصبية . أظهرت الطريقة نتيجة مشجعة: يمكن اكتشاف المشاة بدقة عالية في 73.8 ٪ من الحالات بواسطة اختبار Caltech للمشاة ، والذي يحتوي على قاعدة بيانات تحتوي على 50000 من المشاة المميزين في الظروف الحضرية والريفية. هذه النتيجة قابلة للمقارنة مع أفضل التصاميم البديلة.

يقول الخبراء أن أحد المجالات الواعدة في السنوات الأخيرة هو استخدام مسرعات GPU في الشبكات العصبية لتنفيذ خوارزميات معقدة في الوقت الفعلي تقريبًا للتعرف على الأنماط ، البرمجة اللغوية العصبية والتحليل الدقيق لدفق الفيديو.

في مؤتمر تكنولوجيا Nvidia GPU الأخير ، تم تقديم العديد من هذه الحلول . من الأفضل رؤية التقدم التكنولوجي في هذا المجال في اختبار تحدي التعرف البصري على نطاق واسع ImageNet ، والذي تم إجراؤه منذ عام 2010. منذ ذلك الحين ، انخفض مستوى الأخطاء في تصنيف الصور حسب خوارزميات رؤية الآلة بشكل كبير.



يعتبر التعرف على المشاة إحدى المهام العملية حيث يتم استخدام التكنولوجيا الجديدة. في المستقبل ، من المرجح أن يتم استخدام الشبكات العصبية مع تسريع GPU في كاميرات المراقبة وأنظمة التحكم في حركة المركبات وغيرها.

بالعودة إلى تطوير Google ، يعد التعرف على المشاة مهمة صعبة للغاية ، لأنه يجب حلها في الظروف البيئية المتغيرة باستمرار في الوقت الفعلي تقريبًا. الأجسام حول السيارة تتحرك. التقنيات الحالية بنجاح نسبياً في حل هذه المشكلة. على سبيل المثال ، تُظهر إحدى الطرق دقة تبلغ 58٪ في اختبار Caltech Pedestrian ، وتوفر طريقة أخرى تسمى VeryFast تصوير الفيديو بمعدل 100 إطار / ثانية (للمقارنة ، يصور Google بمعدل 15 إطارًا / ثانية) ، ولكن الدقة هناك أقل. هناك طرق ذات دقة أعلى ، لكنها تعمل بشكل أبطأ بكثير ، مما يقلل السرعة إلى 195 مرة.

حددت أبحاث Google هدفًا لتحسين دقة التعرف دون التضحية بالسرعة. في 15 لقطة / ثانية ، أظهروا زيادة كبيرة في الدقة إلى 73.8٪ .

لا ينبغي أن تكون عبارة "متوسط ​​معدل فقدان 26.2٪" من ورقة علمية مضللة: نحن لا نتحدث عن حقيقة أن السيارة فاتت أحد المشاة ولم تكسب نقاطًا مثل Carmageddon. على العكس من ذلك ، فإن العبارة تعني أن هذه الخوارزمية "فاتتها" ولم تتعرف على الشخص الذي يقوم بالفرملة أمامه.

في Google Research ، تم إطلاق نظام رؤية الجهاز على معجل رسومات Nvidia K20 Tesla GPU من الجيل القديم. صدر الآن إصدارات جديدة من K40 و K80 ، والتي يتم استخدامها في بعض أجهزة الكمبيوتر العملاقة من تصنيف Top500.

يعتزم فريق أبحاث Google تحسين النتيجة عن طريق زيادة عمق سلسلة الشبكات العصبية وتحسين نسبة الأداء والدقة.

بطريقة أو بأخرى ، ولكن مع ظهور السيارات الآلية في الشوارع ، من الأفضل ارتداء ملابس أكثر إشراقًا بدلاً من التمويه حتى لا تربكك رؤية الجهاز بالخلفية. من ناحية أخرى ، يمكن تقديم هذه النصيحة حتى الآن ، عندما تكون السيارات مدفوعة في الغالب بسائقين نصف أعمى ونصف مخمورين ومشتتين.

Source: https://habr.com/ru/post/ar382879/


All Articles