تحديث خرائط Google من خلال التعلم المتعمق والتجول الافتراضي

تُنشئ خرائط Google كل يوم مسارات مفيدة ، وتوفر معلومات حول الاختناقات المرورية والمؤسسات التجارية لملايين الأشخاص. حتى يكون المستخدمون أكثر راحة ، يجب أن تعكس هذه المعلومات العالم المتغير باستمرار في الوقت الفعلي. تجمع سيارات التجوّل الافتراضي ملايين الصور يوميًا ، ومن المستحيل تحليل أكثر من 80 مليار صورة عالية الدقة يدويًا تم جمعها اليوم للعثور على معلومات جديدة أو محدثة مناسبة لوضعها على خرائط Google. يتمثل أحد أهداف فريق Ground Truth في استخراج المعلومات تلقائيًا من الصور ذات المرجعية الجغرافية لتحسين خرائط Google.

في ورقة " استخراج المعلومات المنظمة من قاعدة بيانات صور التجوّل الافتراضي باستخدام خوارزميات الانتباه " ، وصفنا نهجنا في التعرف التلقائي الدقيق على أسماء الشوارع في صور التجوّل الافتراضي المعقدة جدًا من بلدان مختلفة باستخدام شبكة عصبية عميقة. أظهرت الخوارزمية دقة 84.2٪ في مجموعة بيانات علامات الشوارع الفرنسية المعقدة (FSNS) ، وكانت متقدمة جدًا على الرواد السابقين في هذا المجال. ما هو مهم ، أن نظامنا يتطور بسهولة لاستخراج أنواع أخرى من المعلومات من صور التجوّل الافتراضي ، والآن يساعدنا في التعرف تلقائيًا على علامات المؤسسات التجارية. ويسرنا أن نعلن أن هذا النموذج في المجال العام !

الصورة
تم التعرف على مثال لاسم الشارع بنجاح بواسطة النظام. يمكن تمثيل علامة واحدة ونفس العلامة بعدة صور ، حتى 4 قطع.

يعد التعرف على النص في بيئة طبيعية مهمة صعبة بالنسبة إلى رؤية الكمبيوتر والتعلم الآلي. تُستخدم أنظمة التعرف على الأحرف التقليدية (OCR) لاستخراج النص من المستندات الممسوحة ضوئيًا ، ويصعب التعرف على النص الذي تم الحصول عليه من صور الشوارع بسبب التحف المرئية - التشويه أو الانسداد أو عدم الوضوح أو الخلفية المعقدة أو وجهات النظر المختلفة. بدأت محاولاتنا لحل مشاكل البحث هذه في عام 2008 ، عندما استخدمنا الشبكات العصبية لطمس الوجوه ولوحات الترخيص لحماية خصوصية مستخدمينا. بعد هذه الدراسة ، أدركنا أنه باستخدام كمية كبيرة بما فيه الكفاية من البيانات التي تم وضع علامات عليها ، يمكننا استخدام التعلم الآلي ليس فقط لحماية خصوصية المستخدمين ، ولكن أيضًا لإضافة معلومات جديدة إلى خرائط Google.

في عام 2014 ، نشر فريق Ground Truth مجموعة بيانات Street View House Numbers (SVHN) ، وهي طريقة متقدمة للتعرف على رقم المنزل التي كان يديرها طالب في ذلك الوقت ، وهو الآن موظف في Google ، Jan Goodfellow . لم يكن هذا العمل محل اهتمام أكاديمي فحسب ، بل كان مهمًا لتحسين دقة خرائط Google. اليوم ، تم تحسين حوالي ثلث المواقع حول العالم بفضل هذا النظام. في بعض البلدان ، مثل البرازيل ، حددت هذه الخوارزمية موقع أكثر من 90٪ من العناوين على خرائط Google ، مما عزز بشكل كبير من سهولة استخدام خرائطنا.

كانت الخطوة المنطقية التالية هي نقل هذه التقنيات إلى أسماء الشوارع. لحل هذه المشكلة ، أنشأنا وأصدرنا مجموعة بيانات لافتات أسماء الشوارع الفرنسية (FSNS) ، وهي مجموعة كبيرة تضم أكثر من مليون اسم شارع. كانت مجموعة FSNS نتيجة لسنوات عديدة من العمل تهدف إلى تزويد الجميع بفرصة لتحسين نماذج OCR الخاصة بهم على مجموعة بيانات معقدة وحقيقية. FSNS أكبر بكثير وأكثر تعقيدًا من SVHN ، لأن التعرف الدقيق على أسماء الشوارع يتطلب دمج المعلومات من عدة صور مختلفة.

الصورة
أمثلة على صعوبة التعرف على الشخصيات التي تعرف عليها نظامنا بنجاح باستخدام مجموعة من الصور المختلفة. يتم استخدام الضوضاء العشوائية عندما لا تكون هناك أربع صور فوتوغرافية مختلفة لشخصية واحدة.

مسلحًا بهذه المجموعة ، تعمل متدربة Google Vozhna Zbigniew على تطوير نموذج تعلم عميق لوضع علامات تلقائيًا على صور التجوّل الافتراضي طوال صيف 2016. إحدى الميزات المثيرة للاهتمام والمفيدة للنموذج الجديد هي القدرة على تطبيع النص وفقًا لمعاييرنا للعناوين ، بالإضافة إلى تجاهل النص الزائد المستلم من الصور.

الصورة
مثال على تطبيع النص وفقًا للبيانات البرازيلية. "AV". يتحول إلى "أفينيدا" و "بريز". في "Presidente"

الصورة
في هذا المثال ، لم يتم إخماد النموذج ، بعد أن التقى بعلامتين في وقت واحد ، بشكل صحيح يحول "Av" إلى "Avenue" ويتجاهل الرقم "1600" بشكل صحيح.

يسمح لنا النظام الجديد ، إلى جانب استخراج أرقام المنازل ، بإنشاء عناوين جديدة مباشرة من الصور الفوتوغرافية في الأماكن التي لا يوجد بها اسم شارع أو عنوان معروف. الآن في كل مرة تسير فيها سيارة التجوّل الافتراضي على طول طريق جديد ، يتمكن نظامنا من تحليل عشرات الآلاف من الصور التي تتلقاها الآلة ، واستخراج أسماء الشوارع وأرقام المنازل ، وتعيين العناوين الجديدة بشكل صحيح.

لكن الإنشاء التلقائي للعناوين ليس كافيًا - ما زلنا نريد توفير مسار للمنظمات التجارية بأسمائهم. في عام 2015 ، نشرنا العمل " اعتراف واسع النطاق بالمنظمات التجارية من صور التجوّل الافتراضي " ، الذي اقترح طريقة للتعرف بدقة على اللافتات من المؤسسات التجارية. ومع ذلك ، بعد اكتشاف واجهة عرض المؤسسة ، لا يزال من الضروري استخراج اسمها بدقة - يجب أن يحدد النموذج مكان الاسم المشار إليه في الصورة وأين لا يرتبط النص به. نسمي هذه المعلومات المستخرجة "نص منظم". وهذا ليس نصًا فحسب ، بل نصًا مدمجًا بمعناه الدلالي.

باستخدام بيانات التدريب المختلفة ، يمكننا أن نجبر نموذجنا ، الذي يقرأ اسم الشوارع ، على استخراج أسماء المؤسسات التجارية من واجهات المباني. في هذه الحالة ، يمكننا استخراج الاسم والتحقق مما إذا كنا على علم بهذه المؤسسة من المعلومات من خرائط Google. هذا يسمح لنا بعمل قوائم أكثر دقة وحداثة للمنظمات التجارية.

الصورة
تعرّف النظام بشكل صحيح على اسم المتجر على أنه "Zelina Pneus" ، على الرغم من نقص المعلومات حول موقع المتجر. كما تجاهلت بشكل صحيح أسماء ماركات الإطارات المباعة في المتجر.

يتطلب استخدام هذه النماذج الكبيرة للحصول على 80 مليار صورة من صور التجوّل الافتراضي قوة معالجة جادة. لذلك ، كان فريق Ground Truth هو أول من تمكن من الوصول إلى وحدة معالجة Tensor ، التي تم الإعلان عنها هذا العام ، لتقليل تكاليف الحوسبة بشكل كبير.

يعتمد الناس على دقة خرائط Google وقدرتهم على مساعدة الناس. نحافظ على خرائط Google محدثة في التعامل مع المناظر الطبيعية الحضرية المتغيرة باستمرار. تمثل الطرق والمؤسسات التجارية صعوبات فنية بالنسبة لنا لم نتمكن حتى الآن من التغلب عليها بنسبة 100٪. تتمثل مهمة Ground Truth في أن تكون في طليعة تعلُم الآلة وإنشاء منتج أكثر ملاءمة لأكثر من مليار مستخدم لخرائط Google.

Source: https://habr.com/ru/post/ar404031/


All Articles