تعمل خوارزمية DeepStereo على لصق لقطات Google Street View في فيديو سلس
أنشأ باحثو Google John Flynn و Ivan Nyulander و James Filbin و Noah Sneyvli خوارزمية يمكنها الجمع بين الصور من خدمة التجوّل البانورامي للتجوّل الافتراضي في مقاطع فيديو سلسة مع قطع أثرية بالكاد ملحوظة. تسمى الخوارزمية DeepStereo ، يتم تقديم مثال على عملها أعلاه. يتضمن الاستخدام المحتمل للتكنولوجيا التي تم إنشاؤها إنشاء رسوم متحركة بسيطة ومعالجة الصور والسينما والواقع الافتراضي.ليس من الممكن دائمًا إجراء تقييم مناسب لمكان معين فقط عن طريق الخرائط أو الصور الرقمية. نظرة على الشارع من ارتفاع أعلى بقليل من الارتفاع البشري يساعد خدمات مثل التجوّل الافتراضي من Google. لكن هذه صور ملتصقة بالبانوراما ، وليست مقاطع فيديو.إذا كنت بحاجة إلى إنشاء رسم متحرك للمضي قدمًا من اللقطات الفردية ، فإن قرار فقدان تسلسل الصور ببساطة لن يعمل - سيتحول إلى أن يكون سريعًا جدًا ، لأن الصور ستتغير بمعدل تكرار لا يقل عن 24 إطارًا في الثانية. إذا كنت تقود على طول طريق مستوي أو طريق سريع واسع ، فيمكنك إنشاء رسم متحرك جيد بأسلوب الحركة البطيئة. لكن جوجل ستريت فيو لديها مناظر بانورامية للمتاحف والشوارع المزخرفة - الفاصل الزمني من تغيير سريع للإطار لن يعمل هنا. تحتاج إلى صور مفقودة بين اللقطات. تشارك الخوارزمية التي تم إنشاؤها في هذا.استخدم فريق الباحثين المعرفة الواسعة للشركة في تدريب الخوارزمية. عند الإدخال ، هناك مجموعة من الصور من بعض النقاط ، والهدف هو إنشاء إطارات جديدة من نقاط أخرى. يتطلب الحل الدقيق لهذه المشكلة بناء نموذج بيئة ثلاثية الأبعاد ، والذي غالبًا ما يكون مستحيلاً بسبب العقبات. التحدي ليس جديدا. بعض الطرق السابقة لديها مشاكل تؤدي إلى فجوات بالقرب من الحواجز ، والتشويش والتشويش. تحدث الصعوبات الخاصة بسبب الأشجار والأشياء الأخرى التي قد تحجب عناصرها الفردية المنظر.
تستخدم طريقة فلين الجديدة التدريب على رؤية الكمبيوتر حتى يتمكن من فهم الأشياء التي يجب أن تكون في الإطارات المفقودة. للتدريب ، تم استخدام مجموعات من الصور من سيارة متحركة. يقول الباحثون أن حجم قاعدة التدريب بلغ 100 ألف مجموعة من الصور.بعد ذلك ، تم إجراء الاختبار باستخدام تسلسل لثلاث لقطات من Google Street View. تم إجبار الخوارزمية على معالجة صورتين متطرفتين وتقديم متغير من المتوسط. يسمح بالمقارنة مع الأصل لتقييم العمل.النتيجة النهائية لفريق DeepStereo تدعو قابلة للتصديق. للوهلة الأولى ، ليس من السهل التمييز بين التصوير الحقيقي. تشمل القطع الأثرية البارزة فقدانًا طفيفًا للدقة واختفاء الهياكل الدقيقة في المقدمة. قد تبدو الكائنات ذات البنية المعقدة التي تتداخل مع تفاصيلها ضبابية. الخوارزمية غير قادرة أيضًا على إنشاء أسطح غير موجودة في الصور الأصلية. يتم تحريك الأشياء المتحركة (المشاة والسيارات) عن قصد لخلق تأثير الحركة.مطلوب قوة حوسبة مثيرة للإعجاب. لإنشاء صورة واحدة فقط بدقة 512 × 512 بكسل ، يلزم ما يقرب من 12 دقيقة من تشغيل نظام متعدد النواة بخصائص فنية غير مسماة. يتطلب إنشاء صور عالية الدقة الكثير من ذاكرة الوصول العشوائي. يعرب الباحثون عن آمالهم في تحسين الخوارزمية مع إمكانية تقليل وقت العرض إلى عدة دقائق أو حتى ثوان عند استخدام معالجات بطاقة الفيديو. في المستقبل ، مع تحسين كبير ، يمكن تشغيل الخوارزمية على وحدة معالجة الرسومات حتى في الوقت الفعلي.وبناء على نص الدراسة و تكنولوجي ريفيو MIT . arXiv: 1506.06825 [سيرة ذاتية] Source: https://habr.com/ru/post/ar381787/
All Articles