الشبكة العصبية تتوقع ثانية واحدة من المستقبل في التصوير الفوتوغرافي


إن الشبكة العصبية الخصومة التوليدية المحسنة لمعالجة الفيديو قادرة على إظهار ما سيحدث في الثانية التالية ،

والقدرة على التنبؤ بالمستقبل القريب مهارة مهمة لأي شخص. سرعة رد الفعل البشري ليست كافية للتفاعل مع الأحداث المحيطة في الوقت الفعلي ، لذلك نتوقعها في وضع ثابت مع احتمال قريب من 100٪. الرياضيون يعرفون أين ستطير الكرة. يعرف رجال الأعمال متى يتواصل المحاور لمصافحة اليد. نتوقع مسار السيارات على الطريق والإجراءات التالية للأشخاص على تعابير الوجه والأشياء في أيديهم.

يحتاج الذكاء الاصطناعي أيضًا إلى معرفة المستقبل. يجب أن يفهم ما هي الأحداث التي ستؤدي إلى أي نتيجة ، من أجل تجنب عمليات الإشراف الواضحة والتخطيط لأفعاله. مجموعة من الباحثين منيقوم معهد علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) التابع لمعهد ماساتشوستس للتكنولوجيا بتعليم الشبكة العصبية للتنبؤ بالمستقبل من خلال تدريبه على ملايين مقاطع الفيديو.

تحاول الشبكة العصبية المدربة في إطار ثابت واحد (الصور) التنبؤ بالأحداث المستقبلية. البرنامج محدود بحجم إطار 64 × 64 بكسل ومدة تنبؤية تبلغ 32 إطارًا ، أي حوالي ثانية من المستقبل.

معرفة المستقبل تجعل من الممكن فهم الحاضر بشكل أفضل. هذه هي القدرة الأساسية التي يجب أن يمتلكها أي روبوت يعمل في العالم الحقيقي. عند ملاحظة شخص أمام طبق من الطعام مع شوكة وسكين في يديه ، يجب على المرء أن يتنبأ بوضوح بأن هذا الشخص سيبدأ في تناول الطعام قريبًا. بدون مثل هذا الفهم ، لا يمكن للروبوت أن يعمل بكفاءة - ألا تريد أن يلتقط الروبوت وينقل الكرسي إلى الجانب عندما تجلس على كرسي؟ لا ، يجب أن يفهم ما سيحدث في ثانية ولا يلمس أي شيء. أو العكس ، قم بتحريك الكرسي بسرعة إلى المكان الذي يجلس فيه الشخص بالضبط.

في الوقت الحالي ، حتى أنظمة الذكاء الاصطناعي الأكثر تقدمًا تفتقر إلى القدرة الأساسية على التنبؤ بالمستقبل القريب. لذلك ، هذه الدراسة مهمة للغاية. تقوم مجموعات بحثية في جامعة نيويورك وفيسبوك بعمل مماثل ، لكن شبكاتهم العصبية تنتج فقط بضعة إطارات من المستقبل أو تظهر أنها ضبابية للغاية.

يتنبأ البرنامج الذي تم تطويره في CSAIL بدقة شديدة بأكثر الأحداث المبتذلة والواضحة. على سبيل المثال ، من صورة قطار على منصة ، تتنبأ بحركته.

أمثلة على توقع الأحداث من الصور الفوتوغرافية. عينات من حركة الناس والحيوانات والظواهر الطبيعية والنقل

في دراسة علمية ، يحل المطورون المشكلة الأساسية لدراسة السيناريو حول كيفية ظهور الأحداث في الإطار في الوقت المناسب. من الواضح أن هذه المهمة صعبة للغاية للتعليق الرسمي. لذلك ، تم تدريب الشبكة العصبية مباشرة على المواد النهائية - على ملايين مقاطع الفيديو بدون تعليقات توضيحية دلالية. هذا النهج له مزايا معينة ، لأن الذكاء الاصطناعي يمكن أن يتعلم دون اتصال بالإنترنت ، فقط يراقب ما يحدث حوله ويعالج كمية كبيرة من مواد الفيديو على الإنترنت.

ثم تم تكليف الشبكة العصبية المدربة بتوليد مقاطع فيديو صغيرة في إطار ثابت واحد. لتحقيق نتيجة واقعية ، استخدم مؤلفو الدراسة شبكة الخصومة التوليدية (GAN). تولد شبكة عصبية واحدة الفيديو ، وتتعلم الشبكة التمييزية الثانية التمييز بين الفيديو المزيف عن الحقيقي وحظر التزييف. كما يعلم المتميز ، يجب على مولد الشبكة إنشاء مقاطع فيديو واقعية بشكل متزايد من أجل اجتياز الاختبار.


يستخدم النموذج التوليدي تيارين يحاكيان المقدمة والخلفية بشكل منفصل لفصلهما عن بعضهما البعض ويميزان حركة الجسم بوضوح.



بمرور الوقت ، سيكون هذا البرنامج قادرًا على مساعدة الشخص بشكل أكثر فعالية في المواقف المختلفة. على سبيل المثال ، يمكن للروبوت أن يتنبأ بموعد سقوط الشخص - ويمنعه من السقوط. سيتعلم المساعد الرقمي في السيارة التنبؤ بأفعال السائق عن طريق حركة اليدين والعينين لتجنب وقوع حادث.

يتم نشر جميع مقاطع الفيديو التي تم تدريب الشبكة العصبية عليها ، بالإضافة إلى شفرة المصدر للبرنامج في المجال العام . رمز الشبكة العصبية الخصومة التوليدية موجود على جيثب . باستخدام البيانات للتدريب (حوالي 10.5 تيرابايت من مواد الفيديو) ، يمكنك تكرار التجربة بنفسك. بدلاً من ذلك ، تتوفر نماذج مدربة بالفعل للتنزيل (1 جيجا بايت في الأرشيف).

تم أخذ مقاطع الفيديو التدريبية من صور فليكر واستضافة الفيديو ، حيث تخضع لترخيص مجاني. هذه مشاهد ذات مواضيع: أحداث الشاطئ ومباريات الجولف ومحطات القطارات والأطفال في المستشفيات.



مليونا من مقاطع الفيديو ليست سوى عامين من لقطات الفيديو. يعترف كارل فوندريك ، أحد مؤلفي البحث العلمي: "هذا صغير جدًا مقارنة بكمية معلومات الفيديو التي تمر عبر دماغ طفل يبلغ من العمر 10 سنوات أو مقارنة بكمية المعلومات التي تمت معالجتها أثناء العملية التطورية لتطوير الحياة على الأرض". العمل.

لكن هذه ليست سوى البداية ، تتخذ منظمة العفو الدولية الخطوات الأولى ، ولكنك تحتاج إلى البدء من مكان ما. في المستقبل ، سيتم تدريب الشبكة العصبية على أجزاء أطول من الفيديو. يأمل المؤلفون في أن يبدأ الذكاء الاصطناعي تدريجياً في تحديد اختيار الخيارات الممكنة للمستقبل ، نظرًا لقيود قوانين الفيزياء وخصائص الأشياء. تظهر التجارب أن الشبكة العصبية قادرة على امتصاصها. تدريجيا ، سيتعلم البرنامج التنبؤ بمستقبل أبعد ، وليس فقط ثانية واحدة. من المحتمل أن يتم ربط وحدات إضافية بها ، مثل التعرف على الشخصية ، وقراءة الشفاه ، والتنبؤ بالجريمة على وجه الشخص ، وما إلى ذلك. نشر

مقال علميعلى موقع معهد ماساتشوستس للتكنولوجيا. تستمر الدراسة بفضل التمويل المقدم من مؤسسة العلوم الوطنية الأمريكية والمنح المقدمة من Google لاثنين من كل ثلاثة أعضاء في فريق البحث. تم إعداد التقرير للمؤتمر التاسع والعشرين حول أنظمة معالجة المعلومات العصبية (NIPS 2016) ، الذي سيعقد في الفترة من 5 إلى 10 ديسمبر في برشلونة.

Source: https://habr.com/ru/post/ar399667/


All Articles