تحدثنا مؤخرًا عن كيفية تحليلنا في دور السينما باستخدام تقنية رؤية الكمبيوتر: العواطف والإيماءات ، وهذا كل شيء. ننشر اليوم محادثة مع زميلنا من Microsoft Research. هو منخرط في خلق تلك الرؤية بالذات. تحت الخفض ، تفاصيل حول تطوير التكنولوجيا ، القليل عن اللائحة العامة لحماية البيانات ، بالإضافة إلى مجالات التطبيق. انضم الآن!

من وجهة نظر فنية ، يقوم خبراء رؤية الكمبيوتر "بإنشاء خوارزميات وأنظمة لتحليل الصور تلقائيًا واستخراج المعلومات من العالم المرئي." من وجهة نظر شخص عادي ، يقومون بإنشاء آلات يمكنهم رؤيتها. هذا ما يفعله كبير الباحثين ورئيس قسم الأبحاث الدكتور جانج هوا وفريق من خبراء رؤية الكمبيوتر. بالنسبة للأجهزة مثل الروبوتات الشخصية والمركبات والطائرات بدون طيار ، التي نواجهها أكثر وأكثر في الحياة اليومية ، فإن الرؤية مهمة جدًا.
ستخبرنا الدكتورة هوا اليوم كيف ساعدت التطورات الأخيرة في الذكاء الاصطناعي وتعلم الآلة في تحسين تقنيات التعرف على الصور وتقنيات "فهم" الفيديو ، كما ساهمت أيضًا في تطوير الفن. سيشرح أيضًا جوهر نهج المجموعة الموزعة للتعلم النشط ، حيث يعمل الأشخاص والآلات معًا في المختبر لإنشاء أنظمة رؤية الكمبيوتر التي يمكنها رؤية العالم المفتوح والتعرف عليه.
جانج هوا ، باحث رئيسي ورئيس قسم الأبحاث. صورة من Maryatt Photography.المقابلة
إذا نظرنا إلى الوراء من عشرة إلى خمسة عشر عامًا ، فسوف نرى أنه كان هناك المزيد من التنوع في مجتمع أخصائيي رؤية الكمبيوتر. للنظر في المشكلة من زوايا مختلفة والعثور على حلها ، تم تطبيق العديد من أساليب التعلم الآلي والمعرفة من مختلف المجالات ، مثل الفيزياء والبصريات. نشدد على أهمية التنوع في جميع مجالات النشاط ، لذلك أعتقد أن المجتمع العلمي سيستفيد إذا كانت لدينا وجهات نظر مختلفة.
نقدم لك أبحاث التكنولوجيا المتقدمة والعلماء وراء ذلك.
من وجهة نظر فنية ، يقوم خبراء رؤية الكمبيوتر "بإنشاء خوارزميات وأنظمة لتحليل الصور تلقائيًا واستخراج المعلومات من العالم المرئي." من وجهة نظر شخص عادي ، يقومون بإنشاء آلات يمكنهم رؤيتها. هذا ما يفعله كبير الباحثين ورئيس قسم الأبحاث الدكتور جانج هوا وفريق من خبراء رؤية الكمبيوتر. بالنسبة للأجهزة مثل الروبوتات الشخصية والمركبات والطائرات بدون طيار ، التي نواجهها أكثر وأكثر في الحياة اليومية ، فإن الرؤية مهمة جدًا.
ستخبرنا الدكتورة هوا اليوم كيف ساعدت التطورات الأخيرة في الذكاء الاصطناعي وتعلم الآلة في تحسين تقنيات التعرف على الصور وتقنيات "فهم" الفيديو ، كما ساهمت أيضًا في تطوير الفن. سيشرح أيضًا جوهر نهج المجموعة الموزعة للتعلم النشط ، حيث يعمل الأشخاص والآلات معًا في المختبر لإنشاء أنظمة رؤية الكمبيوتر التي يمكنها رؤية العالم المفتوح والتعرف عليه. حول هذا وأكثر من ذلك بكثير - في الإصدار الجديد من البودكاست Microsoft Research.
أنت كبير الباحثين ورئيس قسم الأبحاث في MSR (Microsoft Research) ، وتخصصك هو رؤية الكمبيوتر.نعم
بشكل عام ، لماذا يستيقظ أخصائي رؤية الكمبيوتر في الصباح؟ ما هو هدفها الرئيسي؟رؤية الكمبيوتر هي مجال بحث الشباب نسبيا. باختصار ، نحن نحاول إنشاء آلات يمكنها رؤية العالم وإدراكه بنفس طريقة الشخص. في لغة أكثر تقنية ، يمكن تمثيل المعلومات التي تدخل الكمبيوتر في شكل صور ومقاطع فيديو بسيطة على أنها تسلسل من الأرقام. نريد أن نستخلص من هذه الأرقام بعض الهياكل التي تصف العالم ، بعض المعلومات الدلالية. على سبيل المثال ، يمكنني القول أن جزءًا من الصورة يتوافق مع قطة. والجزء الآخر يتوافق مع الآلة ، أعني تفسيرًا من هذا النوع. ها هو هدف رؤية الكمبيوتر. يبدو أن هذه مهمة بسيطة للناس ، ولكن من أجل تعليم الكمبيوتر حولها ، كان علينا القيام بالكثير من العمل على مدى السنوات العشر الماضية. ومع ذلك ، فإن رؤية الكمبيوتر كمجال للبحث تبلغ من العمر 50 عامًا بالفعل. ومع ذلك ، لا يزال يتعين علينا حل العديد من المشاكل.
نعم قبل 5 سنوات قلت ما يلي ، أعيد صياغة: "لماذا ، بعد 30 عامًا من البحث ، ما زلنا نعمل على مشكلة التعرف على الوجوه؟" أخبرنا كيف أجبت على هذا السؤال وماذا تغير خلال هذه الفترة.إذا أجبنا من منظور قبل خمس سنوات ، فعندئذ سأقول أنه في الثلاثين عامًا التي مرت منذ بداية البحث في مجال رؤية الكمبيوتر والتعرف على الوجه ، فقد حققنا الكثير. ولكن في الغالب ، نتحدث عن بيئة خاضعة للتحكم ، حيث يمكنك التقاط الإضاءة والكاميرا والديكورات وما شابه ذلك عند التقاط الوجوه. قبل خمس سنوات ، عندما بدأنا العمل أكثر في الجسم الحي ، في بيئة غير خاضعة للرقابة ، اتضح أن هناك فجوة كبيرة في دقة الاعتراف. ومع ذلك ، على مدى السنوات الخمس الماضية ، حقق مجتمعنا تقدمًا كبيرًا من خلال استخدام طرق التعلم العميق الأكثر تقدمًا. حتى في مجال التعرف على الوجوه في الجسم الحي ، فقد حققنا تقدمًا ووصلنا حقًا إلى النقطة التي أصبح من الممكن فيها استخدام هذه التقنيات لأغراض تجارية مختلفة.
اتضح أن التعلم العميق قد جعل من الممكن تحقيق نجاح كبير في مجالات رؤية الكمبيوتر والتعرف على الصور على مدى السنوات القليلة الماضية.حق.
عندما تحدثنا عن الاختلاف في الظروف في بيئة مسيطر عليها بالكامل ولا يمكن التنبؤ بها ، تذكرت العديد من العلماء ، ضيوف البودكاست ، الذين لاحظوا أن أجهزة الكمبيوتر تفشل عندما لا تكون البيانات كاملة بما يكفي ... على سبيل المثال ، التسلسل "كلب ، كلب ، كلب ، كلب بثلاثة أرجل" "- يبدأ الكمبيوتر في الشك فيما إذا كان الأخير كلبًا أيضًا؟نعم
هل هذا صحيح؟ إذن ، ما هي طرق التعلم العميق التي لم يكن بالإمكان الوصول إليها سابقًا والتي تسمح لك بالقيام بها اليوم في مجال الاعتراف؟هذا سؤال عظيم من منظور بحثي ، يفتح التعلم العميق العديد من الاحتمالات. أولاً ، يمكنك إجراء تدريب شامل من أجل تحديد التمثيل الصحيح للصورة الدلالية. على سبيل المثال ، عد إلى الكلب. لنفترض أننا ننظر إلى صور مختلفة للكلاب ، على سبيل المثال ، صور بحجم 64 × 64 بكسل ، حيث يمكن لكل بكسل أن يأخذ حوالي مائتين وخمسين قيمة مختلفة. إذا فكرت في الأمر ، فهذا عدد ضخم من التركيبات. ولكن إذا تحدثنا عن الكلب كقالب ، حيث ترتبط وحدات البكسل مع بعضها البعض ، فإن عدد المجموعات المقابلة لـ "الكلب" سيكون أقل بكثير.
باستخدام طرق التعلم العميق الشاملة ، يمكنك تعليم النظام لتحديد التمثيل العددي الصحيح "للكلب". بفضل عمق الهياكل ، يمكننا إنشاء نماذج معقدة حقًا يمكنها إتقان كمية كبيرة من البيانات للتدريب. وبالتالي ، إذا كانت بيانات التدريب الخاصة بي تغطي جميع الخيارات والتمثيلات الممكنة للقالب ، فسأتمكن في النهاية من التعرف عليه في سياق أوسع ، لأنني نظرت في جميع التركيبات الممكنة تقريبًا. هذا هو الأول.
فرصة أخرى للتعلم العميق هي نوع من السلوك التركيبي. هناك طبقة من البنية وطبقة من العرض التقديمي ، لذلك ، عندما تقع المعلومات أو الصورة في شبكات عميقة ويبدأ استخراج الصور البدائية ذات المستوى المنخفض ، عندئذ يمكن للنموذج تدريجياً أن يجمع الهياكل الدلالية ذات التعقيد الأعلى والأعلى من هذه الصور البدائية. تحدد خوارزميات التعلم العميق أنماطًا أصغر تتطابق مع الأنماط الأكبر وتجميعها معًا لتشكيل النمط النهائي. لذلك ، فهي أداة قوية جدًا ، خاصةً لمهام التعرف البصري.
لذا ، فإن الموضوع الرئيسي لمؤتمر CVPR هو التعرف على الأنماط مع رؤية الكمبيوتر.نعم هذا صحيح.
والتعرف على الأنماط هو ما تسعى إليه التكنولوجيا حقًا.
نعم بالطبع. في الواقع ، الغرض من رؤية الكمبيوتر هو التقاط المعنى بالبكسل. بالحديث من وجهة نظر فنية ، يحتاج الكمبيوتر إلى فهم ماهية الصورة ، ونحصل على نتيجة رقمية أو رمزية معينة منها. على سبيل المثال ، قد تكون النتيجة العددية سحابة نقطية ثلاثية الأبعاد تصف بنية الفضاء أو شكل الكائن. يمكن أن ترتبط أيضًا ببعض الملصقات الدلالية ، مثل "كلب" أو "قطة" ، كما قلت سابقًا.
فهمت. لذا لنتحدث قليلاً عن العلامات. ميزة مثيرة للاهتمام ومهمة لعملية التعلم الآلي هي حقيقة أن الكمبيوتر يحتاج إلى توفير كل من البكسل والملصقات.نعم بالطبع.
لقد تحدثت عن ثلاثة أشياء تهمك أكثر في سياق رؤية الكمبيوتر. الفيديو والوجوه والفن والوسائط المتعددة. لنتحدث عن كل واحد منهم على حدة ، ونبدأ ببحثك الحالي ، ما تسمونه "فهم" الفيديو.نعم عبارة "فهم الفيديو" تتحدث عن نفسها. كمدخل ، نستخدم الفيديو بدلاً من الصور. من المهم هنا ليس فقط التعرف على وحدات البكسل ، ولكن أيضًا مراعاة كيفية تحركها. بالنسبة لرؤية الكمبيوتر ، يعد التعرف على الصور مشكلة مكانية. في حالة الفيديو ، يصبح مكانيًا زمانيًا لأنه يظهر بعد ثالث - زمني -. وإذا نظرت إلى العديد من المهام الحقيقية المرتبطة بدفق الفيديو ، سواء كانت كاميرات مراقبة داخلية أو كاميرات طريق على الطريق السريع ، فإن الخلاصة هي أن الجسم يتحرك في تيار مستمر من الإطارات. ونحن بحاجة إلى استخراج المعلومات من هذا الدفق.
تنتج هذه الكاميرات كمية كبيرة من مواد الفيديو. كاميرات الأمن التي تطلق النار على مدار الساعة في محلات السوبر ماركت وما شابه ذلك. ما الفوائد التي يمكن أن يحصل عليها الأشخاص من هذه السجلات؟يعمل فريقي على مشروع حضانة واحد ، نبتكر فيه تقنية أساسية. كجزء من هذا المشروع ، نحاول تحليل حركة المرور على الطرق. تم تركيب عدد كبير من كاميرات الطرق في المدن ، ولكن معظم الفيديو الذي سجلوه تضيع. ومع ذلك ، قد تكون هذه الكاميرات مفيدة. لنلق نظرة على أحد الأمثلة: أنت تريد التحكم في إشارات المرور بكفاءة أكبر. عادة ما يتم تحديد تغيير الإشارات الحمراء والخضراء من خلال الجدول الزمني المحدد. ومع ذلك ، إذا رأيت أن عددًا أقل من السيارات كانت تتحرك في اتجاه واحد مقارنةً بالاتجاهات الأخرى ، فعندئذٍ لتحسين الحركة ، يمكنني الحفاظ على اللون الأخضر لفترة أطول في الاتجاهات المحملة. هذا تطبيق واحد فقط.
يرجى ترجمة هذه الفكرة!سنحاول!
من منا لم يقف على إشارة المرور الحمراء ، على الرغم من أن لا أحد تقريبًا قاد سيارته على الأخضر في الاتجاه الآخر؟ها هي!
فقط ، تسأل نفسك: لماذا يجب أن أنتظر؟
أوافق. يمكن تطبيق هذه التقنية أيضًا في حالات أخرى ، على سبيل المثال ، عندما قمنا بتجميع أرشيفات كبيرة من تسجيلات الفيديو. لنفترض أن المواطنين طلبوا ممرات إضافية للدراجات. يمكننا استخدام مقاطع الفيديو ، وتحليل بيانات حركة المرور ، ثم تحديد ما إذا كان سيتم إنشاء مسار دراجة في هذا المكان. من خلال تقديم هذه التكنولوجيا ، يمكننا التأثير بشكل كبير على تدفقات حركة المرور ومساعدة المدن على اتخاذ مثل هذه القرارات.
أعتقد أن هذه فكرة رائعة ، لأنه في معظم الحالات نتخذ مثل هذه القرارات بناءً على أفكارنا الخاصة ، وليس على البيانات ، بالنظر إلى ما يمكننا قوله: "مرحبًا ، كما تعلمون ، سيكون مسار الدراجات هنا بالمناسبة. وهنا ستعقد الحركة ".هذا صحيح. في بعض الأحيان يتم استخدام أجهزة استشعار أخرى لهذا الغرض. إنهم يستأجرون شركة تقوم بتركيب معدات خاصة على الطرق. لكنها غير فعالة من الناحية الاقتصادية. لكن كاميرات الطريق مثبتة بالفعل وتتسكع. تدفقات الفيديو متاحة بالفعل. صحيح؟ فلماذا لا تستفيد من هذا؟
أوافق. هذا مثال رائع على كيفية تطبيق التعلم الآلي وفهم الفيديو.بالضبط
لذا ، هناك مجال آخر مهم للتطبيق وهو التعرف على الوجوه. نعود مرة أخرى إلى السؤال "لماذا ما زلنا نعمل على مشكلة التعرف على الوجه؟".هذا صحيح.
بالمناسبة ، يمكن تطبيق هذه التقنيات في بعض الحالات بطريقة مثيرة للاهتمام للغاية. أخبرنا بما يحدث في مجال التعرف على الوجوه. من يفعل هذا وما هو الجديد؟وبالنظر إلى الوراء ، درست مايكروسوفت تقنية التعرف على الوجوه عندما كنت لا أزال أعمل في Live Labs Research. ثم أنشأنا أول مكتبة للتعرف على الوجوه يمكن أن تستخدمها مجموعات تطوير المنتجات المختلفة. تم تقديم هذه التقنية لأول مرة على Xbox. ثم حاول المطورون استخدام التعرف على الوجوه لتسجيل الدخول تلقائيًا إلى النظام. أعتقد أن هذه كانت الحالة الأولى. بمرور الوقت ، تحول مركز دراسة التعرف على الوجه إلى Microsoft Research Asia ، حيث لا يزال لدينا مجموعة من الباحثين الذين أتعاون معهم.
نحن نحاول باستمرار توسيع حدود الممكن. نحن نعمل الآن مع الخدمات التقنية لمساعدتنا في جمع المزيد من البيانات. بناءً على هذه البيانات ، نقوم بتدريب نماذج أكثر تقدمًا. في الآونة الأخيرة ، ركزنا على اتجاه البحث ، والذي نسميه "تجميع الوجوه مع الحفاظ على الاعتراف". كما حقق مجتمع التعلم العميق للخبراء نجاحًا كبيرًا. يستخدمون شبكات عميقة لتدريب النماذج التوليدية التي يمكنها محاكاة توزيع الصور بحيث يمكن استخراج البيانات منها ، أي تجميع الصورة بالفعل. لذا يمكنك إنشاء شبكات عميقة تنشئ صورًا.
لكننا نريد أن نخطو خطوة أخرى. نريد تركيب الوجوه. في الوقت نفسه ، نريد الحفاظ على اعتراف هؤلاء الأفراد. لا يجب على خوارزمياتنا إنشاء مجموعة عشوائية من الوجوه بدون أي معنى دلالة. لنفترض أننا نريد إعادة إنشاء وجه براد بيت. تحتاج إلى إنشاء وجه يشبهه حقًا. إذا كنت بحاجة إلى إعادة إنشاء وجه الشخص الذي أعرفه ، فيجب أن تكون النتيجة دقيقة.
أي أنك تريد الحفاظ على الاعتراف بالشخص الذي تحاول إعادة إنشائه؟حق.
بالمناسبة ، أتساءل عما إذا كانت هذه التكنولوجيا ستعمل لفترة طويلة ، مع تقدم العمر ، أم سيكون من الضروري تحديث قاعدة البيانات باستمرار مع الأفراد؟هذا سؤال جيد جدا نحن نجري حاليا بحثا لحل هذه المشكلة. على المستوى الحالي للتكنولوجيا ، لا يزال من الضروري تحديث قاعدة البيانات من وقت لآخر. خاصة إذا تغير الوجه كثيرًا. على سبيل المثال ، إذا تم إجراء الجراحة التجميلية ، فلن يتمكن النظام الحديث من تحقيق النتيجة الصحيحة.
انتظر ، ليس أنت.نعم ، الأمر مختلف تمامًا. يمكن تناول هذه المسألة من عدة جهات. لا تتغير الوجوه البشرية كثيرًا بين 17-18 عامًا وحوالي 50 عامًا. ولكن ماذا يحدث بعد الولادة مباشرة؟ تتغير وجوه الأطفال بشكل كبير ، لأن العظام تنمو ، كما يتغير شكل الوجه والجلد. ولكن بمجرد أن ينمو الشخص ويمر إلى مرحلة النضج ، تبدأ التغييرات في الحدوث ببطء شديد. الآن نحن نجري بحثًا نقوم فيه بتطوير نماذج لعملية الشيخوخة. سيساعدون في إنشاء نظام محسّن للتعرف على الوجوه يعتمد على العمر. في الواقع ، هذه تقنية مفيدة جدًا يمكن تطبيقها في تطبيق القانون ، على سبيل المثال ، من أجل التعرف على الأطفال المختطفين منذ سنوات عديدة والذين ...
تبدو مختلفة للغاية.نعم ، تبدو مختلفة. إذا كانت خوارزميات التعرف على الوجه الذكية يمكن أن تنظر في الصورة الأصلية ...
وقول ، كيف سيبدو في سن 14 إذا تم اختطافهم قبل ذلك بكثير ، أو شيء من هذا القبيل؟نعم ، نعم ، بالضبط.
هذا تطبيق رائع. دعونا نتحدث عن مجال آخر تستكشفه بنشاط - الوسائط المتعددة والفن. أخبرنا كيف يتقاطع العلم مع الفن ، وخاصة حول عملك في مجال النقل العميق للأسلوب الفني.جيد. الق نظرة على احتياجات الناس. بادئ ذي بدء ، نحن بحاجة إلى الطعام والماء والنوم ، أليس كذلك؟ بمجرد تلبية الاحتياجات الأساسية ، يكون لدى الشخص رغبة قوية في الفن ...
والرغبة في الخلق.وإنشاء أشياء فنية. كجزء من هذا المجال من البحث ، نريد ربط رؤية الكمبيوتر بالأشياء الفنية للوسائط المتعددة والفن. يمكننا استخدام رؤية الكمبيوتر لمنح الناس متعة فنية. كجزء من مشروع بحث منفصل عملنا عليه على مدار العامين الماضيين ، أنشأنا سلسلة من الخوارزميات التي يمكنك من خلالها إنشاء صورة بأي نمط فني إذا تم تقديم عينات من هذا النمط. على سبيل المثال ، يمكننا إنشاء صورة بأسلوب Van Gogh.
فان جوخ؟نعم ، أو أي فنان آخر ...
رينوار أو مونيه ... أو بيكاسو.نعم ، أي منهم. أي شخص يمكنك تذكره ...
مثير للاهتمام. استخدام البكسل؟نعم ، باستخدام البكسل. يتم إنشاء هذا أيضًا من خلال الشبكات العميقة باستخدام بعض تقنيات التعلم العميق التي قمنا بتطويرها.
يبدو أن هذا البحث يتطلب معرفة من العديد من المجالات. أين تجد مهنيين قادرين على ...أود أن أقول أنه إلى حد ما ، هدفنا هو ... كما تعلم ، الأعمال الفنية ليست متاحة دائمًا للجميع. بعض الأعمال الفنية مكلفة للغاية حقًا. بمساعدة هذه التقنيات الرقمية ، نحاول جعل هذا العمل في متناول الناس العاديين.
دمقرطة لهم.نعم ، دمقرطة الفن ، كما تقول.
هذا مثير للإعجاب.تسمح لك الخوارزمية الخاصة بنا بإنشاء نموذج رقمي واضح لكل نمط. ويمكننا حتى مزجها إذا أردنا إنشاء أنماط جديدة. هذا يذكرنا بإنشاء مساحة فنية حيث يمكننا دراسة الخيارات المتوسطة ومشاهدة كيف تتغير التقنيات عند الانتقال من فنان إلى آخر. ويمكننا أيضًا أن ننظر بشكل أعمق ومحاولة فهم ما يحدد بالضبط أسلوب فنان معين.
ما يهمني بشكل خاص هو حقيقة أننا ، من ناحية ، نتحدث عن العمل مع الأرقام: علوم الكمبيوتر ، والخوارزميات ، والرياضيات. ومن ناحية أخرى ، فإن الحديث عن الفن هو فئة ميتافيزيقية أكثر بكثير. ومع ذلك ، قمت بدمجها ، وهذا يدل على أن دماغ العالم يمكن أن يكون له جانب فني.بالضبط أعتقد أن أهم أداة نستخدمها للمساعدة في تجميع كل شيء معًا هي الإحصاءات.
مثير للاهتمام..
, … – - MSR, – . , ?. , , -. … . , - . - , , . . .
, , Amazon Mechanical Turk. . , . . , . -, , . -, , .
. . . , . , , . .
, . . , , ?, . , , . ( ), , , -, .
, .. , , , , , . . , NIH, - (co-robots).
- ?-. . , . , . , . , . , . , - , , .
, , . , , ? , , ? . . , , , .
Microsoft Research ?Microsoft . , 2006-2009 Live Labs. . . , . Nokia Research, IBM Research …
-, ?, -, . Microsoft Research 2015 . , 2017 .
. ?. Microsoft Research — . . — . . . . , , , Intelligent Group , .
..
, , . - , ? -, ?, , . . : . , , , , , - . . , , , , . , .
… , : , , ? , , , ?Microsoft (GDPR). , , , , . , . - -, . . , - . , ? , , . . , , , …
, . : « . ».نعم هذا صحيح.
, , . ? 10 ?. , . . , . . , .
, , «» . , - , . - , ? . — . , . , , . , . , . . . , …
.
. . . 10-15 , , . , , . , , , .
. , , , ., !
, , : Microsoft.com/research