عندما يرى شخص الأشكال ، ترى الذكاء الاصطناعي القوام

والمثير للدهشة أن الباحثين الذين لديهم خوارزميات رؤية عميقة للتعلم الحاسوبي غالباً ما يفشلون في تصنيف الصور لأنهم يركزون بشكل أساسي على القوام بدلاً من الأشكال.



إذا نظرت إلى صورة قطة ، مع وجود احتمال كبير ، ستتمكن من التعرف على هذا الحيوان ، بغض النظر عما إذا كان أحمر أو مخطط - أو حتى إذا كانت الصورة سوداء وبيضاء ، أو ملطخة ، أو مشوية. من المحتمل أن تكون قادرًا على ملاحظة قطة عندما تجعد خلف وسادة أو تقفز إلى طاولة ، وهو ما يمثل فقط شكل ضبابي. لقد تعلمت بشكل طبيعي التعرف على القطط في أي حالة تقريبًا. لكن أنظمة رؤية الماكينات المبنية على شبكات عصبية عميقة ، على الرغم من أنها يمكن أن تزود الأشخاص في بعض الأحيان بمهام التعرف على القطط تحت ظروف ثابتة ، يمكن الخلط بينها وبين الصور التي تختلف على الأقل قليلاً عن ما يعرفونه ، أو تحتوي على ضوضاء أو أكثر حصى قوي.

والآن اكتشف الباحثون الألمان سببًا غير متوقع لهذا: إذا اهتم الناس بأشكال الأشياء الموضحة ، فإن رؤية الكمبيوتر مع التعلم العميق تتمسك بقوام الكائنات.

يؤكد هذا الاكتشاف ، الذي تم تقديمه في مايو في مؤتمر دولي لتمثيلات التعلم ، على التباين الحاد بين "تفكير" الأشخاص والآلات ، ويوضح مدى الخطأ الذي يمكن أن نكون عليه في فهم كيفية عمل الذكاء الاصطناعى. وأيضا يمكن أن تخبرنا لماذا أصبحت رؤيتنا نتيجة للتطور.

القطط العاج ومشاهدة الطائرات


تعمل خوارزميات التعلم العميق عن طريق دفع الآلاف من الصور عبر شبكة عصبية تحتوي إما على قطة أم لا. يبحث النظام عن الأنماط الموجودة في هذه البيانات ، والتي يستخدمها بعد ذلك لوضع أفضل علامة على الصورة التي لم يصادفها من قبل. تشبه بنية الشبكة إلى حد ما بنية النظام البصري البشري ، حيث تحتوي على طبقات متصلة تتيح له استخراج المزيد والمزيد من الميزات المجردة من الصورة. ومع ذلك ، فإن عملية بناء نظام الجمعيات التي تؤدي إلى الإجابة الصحيحة هي مربع أسود لا يمكن للناس أن يحاولوا تفسيره إلا بعد الحقيقة. وقال توماس ديريتش ، أخصائي تكنولوجيا المعلومات في جامعة أوريغون غير المنتسب لهذه الدراسة: "لقد حاولنا أن نفهم ما الذي يؤدي إلى نجاح خوارزميات الرؤية العميقة للتعلم الحاسوبي ، ولماذا تكون ضعيفة للغاية".

يفضل بعض الباحثين دراسة ما يحدث عندما يحاولون خداع الشبكة عن طريق تغيير الصورة قليلاً. وجدوا أن التغييرات الصغيرة قد تؤدي إلى قيام النظام بتمييز الصورة بشكل غير صحيح - وقد لا تؤدي التغييرات الكبيرة إلى تغيير التسمية. وفي الوقت نفسه ، يتعقب خبراء آخرون التغييرات في النظام لتحليل كيفية استجابة الخلايا العصبية الفردية للصورة ، وإنشاء " أطلس التنشيط " بناءً على السمات التي تعلمها النظام.

لكن مجموعة من العلماء من مختبرات عالم الأعصاب الحسابي ماتياس بيتج وعالم الفيزيولوجيا النفسية فيليكس ويشمان من جامعة توبنغن في ألمانيا اختاروا نهجًا نوعيًا. في العام الماضي ، أبلغ الفريق أنه عند تدريب الصور التي تم تغييرها بواسطة ضوضاء من نوع ما ، بدأت الشبكة في التعرف على الصور بشكل أفضل من الأشخاص الذين حاولوا إنتاج نفس الصور المزعجة. ومع ذلك ، فإن الصور نفسها ، التي تم تعديلها بشكل مختلف بعض الشيء ، تربك الشبكة تمامًا ، على الرغم من أن التشويه الجديد بدا بنفس الشكل القديم.


روبرت جيروس ، طالب دراسات عليا في البيولوجيا العصبية الحاسوبية من جامعة توبنغن

لتفسير هذه النتيجة ، تساءل الباحثون عن جودة الصورة التي تتغير أكثر مع إضافة القليل من الضوضاء. الخيار الواضح هو الملمس. وقال روبرت جيروس ، طالب دراسات عليا في مختبرات Betge و Wichmann ، المؤلف الرئيسي للدراسة: "يظل شكل الجسم سالما إلى حد ما إذا أضفت الكثير من الضوضاء لفترة طويلة". لكن "يتم تشويه بنية الصورة المحلية بسرعة كبيرة عند إضافة مقدار صغير من الضوضاء." لذا توصلوا إلى طريقة صعبة لاختبار كيفية معالجة النظم المرئية للآلات والأشخاص للصور.

ابتكر Geyros و Betge وزملاؤهم صوراً بميزتين متعارضتين ، يأخذون الشكل من كائن واحد والملمس من كائن آخر: على سبيل المثال ، صورة ظلية قطة مطلية بلون بشرة فيل رمادية ، أو دب مصنوع من علب الألمنيوم ، أو صورة ظلية طائرة مملوءة بالتداخل بعضها البعض مع صور الأوجه. وصف الأشخاص المئات من هذه الصور بناءً على أشكالها - القط ، الدب ، الطائرة - في كل مرة تقريبًا ، على النحو المنشود. ومع ذلك ، كانت هناك أربعة خوارزميات تصنيف مختلفة تميل في الاتجاه المعاكس ، مع إعطاء تسميات تعكس قوام الكائنات: الفيل ، العلب ، الساعات.

وقال نيكولاس كريجسكورت ، عالم الأعصاب الحسابي في جامعة كولومبيا الذي لم يشارك في الدراسة: "هذا يغير فهمنا لكيفية تعترف الشبكات العصبية العميقة ذات التوزيع المباشر - دون إعدادات إضافية ، بعد عملية التعلم المعتادة - بالصور".

للوهلة الأولى ، قد يبدو تفضيل أنسجة الذكاء الاصطناعي على الأشكال غريبًا ، لكنه منطقي. وقال كريجسكورت: "الملمس قليل من الدقة العالية". ومن الأسهل على النظام التمسك بهذا المقياس: يتجاوز عدد البيكسلات التي تحتوي على معلومات النسيج عدد البكسلات التي تشكل حدود الكائن بشكل كبير ، وترتبط الخطوات الأولى للشبكة بالاعتراف بالميزات المحلية ، مثل الخطوط والوجوه. وقال جون تسوتسوس ، أخصائي رؤية الكمبيوتر بجامعة يورك في تورنتو والذي لا يرتبط بهذه الدراسة: "هذا هو بالضبط الملمس". "على سبيل المثال ، مجموعة من القطاعات تصطف بنفس الطريقة."

أظهر Geyros وزملاؤه أن هذه العلامات المحلية كافية للشبكة لتنفيذ التصنيف. هذا هو دليل Betge وآخر من مؤلفي الدراسة ، Wiland Brendel ما بعد الدكتوراه ، الذي تم الانتهاء منه في العمل ، والذي تم تقديمه أيضًا في مؤتمر مايو. في هذا العمل ، قاموا ببناء نظام تعليمي عميق يعمل بنفس الطريقة التي عملت بها خوارزميات التصنيف قبل انتشار التعلم العميق - استنادًا إلى مبدأ "حقيبة السمات". تقسم الخوارزمية الصورة إلى أجزاء صغيرة ، مثل الطرز الحالية (مثل Geyros المستخدمة في تجربته) ، ولكن بدلاً من دمج هذه المعلومات تدريجيًا لاستخراج علامات على مستوى أعلى من التجريد ، تقوم الخوارزمية فورًا بفرضية حول محتويات كل قطعة ( "يوجد في هذه القطعة دليل على وجود دراجة ، في هذا - دليل على طائر"). لقد قام ببساطة بطي جميع القرارات لتحديد الكائن ("إذا كانت المزيد من القطع تحتوي على علامات للدراجة ، فهذه دراجة") ، مع عدم الاهتمام بالعلاقات المكانية للقطع. ومع ذلك ، كان قادرًا على التعرف على الأشياء بدقة عالية بشكل غير متوقع.

وقال بريندل "هذا العمل يتحدى افتراض أن التعلم العميق يفعل شيئًا مختلفًا تمامًا" عن النماذج السابقة. من الواضح أنه تم تحقيق قفزة كبيرة. أنا فقط أقول إنها لم تكن كبيرة كما كان يأمل البعض ".

وفقاً لأمير روزنفيلد ، وهو طالب دراسات عليا من جامعة يورك وجامعة تورنتو ، لم يشارك في الدراسة ، "هناك فرق كبير بين ما نعتقد أنه يجب على الشبكات العصبية أن تفعله وما تفعله" ، بما في ذلك مدى إدارتها جيدًا. إنتاج السلوك البشري.

تحدث البريتزل في نفس السياق. وقال إنه من السهل افتراض أن الشبكات العصبية ستحل المشكلات بنفس الطريقة التي يحل بها الناس. "ومع ذلك ، فإننا ننسى باستمرار وجود أساليب أخرى."

تحول نحو نظرة أكثر إنسانية


يمكن لطرق التعلم العميقة الحديثة دمج الميزات المحلية ، مثل القوام ، في أنماط أكثر عمومية ، مثل النماذج. وقال كريجيسكورتي: "ما يظهر بشكل غير متوقع ومقنع للغاية في هذه الأعمال - على الرغم من أن البنية تسمح لك بتصنيف الصور القياسية ، فإن هذا لا يحدث تلقائيًا إذا كنت تدرب الشبكة على ذلك".

أراد جيروس معرفة ما يحدث إذا أجبر الفريق النماذج على تجاهل القوام. قام الفريق بالتقاط الصور المستخدمة تقليديًا في خوارزميات تصنيف التدريب ورسمها بأشكال مختلفة ، مما يحرمهم من معلومات النسيج المفيدة. عندما قاموا بإعادة تدريب كل نموذج في الصور الجديدة ، بدأت الأنظمة تعتمد على أنماط عالمية أكبر ، وأظهرت ميلًا أكبر نحو التعرف على الأنماط ، والذي كان أشبه بالناس.


ويلاند بريندل ، عالم الأعصاب الحسابي في جامعة توبنغن في ألمانيا

وبعد ذلك ، بدأت الخوارزميات في تصنيف الصور الصاخبة بشكل أفضل ، حتى عندما لم يتم تدريبهم على التعامل مع مثل هذه التشوهات. وقال جيروس: "أصبحت شبكة التعرف على الأشكال أكثر موثوقية تمامًا مجانًا". "هذا يشير إلى أن الانحياز الصحيح لأداء مهام معينة ، في حالتنا ، الميل إلى استخدام النماذج ، يساعد على تعميم المعرفة على الظروف الجديدة."

يشير هذا أيضًا إلى أن هذا الاتجاه يمكن أن يتشكل في البشر بطريقة طبيعية ، لأن استخدام الأشكال هو وسيلة أكثر موثوقية للتعرف على ما نراه في ظروف جديدة أو صاخبة. يعيش الناس في عالم ثلاثي الأبعاد ، حيث تكون الأشياء مرئية من زوايا عديدة في ظل العديد من الظروف المختلفة ، وحيث يمكن لمشاعرنا الأخرى ، مثل اللمس ، أن تكمل اختيارياً التعرف على الأشياء. لذلك ، من أجل رؤيتنا ، من المنطقي أن نضع الشكل كملمس ذو أولوية. بالإضافة إلى ذلك ، أظهر بعض علماء النفس وجود صلة بين اللغة والتعلم والميل إلى استخدام النماذج: عندما يتم تعليم الأطفال إيلاء المزيد من الاهتمام للنماذج عند دراسة فئات معينة من الكلمات ، في وقت لاحق تمكنوا من تطوير مفردات أكثر شمولية من الأسماء أكثر من غيرها.

هذا العمل بمثابة تذكير بأن "البيانات لها تأثير أقوى على التحيز وانحياز النماذج مما كنا نظن" ، وقال Wichman. ليست هذه هي المرة الأولى التي يواجه فيها الباحثون هذه المشكلة: لقد ثبت بالفعل أن برامج التعرف على الوجه والبحث التلقائي في الاستئناف والشبكات العصبية الأخرى تعطي أهمية كبيرة للعلامات غير المتوقعة بسبب التحيزات المتأصلة بعمق في البيانات التي يتم تدريبهم عليها. أثبتت إزالة التحيزات غير المرغوب فيها من عملية صنع القرار أن تكون مهمة صعبة ، لكن ويشمان قال إن العمل الجديد يوضح أن هذا ممكن من حيث المبدأ ، وهو أمر مشجع.

ومع ذلك ، حتى نماذج Geyros التي تركز على النماذج يمكن خداعها عن طريق إضافة الكثير من الضوضاء على الصور ، أو عن طريق تغيير بعض وحدات البكسل ، مما يعني أنه لا يزال أمامها طريق طويل لتحقيق جودة تضاهي الرؤية البشرية. وعلى نفس المنوال ، يوضح عمل جديد قام به روزنفيلد وتسوتسوس وماركوس سولباخ ، وهو طالب دراسات عليا في مختبر تسوتسوس ، أن خوارزميات التعلم الآلي غير قادرة على التقاط تشابه الصور المختلفة بالطريقة نفسها التي يفعل بها الناس. ومع ذلك ، فإن مثل هذه الأعمال "تساعد على الإشارة بالضبط إلى الجوانب التي لا تقوم هذه النماذج بإعادة إنتاج جوانب مهمة من دماغ الإنسان" ، كما قال كريجسكورت. وقال ويتشمان إنه "في بعض الحالات ، قد يكون أكثر أهمية فحص مجموعة البيانات."

وتوافق سانيا فيدلر ، أخصائية تكنولوجيا المعلومات في جامعة تورنتو ولم تشارك في الدراسة. وقالت: "إن مهمتنا هي تطوير بيانات ذكية". تستكشف هي وزملاؤها كيف يمكن للمهام المساعدة أن تساعد الشبكات العصبية على تحسين جودة المهام الأساسية. مستوحاة من اكتشافات Geyros ، قاموا مؤخرًا بتدريب خوارزمية تصنيف الصور ليس فقط للتعرف على الكائنات نفسها ، ولكن أيضًا لتحديد وحدات البكسل التي تنتمي إلى معالمها. وأصبحت الشبكة تلقائيًا أفضل في التعرف على الكائنات. وقال فيدلر: "إذا أعطيت لك مهمة واحدة فقط ، فإن النتيجة هي الاهتمام الانتقائي والعمى فيما يتعلق بالعديد من الأشياء الأخرى". "إذا أعطيتك العديد من المهام ، فسوف تتعرف على أشياء مختلفة ، وقد لا يحدث هذا." إنه نفس الشيء مع هذه الخوارزميات. " يساعدهم حل المشكلات المختلفة على "تطوير ميل إلى معلومات متنوعة" ، وهو ما يشبه ما حدث في تجربة Geyros بالأشكال والقوام.

وقال ديتريش إن كل هذه الدراسات "خطوة مهمة للغاية نحو تعميق فهمنا لما يحدث بالتعلم العميق ، وربما ستساعدنا في التغلب على القيود التي نواجهها". "لهذا السبب أنا أحب هذه السلسلة من العمل."

Source: https://habr.com/ru/post/ar462951/


All Articles