واحد هو صفر لصالح الدماغ البشري. في
دراسة جديدة ، وجد علماء الكمبيوتر أن أنظمة الذكاء الاصطناعي تفشل في اجتياز اختبار التعرف البصري على الأشياء التي يمكن لأي طفل التعامل معها بسهولة.
يقول غاري ماركوس ، عالم الأعصاب في جامعة نيويورك الذي لا يرتبط بهذا العمل: "تذكرنا هذه الدراسة النوعية والمهمة أن" التعلم العميق "نفسه لا يمكن أن يتباهى بالعمق الذي يُنسب إليه".
تتعلق نتائج الدراسة بمجال الرؤية الحاسوبية ، عندما تحاول أنظمة الذكاء الاصطناعي اكتشاف وتصنيف الأشياء. على سبيل المثال ، قد يُطلب منهم العثور على جميع المشاة في مشهد الشارع أو ببساطة لتمييز طائر عن دراجة - وهي مهمة أصبحت بالفعل مشهورة بتعقيدها.
إن المخاطر كبيرة: بدأت أجهزة الكمبيوتر تدريجياً في أداء عمليات مهمة للأشخاص ، مثل المراقبة التلقائية بالفيديو والقيادة المستقلة. وللعمل الناجح ، من الضروري أن تكون قدرة الذكاء الاصطناعي على المعالجة البصرية على الأقل أقل من الإنسان.
المهمة ليست سهلة.
تركز الدراسة الجديدة على تعقيد الرؤية البشرية والصعوبات في إنشاء أنظمة تقليد. اختبر العلماء دقة نظام رؤية الكمبيوتر باستخدام مثال غرفة المعيشة. قامت منظمة العفو الدولية بعمل جيد ، حيث حددت بشكل صحيح الكرسي والشخص والكتب على الرف. لكن عندما أضاف العلماء شيئًا غير عادي إلى المشهد - صورة فيل - حقيقة مظهره جعلت النظام ينسى جميع النتائج السابقة. فجأة ، بدأت في استدعاء الكرسي على أريكة ، والفيل كرسي ، وتجاهل جميع الأشياء الأخرى.
يقول أمير روزنفيلد ، عالِم من جامعة يورك في تورنتو وشارك في تأليف دراسة أجراها هو وزملاؤه
جون توتسوتسوس أيضًا من يورك ،
وريتشارد زيميل من جامعة تورنتو: "كانت هناك مجموعة متنوعة من الشذوذ التي أظهرت هشاشة أنظمة الكشف عن الأشياء الحديثة".
لا يزال الباحثون يحاولون توضيح أسباب انحراف نظام رؤية الكمبيوتر بسهولة شديدة ، ولديهم بالفعل تخمين جيد. النقطة في المهارة البشرية ، التي لا تمتلكها منظمة العفو الدولية ، هي القدرة على إدراك أن المشهد غير مفهوم ، ونحن بحاجة إلى النظر فيه عن كثب مرة أخرى.
فيل في الغرفة
بالنظر إلى العالم ، فإننا ندرك كمية هائلة من المعلومات المرئية. يقوم دماغ الإنسان بمعالجته أثناء التنقل. يقول توتسوتس: "نفتح أعيننا ، وكل شيء يحدث من تلقاء نفسه".
على النقيض من ذلك ، يخلق الذكاء الاصطناعي انطباعًا بصريًا بشق الأنفس ، كما لو كان يقرأ وصفًا بطريقة برايل. يمر عبر أطراف أصابعه الخوارزمية من خلال البكسلات ، ويتشكل منها تدريجياً تمثيلات أكثر تعقيدًا. مجموعة متنوعة من أنظمة الذكاء الاصطناعي التي تؤدي عمليات مماثلة هي شبكات عصبية. يمررون صورة من خلال سلسلة من "الطبقات". مع مرور كل طبقة ، تتم معالجة تفاصيل الصورة الفردية ، مثل اللون والسطوع لوحدات البكسل الفردية ، ويتم تكوين وصف مجرد بشكل متزايد للكائن على أساس هذا التحليل.
يوضح Totsotsos أن "نتائج معالجة الطبقة السابقة يتم نقلها إلى الطبقة التالية ، وهكذا على الناقل".
تم النشر بواسطة: Lucy Reading-Ikkanda / Quanta Magazineالشبكات العصبية هي خبراء في المهام الروتينية المحددة في مجال المعالجة البصرية. هم أفضل من الناس للتعامل مع المهام المتخصصة للغاية مثل تحديد سلالة الكلاب وفرز الأشياء الأخرى إلى فئات. لقد أثارت هذه الأمثلة الناجحة الأمل في أن تصبح أنظمة رؤية الكمبيوتر ذكية جدًا حتى تتمكن من قيادة السيارة في شوارع المدينة المزدحمة.
كما حث الخبراء على استكشاف نقاط ضعفهم. على مدى السنوات القليلة الماضية ، قام الباحثون بعدد من المحاولات لمحاكاة هجمات معادية - توصلوا إلى سيناريوهات تجبر الشبكات العصبية على ارتكاب الأخطاء. في إحدى التجارب ،
خدع علماء الكمبيوتر الشبكة ، وأجبروها على أخذ السلاحف لمسدس. قصة أخرى للغش الناجح هي أنه ، بجانب الأشياء العادية مثل الموز ،
وضع الباحثون محمصة مرسومة بألوان مخدرة على الصورة.
في العمل الجديد ، اختار العلماء نفس النهج. أظهر ثلاثة باحثين صورة شبكة عصبية لغرفة معيشة. يلتقط الرجل الذي يلعب لعبة فيديو ، يجلس على حافة كرسي قديم ويميل إلى الأمام. "هضم" هذا المشهد ، تعرفت منظمة العفو الدولية بسرعة على العديد من الأشياء: شخص وأريكة وجهاز تلفزيون وكرسي وزوجين من الكتب.
ثم أضاف الباحثون شيئًا غير عادي لمشاهد مماثلة: صورة فيل في نصف ملف شخصي. والشبكة العصبية مشوشة. في بعض الحالات ، أجبرها ظهور فيل على أخذ كرسي لأريكة ، وأحيانًا توقف النظام عن رؤية أشياء معينة ، مع التعرف عليها قبل ذلك لم تكن هناك مشاكل. هذه ، على سبيل المثال ، سلسلة كتب. علاوة على ذلك ، حدثت أخطاء حتى مع الأشياء الموجودة بعيدًا عن الفيل.
في الأصل على اليسار ، حددت الشبكة العصبية بشكل صحيح وبثقة عالية العديد من الأشياء الموجودة في غرفة المعيشة المليئة بالعديد من الأشياء. ولكن بمجرد إضافة الفيل (الصورة على اليمين) ، بدأ البرنامج في الانهيار. تحول الكرسي الموجود في الزاوية اليسرى السفلية إلى أريكة ، واختفى الكوب الواقف بجواره ، وأصبح الفيل كرسيًا.أخطاء النظام المماثلة غير مقبولة تمامًا لنفس القيادة الذاتية. لن يتمكن الكمبيوتر من قيادة السيارة إذا لم يلاحظ المشاة لمجرد أنه قبل بضع ثوان رأى ديك رومي على جانب الطريق.
أما بالنسبة للفيل نفسه ، فقد اختلفت نتائج الاعتراف به عن محاولة المحاولة. ثم حدده النظام بشكل صحيح ، وأحيانًا يسمى خروف ، ثم لم يلاحظه على الإطلاق.
يقول روزنفيلد: "إذا ظهر فيل حقًا في الغرفة ، فمن المحتمل أن يلاحظه أي شخص". "ولم يسجل النظام حتى حضوره".
علاقة وثيقة
عندما يرى الناس شيئًا غير متوقع ، ينظرون إليه بشكل أفضل. بغض النظر عن مدى البساطة التي تبدو عليها ، "ألق نظرة فاحصة" ، فإن هذا له عواقب معرفية حقيقية ويشرح لماذا يكون الذكاء الاصطناعي مخطئًا عندما يظهر شيء غير عادي.
عند معالجة الكائنات والتعرف عليها ، تقوم أفضل الشبكات العصبية الحديثة بتمرير المعلومات من خلال نفسها فقط في الاتجاه الأمامي. تبدأ بتحديد وحدات البكسل عند الإدخال ، والانتقال إلى المنحنيات والأشكال والمشاهد ، وإجراء التخمينات الأكثر احتمالًا في كل مرحلة. تؤدي أي مفاهيم خاطئة في المراحل المبكرة من العملية إلى أخطاء في النهاية عندما تجمع الشبكة العصبية "أفكارها" معًا لتخمين ما تبحث عنه.
يقول Totsosos: "في الشبكات العصبية ، تكون جميع العمليات مترابطة بشكل وثيق ، لذلك هناك دائمًا إمكانية أن تؤثر أي ميزة في أي مكان على أي نتيجة محتملة".
النهج البشري أفضل. تخيل أنك تلقيت نظرة سريعة على صورة لها دائرة ومربع ، أحدهما أحمر والآخر أزرق. بعد ذلك ، طُلب منك تسمية لون المربع. قد لا تكون لمحة سريعة كافية لتذكر الألوان بشكل صحيح. يأتي على الفور فهم أنك لست متأكدًا ، وتحتاج إلى النظر مرة أخرى. وهو أمر مهم للغاية ، أثناء العرض الثاني ، ستعرف بالفعل ما تحتاج إلى التركيز عليه.
"يقول النظام البصري البشري:" ما زلت لا أستطيع إعطاء الإجابة الصحيحة ، لذلك سأعود للتحقق من مكان حدوث الخطأ "، يوضح Totsotsos ، الذي يطور نظرية تسمى"
التناغم الانتقائي "تشرح هذه الميزة للإدراك البصري.
تفتقر معظم الشبكات العصبية إلى القدرة على العودة. هذه الميزة صعبة التصميم. تتمثل إحدى مزايا الشبكات أحادية الاتجاه في سهولة تدريبها نسبيًا - ما عليك سوى "تمرير" الصور من خلال الطبقات الست المذكورة والحصول على النتيجة. ولكن إذا كان على الشبكات العصبية أن "تبحث عن كثب" ، فإنها تحتاج أيضًا إلى التمييز بين الخط الدقيق ، وحين يكون من الأفضل العودة ، ومتى تستمر في العمل. يتحول دماغ الإنسان بسهولة وبشكل طبيعي بين مثل هذه العمليات المختلفة. وتحتاج الشبكات العصبية إلى قاعدة نظرية جديدة حتى يتمكنوا من فعل الشيء نفسه.
يعمل باحثون بارزون من جميع أنحاء العالم في هذا الاتجاه ، لكنهم بحاجة أيضًا إلى المساعدة. في الآونة الأخيرة ،
أعلن مشروع Google AI
عن مسابقة لمصنّفي الصور الذين يعتمدون على التعهيد الجماعي الذي يمكنه التمييز بين حالات التشويه المتعمد للصور. الحل الذي يمكن أن يميز بوضوح صورة الطائر عن صورة الدراجة سيفوز. ستكون هذه خطوة أولى متواضعة ولكنها مهمة للغاية.
