حدود خوارزميات التعرف على الصور



لا ، لا يتعلق الأمر بخوارزميات التعرف على الصور - إنه يتعلق بالقيود المفروضة على استخدامها ، خاصة عند إنشاء الذكاء الاصطناعى.

في رأيي ، فإن التعرف على الصور المرئية من قبل شخص ونظام كمبيوتر مختلف للغاية - لدرجة أنه لا يوجد به الكثير من القواسم المشتركة. عندما يقول شخص ما "أرى" ، فإنه يفكر أكثر مما يراه ، وهو أمر لا يمكن قوله عن نظام كمبيوتر مزود بمعدات للتعرف على الصور.

أعلم أن الفكرة ليست جديدة ، لكنني أقترح مرة أخرى التأكد من صحتها من خلال مثال روبوت يدعي أنه يمتلك ذكاء. سؤال الاختبار هو: ما هو نوع الروبوت الذي يجب على العالم المحيط رؤيته ليصبح كاملاً كشخص؟

بالطبع ، يجب أن يتعرف الروبوت على الأشياء. أوه نعم ، الخوارزميات تتعامل مع هذا - من خلال التدريب على العينات الأصلية ، كما أفهمها. لكن هذه كارثية صغيرة!

I.
أولاً ، يتكون كل كائن من العالم المحيط من العديد من الكائنات ، وهو بدوره مجموعة فرعية من الكائنات الأخرى. أنا أسمي هذا العقار التعشيش. ولكن ماذا لو لم يكن للموضوع اسمًا ، لذا فهو ليس في قاعدة العينات الأصلية المستخدمة لتعلم الخوارزمية - ما الذي يجب على الروبوت التعرف عليه في هذه الحالة؟

لا تحتوي السحابة التي أشاهدها حاليًا في النافذة على أجزاء محددة ، على الرغم من أنها تتكون بوضوح من حواف ووسط. ومع ذلك ، لا توجد شروط خاصة للحواف ووسط السحابة ، ولا يتم صياغتها. للإشارة إلى كائن غير مسمى ، استخدمت صيغة لفظية ("سحابة" - نوع كائن ، "حافة سحابة" - صيغة لفظية) ، غير مدرجة في إمكانيات خوارزمية التعرف على الصور.

اتضح أن الخوارزمية دون كتلة منطقية هي ذات فائدة قليلة. إذا اكتشفت الخوارزمية جزءًا من الكائن بالكامل ، فلن تكون دائمًا قادرة على اكتشاف - وفقًا لذلك ، لن يتمكن الروبوت من تحديد ما هو عليه.

II.
ثانياً ، قائمة الكائنات التي تشكل العالم غير مغلقة: يتم تحديثها باستمرار.

يتمتع الشخص بالقدرة على بناء كائنات واقعية ، مع تخصيص أسماء لكائنات جديدة مكتشفة ، على سبيل المثال ، أنواع الحيوانات. سوف يسمي حصانًا برأس بشري وجذعًا كأنه سنتور ، ولكن لهذا ، سيدرك أولاً أن المخلوق له رأس بشري وجذع ، وكل شيء آخر يكون خيليًا ، وبالتالي يتعرف على الكائن الذي يُرى ككائن جديد. هذا ما يفعله العقل البشري. وستحدد الخوارزمية ، في حالة عدم وجود بيانات المدخلات ، مثل هذا المخلوق إما كشخص أو كحصان: وبدون التشغيل بخصائص الأنواع ، لن يكون بمقدورها إنشاء تراكبها.

لكي يصبح الروبوت كإنسان ، يجب أن يكون قادرًا على تحديد أنواع جديدة من الكائنات له وتخصيص أسماء لهذه الأنواع. في أوصاف النوع الجديد ، يجب أن تظهر خصائص الأنواع المعروفة. وإذا كان الروبوت لا يعرف كيف ، فلماذا نحتاجه على الأرض ، جميل جداً؟

دعنا نقول أننا نرسل روبوت استطلاع إلى المريخ. يرى الروبوت شيئًا غير عادي ، لكنه قادر على تحديد كائن حصريًا بمصطلحات أرضية معروفة له. ما الذي سيمنح هذا الناس الاستماع إلى الرسائل اللفظية القادمة من الروبوت؟ في بعض الأحيان ، سيعطي شيئًا ، بالطبع (إذا تم العثور على كائنات أرضية على المريخ) ، وفي حالات أخرى ، لا شيء (إذا لم تكن الكائنات المريخية مماثلة للأجسام الأرضية).

الصورة مسألة أخرى: الشخص نفسه سيكون قادرًا على رؤية كل شيء وتقييمه وتسميته بشكل صحيح. فقط من خلال عدم وجود خوارزمية التعرف على الصور المدربة مسبقًا ، ولكن من خلال عقلك البشري الذي تم إنشاؤه بطريقة أكثر دهاءًا.

III.
ثالثا ، هناك بعض المشاكل في إضفاء الطابع الشخصي على الأشياء.

العالم من حوله يتكون من كائنات محددة. في الواقع ، يمكنك فقط رؤية كائنات محددة. لكن في بعض الحالات ، يجب أن يكونوا فرديين لفظيًا ، حيث يتم استخدام إما أسماءهم الشخصية ("Vasya Petrov") ، أو إشارة بسيطة إلى كائن معين ، واضح أو ضمني ("هذا الجدول"). ما أسميه أنواع الكائنات ("الأشخاص" ، "الجداول") هو مجرد أسماء جماعية للكائنات التي لها خصائص مشتركة معينة.

خوارزميات التعرف على الصور ، إذا تم تدريبها على العينات الأصلية ، ستكون قادرة على التعرف على الكائنات الفردية وغير الفردية - وهذا أمر جيد. التعرف على الوجوه في الأماكن المزدحمة وكل ذلك. الأمر السيئ هو أن مثل هذه الخوارزميات لن تفهم الأشياء التي يجب التعرف عليها على أنها تمتلك الفردانية وأيها لا يستحقها على الإطلاق.

يجب على الروبوت ، بصفته مالك الذكاء الاصطناعي ، أن يصطدم أحيانًا برسائل مثل:
- أوه ، ورأيت هذه المرأة العجوز قبل أسبوع!

لكن ليس من المجدي إساءة استخدام مثل هذه النسخ المتماثلة حول شفرات العشب ، خاصة وأن هناك مخاوف راسخة حول مدى كفاية القدرة الحاسوبية لأداء هذه المهمة.

ليس من الواضح بالنسبة لي أين يتم رسم الخط الفاصل بين امرأة عجوز فردية وريش عشب لا تعد ولا تحصى من العشب ، فردية لا تقل عن امرأة عجوز ، ولكنها لا تهم أي شخص من وجهة نظر التفرد. ما هي الصورة المعترف بها بهذا المعنى؟ لا شيء تقريبًا - بداية تصور صعب مؤلم للواقع المحيط.

IV.
الرابعة ، وديناميات الكائنات ، التي يحددها ترتيب المكاني المتبادل بينهما. هذا ، أنا أقول لك ، هو شيء!

أجلس أمام المدفأة على كرسي عميق وأحاول الآن الاستيقاظ.
"ماذا ترى ، الروبوت؟"

من وجهة نظرنا اليومية ، يراني الروبوت وهو يقف على كرسي. ماذا يجب أن يجيب؟ ربما تكون الإجابة ذات الصلة هي:
"أراك تستيقظ من مقعدك."

للقيام بذلك ، يجب أن يعرف الروبوت من أنا ، ما هو الكرسي وماذا يعني أن يرتفع ...

ستتمكن خوارزمية التعرف على الصور بعد الإعدادات المناسبة من التعرف علىي والكرسي ، ثم من خلال مقارنة الإطارات يمكننا تحديد حقيقة الإزالة المتبادلة لي من الكرسي ، ولكن ماذا يعني "الارتفاع"؟ كيف يحدث "الارتقاء" في الواقع المادي؟

إذا كنت قد نهضت بالفعل ومشىت ، فإن كل شيء بسيط للغاية. بعد أن ابتعدت عن الكرسي ، لم تغير جميع الأشياء الموجودة في المكتب الوضع المكاني بالنسبة لبعضها البعض ، باستثناءي ، الذي كان أصلاً في الكرسي ، وبعد فترة من الوقت كان بعيدًا عن الكرسي. يجوز أن أستنتج أنني تركت الكرسي.

إذا كنت ما زلت في مرحلة الاستيقاظ من الكرسي ، فكل شيء أكثر تعقيدًا إلى حد ما. ما زلت بجانب الكرسي ، لكن الوضع المكاني النسبي لأجزاء جسدي قد تغير:

  • في البداية كان الساق والجذع في وضع مستقيم ، وكان الفخذ في وضع أفقي (كنت أجلس) ،
  • في اللحظة التالية ، كانت جميع أجزاء الجسم في وضع مستقيم (وقفت).

راقب سلوكي كشخص ، سوف يستنتج على الفور أنني أرتفع من كرسي. بالنسبة إلى الشخص ، لن يكون هذا نتيجة منطقية بقدر ما هو تصور مرئي: إنه سيراني حرفيًا وهو يرتفع من مقعدي ، رغم أنه في الحقيقة سيشهد تغييرًا في الموضع النسبي لأجزاء من جسدي. ومع ذلك ، في الواقع سيكون استنتاجًا منطقيًا أن على شخص ما أن يشرح للروبوت ، أو أن الروبوت يجب أن يعمل على التوصل إلى هذا الاستنتاج المنطقي من تلقاء نفسه.

كلاهما بنفس القدر من الصعوبة:

  • لدخول المعلومات الأساسية لقاعدة المعرفة أن الوقوف هو تغيير تسلسلي في الموقف المكاني المتبادل لأجزاء معينة من الجسم بطريقة ما ليست ملهمة ؛
  • ليس من الغباء أن يأمل أن الروبوت ، كمخلوق تفكير مصطنع ، سيخمن في حد ذاته بسرعة أن التغيير في الموقع المكاني المتبادل لأجزاء معينة من الجسم الموصوفة أعلاه يسمى الوقوف. في البشر ، تستغرق هذه العملية سنوات ، كم سيستغرق روبوت؟

وما علاقة خوارزميات التعرف على الصور بها؟ لن يتمكنوا أبدًا من تحديد أنني أستيقظ من كرسي.

V.
"الوقوف" هو مفهوم تجريدي ، يتم تحديده عن طريق تغيير في خصائص الأشياء المادية ، في هذه الحالة ، تغيير في موقفهم المكاني المتبادل. في الحالة العامة ، ينطبق هذا على أي مفاهيم مجردة ، لأن المفاهيم المجردة نفسها لا وجود لها في العالم المادي ، ولكنها تعتمد اعتمادًا كليًا على الكائنات المادية. على الرغم من أننا في كثير من الأحيان نرى لهم كما لوحظ شخصيا.

لتحريك الفك إلى اليمين أو اليسار ، دون فتح الفم - ما يسمى هذا الإجراء؟ لكن بأي حال من الأحوال. مما لا شك فيه ، لسبب أن هذه الحركة غير معهود بشكل عام للشخص. باستخدام الخوارزميات التي نوقشت ، سيرى الروبوت شيئًا ما ، ولكن ما هي الفائدة؟ في قاعدة العينات الأولية ، سيكون الاسم المطلوب غائبًا ، وسيكون من الصعب تسمية الإجراء المسجل للروبوت. ولإعطاء تركيبات لفظية مفصلة لأعمال غير محددة ، وكذلك لمفاهيم مجردة أخرى ، لا يتم تدريب خوارزميات التعرف على الصور.

في الواقع ، لدينا نسخة مكررة من الفقرة الأولى ، ليس فقط فيما يتعلق بالكائنات ، ولكن بالنسبة للمفاهيم المجردة. ومع ذلك ، يمكن أيضًا ربط بقية الفقرات ، السابقة والتالية ، بالمفاهيم المجردة - أود فقط الانتباه إلى زيادة مستوى التعقيد عند التعامل مع التجريدات.

VI.
السادسة ، علاقة سببية.

تخيل أنك تشاهد شاحنة صغيرة تحلق من على الطريق وتهدم سياجًا. السبب في هدم السور هو حركة الالتقاط ، وبالتالي فإن حركة الالتقاط تؤدي إلى هدم السور.

- رأيته بأم عيني!
هذا هو الجواب على السؤال عما إذا كنت قد رأيت ما حدث أو فكرت فيه. وماذا رأيت فعلا؟

بعض العناصر في هذه الديناميات:

  • شاحنة بيك آب خرجت من الطريق
  • جاء بيك اب على مقربة من السياج ،
  • لقد تغير السياج الشكل والموقع.

استنادًا إلى الإدراك البصري ، يجب أن يدرك الروبوت أنه في الحالة المعتادة ، لا تغير الأسوار شكلها وموقعها: حدث هذا كنتيجة للتواصل مع السيارة الصغيرة. يجب أن يكون السبب والنتيجة في اتصال مع بعضهما البعض ، وإلا فإن العلاقة السببية غائبة في علاقتهما.

على الرغم من أننا نقع هنا في فخ منطقي ، لأن الكائنات الأخرى يمكنها الاتصال بنتيجة الموضوع ، وليس فقط سبب الموضوع.

لنفترض ، في وقت الالتقاط ضرب الغراب على السياج. كانت شاحنة بيك آب وغرابًا على اتصال مع السياج في نفس الوقت: كيف يتم تحديد النتيجة التي تم بها هدم السياج؟

ربما باستخدام التكرار:

  • في كل حالة ، عندما يوضع الغراب على السياج ، يتم هدم السياج ، ويكون الغراب مسؤولاً ؛
  • في حالة حدوث تصادم في السياج في كل حالة ، يكون اللوم هو المسئول.

وبالتالي ، فإن الاستنتاج الذي مفاده أن السياج تم هدمه ليس مجرد ملاحظة ، ولكن نتيجة لتحليل يعتمد على مراقبة الأشياء على اتصال.

من ناحية أخرى ، يمكن تنفيذ الإجراء على مسافة ، على سبيل المثال ، عمل المغناطيس على جسم حديدي. كيف يخمن الروبوت أن تحريك المغناطيس بالقرب من الظفر يسبب اندفاع الظفر نحو المغناطيس؟ الصورة المرئية ليست مثل هذا:

  • يقترب المغناطيس ، ولكن ليس على اتصال مع الظفر ،
  • في نفس الوقت ، يندفع الظفر إلى المغناطيس بمبادرة منه ويتلامس معه.

كما ترون ، من الصعب للغاية تتبع علاقات السبب والنتيجة ، حتى في الحالات التي يعلن فيها الشاهد باقتناع صارم أنه رآه بأم عينيه. خوارزميات التعرف على الصور عاجزة هنا.

VII.
السابع والأخير ، وهذا هو اختيار أهداف الإدراك البصري.

قد تتكون الصورة المرئية المحيطة من مئات وآلاف الكائنات المتداخلة في بعضها البعض ، وكثير منها يغير باستمرار وضعه المكاني وخصائصه الأخرى. من الواضح أن الروبوت لا يحتاج إلى إدراك كل شفرة من العشب في الميدان ، مثل كل وجه في أحد شوارع المدينة: تحتاج فقط إلى إدراك المهمة ، اعتمادًا على المهام التي يتم تنفيذها.

من الواضح أن ضبط خوارزمية التعرف على الصور وفقًا لتصور بعض الكائنات وتجاهلها لن ينجح ، حيث قد لا يكون معروفًا مسبقًا ما الذي يجب الانتباه إليه وما يجب تجاهله ، خاصة وأن الأهداف الحالية يمكن أن تتغير على طول الطريق. قد ينشأ موقف عندما تحتاج أولاً إلى إدراك عدة آلاف من الكائنات المتداخلة في بعضها البعض - حرفيًا كل منها - لتحليلها وعندها فقط تصدر حكمًا بشأن الأشياء الضرورية لحل المشكلة الحالية والتي لا تهمك. هذه هي الطريقة التي ينظر بها الشخص إلى العالم من حوله: فهو يرى فقط المهم ، وليس الاهتمام بأحداث الخلفية غير المثيرة للاهتمام. كيف ينجح هو سر.

والروبوت ، حتى المجهز بأحدث خوارزميات التعرف على الصور وإبداعها؟ .. إذا ، أثناء هجوم من قبل المريخيين ، بدأ تقريرًا به تقارير عن الطقس واستمر في وصف المشهد الجديد المنتشر أمامه ، فقد لا يكون لديه وقت للإبلاغ عن الهجوم نفسه.

النتائج

  1. التعرف البسيط على الصور المرئية لن يحل محل عيون البشر.
  2. تعد خوارزميات التعرف على الصور أداة مساعدة ذات نطاق ضيق جدًا.
  3. لكي يبدأ الروبوت ليس فقط في التفكير ، ولكن على الأقل لرؤية إنسانيًا ، فإن الخوارزميات مطلوبة ليس فقط للتعرف على الأنماط ، ولكن أيضًا من أجل التفكير البشري الكامل وغير المستحيل.

Source: https://habr.com/ru/post/ar450422/


All Articles