PartNet - قاعدة بيانات دلالات جديدة من الأشياء اليومية ، مع رفع درجة التفاهم من قبل الروبوتات من العالم المحيط إلى مستوى جديد
تحتوي قاعدة البيانات على 26،671 نموذجًا ثلاثي الأبعاد من 24 فئة من الكائنات ، تم تجهيز كل منها بمعلومات تفصيلية ثلاثية الأبعاد.تتمثل إحدى القدرات البشرية التي تسمح لنا بالتكيف جيدًا مع العالم من حولنا في التمكن من فهم الأشياء المختلفة دفعة واحدة في فئات كاملة ، ثم استخدام هذا الفهم المعمم للتعامل مع بعض الأشياء المحددة التي لم نواجهها من قبل. تخيل ، على سبيل المثال ، مصباح. لم ير أحد كل المصابيح في العالم. ولكن في معظم الحالات ، عندما ندخل المنزل الجديد لأول مرة ، يمكننا بسهولة العثور على جميع المصابيح هناك وفهم كيفية عملها. بالطبع ، في بعض الأحيان يمكننا أن نلتقي بشيء
غريب للغاية يقودنا إلى السؤال: "واو ، هل هذا المصباح؟ وكيف يمكن تشغيله؟ " لكن في معظم الحالات ، ينقذنا نموذج المصباح الذهني المعمم.
إنه يساعدنا على أن المصابيح ، مثل فئات الكائنات الأخرى ، بحكم التعريف ، لها العديد من المكونات الشائعة. المصابيح عادة ما تكون المصابيح. عادة ما يكون لديهم عاكس الضوء. قد يكون لديهم أيضًا موقف لمنعهم من السقوط ، وحامل ثلاثي القوائم فوق الأرض وسلك كهرباء. إذا رأيت كائنًا يحتوي على كل هذه العلامات ، فمن المحتمل أن يكون هذا مصباحًا ، وعندما تفهم ذلك ، يمكنك تخمين مستنير حول كيفية استخدامه.
غالبًا ما يتم إعطاء هذا المستوى من الفهم بشكل سيء للروبوتات ، وهو أمر غير سار ، لأن هذا شيء مفيد للغاية. يمكنك حتى القول أنه يمكننا الوثوق في الروبوتات للعمل بشكل مستقل في بيئة غير منظمة فقط عندما يمكنهم فهم الكائنات بمستوى قريب من تلك الموصوفة. في مؤتمر
CVPR 2019 للرؤية بالكمبيوتر والتعرف على الأنماط
، أعلن فريق من الباحثين من جامعة ستانفورد بجامعة كاليفورنيا وجامعة سان فرانسيسكو وإنتل عن إنشاء
PartNet ، وهي قاعدة بيانات ضخمة تحتوي على أشياء ثلاثية الأبعاد كل يوم ، تم تقسيمها إلى أجزاء ووصفها بالمستوى الذي يأملون فيه المبدعين من القاعدة ، سوف تساعد الروبوتات على فهم ما هو المصباح.
أمثلة على النماذج ذات التفاصيل الصغيرة الموضحة للكائنات من 24 فئةPartNet هي مجموعة فرعية من ShapeNet ، وهي قاعدة ثلاثية الأبعاد أكبر من 50000 كائن يومي. يحتوي PartNet على 26،671 كائنًا من 24 فئة (على سبيل المثال ، الأبواب والجداول والكراسي والمصابيح وأجهزة الميكروويف والساعات) ، ويتم تقسيم كل كائن إلى أجزاء محددة. إليك ما يبدو عليه الحال في مصباحين مختلفين تمامًا:
يتم ترتيب خصائص الكائنات في PartNet بواسطة خبراء في هياكل هرمية لكل فئة من الفئات ، على سبيل المثال ، للمصابيح. يتضمن القالب كائنات من أنواع مختلفة ، مثل مصباح الجدول (يسار) ومصباح السقف (يمين). تم تصميم القالب ليكون عميقًا وشاملاً ، يغطي أنواعًا مختلفة من الهياكل من الناحية الهيكلية ؛ في الوقت نفسه ، تظهر المكونات المتماثلة في المفهوم ، مثل المصباح الكهربائي أو عاكس الضوء ، في أنواع مختلفة.PartNet يجعل قاعدة بارزة لترميز جميع التفاصيل الصغيرة. تحتوي قواعد البيانات مثل ShapeNet عادة على عبارات مثل "هذه المجموعة الكاملة من الأشياء عبارة عن مصابيح" ، وفائدة قواعد البيانات هذه محدودة. PartNet ، على العكس من ذلك ، يوفر طريقة لفهم المصابيح على مستوى أساسي: ما الأجزاء التي تتكون منها ، وما هي السيطرة عليها ، وما إلى ذلك. هذا لا يساعد فقط على تعميم اكتشاف المصابيح التي لم يلبها الكمبيوتر من قبل بشكل أفضل ، ولكنه يتيح أيضًا للنظام المستقل تخمين كيفية التفاعل بشكل منتج مع المصابيح الجديدة.
كما يمكنك أن تتخيل ، كان إنشاء PartNet مهمة تستغرق وقتًا طويلاً للغاية. قضى ما يقرب من 70 "مترجمًا محترفًا" ما معدله 8 دقائق في المتوسط لكل من النماذج ثلاثية الأبعاد 26671 التي تصف 573 585 جزءًا ، ثم تم فحص كل وصف بواسطة مترجم واحد على الأقل. للحفاظ على التوحيد ، تم إنشاء قوالب لكل فئة من الكائنات ، والتي كان من المفترض أن تقلل من مجموعة الأجزاء ، ولكن في نفس الوقت تأكد من أن قاعدة البيانات تصف بشكل شامل كل شيء ضروري لتحديد فئة الكائنات بأكملها. يتم أيضًا تنظيم مكونات الكائنات بشكل هرمي ، والمكونات الأصغر جزءًا من العناصر الأكبر. إليك كيفية رسمها:
لكي تكون هذه البيانات مفيدة خارج PartNet ، تحتاج الروبوتات إلى معرفة كيفية إجراء تجزئة ثلاثية الأبعاد بشكل مستقل ، وقبول نموذج ثلاثي الأبعاد للكائن (تم إنشاؤه بواسطة الروبوت نفسه) وتقسيمها إلى أجزاء يمكن تحديدها وترتبط بنماذج الكائنات الموجودة. هذا أمر صعب لأسباب عديدة: على سبيل المثال ، يجب أن تكون قادرًا على تحديد الأجزاء الفردية بواسطة السحب نقطة ، والتي يمكن أن تكون صغيرة ولكنها مهمة (مثل المقابض في الأدراج) ، والعديد من أجزاء الكائنات التي تبدو وكأنها يمكن أن تكون مختلفة بشكل واضح .
حقق الباحثون بعض التقدم في هذا المجال ، لكن هذه القضايا تتطلب مزيدًا من العمل. سيساعد PartNet أيضًا في هذا الأمر ، حيث يوفر مجموعة بيانات يمكن استخدامها لتطوير خوارزميات محسّنة. في مرحلة ما ، قد تصبح PartNet جزءًا من أساس الأنظمة التي يمكنها بناء نماذج ثلاثية الأبعاد مشابهة تمامًا بشكل مستقل ، تمامًا مثل مجموعات البيانات الخاصة بالسيارات الآلية تنتقل من تجميعها بشريًا إلى تجميعها بالكمبيوتر تحت إشراف بشري. سيكون الوصول إلى هذا المستوى من الفهم الدلالي لبيئة غير مألوفة وغير منظمة أمرًا أساسيًا في إنشاء روبوتات يمكنها التكيف مع العالم الواقعي الذي كنا ننتظره لفترة طويلة.