بعد إضافة عوامل عشوائية إلى محاكاة بسيطة نسبيًا ، تعلم الروبوت من OpenAI كيفية إجراء العمليات المعقدة المحمولة باليد

العمليات المحمولة باليد - يعد هذا أحد تلك الإجراءات التي تقع على رأس قائمة "المهارات التي لا تتطلب جهودًا من الأشخاص ، وهي صعبة للغاية بالنسبة للروبوتات". بدون تردد ، نحن قادرون على التحكم بأصابع اليد بشكل متكيف ، ومعارضتها بالإبهام والنخيل ، مع مراعاة الاحتكاك والجاذبية ، والتعامل مع الأشياء بيد واحدة ، وليس باستخدام اليد الأخرى - ربما قمت بهذه الخدعة عدة مرات اليوم ، على الأقل باستخدام هاتفك.
يستغرق الأشخاص سنوات من التدريب لتعلم كيفية العمل بشكل موثوق بأصابعهم ، ولكن الروبوتات ليس لديها الكثير من الوقت للتعلم. لا تزال هذه المهام المعقدة يتم حلها من خلال التدريب العملي واكتساب الخبرة ، والمهمة هي إيجاد طريقة لتدريب الروبوت بشكل أسرع وأكثر كفاءة من مجرد إعطاء الذراع الآلية شيئًا يمكن التلاعب به مرارًا وتكرارًا حتى يدرك ذلك يعمل وما لا يعمل ؛ قد يستغرق الأمر مائة عام.
بدلاً من الانتظار مائة عام ،
استخدم باحثو
OpenAI تدريبات التعزيز لتدريب
شبكة نيوترونية تلافيفية للتحكم في اليد الخماسية لروبوت الظل للتعامل مع الأشياء - وخلال 50 ساعة فقط. تمكنوا من القيام بذلك من خلال محاكاة ، وهي تقنية سيئة السمعة بأنها "محكوم عليها بالنجاح" - ومع ذلك ، فقد أدخلوا بعناية عوامل عشوائية فيها لتقريبها من تقلبات العالم الحقيقي. كانت يد الظل الحقيقية قادرة على تنفيذ التلاعب باليد المحمولة بأشياء حقيقية دون أي إعادة تدريب.
من الناحية المثالية ، يجب تدريب جميع الروبوتات على المحاكاة ، لأنه يمكن تحجيم المحاكاة دون إنشاء العديد من الروبوتات الحقيقية. هل تريد تدريب dofigillion الروبوتات dofigillion ساعة في جزء واحد من dofigillion من الثانية؟ يمكن القيام بذلك - إذا حصلت على كمية كافية من قوة الحوسبة. ولكن حاول تحريكها في العالم الحقيقي - ومشكلة عدم معرفة أي شخص بالضبط كم سيكون "dofigillion" ، سيكون أقل مشاكلك.
تكمن مشكلة تدريب الروبوتات في المحاكاة في أنه لا يمكن محاكاة العالم الحقيقي بدقة - بل والأكثر صعوبة في محاكاة المشاكل البسيطة بدقة مثل الاحتكاك والليونة وتفاعل العديد من الأشياء. لذلك ، من المقبول عمومًا أن المحاكاة رائعة ، ولكن هناك فجوة كبيرة ورهيبة بين نجاح المحاكاة والنجاح في العالم الحقيقي ، مما يقلل بشكل ما من قيمة المحاكاة. حقيقة أن تلك الأشياء التي سيكون من الجميل أن تحاكيها (على سبيل المثال ، التلاعب باليد) في نفس الوقت تبين أنها الأصعب بالنسبة للمحاكاة الدقيقة لا تحسن الوضع ، بسبب مدى تعقيدها المادي.
من الطرق الشائعة لهذه المشكلة محاولة جعل المحاكاة دقيقة قدر الإمكان ، ونأمل أن تكون قريبة بما يكفي من العالم الحقيقي حتى تتمكن من استخراج بعض السلوك المفيد منها. بدلاً من ذلك ، لا تضع OpenAI الدقة في المقام الأول ، بل التباين ، حيث تزود المحاكاة الواقعية المعتدلة بالعديد من التعديلات الصغيرة بحيث يكون السلوك الناتج موثوقًا بما يكفي للعمل خارج المحاكاة.
عملية التوزيع العشوائي هي المفتاح لما يجعل النظام (يسمى Dactyl) قادرًا على الانتقال بفعالية من المحاكاة إلى العالم الحقيقي. تدرك OpenAI جيدًا أن المحاكاة التي يستخدمونها ليست معقدة بما يكفي لمحاكاة جبل من أهم الأشياء ، من الاحتكاك إلى ارتداء أطراف أصابع ذراع الروبوت الحقيقي. لكي يتمكن الروبوت من تعميم ما يتعلمه ، يقدم OpenAI متغيرات عشوائية في جميع الجوانب الممكنة للمحاكاة من أجل محاولة تغطية جميع تقلبات العالم التي لا يمكن تصميمها بشكل جيد. وهذا يشمل الكتلة ، وجميع قياسات الجسم ، واحتكاك سطحه وأصابع الروبوت ، وتخميد أصابع الروبوت ، وقوة المحركات ، والحد من المفاصل ، واللعب وضوضاء المحرك ، وما إلى ذلك. يتم تطبيق التأثيرات العشوائية الصغيرة على الكائن بحيث تتواءم المحاكاة مع الديناميكيات التي لا يمكن نمذجتها. وهذه ليست سوى عملية التلاعب نفسها - في عمل كاميرات RGB التي تقيم موضع كائن ما ، هناك أيضًا الكثير من المتغيرات العشوائية ، والتي ، مع ذلك ، أسهل قليلاً في تصورها.
تعرض الصفوف صورًا من نفس الكاميرا. تتوافق الأعمدة مع الصور مع تغييرات عشوائية - يتم تغذيتها كلها في وقت واحد من خلال الشبكات العصبية.يطلق OpenAI على هذا "التوزيع العشوائي للبيئة" ، وفي حالة التلاعب باليد ، "أرادوا معرفة ما إذا كان زيادة نطاق التوزيع العشوائي للبيئة يمكن أن يحل مشكلة غير متوفرة لتقنيات الروبوتات اليوم." وهكذا ، ما حدث نتيجة لنظامين مدربين بشكل مستقل (أحدهما بصري ، والثاني للتلاعب) يتعرفان بصريًا على موضع المكعب ويدورانه في أوضاع مختلفة.
كل هذه التدويرات المكعبة (والنظام قادر على ما لا يقل عن 50 معالجة ناجحة على التوالي) أصبحت ممكنة بفضل 6144 معالج و 8 GPUs التي اكتسبت 100 عام من تجربة الروبوت المحاكى في 50 ساعة فقط. ردود الفعل الوحيدة المتاحة للنظام (سواء في المحاكاة أو في الواقع) هي موقع المكعب والأصابع ، بينما بدأ النظام دون أي فهم محدد لكيفية الإمساك بالمكعب أو تدويره. كان عليها أن تتعامل مع كل هذا بشكل مستقل - بما في ذلك دوران أصابعها ، والتنسيق المتزامن لعدة أصابع ، واستخدام الجاذبية ، وتنسيق تطبيق القوات. اخترع الروبوت نفس التقنيات التي يستخدمها الناس ، مع ذلك ، مع تعديلات صغيرة (ومثيرة للاهتمام):
لالتقاط كائن بوضوح ، يستخدم الروبوت عادةً الإصبع الصغير بدلاً من السبابة أو الأصابع الوسطى. ربما يرجع ذلك إلى وجود يد الظل المهذبة مع درجة إضافية من الحرية مقارنةً بالفهرس والأصابع الوسطى والحلقية ، مما يجعلها أكثر حركة. في البشر ، عادة ما يكون المؤشر والأصابع الوسطى أكثر حركة. هذا يعني أن نظامنا قادر على اختراع تقنية الإمساك المتاحة للناس بشكل مستقل ، ولكن من الأفضل تكييفها مع القيود والإمكانيات الخاصة بهم.
الأنواع المختلفة من السيطرة التي تعلمها النظام. من اليسار إلى اليمين ومن أعلى إلى أسفل: قبضة بأطراف أصابعك ، وقبضة راحة اليد ، وقبضة ثلاثة أصابع ، وأربعة ، وخمسة أصابع ، وقبضة قوية.لاحظنا موازًا آخر مثيرًا للاهتمام في عمل أصابع الناس وروبوتنا. وفقًا لهذه الإستراتيجية ، تحمل اليد جسمًا بإصبعين وتدور حول هذا المحور. اتضح أنه في الأطفال الصغار ، لا تزال هذه الحركة لا تملك الوقت الكافي للتطور ، لذلك عادة ما تقوم بتدوير الأشياء باستخدام السيلان القريب أو الأوسط
من الأصابع . وفقط في وقت لاحق من الحياة ، يتحولون إلى الكتائب البعيدة ، كما يفعل معظم البالغين. ومن المثير للاهتمام ، يعتمد الروبوت لدينا عادةً على الكتائب البعيدة عند الضرورة لتدوير شيء.
ميزة التكنولوجيا هي أنه ، كما اتضح ، لا يزال من الممكن تدريب الروبوتات على الإجراءات الجسدية المعقدة في المحاكاة ، ثم استخدام المهارات المتراكمة على الفور في الواقع - وهذا إنجاز رائع حقًا ، لأن التدريب في المحاكاة أسرع بكثير من الواقع .
اتصلنا بجوناس شنايدر ، عضو الفريق الفني لـ OpenAI ، للاستفسار عن هذا المشروع.
التحرير : لماذا يعتبر التلاعب باليد في الروبوتات مهمة صعبة؟
جوناس شنايدر : تتم التلاعبات في مساحة محدودة جدًا ، ويتوفر عدد كبير من درجات الحرية للروبوت. تتطلب استراتيجيات المعالجة الناجحة التنسيق المناسب في جميع درجات الحرية هذه ، وهذا يقلل من حجم الخطأ المسموح به مقارنة بالتفاعلات التقليدية مع الأشياء ، مثل ، على سبيل المثال ، الالتقاط البسيط. أثناء التلاعب باليد ، يتم تسجيل الكثير من الاتصال مع الكائن. إن نمذجة جهات الاتصال هذه مهمة صعبة ، وعرضة للأخطاء. يجب التحكم في الأخطاء أثناء التنفيذ أثناء عمل اليد ، مما يسبب مشاكل في النهج التقليدي بناءً على حركات التخطيط مسبقًا. على سبيل المثال ، قد تنشأ مشكلة عندما يكون لديك ملاحظات
خطية لا تسجل الديناميات غير الخطية لما يحدث.
على ما يبدو ، المتغيرات العشوائية هي المفتاح لضمان أن المهارات المكتسبة في المحاكاة يمكن تطبيقها بشكل موثوق في الواقع. كيف تقرر ما هي المعلمات لجعل عشوائي وكيف بالضبط؟أثناء المعايرة ، نقدر تقريبًا المعلمات التي يمكن أن تختلف ، ثم نقرر أي منها سيكون الأكثر أهمية في التكاثر في المحاكاة. ثم نقوم بتعيين قيم هذه المعلمات تساوي قيم المعايرة ، ونضيف اختلافات عشوائية في منطقة متوسط القيمة. يعتمد اتساع الاختلافات على ثقتنا - على سبيل المثال ، حجم الجسم الذي لم نتغير كثيرًا ، لأنه يمكننا قياسه بدقة.
استندت بعض الاختلافات العشوائية إلى الملاحظات التجريبية. على سبيل المثال ، لاحظنا كيف يسقط الروبوت في بعض الأحيان شيئًا ما ، ويخفض الفرشاة ، وليس لديه الوقت لرفعها حتى يخرج الجسم منها. وجدنا أنه بسبب مشاكل مع وحدة التحكم ذات المستوى المنخفض ، قد يتأخر تنفيذ إجراءاتنا أحيانًا عدة مئات من الثواني. ويمكننا ، بالطبع ، أن نضع طاقتنا في جعل وحدة التحكم أكثر موثوقية ، ولكن بدلاً من ذلك قمنا فقط بإضافة التوزيع العشوائي إلى وقت استجابة كل وحدة تحكم. يبدو لنا أنه على مستوى أعلى قد يتحول هذا إلى نهج مثير للاهتمام لتطوير الروبوتات في المستقبل. بالنسبة لبعض المهام ، يمكن أن يكون تطوير معدات دقيقة للغاية مكلفًا بشكل غير مقبول ، وقد أظهرنا كيف يمكن تصحيح عيوب هذه المعدات باستخدام خوارزميات أكثر تقدمًا.
كيف تعتقد أن نتائجك ستتحسن إذا لم تنتظر 100 عام من وقت المحاكاة ، ولكن ، على سبيل المثال ، 1000؟للحصول على مثال لمهمة محددة ، من الصعب تقييم هذا ، حيث لم نختبر أكثر من 50 دورة. ليس من الواضح حتى الآن بالضبط كيف يبدو منحنى الخصائص المقارب ، ولكننا نعتبر أن مشروعنا قد اكتمل ، لأنه حتى تحول واحد ناجح يتجاوز قدرات أفضل طرق التدريس الموجودة اليوم. في الواقع ، لقد اخترنا الرقم 50 دورة ، لأننا قررنا أن 25 دورة ستثبت بالتأكيد أن المشكلة قد تم حلها ، ثم أضفنا 25 دورة أخرى بهامش 100٪. إذا كانت مهمتك هي تحسين التسلسلات الطويلة جدًا من الإجراءات والموثوقية العالية ، فمن المحتمل أن تساعد زيادة التدريب. ولكن في مرحلة ما ، كما نعتقد ، سيبدأ الروبوت في التكيف أكثر مع المحاكاة ، وسيعمل بشكل أسوأ في العالم الحقيقي ، وبعد ذلك سيكون عليك إضافة المزيد من العشوائية لتعقيد المحاكاة ، والتي بدورها ستزيد من موثوقية النظام النهائي.
إلى أي مدى يمكن تعميم نتائجك؟ على سبيل المثال ، ما مقدار الجهد الذي ستضطر إلى إنفاقه على التدريبات المتكررة لتدوير مكعب أصغر ، أو مكعب ناعم أو زلق؟ ماذا عن ترتيب الكاميرا المختلفة؟بالمناسبة ، من أجل الاهتمام ،
حاولنا معالجة المكعبات الناعمة والمكعبات الصغيرة ، وتبين أن جودة العمل لا تنخفض كثيرًا مقارنةً بتدوير مكعب صلب. في المحاكاة ، جربنا أيضًا مكعبات بأحجام مختلفة ، وقد نجح ذلك أيضًا (على الرغم من أننا لم نحاول ذلك باستخدام روبوت حقيقي). في المحاكاة ، استخدمنا أيضًا اختلافات عشوائية في حجم المكعب. لم نحاول القيام بذلك ، ولكن أعتقد أنه إذا قمنا ببساطة بزيادة تناثر الاختلافات العشوائية في حجم المكعب في المحاكاة ، فستكون اليد قادرة على معالجة المكعبات ذات الأحجام المختلفة.
أما بالنسبة للكاميرات ، فقد تم تدريب النموذج البصري بشكل منفصل ، وحتى الآن نقوم بعمل اختلافات عشوائية صغيرة فقط في موضع الكاميرات ، لذلك مع كل تغيير في موضع الكاميرا ، نبدأ التدريب مرة أخرى. يعمل أحد المتدربين لدينا ، Xiao-Yu Fish Tan ، على جعل النموذج البصري مستقلاً تمامًا عن موقع الكاميرات ، باستخدام نفس التقنية الأساسية لتغيير موضع الكاميرا وتوجيهها بشكل عشوائي على حدود كبيرة.
كيف يختلف التدريب في المحاكاة عن نهج القوة الغاشمة ، الذي يستخدم مجموعة من الروبوتات الحقيقية؟ومن المثير للاهتمام أن مشروعنا بدأ بحقيقة أننا شككنا في فكرة استخدام المحاكاة لتعزيز الروبوتات. لسنوات عديدة ،
نراقب كيف تحقق الروبوتات نتائج رائعة في المحاكاة باستخدام التعلم المعزز. ومع ذلك ، في المحادثات مع الباحثين المشاركين في الروبوتات الكلاسيكية ، نواجه باستمرار انعدام الثقة بأن مثل هذه الأساليب ستعمل في العالم الحقيقي. المشكلة الرئيسية هي أن أجهزة المحاكاة ليست دقيقة تمامًا من وجهة نظر مادية (حتى لو كانت تبدو جيدة للعين البشرية). يضيف المشاكل وحقيقة أن المحاكاة الأكثر دقة تتطلب المزيد من قوة الحوسبة. لذلك ، قررنا إنشاء معيار جديد يتطلب العمل مع منصة معقدة للغاية من حيث المعدات ، وعلينا أن نواجه كل قيود المحاكاة.
أما بالنسبة لمقاربة "مزرعة الرسغ" ، فإن القيد الرئيسي في تدريب الروبوتات المادية هو قابلية تطوير المهارات المكتسبة لمهام أكثر تعقيدًا. يمكن القيام بذلك عن طريق ترتيب كل شيء بحيث يكون لديك العديد من الأشياء في بيئة استقرار ذاتي لا تحتوي على حالات مختلفة (على سبيل المثال ، سلة من الكرات). ولكن سيكون من الصعب جدًا القيام بنفس الطريقة لمهمة تجميع شيء ما ، عندما يكون نظامك في حالة جديدة بعد كل تشغيل. مرة أخرى ، بدلاً من إعداد النظام بأكمله مرة واحدة ، يجب عليك إعداده N مرات ، والحفاظ على تشغيله بعد ، على سبيل المثال ، اجتاحت الروبوت وكسر شيء ما. كل هذا أبسط وأسهل في المحاكاة بقوة حوسبة مرنة.
ونتيجة لذلك ، يدعم عملنا فكرة التدريب على المحاكاة ، حيث أظهرنا كيفية حل مشكلة النقل حتى في حالة الروبوتات المعقدة للغاية. ومع ذلك ، هذا لا ينفي فكرة تدريب روبوت حقيقي ؛ سيكون من الصعب للغاية التحايل على قيود المحاكاة عند العمل مع الأشياء والسوائل المشوهة.
أين نظامك أنحف مكان؟في الوقت الحالي ، هذه اختلافات عشوائية ، تم تطويرها يدويًا وصقلها لمهمة محددة. في المستقبل ، قد يكون من الممكن محاولة معرفة هذه الاختلافات عن طريق إضافة طبقة أخرى من التحسين ، وهي العملية التي نقوم بها اليوم يدويًا ("جرب بعض العشوائية ومعرفة ما إذا كانت تساعد"). يمكنك أيضًا الذهاب إلى أبعد من ذلك ، واستخدام اللعبة بين وكيل التعلم وخصمه ، في محاولة لإعاقة تقدمه (ولكن ليس كثيرًا). يمكن أن تؤدي هذه الديناميكيات إلى ظهور مجموعات من القواعد الموثوقة جدًا لعمل الروبوتات ، لأنه كلما كان الوكيل أفضل ، كلما كان الخصم أكثر براعة ، مما يزيد من تحسين عمل الوكيل ، وما إلى ذلك. تم بالفعل
دراسة هذه الفكرة من
قبل باحثين آخرين.
أنت تقول أن هدفك الرئيسي هو إنشاء روبوتات للعالم الحقيقي. ما الذي يجب فعله أيضًا قبل أن يصبح ذلك ممكنًا؟نحن نحاول توسيع قدرات الروبوتات للعمل في بيئة دون قيود صارمة. في مثل هذه البيئات ، من المستحيل توقع كل شيء مقدمًا وإعداد نموذج لكل كائن. قد يكون من غير المناسب أيضًا وضع أي علامات على أشياء خارج المختبر. اتضح أنه سيتعين على روبوتاتنا تعلم كيفية التصرف في العديد من المواقف ، وكيفية اتخاذ خيار معقول في موقف لم يواجهوه من قبل.
ما الذي ستعمل عليه بعد ذلك؟سنستمر في إنشاء روبوتات ذات سلوك متطور بشكل متزايد. من السابق لأوانه تحديد أيهما. نأمل على المدى الطويل أن نعطي الروبوتات القدرة العامة على التعامل مع الأشياء ، حتى يتمكنوا من تعلم التفاعل مع البيئة مثلما يفعل الطفل - اللعب بأشياء مجاورة ، وليس بالضرورة تحت إشراف البالغين. نعتقد أن الذكاء مرتبط بالتفاعل مع العالم الحقيقي ، ومن أجل تحقيق مهمتنا في إنشاء ذكاء اصطناعي آمن للأغراض العامة ، نحتاج إلى أن نكون قادرين على التعلم من البيانات الحسية من العالم الحقيقي ومن المحاكاة.