جوجل تعلم الروبوتات لأداء مهام جديدة في "روضة الأطفال"


في رياض الأطفال ، تتعلم الروبوتات كيفية فتح الأبواب ،

وتعتبر القدرة على التعلم واحدة من أهمها بالنسبة للروبوتات. إذا بدأوا في التعلم ، وجمع المعلومات التي يحتاجونها بمرور الوقت ، فيمكن استخدامها لأداء مهام معقدة لم يتم برمجتها مسبقًا. يمكن أن تكون المهام مختلفة تمامًا - من رعاية المسنين والمرضى في المستشفيات إلى تنظيف المباني. صحيح ، إذا كان عليك تدريب كل روبوت بشكل فردي ، فسيستغرق الأمر وقتًا طويلاً. ولكن ماذا لو علمت الروبوتات الروبوتات؟ وماذا لو بدأت مجموعات الروبوتات في التعلم معًا؟

هذه المشكلة ليست جديدة على الإطلاق ؛ فقد تم وصفها أكثر من مرة من قبل كتاب الخيال العلمي. يحاول المتخصصون في الروبوتات والذكاء الاصطناعي أيضًا حل هذه المشكلة. جوجل أكثر من غيرهاإنها مهتمة بالتعلم من الروبوتات. ربما تكون إحدى أسهل الطرق لتحقيق ما تريده هي إنشاء قاعدة بيانات معرفية مشتركة للروبوتات ، حيث سيتم جمع المعلومات التي تم جمعها بواسطة كل جهاز.

يجب أن تكون جميع الروبوتات متصلة بهذه القاعدة. إذا تعلم أحد الروبوتات شيئًا ما ، فسيحصل الجميع على المعرفة والخبرة على الفور. اختبر موظفو Google هذه الفكرة (ليست جديدة أيضًا) في الممارسة العملية وحصلوا على نتائج جيدة. على وجه الخصوص ، أصبحت الإجراءات التي قام بها أحد الروبوتات على الفور ملكا "لزملائه".

يمكن للروبوتات تنفيذ نفس الإجراء بطرق مختلفة جدًا. في بعض الأحيان يكون أفضل ، وأحيانًا أسوأ. يتم التقاط أي معلومات حول هذه الإجراءات وإرسالها إلى الخادم ، حيث تتم معالجتها باستخدام شبكة عصبية. يقوم النظام المعرفي بتقييم تصرفات كل جهاز ، ويختار فقط المعلومات حول التجربة الإيجابية ، ويتجاهل البيانات عن المحاولات غير الناجحة لإكمال مهمة أو أخرى. تقوم الروبوتات بتحميل البيانات التي تتم معالجتها بواسطة شبكة عصبية بتردد معين. ومع كل تنزيل جديد ، يصبحون أكثر فعالية. في الفيديو أدناه ، يدرس الروبوت عملية فتح الباب.


بعد عدة ساعات من التدريب ، تنقل الآلة معلومات حول أفعالها إلى شبكة مشتركة. في عملية إتقان فتح الباب ، تدرس الروبوتات تفاصيل هذا الإجراء ، "تدريجيًا" تفهم الدور الذي يلعبه مقبض الباب وما يجب القيام به لفتح الباب في أسرع وقت ممكن.


عملية التعلم التجريبي والخطأ جيدة ، ولكنها ليست مثالية. يمكن للناس والحيوانات ، على سبيل المثال ، تحليل عناصر البيئة ، وتقييم تأثيرها المحتمل على أفعالهم. عندما يكبر الناس والحيوانات ، تتشكل صورة معينة للعالم. من الواضح أنه في البشر أكثر تعقيدًا بكثير من معظم الحيوانات ، ولكن هناك عناصر مماثلة في كلتا الحالتين.

لذلك ، قرر مهندسو Google إظهار الروبوتات كيف تؤثر قوانين الفيزياء على أفعالهم. في إحدى التجارب ، تم توجيه الروبوت لدراسة أشياء مختلفة مشتركة بين أي منزل أو مكتب. هذه أقلام رصاص وأقلام وكتب وأشياء أخرى. تعلمت الروبوتات بسرعة وأرسلت المعلومات إلى "زملائهم". تلقى فريق الروبوتات بأكمله في وقت قصير مفهوم عواقب أفعالهم.



في تجربة جديدة ، أمر المهندسون الروبوت بتحريك كائن معين إلى نقطة معينة. ومع ذلك ، لم يتلق النظام أي تعليمات حول طبيعة الكائن. الكائنات تتغير باستمرار. يمكن أن تكون زجاجة ماء أو علبة بيرة أو قلم أو كتاب. كما اتضح ، أكملت الروبوتات هذه المهمة باستخدام بيانات من تجربة سابقة حول التفاعل مع العالم الحقيقي. كانوا قادرين على حساب عواقب تحريك الجسم على السطح إلى النقطة المطلوبة.

ولكن ماذا عن الرجل؟


تم إجراء تجربتين سابقتين بمشاركة الروبوتات فقط ، دون مساعدة بشرية. وفقًا لـ Google ، يمكن أن يكون تدريب الأنظمة الروبوتية أسرع بكثير إذا ساعد الشخص الآلة. بعد كل شيء ، يمكن للشخص أن يحسب بسرعة ما سينتج عن أداء بعض الإجراءات. على سبيل المثال ، في تجربة واحدة ، ساعد شخص روبوتات مختلفة على فتح أنواع مختلفة من الأبواب. تلقى كل نظام باب وقفل فريد من نوعه.

ونتيجة لذلك ، تم تطوير استراتيجية مشتركة لجميع الروبوتات ، والتي كانت تسمى "السياسة". تمت معالجة جميع إجراءات الروبوتات باستخدام شبكة عصبية عميقة. قامت بمعالجة الصور من الكاميرات التي تسجل إجراءات الروبوتات ، ونقلت المعلومات التي تمت معالجتها بالفعل إلى الخادم المركزي بالفعل في شكل سياسة.


عملت الروبوتات باستمرار على تحسين "سياساتها" باستخدام التجربة والخطأ. حاول كل روبوت فتح الباب باستخدام أحدث السياسات الحالية. لا تزال إجراءات الشبكة العصبية تتم معالجتها بواسطة الشبكة العصبية وتحميلها على الخادم. بمرور الوقت ، بدأت الروبوتات تعمل بكفاءة أكبر من المرة الأولى.


بعد أن بدأت الروبوتات في التصرف بنجاح ، قام كل من المدرسين الذين عملوا مع الروبوتات بتغيير شروط المهمة إلى حد ما. كانت التغييرات قوية (موضع الباب وزاوية الفتح وما إلى ذلك) ، لكنها كانت كافية بحيث لم تكن السياسة الموضوعة سابقًا مناسبة تمامًا لحل مشكلة جديدة. تعلمت الروبوتات تدريجياً كيف تتكيف مع الظروف الجديدة لأنفسها ، وبعد ذلك تعلمت أداء أصعب المهام لفتح الأبواب والأقفال المختلفة. أظهرت التجربة النهائية فعالية هذا النوع من التدريب: تمكنت الروبوتات من فتح الباب والقفل ، وهو ما لم يواجهوه بعد.


يدعي مؤلفو المشروع أن تفاعل الروبوتات مع بعضها البعض ومستودع البيانات المركزي ساعدهم على التعلم بشكل أسرع وأكثر كفاءة. كما أدى استخدام الشبكة العصبية إلى تحسين النتائج الأولية بشكل كبير.

لسوء الحظ ، فإن قائمة المهام التي يمكن أن تؤديها الروبوتات محدودة للغاية حتى الآن. بالكاد يتم إعطاؤهم أبسط الحركات والمهام ، مثل فتح الأبواب أو رفع أشياء مختلفة. لا يزال الرجل مجبرا على إخبار الروبوت بما يجب القيام به وكيفية التصرف. لكن الخوارزميات تتحسن تدريجياً ، ولم تعد الشبكات العصبية شيئًا مدهشًا. لذلك ، هناك أمل في أنه في المستقبل القريب لا يزال بإمكان الروبوتات أداء مهام معقدة. ربما المستقبل هنا بالفعل.

Source: https://habr.com/ru/post/ar398013/


All Articles