
يعمل DeepMind ، الذي كان في السابق قسمًا في شركة Google ، على تطوير الذكاء الاصطناعي (شكله الضعيف) لأغراض مختلفة. الآن يشارك فريق DeepMind بنشاط في إنشاء أشكال مختلفة من الذكاء الاصطناعي ، تم صقلها للألعاب ، المنطقية ، وسطح المكتب ، والرماة. هناك العديد من الألعاب - هذه هي ، و StarCraft ، والآن - و Quake III Arena.
قال المطورون في مدونتهم إنهم دربوا نظام الذكاء الاصطناعي للعب Quake III Arena بنفس الطريقة التي يفعل بها الشخص. أي أن نظام الكمبيوتر قد تعلم كيفية التكيف مع ظروف اللعبة المتغيرة بسرعة ، بما في ذلك مستويات التبديل وعناصرها. تقليديا ،
تم استخدام
نظام معزز في التدريب.
خلال هذا النوع من التدريب ، يتلقى الكمبيوتر مكافأة أو غرامة ، اعتمادًا على ما إذا كان المرور ناجحًا أم لا. عادة ، مشكلة الكمبيوتر هي أنه لا يستطيع التكيف مع الظروف المتغيرة بسرعة كبيرة - تمامًا كما يفعل الشخص. على الرغم من حقيقة أن الشبكات العصبية كانت قادرة منذ فترة طويلة على التعلم من أخطائها ، إلا أن ألعاب الكمبيوتر صعبة بالنسبة لها إذا كان النظام لا يعرف الظروف الأولية.
تم تدريب النظام على اللعب في وضع Capture The Flag. في هذه الحالة ، يجب على اللاعب محاولة التقاط علم الخصم ، ولكن في أي حال من الأحوال يجب ألا يسمح بقبض علمه. إذا تمكن أي فريق من التقاط علم الخصم وحمله لأقصى عدد من المرات في غضون خمس دقائق ، فسيكون هذا الفريق هو الفائز.
من أجل منع الذكاء الاصطناعي من تعلم ميزات المستوى ، بما في ذلك موقع الغرف والمباني ، وما إلى ذلك ، في كل مرة تضطر الشبكة العصبية للعب على مستوى جديد. في هذه الحالة ، طورت منظمة العفو الدولية إستراتيجيتها الخاصة باللعبة دون حشر. راقب الكمبيوتر تصرفات اللاعبين الآخرين ، ودرس "جغرافية" المستوى وتصرف وفقًا لهذا الموقف.
علاوة على ذلك ، قام المطورون من Deepmind بتدريب الذكاء الاصطناعي للعب الفريق بأكمله ، والذي يتكون من وكلاء مختلفين. النظام بأكمله يسمى من أجل الفوز (FTW).
لذلك ، تعلمت For The Win (FTW) إدارة فريقه ، وتنسيق وتوجيه أعمال كل وكيل. المهمة ، كما ذكر أعلاه ، هي الحفاظ على علم المرء والتقاط علم شخص آخر. بعد أن وصل الكمبيوتر إلى مستوى معين من المهارة ، عُرض على DeepMind اللعب مع لاعبين عاديين في دورة خاصة.
شارك جميع الأشخاص الـ 40 في ذلك. كانت الفرق في البطولة مختلطة - أي أنه في فريق واحد يمكن أن يكون هناك أشخاص ووكلاء للذكاء الاصطناعي. وفقًا لنتائج اللعبة ، أصبح من الواضح أن الذكاء الاصطناعي في شكله الخالص حقق انتصارات أكثر من فرق الأشخاص. في الفرق المختلطة ، أظهر الذكاء الاصطناعي مستوى أعلى من التعاون مما يظهره الناس عادة. لذا ، فإن الكمبيوتر ، إذا لزم الأمر ، خدم كعبد أو شارك بشكل مباشر في الهجوم على قاعدة العدو.
وفقًا للمطورين ، يمكن استخدام مبادئ العمل التي تم استخدامها لإنشاء For The Win (FTW) للعب عناوين أخرى ، على سبيل المثال ، StarCraft II أو Dota 2.
في بداية هذا الشهر ،
أظهر DeepMind
عملية تعلم الذكاء الاصطناعي لتمرير ألعاب المدرسة القديمة - على Atari. تم استخدام مبدأ التدريب التعزيزي هنا أيضًا ، ومن الصعب جدًا تعليم الذكاء الاصطناعي لتمرير الألعاب القديمة ، نظرًا لأن العديد من إجراءات البطل ضمنية للغاية.
تم أخذ الأساس في لعبة الانتقام من مونتيزوما. لا توجد مهمة واضحة ، ولا اتجاه إلى أين تذهب ، ولا فهم لما يجب جمعه أو ضد من يتكلم. تم استخدام طريقتين لتدريس المثال: TDC (تصنيف المسافة الزمنية) و CDC (تصنيف المسافة الزمنية عبر الوسائط).
تم تدريب الكمبيوتر على تشغيل اللعبة باستخدام إرشادات الفيديو من YouTube - هناك الكثير منها على الخدمة. خلال المقطع ، تمت مقارنة إطارات تسجيل الفيديو لتمرير مستويات الذكاء الاصطناعي و "المعلمين" من يوتيوب. إذا أظهرت المقارنة مستوى عالٍ من التشابه ، فستحصل منظمة العفو الدولية على مكافأة. كما اتضح ، بعد مرور بعض الوقت ، يقوم الذكاء الاصطناعي بنفس تسلسل الإجراءات التي يقوم بها الشخص.
أما بالنسبة لـ StarCraft ، التي تم ذكرها أعلاه ، في عام 2017 ،
لا يزال الشخص
يهزم السيارة ، ويجف ، بنتيجة 4: 0. ثم خاضت StarCraft المهنية Song Byung-gu أربعة روبوتات مختلفة من StarCraft.