
يمكن لأحدث أنظمة الذكاء الاصطناعي للتعلم الذاتي أن تتعلم لعبة من الصفر من الصفر وأن تصبح بطلاً عالميًا. حتى وقت قريب ، بدأت الآلات التي يمكنها التغلب على الأبطال دراساتها من خلال دراسة التجربة البشرية. من أجل هزيمة Garry Kasparov في عام 1997 ، قام مهندسو IBM بتحميل Deep Blue المعلومات التي تراكمت على مدى قرون من شغف الإنسانية بالشطرنج. في عام 2016 ،
تجاوز الذكاء الاصطناعي
AlphaGo الذي تم إنشاؤه في Google DeepMind
البطل Lee Sedola في لعبة Go القديمة ، بعد أن درس سابقًا الملايين من المواضع من عشرات الآلاف من الألعاب التي يلعبها الناس. ولكن الآن ، يعيد مطورو الذكاء الاصطناعي التفكير في نهج دمج المعرفة البشرية في العقول الإلكترونية. الاتجاه الحالي: لا تهتم بهذا.
في أكتوبر 2017 ، نشر فريق DeepMind
معلومات حول نظام جديد للعب Go - AlphaGo Zero. لم تدرس الحفلات التي يلعبها الناس على الإطلاق. بدلاً من ذلك ، تعلمت القواعد وبدأت تلعب مع نفسها. كانت التحركات الأولى عشوائية تمامًا. بعد كل مباراة ، قام النظام بتحليل ما أدى إلى النصر أو الهزيمة. بعد فترة ، بدأ AlphaGo Zero باللعب مع الفائز الضخم Lee Sedola - AlphaGo. وهزمتها بنتيجة 100: 0.
لي سيدول ، بطل العالم 18 مرة في لعبة Go ، خلال مباراة مع AlphaGo في عام 2016.ثم أنشأ الباحثون نظامًا أصبح أقوى لاعب في عائلة AlphaGo - AlphaZero. في
ورقة نشرت في ديسمبر ، أفاد مطورو DeepMind أن AlphaZero ، الذي بدأ أيضًا في التعلم من الصفر ، تجاوز AlphaGo Zero - أي أنه هزم الروبوت الذي هزم الروبوت الذي هزم أفضل لاعب في Go في العالم. وعندما تم إطعامها لقواعد الشطرنج ، بالإضافة إلى النسخة اليابانية من هذه اللعبة -
shogi ، تعلمت AlphaZero بسرعة هزيمة أقوى الخوارزميات في هذه الألعاب. فوجئ الخبراء بالأسلوب العدواني وغير العادي للعبة. كما
لاحظ كبير الدنمرك الدنماركي بيتر هاين نيلسن: "كنت مهتمًا دائمًا بمعرفة ماذا سيحدث إذا طار خارقون إلى الأرض وأظهروا لنا كيف يمكنهم لعب الشطرنج. الآن أعرف ".
في العام الماضي ، شهدنا ظهور برامج الروبوت ذاتية التعلم الأخرى في مجالات متنوعة مثل البوكر غير المحدود و Dota 2.
من الواضح أن الشركات التي تستثمر في هذه الأنظمة وما شابهها لديها خطط طموحة أكثر بكثير من السيطرة على بطولات الألعاب. يأمل الباحثون في استخدام طرق مماثلة لحل مشكلات حقيقية ، مثل إنشاء موصلات فائقة تعمل في درجة حرارة الغرفة ، أو استخدام مبادئ الأوريجامي لوضع البروتينات في جزيئات الأدوية القوية. وبالطبع ، يأمل العديد من الممارسين في إنشاء ذكاء اصطناعي للأغراض العامة - الهدف غامض ، ولكنه مثير ، مما يعني أن الآلة ستكون قادرة على التفكير مثل الشخص وحل مجموعة متنوعة من المشاكل.
ولكن على الرغم من الاستثمارات الكبيرة للقوى والوسائل في مثل هذه الأنظمة ، فإنه ليس من الواضح إلى أي مدى يمكن أن يبتعدوا عن مجال الألعاب.
أهداف مثالية لعالم غير كامل
توحد العديد من الألعاب ، بما في ذلك الشطرنج و Go ، من خلال حقيقة أن اللاعبين يرون دائمًا التخطيط بأكمله في الملعب. لكل لاعب في أي وقت "معلومات كاملة" عن حالة اللعبة. ولكن كلما كانت اللعبة أكثر صعوبة ، كلما احتجت إلى التفكير أكثر من اللحظة الحالية. في الواقع ، ليس هذا هو الحال عادة. تخيل أنك طلبت من الكمبيوتر إجراء تشخيص أو إجراء مفاوضات تجارية.
نعوم براون ، طالب دراسات عليا في قسم علوم الكمبيوتر في جامعة كارنيجي ميلون: "معظم العلاقات الاستراتيجية الحقيقية تستخدم المعلومات المخفية. لدي شعور بأن العديد من المشاركين في مجتمع الذكاء الاصطناعي يتجاهلون هذا الظرف ".
يتخصص Brown في تطوير خوارزميات لعبة البوكر ، وهناك صعوبات أخرى في هذه اللعبة: لا ترى بطاقات منافسيك. ولكن هنا ، تصل الآلات التي تتعلم اللعب بشكل مستقل إلى ارتفاعات عالية بالفعل. في يناير 2017 ، فاز برنامج يسمى Libratus ، تم إنشاؤه بواسطة براون
وتوماس ساندهولم ، على واحد من أربعة لاعبين محترفين في تكساس هولدم غير محدودة. في نهاية البطولة التي استمرت 20 يومًا ، كسب البوت 1.7 مليون دولار أكثر من منافسيه.
إن إستراتيجية تعدد اللاعبين في StarCraft II هي لعبة أكثر إثارة للإعجاب ، مما يعني امتلاكًا غير كامل للمعلومات حول الوضع الحالي. هنا ، لم يصل الذكاء الاصطناعي بعد إلى أوليمبوس. ويعيق ذلك العدد الهائل من التحركات في اللعبة ، والتي تقاس غالبًا بالآلاف ، والسرعة العالية لتنفيذها. يحتاج كل لاعب - شخص أو آلة - مع كل نقرة إلى التفكير في مجموعة غير محدودة من التطورات الإضافية.
حتى الآن ، لا تستطيع منظمة العفو الدولية التنافس مع أفضل اللاعبين على قدم المساواة. لكن المطورين يكافحون من أجل ذلك. في أغسطس 2017 ، استعان DeepMind بدعم Blizzard Entertainment (الذي أنشأ StarCraft II) في إنشاء أدوات من شأنها مساعدة باحثي الذكاء الاصطناعي.
على الرغم من صعوبة اللعب ، فإن جوهر StarCraft II يأتي في مهمة بسيطة: تدمير الأعداء. يمكن قول الشيء نفسه عن لعبة الشطرنج ، Go ، البوكر ، Dota 2 وأي لعبة أخرى تقريبًا. وفي الألعاب يمكنك الفوز.
من وجهة نظر الخوارزمية ، يجب أن تحتوي المهمة على "وظيفة الهدف" ، والتي يجب العثور عليها. لم يكن الأمر صعبًا للغاية عندما كان AlphaZero يلعب الشطرنج. الخسارة تحتسب -1 ، تعادل - 0 ، فوز - +1. كانت الوظيفة الموضوعية لـ AlphaZero هي كسب النقاط القصوى. الوظيفة الموضوعية لبوت البوكر بسيطة أيضًا: اربح الكثير من المال.
تتعلم الخوارزمية سلوكًا معقدًا - المشي على سطح غير مألوف.في الحياة ، كل شيء غير واضح. على سبيل المثال ، تحتاج المركبة غير المأهولة إلى وظيفة موضوعية أكثر تحديدًا. شيء مثل بيان حذر لرغبته ، وهو ما يفسر الجني. على سبيل المثال: توصيل الركاب بسرعة إلى الوجهة الصحيحة ، ومراعاة جميع القواعد وتقييم الحياة البشرية بشكل صحيح في المواقف الخطرة وغير المؤكدة.
بيدرو دومينغوس ، أخصائي علوم الكمبيوتر ، جامعة واشنطن: "من بين أمور أخرى ، فإن الفرق بين باحث كبير في التعلم الآلي العادي هو كيفية صياغة الوظيفة الموضوعية."
فكر في برنامج الدردشة الآلي تاي تويتر الذي أطلقته مايكروسوفت في 23 مارس 2016. كان هدفه هو إشراك الناس ، وقد حقق ذلك. ولكن فجأة أصبح من الواضح أن أفضل طريقة لزيادة المشاركة إلى أقصى حد هي صب جميع أنواع الإهانات. تم
إيقاف البوت
بعد أقل من يوم.
أسوأ عدو شخصي لك
شيء لم يتغير. تعتمد الأساليب التي تستخدمها روبوتات اللعبة المسيطرة الحديثة على الاستراتيجيات التي تم ابتكارها منذ عقود. نفس التحية من الماضي ، مدعومة فقط بقوة الحوسبة الحديثة.
عادة ما تستند هذه الاستراتيجيات على التعلم المعزز ، وهي منهجية بدون تدخل بشري. بدلاً من التحكم الدقيق في الخوارزمية باستخدام تعليمات تفصيلية ، يسمح المهندسون للجهاز باستكشاف البيئة وتحقيق الأهداف عن طريق التجربة والخطأ. قبل إصدار AlphaGo وأحفاده ، في عام 2013 ، حقق فريق DeepMind نتيجة خطيرة ومهمة ، باستخدام تدريب التعزيز من خلال
تعليم الروبوت للعب سبع مباريات لـ Atari 2600 ، وفي ثلاثة منها - على مستوى الخبراء.
لم يتوقف هناك ، في 5 فبراير ، طرح فريق DeepMind
IMPALA ، وهو نظام AI يمكنه لعب 57 لعبة لـ Atari 2600 ، بالإضافة إلى 30 مستوى ثلاثي الأبعاد آخر تم إنشاؤه في DeepMind. في هذه المستويات ، يمشي اللاعب عبر أماكن وغرف مختلفة ، ويحل مشاكل مثل فتح الأبواب والتقاط الفطر. علاوة على ذلك ، نقلت إمبالا الخبرة المتراكمة بين المهام ، أي أن كل جلسة لعبت أدت إلى تحسين نتائج الجلسة التالية.
ولكن ضمن الفئة الأوسع من التعلم المعزز ، تسمح ألعاب الألواح والألعاب متعددة اللاعبين باتباع نهج أكثر تخصصًا. يمكن أن يتخذ البحث شكل لعبة في حد ذاته ، عندما تكتسب الخوارزمية الخبرة ، تكافح مع نسختها الخاصة.
هذه الفكرة قديمة جدًا أيضًا. في الخمسينيات من القرن الماضي ،
أنشأ مهندس IBM Arthur Samuel
برنامجًا للمدقق درس جزئيًا في الألعاب التي لعبت بين ألفا وبيتا. وفي التسعينات ، ابتكر جيرالد تيسورو ، من شركة IBM أيضًا ، لعبة طاولة لعب حددت خوارزمية خاصة بها ضد نفسها. وصل البوت إلى مستوى خبير بشري ، ووضع استراتيجيات غير قياسية ولكنها فعالة.
عند اللعب مع نفسها ، تلتقي الخوارزمية في كل لعبة مع منافس متساوٍ. لذلك ، تؤدي التغييرات في الاستراتيجية إلى نتائج مختلفة ، بالنظر إلى الاستجابة الفورية لخوارزمية النسخ.
إيليا سوتسكيفر ، مدير الأبحاث في OpenAI: "في كل مرة تتعلم فيها شيئًا جديدًا ، تكتشف أصغر المعلومات حول اللعبة والبيئة ، ويستخدمها خصمك على الفور ضدك." في أغسطس 2017 ، أصدرت OpenAI
روبوت لـ Dota 2 ، التي تتحكم في شخصية Shadow Fiend - شيء مثل شيطان مستحضر الأرواح - وهزمت أفضل اللاعبين في العالم في المعارك. مشروع آخر للشركة: خوارزميتان تتحكم في مصارعي السومو ،
يتعلمون من بعضهم البعض تقنيات المصارعة. وخلال هذا التدريب من المستحيل الركود ، يجب أن تتحسن باستمرار.
تعلم البوت الذي تم إنشاؤه في OpenAI لـ Dota 2 بشكل مستقل العديد من الاستراتيجيات المعقدة.لكن الفكرة القديمة للعب مع نفسك ليست سوى أحد مكونات التفوق الحديث للبوتات ، والتي لا تزال بحاجة إلى "إعادة التفكير" بطريقة ما في تجربة الألعاب. في ألعاب الشطرنج و Go وألعاب الفيديو مثل Dota 2 ، هناك عدد لا يحصى من المجموعات المحتملة. حتى بعد أن قضى العديد من الأرواح في المعارك بظله على الساحات الافتراضية ، لن تكون الآلة قادرة على حساب كل سيناريو ممكن من أجل رسم جدول من الإجراءات والتشاور معه عندما تجد نفسها مرة أخرى في وضع مماثل.
للبقاء على قيد الحياة في بحر من الفرص ، تحتاج إلى التعميم وفهم الجوهر. نجح IBM Deep Blue بفضل صيغ الشطرنج المتكاملة. مسلحًا بالقدرة على تقييم المجموعات على اللوحة التي لم يلتق بها من قبل ، قام الكمبيوتر بضبط التحركات والاستراتيجيات لزيادة احتمال فوزه. لكن التقنيات الجديدة التي ظهرت في السنوات الأخيرة جعلت من الممكن التخلي عن الصيغ.
تكتسب الشبكات العصبية العميقة شعبية متزايدة. تتكون من طبقات من "الخلايا العصبية" الاصطناعية ، مثل الفطائر في كومة. عندما يتم تشغيل الخلايا العصبية في طبقة واحدة ، فإنها ترسل إشارات إلى الطبقة التالية ، وترسل إلى الطبقة التالية ، وهكذا. من خلال ضبط الاتصالات بين الطبقات ، تحقق هذه الشبكات العصبية نتائج رائعة ، وتحويل بيانات الإدخال إلى نوع من النتائج المترابطة ، حتى إذا كان الاتصال يبدو مجردة. لنفترض أن الشبكة العصبية يمكن إعطاؤها عبارة باللغة الإنجليزية ، والتي ستترجمها إلى التركية. أو يمكنك إعطاء صورها من مأوى للحيوانات ، وستجد الشبكة العصبية تلك الصور التي تصور القطط. أو يمكنك إظهار قواعد لعبة الطاولة لشبكة عصبية عميقة ، وسوف تحسب احتمالية فوزها. ولكن أولاً ، كما تفهم ، يجب أن تتعلم الشبكة العصبية من عينة من البيانات المصنفة.
الشبكات العصبية تلعب مع نفسها والشبكات العصبية العميقة تكمل بعضها البعض بشكل جيد. تولد الشبكات مع الألعاب نفسها تدفقًا للمعلومات حول الألعاب ، مما يوفر للشبكات العميقة مصدرًا لا نهائيًا من البيانات للتدريب. في المقابل ، توفر الشبكات العميقة طريقة لاستيعاب الخبرة والأنماط المكتسبة من خلال اللعب مع الشبكات.
ولكن هناك خدعة واحدة. بالنسبة للأنظمة التي تلعب مع بعضها لتوليد بيانات مفيدة ، فإنها تحتاج إلى مكان واقعي للعب.
يتم لعب جميع الألعاب ، ويتم تحقيق جميع الارتفاعات في البيئات حيث يمكنك محاكاة العالم بدرجات متفاوتة من الثقة. وفي مناطق أخرى ، ليس من السهل تحقيق نتائج رائعة.
على سبيل المثال ، من الصعب ركوب المركبات غير المأهولة في الطقس السيئ ، ويتدخل راكبو الدراجات على الطريق إلى حد كبير. أيضًا ، يمكن للطائرات بدون طيار تقييم غير قياسي بشكل غير صحيح ، ولكن الموقف الحقيقي ، مثل طائر يطير مباشرة إلى كاميرا السيارة. أو خذ استخدامًا أقل غرابة للذكاء الاصطناعي - معالج ذراع آلي. أولاً ، تحتاج إلى أن تدرس أساسيات الإجراءات الجسدية حتى تدرك اليد على الأقل كيفية تعلمها. ولكن في نفس الوقت ، لا تعرف خصوصيات لمس الأسطح والأشياء المختلفة ، لذلك تحتاج الآلة إلى ممارسة لحل مشاكل مثل فك الغطاء من الزجاجة أو إجراء عملية جراحية.
يوشوا بينجيو ، أخصائي التعلم العميق في جامعة مونتريال: "في وضع صعب المحاكاة ، لن يكون نموذج التعلم" اللعب مع نفسك "مفيدًا للغاية. "هناك فرق كبير بين النموذج المثالي للبيئة ونموذج التعلم ،" إذا ابتليت به "خاصة إذا كانت البيئة معقدة".
الحياة بعد الألعاب
من الصعب القول بالضبط متى بدأ تفوق الذكاء الاصطناعي في الألعاب. يمكنك اختيار خسارة كاسباروف أو هزيمة لي سيدولا. غالبًا ما يكون العد التنازلي من عام 2011 ، مع خسارة كين جينينغز ، بطل اللعبة التلفزيونية
Jeopardy! ، في منافسة لمدة يومين مع شركة IBM Watson. تمكنت الماكينة من فهم الصياغة والتورية. لقد منح المطورون Watson القدرة على معالجة النص المتأصل لنا. يمكن للكمبيوتر أن يأخذ إشارة تلميح باللغة الإنجليزية لكلمة ، مع عرض المستندات ذات الصلة بسرعة كبيرة ، وتسليط الضوء على أجزاء من المعلومات واختيار أفضل إجابة.
ولكن على مر السنين ، لا تزال مهام الحياة "العادية" غير قابلة للذكاء الاصطناعي. في سبتمبر 2017 ،
تم نشر تقرير مفاده أن هناك صعوبات كبيرة في البحث وتطوير طرق علاج السرطان الشخصية كجزء من مشروع Watson for Oncology. الكمبيوتر أسهل بكثير لفهم معنى الأسئلة في
خطر! من فهم جوهر المقال الطبي.
ومع ذلك ، هناك عدد من المهام الحقيقية التي هي متخصصة للغاية مثل الألعاب. تشير الشائعات إلى أن فريق DeepMind يعمل على تكييف AlphaZero للاستخدام في أبحاث طي البروتينات الطبية الحيوية. لهذا ، يجب على المطورين أن يفهموا كيف يمكن
طي الأحماض الأمينية التي تشكل البروتينات إلى هياكل صغيرة ثلاثية الأبعاد ، تعتمد وظائفها على الشكل. إنها صعبة مثل لعبة الشطرنج: يدرك الكيميائيون بعض المبادئ التي تسمح بحساب بعض السيناريوهات ، ولكن وفرة التكوينات ثلاثية الأبعاد المحتملة كبيرة جدًا لدرجة أنه ليس من الواقعي ببساطة دراستها جميعًا. ولكن ماذا لو حولت البروتين إلى لعبة؟ هذا ما فعلوه بالفعل. منذ عام 2008 ، حاول مئات الآلاف من اللاعبين يدهم في لعبة
Foldit على الإنترنت ، حيث تم إعطاء نقاط لاستقرار وجدوى
تركيبات البروتين التي تم إنشاؤها. يمكن للآلة تدريب نفسها بنفس الطريقة ، على سبيل المثال ، من خلال تدريب التعزيز ، في محاولة لتجاوز أفضل نتائج اللاعبين البشريين.
يمكن أن يساعد التعلم المعزز واللعب الذاتي أيضًا في تدريب الأنظمة التفاعلية. ثم ستتمكن الروبوتات من التحدث إلى الناس ، وتعلمت أولاً التحدث إلى أنفسهم. وبالنظر إلى زيادة الإنتاجية وتوافر المعدات المتخصصة للذكاء الاصطناعي ، سيحصل المهندسون على حافز لترجمة المزيد والمزيد من المهام الحقيقية إلى شكل لعبة. من المحتمل أنه في المستقبل ستزداد أهمية منهجية "اللعب مع نفسك" وغيرها من الأساليب التي تتطلب قوة حوسبة هائلة.
ولكن إذا كان هدفنا الرئيسي هو إنشاء آلة يمكنها القيام بنفس ما يفعله الناس ، وآلة للتعلم الذاتي ، فإن أبطال ألعاب الطاولة مثل AlphaZero سيكون لديهم مسارات تطوير محتملة. من الضروري إدراك الفجوة بين النشاط العقلي الحقيقي والفهم الخلاق للأفكار وما نراه اليوم في مجال الذكاء الاصطناعي. هذه الصورة المشرقة للذكاء الاصطناعي موجودة ، في معظمها ، في أذهان الباحثين العظماء.
يقدم العديد من العلماء الذين يدركون مستوى الضجيج تصنيفاتهم الخاصة. ليست هناك حاجة إلى المبالغة في تقدير أهمية الروبوتات التي تلعب الألعاب لتطوير الذكاء الاصطناعي بشكل عام. الناس ، على سبيل المثال ، لا يجيدون اللعب. ولكن من ناحية أخرى ، يمكن أن تصل الأدوات المتخصصة والبسيطة جدًا في بعض المهام إلى مستويات عالية.