لماذا يعاني الذكاء الاصطناعي للتعلم الذاتي مشاكل مع العالم الحقيقي؟

تبدأ أحدث أنظمة الذكاء الاصطناعي في التدريب دون معرفة أي شيء عن اللعبة ، وتنمو إلى مستوى عالمي في غضون ساعات قليلة. لكن الباحثين يكافحون من أجل استخدام مثل هذه الأنظمة خارج عالم اللعبة.




حتى وقت قريب ، كانت الآلات القادرة على تشويه الأبطال البشريين على الأقل تحترم استخدام الخبرة البشرية لتدريس الألعاب.

من أجل هزيمة Garry Kasparov في لعبة الشطرنج في عام 1997 ، استخدم مهندسو IBM قرونًا من حكمة الشطرنج لإنشاء كمبيوتر Deep Blue خاص بهم. في عام 2016 ، هزم برنامج AlphaGo لمشروع Google DeepMind البطل Lee Sedola في لعبة go board القديمة ، حيث قام بمعالجة الملايين من مواقع الألعاب التي تم جمعها من عشرات الآلاف من الألعاب بين الناس.

ولكن الآن ، يعيد باحثو الذكاء الاصطناعي التفكير في كيفية استيعاب الروبوتات للمعرفة البشرية. ويمكن وصف الاتجاه الحالي بـ "نعم ، وباركه الله".

في أكتوبر الماضي ، نشر فريق DeepMind تفاصيل نظام لعبة الذهاب الجديد AlphaGo Zero ، الذي لم يدرس ألعاب الأشخاص على الإطلاق. بدأت بقواعد اللعبة ولعبت مع نفسها. كانت التحركات الأولى عشوائية تمامًا. بعد كل مباراة ، قبلت معرفة جديدة حول ما أدى إلى النصر وما لم يفعل. بعد هذه المباريات ، طعم AlphaGo Zero النسخة الفائقة بالفعل من AlphaGo التي هزمت Lee Sedol. فاز الأول بالثانية بنتيجة 100: 0.


لي سيدول ، بطل العالم 18 مرة في المباراة ، مباراة ضد AlphaGo في عام 2016.

استمر الفريق في استكشاف وإنشاء اللاعب الرائع التالي في عائلة AlphaGo ، وهذه المرة تسمى ببساطة AlphaZero. في ورقة بحثية نُشرت على arxiv.org في ديسمبر ، كشف باحثو DeepMind كيف ، بعد البدء من الصفر مرة أخرى ، قام AlphaZero بتدريب AlphaGo Zero وهزيمته - أي أنه هزم الروبوت الذي هزم الروبوت الذي هزم أفضل لاعب في العالم. وعندما تم إعطاؤها قواعد الشطرنج الياباني ، سرعان ما تعلمت AlphaZero وتمكنت من التغلب على أفضل خوارزمياتها المصممة خصيصًا لهذه اللعبة. تعجب الخبراء من الأسلوب العدواني وغير المألوف للعبة. قال كبير الدنمركي بيتر هاين نيلسن في مقابلة مع القوات الجوية: "لطالما تساءلت كيف سيكون الأمر إذا طارت كائنات متفوقة إلى الأرض وأظهرت لنا كيف يلعبون الشطرنج". "الآن أعرف."

في العام الماضي ، شاهدنا روبوتات أخرى من عوالم أخرى أظهرت نفسها في مناطق مختلفة مثل لعبة البوكر غير المحدودة و Dota 2 ، وهي لعبة شعبية عبر الإنترنت حيث يتقاتل أبطال الخيال من أجل السيطرة على عالم آخر.

وبطبيعة الحال ، تتجاوز طموحات الشركات التي تستثمر الأموال في مثل هذه الأنظمة هيمنة بطولات الألعاب. تأمل فرق البحث مثل DeepMind في تطبيق طرق مماثلة على المهام الواقعية - إنشاء موصلات فائقة تعمل في درجة حرارة الغرفة ، أو فهم أي اوريغامي سيحول البروتينات إلى جزيئات مفيدة للأدوية. وبالطبع ، يأمل العديد من الممارسين في بناء ذكاء اصطناعي للأغراض العامة - وهو هدف محدد بشكل سيئ ، ولكنه آسر لإعطاء الآلة الفرصة للتفكير مثل الشخص وأن تكون مرنة في حل المشكلات المختلفة.

ومع ذلك ، على الرغم من جميع الاستثمارات ، ليس من الواضح حتى الآن إلى أي مدى يمكن أن تتجاوز التقنيات الحالية حدود لوحة اللعبة. قال بيدرو دومينغوس ، عالم الكمبيوتر في جامعة واشنطن: "لست متأكدًا من أن الأفكار الكامنة وراء AlphaZero سيكون من السهل تلخيصها". "الألعاب موضوع غير معتاد للغاية."

أهداف مثالية لعالم غير كامل


إحدى السمات الشائعة للعديد من الألعاب ، بما في ذلك الشطرنج والذهاب - يرى اللاعبون باستمرار جميع الرقائق على جانبي اللوحة. كل لاعب لديه ما يسمى "المعلومات المثالية" عن حالة اللعبة. بغض النظر عن مدى تعقيد اللعبة ، ما عليك سوى التفكير في موقعك الحالي.

لا يمكن مقارنة العديد من مواقف العالم الحقيقي مع هذا. تخيل أننا نطلب من الكمبيوتر إجراء تشخيص أو إجراء مفاوضات تجارية. يقول نعوم براون ، طالب دراسات عليا في علوم الكمبيوتر في جامعة كارنيجي مالون: "معظم التفاعلات الاستراتيجية في العالم الحقيقي تتضمن معلومات مخفية". "يبدو لي أن معظم مجتمع الذكاء الاصطناعي يتجاهل هذه الحقيقة."

يقدم براون بوكر تحديا مختلفا. لا ترى بطاقات الخصم. لكن هنا ، الآلات التي تتعلم من خلال لعبة مع نفسها ، تصل بالفعل إلى آفاق خارقة. في يناير 2017 ، فاز برنامج Libratus ، الذي أنشأه براون وقيمه توماس ساندهولم ، على أربعة لاعبين محترفين في تكساس هولدم بفوز 1.7 مليون دولار في نهاية البطولة التي استمرت 20 يومًا.

هناك لعبة أكثر تثبيطًا للمعلومات غير الكاملة هي StarCraft II ، وهي لعبة أخرى متعددة اللاعبين عبر الإنترنت بها عدد كبير من المعجبين. يقوم اللاعبون باختيار فريق ، وبناء جيش وشن حرب على مشهد خيال علمي. لكن المشهد محاط بضباب الحرب ، حيث يرى اللاعبون فقط تلك الأجزاء من الأرض التي تقع عليها قواتهم أو مبانيهم. حتى قرار استكشاف أراضي الخصم مليء بالغموض.

هذه هي اللعبة الوحيدة التي لا تستطيع منظمة العفو الدولية الفوز بها بعد. العقبات هي عدد ضخم من الخيارات للحركات في اللعبة ، والتي تتجاوز عادة ألفًا ، وسرعة اتخاذ القرار. يجب على كل لاعب - شخص أو آلة - أن يقلق بشأن عدد كبير من سيناريوهات التطوير المحتملة مع كل نقرة على الماوس.

حتى الآن ، لا تستطيع منظمة العفو الدولية التنافس على قدم المساواة مع الناس في هذا المجال. لكن هذا هو الهدف من تطوير الذكاء الاصطناعي. في أغسطس 2017 ، تعاون DeepMind مع Blizzard Entertainment ، الشركة التي أنشأت StarCraft II ، لإنشاء أدوات قالوا إنها ستفتح هذه اللعبة لباحثي الذكاء الاصطناعي.

على الرغم من كل التعقيد ، فإن هدف StarCraft II سهل الصياغة: تدمير العدو. هذا يجعلها شبيهة بالشطرنج ، اذهب ، لعبة البوكر ، Dota 2 وأي لعبة أخرى تقريبًا. في الألعاب يمكنك الفوز.

من وجهة نظر الخوارزمية ، يجب أن يكون للمهام "وظيفة الهدف" ، وهو هدف يجب أن نسعى إليه. عندما لعب AlphaZero الشطرنج ، كان الأمر سهلاً. وقدرت الهزيمة -1 ، وتعادل 0 ، وانتصار +1. وظيفة الهدف من AlphaZero هي تعظيم النقاط. الوظيفة الموضوعية لبوت البوكر هي بنفس البساطة: كسب الكثير من المال.


يمكن لمحبي الكمبيوتر تدريب السلوكيات المعقدة مثل المشي في تضاريس غير مألوفة

الحالات في الحياة الواقعية ليست بهذه البساطة. على سبيل المثال ، تحتاج السيارة الآلية إلى تشكيل أدق للوظيفة الموضوعية - وهو شيء مشابه لاختيار أنيق للكلمات عند وصف رغبتك في الجني. على سبيل المثال: توصيل راكب بسرعة إلى العنوان الصحيح ، والامتثال لجميع القوانين ووزن تكلفة الحياة البشرية بشكل مناسب في المواقف الخطرة وغير المؤكدة. يقول دومينغوس أن تشكيل الوظيفة الموضوعية من قبل الباحثين هو "أحد الأشياء التي تميز الباحث الكبير في مجال التعلم الآلي عن المتوسط".

لنأخذ على سبيل المثال تاي ، برنامج الدردشة على تويتر الذي أصدرته مايكروسوفت في 23 مارس 2016. كان هدفه هو إشراك الناس في المحادثة ، وهو ما فعله. قال دومينغوس: "ما اكتشفه تاي للأسف هو أن الإهانات العنصرية هي أفضل طريقة لزيادة مشاركة الناس". تم إيقاف تشغيله بعد يوم واحد فقط من بدء العمل.

عدوك الرئيسي


بعض الأشياء لا تتغير. تم اختراع الإستراتيجيات المستخدمة اليوم من قبل روبوتات اللعبة السائدة منذ عقود. يقول ديفيد دوفينو ، أخصائي تكنولوجيا المعلومات في جامعة طوكيو: "لقد كان انفجارًا من الماضي - فهم يمنحونه المزيد من القوة الحاسوبية".

تعتمد الاستراتيجيات غالبًا على تقنيات التعلم المعزز مع حرية العمل. بدلاً من الانخراط في الإدارة الجزئية ، وإعداد أصغر تفاصيل الخوارزمية ، يعطي المهندسون الآلة لدراسة البيئة لتعلم كيفية تحقيق الأهداف بأنفسهم ، من خلال التجربة والخطأ. قبل إصدار AlphaGo وورثته ، حقق فريق DeepMind أول نجاح كبير في العناوين الرئيسية في عام 2013 ، عندما استخدموا تدريب التعزيز لإنشاء روبوت تعلم لعب سبع ألعاب Atari 2600 ، وفي ثلاثة منها - على مستوى الخبراء.

استمر هذا التقدم. في 5 فبراير ، أصدر DeepMind IMPALA ، وهو نظام AI قادر على تعلم 57 لعبة مع Atari 2600 ومستويات 30 أخرى صنعها DeepMind في ثلاثة أبعاد. يعمل اللاعب عليها في بيئات مختلفة ويحقق أهدافًا مثل فتح الأبواب أو قطف الفطر. وبدا أن إمبالا تنقل المعرفة بين المهام - فالوقت الذي يقضيه في مباراة واحدة يحسن النتائج في الباقي.

ولكن في الفئة الأوسع من التعلم المعزز وألعاب الطاولة والألعاب متعددة اللاعبين ، يمكن استخدام نهج أكثر تحديدًا. يمكن أن تذهب دراستهم في شكل لعبة مع نفسها ، عندما تصل الخوارزمية إلى التفوق الاستراتيجي ، وتتنافس بشكل متكرر مع نسخة قريبة من نفسها.

هذه الفكرة عمرها عدة عقود. في الخمسينات من القرن الماضي ، ابتكر مهندس IBM IBM Arthur Samuel برنامجًا للمسودات تعلم جزئيًا اللعب من خلال التنافس مع نفسه. في التسعينيات ، أنشأ جيرالد ثيزور من IBM برنامجًا للطاولة يناقض الخوارزمية مع نفسها. وصل البرنامج إلى مستوى الخبراء ، وفي الوقت نفسه اخترع استراتيجيات لعبة غير عادية ولكنها فعالة.

في عدد متزايد من الألعاب ، يتم توفير خوارزميات اللعب مع نفسه مع خصم متساوٍ. هذا يعني أن تغيير إستراتيجية اللعبة يؤدي إلى نتيجة مختلفة ، ونتيجة لذلك تتلقى الخوارزمية ملاحظات فورية. تقول إيليا سوتسكيفر ، مديرة الأبحاث في OpenAI ، وهي منظمة غير ربحية أسسها مع Ilon Mask ، "في كل مرة تكتشف فيها شيئًا ، عندما تكتشف شيئًا صغيرًا ، يبدأ خصمك في استخدامه فورًا ضدك". مكرسة لتطوير ونشر تقنيات الذكاء الاصطناعي واتجاه تطورها في اتجاه آمن. في أغسطس 2017 ، أصدرت المنظمة روبوت لـ Dota 2 ، التي سيطرت على إحدى الشخصيات في اللعبة ، Shadow Fiend ، شيطان مستحضر الأرواح ، الذي هزم أفضل اللاعبين في العالم في معارك واحد لواحد. يدفع مشروع OpenAI آخر الناس إلى محاكاة مباراة السومو ، ونتيجة لذلك يتعلمون المصارعة والحيل. قال سوتسكيفر ، خلال مباراة مع نفسه ، "ليس هناك وقت للراحة ، تحتاج إلى التحسين باستمرار".



Openai


لكن الفكرة القديمة للعب مع نفسك هي عنصر واحد فقط في الروبوتات التي تسود اليوم ، فهي لا تزال بحاجة إلى طريقة لتحويل تجربة اللعب إلى فهم أعمق للموضوع. في ألعاب الشطرنج والذهاب وألعاب الفيديو مثل Dota 2 ، هناك تبدلات أكثر من الذرات في الكون. حتى لو انتظرنا بعض الأرواح البشرية بينما تحارب الذكاء الاصطناعي ظلها على الساحات الافتراضية ، فلن تتمكن الماكينة من تنفيذ كل سيناريو وكتابته في جدول خاص والرجوع إليه عند حدوث مثل هذا الموقف مرة أخرى.

يقول بيتر أبيل ، أخصائي تكنولوجيا المعلومات بجامعة كاليفورنيا في بيركلي ، للبقاء على قيد الحياة في بحر الفرص هذا: "أنت بحاجة إلى تلخيص وإبراز الجوهر". فعلت شركة Deep Blue من IBM ذلك باستخدام صيغة شطرنج مدمجة. مسلحًا بالقدرة على تقييم قوة المواقف التي لم تشاهدها بعد ، تمكن البرنامج من تطبيق التحركات والاستراتيجيات التي تزيد من فرصها في الفوز. في السنوات الأخيرة ، تتيح تقنية جديدة التخلي عن مثل هذه الصيغة تمامًا. قال آبيل: "الآن ، فجأة ، كل هذا مُغطى بشبكة عميقة".

الشبكات العصبية العميقة ، التي ارتفعت شعبيتها في السنوات الأخيرة ، مبنية من طبقات من "الخلايا العصبية" الاصطناعية ، فوق بعضها البعض ، مثل كومة من الفطائر. عندما يتم تنشيط عصبون في إحدى الطبقات ، فإنه يرسل إشارات إلى مستوى أعلى ، وهناك يتم إرسالها أعلى ، وهكذا.

من خلال تعديل الاتصالات بين الطبقات ، تتعامل هذه الشبكات بشكل مدهش مع تحويل بيانات الإدخال إلى الإخراج المرتبط بها ، حتى إذا كان الاتصال بينهما يبدو تجريديًا. امنحهم عبارة باللغة الإنجليزية ، ويمكن تدريبهم عن طريق ترجمتها إلى التركية. أعطهم صورًا لملاجئ الحيوانات ويمكنهم تحديد أيها مخصص للقطط. أظهر لهم لعبة بولي ، وسوف يتمكنون من فهم احتمالية الفوز. ولكن عادة ، يجب أن تقدم هذه الشبكات أولاً قوائم بأمثلة ذات علامات يمكن أن تمارس عليها.

هذا هو السبب في أن اللعب مع نفسك والشبكات العصبية العميقة تتحد بشكل جيد مع بعضها البعض. تنتج الألعاب المستقلة عددًا كبيرًا من السيناريوهات ، وتحتوي الشبكة العميقة على كمية غير محدودة تقريبًا من البيانات للتدريب. ثم تقدم الشبكة العصبية طريقة لتعلم الخبرة والأنماط التي واجهتها خلال اللعبة.

ولكن هناك صيد. لكي توفر هذه الأنظمة بيانات مفيدة ، فإنها تحتاج إلى منصة واقعية للألعاب.

قال تشيلسي فين ، الخريج من جامعة بيركلي ، والذي يستخدم الذكاء الاصطناعي للسيطرة على الأسلحة الآلية وتفسير البيانات من أجهزة الاستشعار ، "تم تحقيق جميع هذه الألعاب ، وكل هذه النتائج ، في ظل ظروف جعلت من الممكن محاكاة العالم بشكل مثالي".

على سبيل المثال ، تواجه Robomobiles صعوبة في التعامل مع الأحوال الجوية السيئة أو مع راكبي الدراجات. أو قد لا يدركون الاحتمالات غير العادية التي تتم مواجهتها في العالم الحقيقي - مثل طائر يطير مباشرة إلى الكاميرا. في حالة الأسلحة الآلية ، يقول فين ، قدمت المحاكاة الأولية فيزياء أساسية سمحت للذراع بتعلم كيفية التعلم. لكنهم لا يستطيعون التعامل مع تفاصيل لمس الأسطح المختلفة ، لذلك تتطلب مهام مثل التواء غطاء الزجاجة - أو إجراء عملية جراحية معقدة - الخبرة المكتسبة في الواقع.

في حالة المشاكل التي يصعب محاكاتها ، لن يكون اللعب مع نفسك مفيدًا بعد الآن. كتب يوشوا بينجيو ، رائد التعلم العميق من جامعة مونتريال: "هناك فرق كبير بين نموذج بيئة مثالي حقًا ونموذج مثالي مُتعلم ، خاصة عندما يكون الواقع معقدًا حقًا". لكن الباحثين في مجال الذكاء الاصطناعي لا يزال لديهم طرق للمضي قدمًا.

الحياة بعد الألعاب


من الصعب تحديد بداية تفوق الذكاء الاصطناعي في الألعاب. يمكنك اختيار خسارة كاسباروف في الشطرنج ، وهزيمة Li Sedol على يد AlphaGo الافتراضية. خيار شعبي آخر سيكون يوم 2011 ، عندما يكون البطل الأسطوري للعبة Jeopardy! خسر كين جينينغز أمام IBM Watson. كان واتسون قادرًا على التعامل مع القرائن والتورية. وكتب جينينغز تحت رده الأخير: "أرحب بظهور سيطرنا الجديد على الكمبيوتر".

يبدو أن واتسون لديه مهارات مكتبية مشابهة لما يستخدمه الناس لحل العديد من مشاكل الحياة الواقعية. يمكنه إدراك الإدخال باللغة الإنجليزية ، ومعالجة المستندات المرتبطة به في غمضة عين ، وجلب قطع المعلومات المتصلة واختيار أفضل إجابة واحدة. لكن بعد سبع سنوات ، لا يزال الواقع يفرض عقبات معقدة على الذكاء الاصطناعي. أشار تقرير الصحة الصادر عن Stat في سبتمبر إلى أن وريث واتسون ، المتخصص في أبحاث السرطان والمبادئ التوجيهية للعلاج الشخصي لـ Watson for Oncology ، يعاني من مشاكل.

"أسئلة في لعبة الخطر! كتب بينجيو ، الذي عمل مع فريق واتسون ، ردًا على طلب مقارنة الحالتين من حيث الذكاء الاصطناعي: "من السهل التعامل معها ، لأنها لا تحتاج إلى الفطرة السليمة". "فهم مقال طبي أكثر صعوبة. مطلوب قدر كبير من البحوث الأساسية ".

ولكن على الرغم من أن الألعاب متخصصة بشكل ضيق ، إلا أنها تشبه العديد من المهام الحقيقية. لم يرغب الباحثون من DeepMind في الإجابة على أسئلة المقابلة ، مما يشير إلى أن عملهم على AlphaZero تتم دراسته حاليًا من قبل خبراء مستقلين. لكن الفريق اقترح أن هذه التكنولوجيا يمكن أن تساعد قريبًا باحثي الطب الحيوي الذين يرغبون في فهم طي البروتين.

للقيام بذلك ، يحتاجون إلى فهم كيف تنحني الأحماض الأمينية المختلفة التي يتكون منها البروتين وتنسحب إلى آلة صغيرة ثلاثية الأبعاد ، تعتمد وظائفها على شكله. هذا التعقيد مشابه لتعقيد الشطرنج: يعرف الكيميائيون القوانين على هذا المستوى بحيث يمكنهم حساب سيناريوهات معينة تقريبًا ، ولكن هناك العديد من التكوينات الممكنة التي لن تتمكن من البحث في جميع الخيارات الممكنة. ولكن ماذا لو كان طي البروتين لعبة؟ وقد تم القيام بذلك بالفعل. منذ عام 2008 ، جرب مئات الآلاف من الأشخاص لعبة Foldit على الإنترنت ، حيث يتم منح المستخدمين نقاطًا لاستقرار وواقع بنية البروتين التي قاموا بتطبيقها. يمكن للآلة أن تتدرب بطريقة مماثلة ، ربما تحاول تجاوز أفضل إنجاز سابق لها مع التدريب التعزيز.

يقترح ساسكافير أن التعلم المعزز واللعب مع الذات يمكن أن يساعد في تدريب الأنظمة التفاعلية. هذا يمكن أن يعطي الروبوتات التي تحتاج إلى التحدث إلى الناس فرصة للتدريب في هذا أثناء التحدث إلى أنفسهم. نظرًا لأن المعدات المتخصصة للذكاء الاصطناعي أصبحت أسرع وأكثر بأسعار معقولة ، فإن المهندسين يحصلون على المزيد من الحوافز لتصميم المهام في شكل ألعاب. قال Satskever "أعتقد أنه في المستقبل ، ستزداد أهمية اللعب مع نفسك وطرق أخرى لاستهلاك كمية كبيرة من قوة الحوسبة".

ولكن إذا كان الهدف النهائي للآلات هو تعيين تكرار لكل ما يستطيع الشخص القيام به ، فإن حتى البطل المعمم في ألعاب الطاولة مثل AlphaZero لا يزال لديه مجال للنمو. يقول جون تينينبوم ، عالم إدراكي في MTI: "أحتاج إلى الاهتمام ، على الأقل بالنسبة لي ، بالفجوة الضخمة بين التفكير الحقيقي والاستكشاف الإبداعي للأفكار وقدرات الذكاء الاصطناعي الحالية"."مثل هذا الذكاء موجود ، ولكن حتى الآن فقط في أذهان الباحثين العظماء في الذكاء الاصطناعي."

يقدم العديد من الباحثين الآخرين ، الذين يستشعرون الضجيج حول منطقتهم ، معاييرهم الخاصة. "أوصي بعدم المبالغة في تقدير أهمية هذه الألعاب للذكاء الاصطناعي أو للمهام ذات الأغراض العامة. يقول فرانسوا شوليه ، باحث في التعلم العميق في Google ، إن الأشخاص ليسوا جيدين جدًا في لعب اللعبة. "ولكن ضع في اعتبارك أنه حتى الأدوات البسيطة والمتخصصة جدًا يمكنها تحقيق الكثير."

Source: https://habr.com/ru/post/ar410999/


All Articles