خطوة واحدة عملاقة لآلة الشطرنج

إن النجاح المذهل لـ AlphaZero ، وهي خوارزمية تعليمية متعمقة ، تستهل حقبة جديدة من التفكير قد تثبت أنها قصيرة الأجل للبشر.




في أوائل شهر ديسمبر ، تحدث باحثون في DeepMind ، وهي شركة ذكاء اصطناعي تملكها شركة Alphabet Inc. ، وهي شركة رئيسية تمتلك Google أيضًا ، عما يحدث في طليعة لعبة الشطرنج.

قبل عام ، في 5 ديسمبر 2017 ، ضرب الفريق عالم الشطرنج بإعلانه عن خوارزمية تعلم الآلة الآلية (Alpha) الخاصة بـ AlphaZero ، والتي لم تتمكن من إتقان لعبة الشطرنج العادية فحسب ، ولكن أيضًا لعبة الشطرنج اليابانية ولعبة الشوغو . بدأت الخوارزمية العمل دون أي مفهوم للألعاب ، باستثناء القواعد الأساسية. ثم بدأ اللعب مع نفسه عدة ملايين من المرات والتعلم من أخطائه. في غضون ساعات قليلة ، أصبحت الخوارزمية أفضل لاعب ، بين الناس وأجهزة الكمبيوتر ، من كل ما شاهده العالم.

تخضع تفاصيل إنجازات AlphaZero وهيكلها الداخلي لمراجعة رسمية ، وبعد ذلك سيتم نشرها في مجلة Science . يستجيب العمل الجديد للانتقادات الجادة للبيانات الأصلية. على سبيل المثال ، كان من الصعب القول ما إذا كان AlphaZero قد لعب بصدق مع خصمه ، الوحش الحسابي Stockfish. لكن كل هذه الشكوك تم تبديدها. على مدار الـ 12 شهرًا الماضية ، لم تصبح AlphaZero أقوى ، ولكنها أصبحت دليلًا أكثر إقناعًا على تفوقها. من الواضح أنه يمثل نوعًا من الذهن لم يسبق له مثيل من قبل أشخاص يجب أن نفكر بهم لفترة طويلة جدًا.

على مدار العشرين عامًا الماضية ، قطعت شطرنج الكمبيوتر شوطًا طويلًا. في عام 1997 ، تمكن برنامج الشطرنج الحاسوبي الخاص بـ IBM ، Deep Blue ، من التغلب على بطل العالم في ذلك الوقت ، Garry Kasparov ، في مباراة من ست مباريات. إذا نظرنا إلى الوراء ، يمكننا القول أنه لم يكن هناك لغز في هذا الإنجاز. يمكن لـ Deep Blue تقدير 200 مليون موقع في الثانية. لم تتعب أبدًا ولم ترتكب أي خطأ ولم تنس أبدًا ما فكرت به قبل فترة وجيزة.

بطريقة أو بأخرى ، لعبت مثل الآلة ، بوحشية ومادي. لقد فكرت أفضل من كاسباروف ، لكنها لم تكن تفكر أفضل منه. في المباراة الأولى من مباراتهم ، وافق ديب بلو بشكل متوقع على تبادل الغراب للأسقف الذي اقترحه كاسباروف ، لكنه خسر 16 خطوة في وقت لاحق. جيل اليوم من أقوى برامج الشطرنج في العالم ، على سبيل المثال Stockfish و Komodo ، لا يلعبان بشكل إنساني. يحبون أن يأخذوا شخصيات أخرى. إنهم يقومون ببناء درع حديدي. لكن على الرغم من أنهم يلعبون أقوى من أي شخص ، إلا أن آلات الشطرنج هذه ليست لديها فكرة عن اللعبة. يجب أن يتم تعليمهم المبادئ الأساسية للشطرنج.

يتم برمجة هذه المبادئ ، التي تم شحذها على مدار عقود من خبرة غراند ماستر البشرية ، في الآلة في شكل وظائف تقييم معقدة ، والتي تشير إلى ما يجب تحقيقه في الموضع وما يجب تجنبه: إلى أي مدى تحتاج إلى تقدير سلامة الملك ، ونشاط القطع ، ووضع البيادق ، والتحكم في مركز اللوحة ، وما إلى ذلك ، وكيفية إدارة المفاضلات بين هذه الأشياء. آلات الشطرنج اليوم ، التي تعتبر كل هذه المبادئ غريبة عنها ، تتصرف مثل الحيوانات الوقحة: إنها سريعة وقوية للغاية ، لكنها تفتقر إلى العقول.

ولكن كل هذا قد تغير منذ ظهور MO. اللعب بمفردها وتحديث شبكاتها العصبية أثناء التعلم من التجربة ، اكتشف AlphaZero نفسه مبادئ الشطرنج وسرعان ما أصبح أفضل لاعب. لم تتمكن فقط من التغلب على أسياد الناس بسهولة ، فقد هزمت ستوكفيش ، بطل الشطرنج في أجهزة الكمبيوتر. في مباراة لمائة لعبة ضد جهاز مثير للإعجاب ، فاز AlphaZero بـ 28 مرة و 72 مرة قلل اللعبة إلى التعادل دون أن يخسر مباراة واحدة.

وكان الشيء الأكثر غير سارة أن AlphaZero أظهر التفكير. لعبت على عكس أي جهاز كمبيوتر ، بشكل حدسي وجميل ، بأسلوب هجوم رومانسي. لعبت المناورات وتحمل المخاطر. في بعض الألعاب ، شلت ستوكفيش ولعبت معها. تنفيذ الهجوم في اللعبة العاشرة ، تراجعت AlphaZero الملكة إلى ركنها من اللوحة ، بعيداً عن King of Stockfish ، تتصرف بطريقة مختلفة عن الهجوم على الملك.

ومع ذلك ، فإن هذا التراجع الغريب تبين أنه سام. لا يهم كيف أجاب stockfish ، كانت مصيرها. كان الأمر كما لو كانت AlphaZero تنتظر Stockfish لمعرفة كيف كان موقفها ميئوسًا منه ، بعد مليارات من المجموعات المختارة ، أن تسترخي وتستسلم بسلام مثل ثور مصاب أمام مصارع الثيران. لم ير أهل Grandmasters أي شيء من هذا القبيل. لعبت AlphaZero بنعمة الموهوب وقوة الجهاز. كان أول تعارف سريع بنوع جديد من الذكاء المدهش.


غاري كاسباروف ، إلى اليسار ، يلعب ضد كمبيوتر ديب بلو آي بي إم في المباراة السادسة والأخيرة من المباراة ، التي عقدت في نيويورك في مايو 1997. قام جوزيف جوان ، مهندس آي بي إم ، بنقل الأرقام خلف الكمبيوتر.

عندما قدم المبدعون AlphaZero لأول مرة ، اشتكى بعض المراقبين من أن Stockfish قد حرم من الوصول إلى مجموعته الأولى. هذه المرة ، حتى مع مجموعتها الخاصة ، هُزمت. وحتى عندما قامت AlphaZero بمنح Stockfish بداية في شكل زيادة بمقدار عشرة أضعاف في وقت الاستقرار ، فإنها لا تزال تهزمها.

من المثير للإعجاب أن فاز AlphaZero من خلال التفكير ليس بشكل أسرع ، ولكن بشكل أفضل ؛ درست فقط 60 ألف وظيفة في الثانية الواحدة ، وليس 60 مليون ، مثل Stockfish. كانت أكثر ذكاءً ، ومعرفة ماذا تفكر وما الذي يجب تجاهله. بعد اكتشاف مبادئ لعبة الشطرنج بشكل مستقل ، طور AlphaZero أسلوبًا للعبة "يعكس حقيقة" اللعبة ، بدلاً من "أولويات وتحيزات المبرمجين" ، كما كتب كاسباروف في تعليق مرفق على المقال في مجلة Science.

والسؤال المطروح الآن هو ما إذا كان بإمكان وزارة الصحة مساعدة الناس على اكتشاف حقائق مماثلة حول أشياء مهمة حقًا: المشاكل العظيمة التي لم تحل بعد في العلوم والطب ، مثل علاج السرطان أو الوعي ؛ أسرار الجهاز المناعي ، أسرار الجينوم.

العلامات الأولى ملهمة. في أغسطس ، بحث مقالان في مجلة Nature Medicine مسألة تطبيق MO على التشخيص الطبي. في أحدها ، تعاون باحثون من DeepMind مع أطباء من مستشفى مورفيلد للعيون في لندن لتطوير خوارزمية تعليمية متعمقة يمكن أن تصنف مجموعة واسعة من أمراض الشبكية وكذلك خبراء بشريين. في طب العيون ، هناك نقص خطير في الخبراء الذين يمكنهم تفسير ملايين الصور التشخيصية للعين التي يتم الحصول عليها سنويًا ؛ سوف مساعدي منظمة العفو الدولية تكون لا تقدر بثمن.

فحص مقال آخر خوارزمية MO التي تتعرف على وجود صور تصوير مقطعي محوسبة من المرضى الذين يعانون من سيارة إسعاف أو علامات السكتة الدماغية أو النزيف داخل الجمجمة أو غيرها من المشكلات العصبية. كل دقيقة تهم لضحايا السكتة الدماغية. كلما تأخر العلاج ، كانت النتيجة أسوأ. لدى أطباء الأعصاب قول مأثور: "الوقت هو الدماغ". الخوارزمية الجديدة تحدد هذه الأحداث وغيرها من الأحداث الهامة بدقة مماثلة للخبراء البشر ، لكنها تعمل 150 مرة بشكل أسرع. تسمح لك التشخيصات عالية السرعة بترجمة الحالات الأكثر إلحاحًا إلى الأمام من قائمة الانتظار ، وبعد ذلك يمكن تقييمها بالفعل بواسطة أخصائي أشعة بشرية.

مزعج في MO هو أن الخوارزميات لا تستطيع شرح أفكارهم. نحن لا نعرف لماذا يعملون ، لذلك نحن لا نعرف ما إذا كان يمكن الوثوق بها. يُظهر AlphaZero جميع علامات اكتشاف المبادئ المهمة للعبة الشطرنج ، ولكن لا يمكننا مشاركة هذا الفهم معنا. على الأقل ليس بعد. يحتاج الناس أكثر من الإجابات. نحن بحاجة إلى فهم. من الآن فصاعدًا ، ستكون هذه المشكلة مصدر توتر في تفاعلنا مع أجهزة الكمبيوتر.

في الواقع ، في الرياضيات هذا يحدث منذ فترة طويلة. النظر في مشكلة رياضية طويلة الأمد تسمى نظرية أربعة ألوان . وهي تدعي أنه بموجب بعض القيود المعقولة ، يمكن رسم أي خريطة للبلدان في اتصال بأربعة ألوان بحيث يكون لأي دولتين متجاورتين ألوان مختلفة.

على الرغم من أن النظرية قد أثبتت في عام 1977 باستخدام الكمبيوتر ، إلا أنه لا يمكن لشخص واحد التحقق من جميع خطوات الإثبات. منذ ذلك الحين ، تم تأكيد التجربة وتبسيطها ، لكنها لا تزال تحتوي على أجزاء تتطلب حسابات مع بحث شامل ، مثل تلك المستخدمة من قبل أسلاف AlphaZero ، لعب الشطرنج. أغضب هذا الوضع العديد من علماء الرياضيات. كانوا بحاجة إلى أن لا يكونوا مقتنعين بصحة النظرية ؛ لقد آمنوا به بالفعل. أرادوا أن يفهموا لماذا كان هذا صحيحًا ، ولم يقدم هذا الدليل شيئًا للمساعدة.

لكن تخيل أن اليوم سيأتي ، ربما في وقت قريب جدًا ، عندما يتحول AlphaZero إلى خوارزمية متعددة الأغراض ؛ دعنا نسميها AlphaInfinity. مثل أسلافه ، سيكون لديه تفوق كبير: سيكون قادرًا على تقديم أدلة ممتازة ، أنيقة مثل الألعاب التي لعبها AlphaZero ضد Stockfish. وكل دليل سيثبت لماذا كانت النظرية صحيحة ؛ سوف AlphaInfinity لا يجبرك على قبول أي أدلة قبيحة ومعقدة.

بالنسبة لعلماء الرياضيات والعلماء ، فإن مثل هذا اليوم يمثل فجر حقبة جديدة من التفكير. ولكن يمكن أن يكون قصير الأجل. كلما أصبحت السيارات الأسرع ، متجاوزةً أشخاصًا تعمل خلاياهم العصبية بسرعة سلحفاة على نطاق المللي ثانية ، كلما كان اليوم أسرع عندما لا نتمكن من مواكبتهم. فجر التفكير البشري يمكن أن يتحول بسرعة إلى غروب الشمس.

لنفترض أن هناك أنماطًا معينة لم يتم اكتشافها بعد - في تنظيم الجينات أو تطور السرطان ؛ في أداء الجهاز المناعي. في رقصة الجسيمات دون الذرية. لنفترض أن هذه الأنماط لا يمكن التنبؤ بها إلا من خلال تفكير يفوق بكثير نظراتنا. إذا تمكنت AlphaInfinity من تحديدها وفهمها ، فسيبدو لنا أوراكل.

كنا نجلس على قدميها ونصغي بعناية. لن نفهم السبب في أن أوراكل على حق دائمًا ، ولكن يمكننا التحقق من حساباته وتوقعاته في التجارب والملاحظات وتأكيد ما يكشف عنها. في العلم ، وهو احتلال رمزي للناس ، فإن دورنا سينحصر في دور المراقبين ، بالنظر إلى ما يحدث في الدهشة والارتباك.

ربما في يوم من الأيام لن يؤدي افتقادنا للتفكير إلى إزعاجنا. بعد كل شيء ، يمكن AlphaInfinity علاج جميع الأمراض ، وحل جميع المشاكل العلمية وجعل جميع القطارات الذكية الأخرى على جدول زمني. لقد قمنا بعمل جيد دون تفكير كبير في أول 300000 عام من وجودنا كإنسان عاقل. لن نواجه مشاكل في الذاكرة ، سنكون فخورين بتذكر العصر الذهبي للعقل الإنساني ، هذا الفاصل المجيد الذي دام عدة آلاف من السنين ، بين ماضٍ غير مستقبلي ومستقبل لا يمكن تفسيره.

Source: https://habr.com/ru/post/ar436598/


All Articles