تعلمت شبكة الزرافة العصبية كيف تلعب الشطرنج على مستوى الماجستير الدولي في 72 ساعة



قام الطالب في إمبريال كوليدج لندن ، ماثيو لاي ، بتطوير برنامج الكمبيوتر Giraffe ، الذي لعب الشطرنج لمدة ثلاثة أيام مع نفسه - وكان قادرًا على استخراج جميع المعارف الخاصة بالمجال اللازمة للعب على مستوى ماجستير FIDE الدولي. لهذا ، فإن موارد الحوسبة لجهاز الكمبيوتر العادي كافية لها. استغرق تدريب الشبكة العصبية 72 ساعة في 20 خيطًا على جهاز مع معالجين Xeon E5-2660 من 10 نواة.

في العمل العلمي ، كتب المؤلف أنه بعد التدريب لمدة 72 ساعة ، اختار البرنامج أفضل حركة ممكنة في 46 ٪ من الحالات ، وواحدة من أفضل ثلاث حركات في 70 ٪ من الحالات. هذه نتيجة جيدة للغاية حتى بالنسبة لبرامج الشطرنج العادية.

يعلم الجميع حقيقة أن أجهزة الكمبيوتر تلعب الشطرنج بشكل أفضل من الناس ، ولكن لا يفهم الجميع لماذا يحققون النصر ، لأن القوة الغاشمة البسيطة لا تكفي لفرز كل 10 123 حركة ممكنة وإجابات الخصم.

أولاً ، تحد برامج الشطرنج من العمق الأقصى لحساب الفروع. ثانيًا ، بدءًا من Deep Blue وانتهاءً ببطل كومودو الحالي للشطرنج على الكمبيوتر ، من غير المحتمل أن يهزموا رجلًا إذا لم يكن مدير المدرسة قد أنشأ وحدة تقييم الموقعأو أشخاص على دراية كبيرة بالشطرنج ، مثل فريق تطوير Deep Blue من IBM. يضع البرنامج في البداية قاعدة الفتحات والحيل المميزة للعبة ، مثل الدفاع عن الملك بيدق أو مهاجمة الملك في وضع مفتوح مع الفيلة الملونة.

يسمح التقييم المختص للموقف للبرنامج باختيار الفرع الأكثر تفضيلاً لتطوير الحزب.

في هذا الصدد ، يصبح من الواضح لماذا يختلف برنامج الزرافة الجديد تمامًا عن البقية. لم يضبطها أحد ، هي نفسها تعلمت العزف. بالإضافة إلى ذلك ، بدلاً من القوة الغاشمة للفروع مع حد العمق ، يستخدم البرنامج نهجًا "احتماليًا". تدرس بشكل أعمق تلك الفروع التي من المرجح أن تستمر لفترة طويلة.

يوضح الرسم التوضيحي شجرة القرار. تكون عُقد الشجرة مرئية باللون الأصفر ، والتي تكون مرئية للخوارزمية القياسية مع تقييد طول الفروع. الأخضر - العقد مرئية فقط للخوارزمية محدودة الاحتمال (الزرافة). يشير اللون الأحمر إلى العقد المرئية لكل من الخوارزميات.



تعتمد هذه الخوارزمية على فرضية أن الخصم سوف يستجيب أيضًا بأفضل حركة ممكنة من بين تلك المحتملة - وسيتم تأجيل اللعبة لأقصى عدد من الحركات. هذه هي الفروع التي تختارها الزرافة لتحليل أعمق. بمعنى ما ، فإن منطق البرنامج مشابه لمنطق لاعبي الشطرنج ذوي الخبرة الذين يشعرون "بشكل حدسي" بالطرق الأكثر ربحية لتطوير اللعبة.

اتضح أنه حتى الآن ، وصل التقدم في تطوير الشبكات العصبية إلى هذا المستوى بحيث يمكن لطالب واحد كتابة برنامج يمكنه تعلم لعب الشطرنج على مستوى عالٍ جدًا بشكل مستقل في ثلاثة أيام. يوضح الرسم البياني التالي بنية الشبكة العصبية التي وضعها المؤلف في الأصل. كما قام بتجميع مجموعة من المواقع الأولية لبرنامج التدريب.



هذه هي الطريقة التي يتم عرض الموقف في البرنامج.



كان أستاذ علوم الكمبيوتر PS PS Sebastian Thrun من أوائل من استخدموا الشبكات العصبية في برامج الشطرنج في العالم. في منتصف التسعينات ، طور برنامج NeuroChess . ومع ذلك ، مثل برنامج الزرافة الحالي ، لم يتمكن هذا التطور أيضًا من التغلب على أفضل ممثلي "المدرسة الكلاسيكية".

Source: https://habr.com/ru/post/ar384253/


All Articles