يتفوق برنامج DeepStack Poker على المحترفين الفرديين


قالت شجرة قرارات برنامج DeepStack في لعبة المواجهة الفردية (لعبة فردية) قبل التقليب والتخبط بلا حدود '

رائدة بايون من نظرية اللعبة الحديثة جون فون نيومان: "تتكون الحياة الواقعية من الخداع والحيل الصغيرة من الخداع والتفكير في الإجراءات المتوقعة شخص آخر منك. هذا ما تمثله اللعبة في نظريتي "(اقتباس من السلسلة 13 من السلسلة الوثائقية" تمجيد الإنسانية ").

بعبارة أخرى ، توقع جون فون نيومان أنه من أجل إنشاء ذكاء اصطناعي قوي ، يجب أن يتعلم الكمبيوتر لعب الألعاب بمعلومات غير مكتملة تتطابق بشكل كبير مع السلوك البشري في الحياة الحقيقية. ألعاب مثل لعبة البوكر.

ألعاب الطاولة مجال تقليدي للتجريب في مجال الذكاء الاصطناعي. في كل عام ، تهزم منظمة العفو الدولية شخصًا في ألعاب مختلفة. أولا ، استسلمت لعبة الداما ، ثم الشطرنج ، ثم ألعاب الفيديو أتاري ، سقطت اللعبة الأخيرة. لكن كل هذه ألعاب تحتوي على معلومات كاملة ، حيث يمتلك جميع اللاعبين معلومات كاملة حول حالة اللعبة. البوكر مسألة مختلفة تمامًا.

لطالما حاول العلماء تطوير برنامج يمكنه التغلب على شخص في تكساس هولدم غير محدود. على عكس التطبيقات الأخرى للذكاء الاصطناعي الضعيف ، فإن التطوير الناجح سيؤتي ثماره على الفور هنا ، لأنه يمكن كسب مليارات الدولارات في غرف البوكر عبر الإنترنت كل يوم.

قال John von Neumann أن البوكر يسره ، وهذا ليس مفاجئًا ، نظرًا للسمات الفريدة لهذه اللعبة بمعلومات غير كاملة. كل لاعب لديه جزء فقط من المعلومات حول حالة اللعبة - ويتصرف على أساس هذه المعلومات الجزئية ، وكذلك تقييم تصرفات اللاعبين الآخرين.

في السابق ، حقق الذكاء الاصطناعي بعض النجاح فقط عند لعب Hold'em بحدود ، وهي النسخة الأكثر بدائية من اللعبة مع خطوة محدودة في رفع الرهانات. في الإصدار المحدود ، لدى اللاعب 10 خيارات تطوير فقط 14 . للمقارنة ، في Hold'em غير المحدودة يوجد بالفعل 10 160 من هذه الخيارات . بالمناسبة ، هناك 10.170 خيار تطوير في اللعبة ، ولكن هناك لعبة تحتوي على معلومات كاملة ، أي أنها مهمة أبسط بشكل أساسي.

تتطلب الألعاب التي تحتوي على معلومات غير كاملة مستوى أكثر تعقيدًا تمامًا من التفكير التعاودي مقارنة بالألعاب التي تحتوي على معلومات كاملة. هنا يعتمد الإجراء الصحيح للذكاء الاصطناعي ، من بين أمور أخرى ، على المعلومات التي تلقتها منظمة العفو الدولية من أفعال الخصم. لكن المعلومات التي قدمها الخصم ، بدورها ، هي وظيفة مشتقة من إجراءات الذكاء الاصطناعي السابقة والمعلومات التي قدمها الذكاء الاصطناعي للخصم بأفعاله. هذا هو التفكير التعاودي الذي يتعامل معه DeepStack. وهي تتكيف بشكل جيد للغاية ، بناءً على نتائج الألعاب مع المحترفين (انظر الجدول).


نتائج المواجهة الفردية مع لاعبين محترفين

يظهر هيكل برنامج DeepStack في الرسم التوضيحي. يعيد البرنامج تقييم أفعاله في كل مرحلة عندما يكون القرار مطلوبًا منه. لحساب قيمة كل رهان ، يتم استخدام شجرة lookahead ، يتم حساب القيم التي تم إبرازها باستخدام شبكة عصبية تم تدريبها مسبقًا في مواقف ألعاب عشوائية.



يوضح هيكل الشبكة العصبية أنه يتم تقديم حجم الرهان والبطاقات المفتوحة ونطاقات اللاعبين (المجموعات المحتملة التي يمكن للاعب دخول اللعبة بها بالطريقة التي دخل بها (استدعاء ، رفع ، 3 رهان ، إلخ) عند المدخل ، احتمالية كل تركيبة). تتكون الشبكة العصبية من سبع طبقات مخفية متصلة بالكامل. ثم تتم معالجة قيم الإخراج من قبل شبكة عصبية أخرى ، والتي تتحقق من أن الإجراءات تستوفي حد مجموع الصفر.



من سمات البرنامج أنه يقاوم بنشاط تحليل استراتيجيته من قبل الخصم. بمعنى آخر ، يستخدم البرنامج توازن ناش ، وهو مفهوم رئيسي في نظرية اللعبة. يشير توازن ناش إلى مجموعة من الاستراتيجيات التي لا يمكن لأي مشارك زيادة مكاسبه بتغيير استراتيجيته إذا لم يتغير المشاركون الآخرون في استراتيجياتهم. من وجهة نظر لعبة البوكر المعادية ، فإن المهمة الرئيسية لـ DeepStack هي إيجاد توازن ناش ، أي تقليل إمكانية استغلال استراتيجيته من قبل لاعب آخر لجعله يحقق الربح. بالتأكيد تم استغلال جميع برامج البوكر المطورة حتى الآن بسهولة بعد اختبار استراتيجيتها باستخدام تقنية LBR (أفضل استجابة محلية) - انظر أحدثنظرة عامة على أحدث روبوتات البوكر .

لذلك ، لا يتم استغلال DeepStack تمامًا باستخدام LBR. إلى جانب النتائج الحقيقية التي أظهرها البوت في اللعبة مع المحترفين ، هناك سؤال واحد فقط: لماذا قام المطورون بنشر معلومات حول هذه البنية في المجال العام؟

تم نشر العمل العلمي في 6 يناير 2017 على موقع arXiv.org ، حيث يتم وضع المقالات قبل نشرها في الجريدة الرسمية. يقود فريق

التطوير أستاذ علوم الكمبيوتر مايكل بولينج من جامعة ألبرتا (الولايات المتحدة الأمريكية).


فريق تطوير DeepStack

تم إنشاء قسم روبوتات البوكر في جامعة ألبرتا (مجموعة أبحاث بوكر الكمبيوتر) في التسعينات ، أول روبوت تم إنشاؤه هنا كانلوكي في عام 1997. ثم كان هناك Poki (1999) ، PsOpti / Sparbot (2002) ، Vexbot (2003) ، Hyperborean (2006) ، Polaris (2007) ، Hyperborean No-Limit (2007) ، Hyperborean Ring (2009) ، Cepheus (2015) ، وأخيرًا ، تاج الخلق - DeepStack.

في المستقبل القريب ، سيتم اختبار برنامج DeepStack في ألعاب مع محترفين أكثر خبرة ، وهو مستوى أعلى بكثير من اللاعبين من الجدول في بداية المقالة. بدءًا من نهاية هذا الأسبوع ، سيتم تشغيل البرنامج في دورة في كازينو Pittsburghحيث من المتوقع وصول العديد من المهنيين من الطراز العالمي. في غضون 20 يومًا ، يجب أن يلعب DeepStack حوالي 120.000 توزيع ورق. وهذا يكفي لتقييم جودة البرنامج بدقة إلى حد ما.

حتى الآن ، لعبت DeepStack 44،852 توزيع ورق ضد المتطوعين المحترفين الذين اختارهم اتحاد البوكر الدولي. حصل اللاعبون على جوائز نقدية مقابل مباراة جيدة (الجائزة الأولى بقيمة 5000 دولار كندي) ، لذلك لعب الناس بكامل قوتهم. ومع ذلك ، فإن البرنامج في ميزة جيدة.

Source: https://habr.com/ru/post/ar400709/


All Articles