يتحدث لاعب البوكر المحترف Jason Les مع البروفيسور Tuomas Sandholm من جامعة Carnegie Mellon أثناء المواجهة مع روبوت Libratus. خسر جيسون ما يقرب من مليون دولار مشروط للبرنامج ، أكثر من أي محترف آخرفي الآونة الأخيرة ، غالبًا ما يقارن مطورو أنظمة الذكاء الاصطناعي الضعيفة فعالية برامجهم في مواجهة اللعبة ضد البشر. أي ببساطة في الألعاب. لقد هزم الكمبيوتر بالفعل الرجل في لعبة الداما والشطرنج واذهب. في هذه الألعاب التي تحتوي على معلومات كاملة في أي وقت أثناء اللعبة ، يكون لدى جميع اللاعبين معلومات كاملة عن حالة اللعبة ، أي عن الموقف وجميع التحركات الممكنة لأي من اللاعبين.
على عكس مثل هذه المواقف الحتمية ، في الألعاب التي تحتوي على معلومات غير مكتملة ، يتم إخفاء جزء من المعلومات حول حالة اللعبة عن اللاعب - على سبيل المثال ، بطاقة الخصم. Unlimited Texas Hold'em هي واحدة من هذه الألعاب. بالإضافة إلى بطاقات الخصم ، هنا يضاف عنصر عدم اليقين بسبب الحجم التعسفي لكل رهان. مع أخذ ذلك في الاعتبار ، يقدر عدد النتائج المحتملة بـ 10
161 .
ربما تكساس هولدم هي اللعبة الأكثر شعبية بمعلومات غير كاملة في العالم. يتم لعب مليارات الدولارات عبر الإنترنت كل يوم. تم حظر استخدام برامج الروبوت بشكل صارم من قبل ، والآن أصبح لدى أصحاب غرف البوكر سببًا جديدًا لمراقبة العمليات على جهاز الكمبيوتر الخاص باللاعب ، حيث إن برنامج Libratus يسحب بشكل موثوق الأرفف الفردية حتى من أفضل المحترفين.
أقيمت مباراة Libratus الفائزة ضد أربعة من محترفي البوكر
من 11 إلى 30 يناير 2017 كجزء من مسابقة
"Brains vs. منظمة العفو الدولية .
"
مكدسات برنامج Libratus وأربعة معارضين خلال 20 يومًا من المسابقةلعبت منظمة العفو الدولية 120 ألف عقاب فردي ، ونتيجة لذلك ، ظلت في منطقة إيجابية مقابل 1،766،250 دولارًا تقليديًا. أعجب اللاعبون أنفسهم ببرنامج اللعبة ، الذي غيّر استراتيجيته بمهارة كل يوم ، مع التكيف مع تصرفات اللاعبين.
بالطبع ، لم تكن اللعبة مقابل أموال حقيقية ، لذلك كان اللاعبون أنفسهم مرتاحين إلى حد ما وليسوا مسؤولين عن اللعبة أكثر مما لو كانوا يلعبون من أجل أموالهم الخاصة. نعم ، وكان عليهم قضاء ساعات في الكمبيوتر كل يوم ، وهذا مرهق جسديًا. ومع ذلك ، فإن مثل هذا الفوز الموثوق للبرنامج لا يمكن إلا أن يثير الإعجاب. يخرج أكثر من 14 ستارة كبيرة لمائة يد. وفقًا للمطورين ، فإن الفوز بمثل هذا المبلغ على مسافة طويلة مع احتمال بنسبة 99.7 ٪ يستبعد تأثير الحظ ، وهذا هو حقًا انتصار مهم إحصائيًا.
الآن قام مطورو البرنامج من جامعة كارنيجي ميلون بنشر
مقال علمي يشرح الهندسة المعمارية ومبادئ تدريب الذكاء الاصطناعي ، والتي تغلبت على محترفي البوكر.
باختصار ، لتبسيط الحسابات ، قام البرنامج بتجميع
10،161 نتيجة محتملة بأيدي متشابهة (على سبيل المثال ، تدفق للملك وتدفق للملكة) وأحجام رهان مماثلة. يتكون Libratus من ثلاث وحدات. الأول هو استراتيجية مفصلة محددة مسبقًا حول كيفية اللعب في الجولات الأولى (نطاق توزيع الورق المراد رفعه من كل مركز). علاوة على ذلك ، لم يتم توضيح الاستراتيجية بهذه الطريقة. تعتمد الإستراتيجية الثانية إلى حد كبير على مسار اللعبة ، أي البطاقات المرسومة وسلوك الخصم ، مع مراعاة نطاقاته وإحصائياته. النموذج الثالث هو استراتيجية لعبة خاصة ضد الخصوم غير المتوقعين ، أي الناس. يتم تحديث هذه الاستراتيجية الثالثة باستمرار في الوقت الحقيقي. إذا قام شخص بإجراء مناورة غير متوقعة للبرنامج ، فقد حفظته وأدخلته في نموذجه ، وتغيير النموذج مع مراعاة البيانات الجديدة وتحسين نفسه.
وفقًا للمطورين ، فإن العمل الناجح في المواقف التي تحتوي على معلومات غير كاملة يمنح الذكاء الاصطناعي ميزة ليس فقط في الألعاب. والحقيقة هي أن مثل هذه الحالات موجودة في كل مكان في الحياة الحقيقية. تقريبا كل حياة الإنسان ، تقريبا كل العلاقات الاجتماعية والاقتصادية هي "ألعاب" بمعلومات غير مكتملة. لذلك ، فإن امتلاك الأدوات المناسبة أمر مهم للغاية من أجل البقاء الناجح للذكاء الاصطناعي في العالم الحقيقي. من الناحية العملية ، يمكن استخدام هذه البرامج ، على سبيل المثال ، لتطوير استراتيجيات فعالة في أنظمة الأمن ، والنماذج الاقتصادية ، والنماذج السياسية ، والأنظمة الأخرى بمعلومات غير كاملة.
التقنيات المستخدمة في برنامج Libratus مستقلة إلى حد كبير عن النطاق ، وبالتالي يمكن استخدامها في تطبيقات أخرى.
نُشرت المقالة العلمية في 17 ديسمبر في مجلة
Science (doi: 10.1126 / science.aao1733 ،
pdf ).