الفوز والفوز: منظمة العفو الدولية تفوز ببطولة البوكر ضد أربعة محترفين



الذكاء الاصطناعي (شكله الضعيف) ، الذي طوره ممثلو كلية المعلوماتية بجامعة كارنيجي ميلون ، تفوق على أربعة لاعبين بوكر محترفين. هذه بطولة تكساس هولدم في كازينو ريفرز في بيتسبرغ. هذا هو واحد من أكثر أنواع البوكر شعبية. خلال البطولة ، تم لعب حوالي 120 ألف توزيع ورق. أخذت منظمة العفو الدولية البنك بمبلغ 1.7 مليون دولار.

مؤلفو البرنامج هم توماس ساندهولم ونوام براون. وفقًا للمطورين ، لعبة البوكر هي لعبة لا يعرف المشاركون فيها البطاقات التي يمتلكها الآخرون. لهذا السبب ، حساب شيء صعب للغاية. اشتكى جيمي تشو ، أحد المشاركين في البطولة ، من أنه وزملائه استهانوا بقدرات Libratus: "لعب البوت بشكل أفضل كل يوم. يبدو أنه نسخة أكثر مهارة من نسختنا ".

كانت البطولة المعنية تسمى " العقل مقابل الذكاء الاصطناعي: رفع مستوى الرهان ". بدأ في 11 يناير. كان هناك خمسة مشاركين. واحد منهم هو روبوت ليبراتوس. الأربعة الآخرون هم جيمي تشو ، ودونغ كيم ، وجايسون ليس ، ودانيال ماكولي. كانت المدة الإجمالية للبطولة 20 يومًا. يعتبر الأشخاص الأربعة أفضل اللاعبين في هذا النوع من البوكر في العالم.

وفقًا للمطورين ، يعد الفوز ببرنامج البوكر الخاص بهم أحد أكبر الإنجازات في مجال الذكاء الاصطناعي.


لسوء الحظ ، لا يكشف مؤلفو نظام Libratus عن ميزات عمله. لا يعرف مبدأ تشغيل الخوارزمية إلا بعبارات عامة. ومع ذلك ، في المستقبل القريب ، سيتم الكشف عن التفاصيل الفنية في منشور في مجلة علمية يراجعها الأقران.

يدعي المطورون أن Libratus يتكون من ثلاثة أجزاء. هذا هو الجوهر الأساسي ، وهو نظام يتتبع الأخطاء التي يرتكبها المنافسون والجزء الذي يتابع نقاط الضعف في نفسه. خلال اللعبة ، ساعد الجزء الثالث على تحسين قدرة البرنامج ، وكذلك تحسين عمل الجزأين الأولين. تعلمت Libratus خداع والتعرف على خدع من الخصوم. كان إجمالي وقت الحساب حوالي 15 مليون ساعة أساسية.

الشيء الأكثر إثارة للاهتمام هو أن خوارزميات Libratus لم يتم "شحذها" خصيصًا للبوكر أو أي ألعاب أخرى. يجب على البرنامج ، باستخدام الموارد الداخلية ، تطوير أسلوب اللعب الخاص به. واستند هذا العمل إلى المعلومات المقدمة في البداية من قبل المطورين - قواعد لعبة البوكر.

أما بالنسبة لأموال الجائزة ، فسيحصل المشاركون في البطولة على 200.000 دولار - وسيتم تقسيم هذا المبلغ بين جميع اللاعبين البشريين وفقًا للنتائج التي حصلوا عليها. لن يجلب المطورون الأموال إلى الوطن. كل هذا تم الاتفاق عليه مسبقًا ، والشيء الرئيسي للعلماء الذين أنشأوا النظام هو إثبات فعاليته. وفقًا لموظفي كارنيجي ميلون ، يمكن استخدام قدرات Libratus للأمن السيبراني ، في المفاوضات ، ولأغراض عسكرية.



بشكل عام ، يتفوق الذكاء الاصطناعي كل عام على كل الألعاب الجديدة التي كانت تعتبر في السابق غير قابلة للوصول إلى الكمبيوتر. في البداية ، كانت هذه لعبة الداما ، ثم - الشطرنج ، وألعاب الفيديو ، اذهب والآن البوكر. علاوة على ذلك ، من المثير للاهتمام أنه في جميع الحالات السابقة يكون لدى جميع المشاركين معلومات كاملة عن مسار اللعبة - يمكنك رؤية الملعب وجميع الرقائق / الأرقام. في الحالة الأخيرة ، المعلومات ليست كاملة ، البوكر في هذا الصدد يقف متميزًا.

سبق لمنظمة العفو الدولية أن لعبت البوكر ، لكنها تمكنت من الفوز فقط في أبسط نسخة من اللعبة - في حالة حد أقصى مع خطوة محدودة لرفع الأسعار. ولكن في البوكر غير المحدود ، كل شيء أكثر تعقيدًا. هنا تحتاج إلى التصرف على حد سواء بناءً على معلومات حول بطاقاتك الخاصة وبيانات عن تصرفات الخصم. علاوة على ذلك ، يمكن أن يخدع الخصوم ، مما يزيد من تعقيد المهمة.

في Hold'em غير المحدودة ، تظهر منصة برامج أخرى - DeepStack - نتائج ممتازة أيضًا . تم تطويره في جامعة ألبرتا ، ويقوم موظفو الجامعة ، وهي مجموعة بحثية خاصة ، بإنشاء روبوتات بوكر منذ التسعينات من القرن الماضي. أول روبوت تم إنشاؤه هنا كان Loki في عام 1997. ثم كان هناك Poki (1999) ، PsOpti / Sparbot (2002) ، Vexbot (2003) ، Hyperborean (2006) ، Polaris (2007) ، Hyperborean No-Limit (2007) ، Hyperborean Ring (2009) ، Cepheus (2015) ، وأخيرًا ، تاج الخلق - DeepStack.

يعرف الكثير عن القدرات الفنية لهذا البرنامج ، حيث قام المطورون بنشر معلومات عنه في أوائل يناير من هذا العام. يستخدم DeepStack توازن ناش. هذا هو اسم مجموعة من الإستراتيجيات المختلفة ، حيث لا يمكن لأي لاعب زيادة أرباحه في حالة حدوث تغيير في الإستراتيجية إذا لم يغير المشاركون الآخرون في اللعبة الإستراتيجيات. بالإضافة إلى ذلك ، يعارض DeepStack محاولات استخدام استراتيجيته الخاصة من قبل لاعبين آخرين.

Source: https://habr.com/ru/post/ar401137/


All Articles