डीपस्टैक पोकर प्रोग्राम एक-एक पेशेवर को हरा देता है


हेड-अप (वन-ऑन-वन ​​गेम) में डीपस्टैक डिसीजन ट्री, पूर्व-फ्लॉप और फ्लॉप नो-लिमिट होल्ड'एम

पायनियर ऑफ मॉडर्न गेम थ्योरी जॉन वॉन न्यूमैन ने कहा: "वास्तविक जीवन सभी को धोखा देने के बारे में है, धोखे की छोटी सी चाल, सोचने के लिए कि क्या कार्रवाई की उम्मीद है। आप से एक और व्यक्ति यह वही है जो खेल मेरे सिद्धांत का प्रतिनिधित्व करता है "(डॉक्यूमेंटरी श्रृंखला की 13 वीं श्रृंखला" मानवता का उद्वेलन ")।

दूसरे शब्दों में, जॉन वॉन न्यूमैन ने कहा कि एक मजबूत एआई बनाने के लिए, एक कंप्यूटर को अधूरी जानकारी के साथ गेम खेलना सीखना चाहिए जो वास्तविक जीवन में मानव व्यवहार के सबसे निकट से मेल खाता है। पोकर की तरह खेल।

बोर्ड गेम कृत्रिम बुद्धिमत्ता के क्षेत्र में प्रयोग का एक पारंपरिक क्षेत्र है। हर साल, AI विभिन्न खेलों में एक व्यक्ति को हरा देता है। पहले, चेकर्स ने आत्मसमर्पण किया, फिर शतरंज, फिर अटारी वीडियो गेम, आखिरी गेम गिर गया। लेकिन ये सभी पूरी जानकारी के साथ गेम हैं, जिसमें सभी खिलाड़ियों को खेल की स्थिति के बारे में पूरी जानकारी होती है। पोकर एक पूरी तरह से अलग मामला है।

वैज्ञानिक लंबे समय से एक कार्यक्रम विकसित करने की कोशिश कर रहे हैं जो असीमित टेक्सास होल्डम में किसी व्यक्ति को हरा सकता है। कमजोर एआई के अन्य अनुप्रयोगों के विपरीत, सफल विकास यहां तुरंत भुगतान करेगा, क्योंकि हर दिन ऑनलाइन पोकर कमरे में अरबों डॉलर जीते जा सकते हैं।

जॉन वॉन न्यूमैन ने कहा कि पोकर उसे प्रसन्न करता है, और यह आश्चर्यजनक नहीं है, इस गेम की अनूठी विशेषताओं को अधूरी जानकारी के साथ दिया गया है। प्रत्येक खिलाड़ी के पास खेल की स्थिति के बारे में जानकारी का केवल एक हिस्सा होता है - और वह इस आंशिक जानकारी के आधार पर कार्य करता है, साथ ही साथ अन्य खिलाड़ियों के कार्यों का मूल्यांकन भी करता है।

इससे पहले, AI ने कुछ हद तक सफलता हासिल की, जब सीमित संख्या में खेल रहे थे, दांव लगाने में सीमित कदम के साथ खेल का सबसे आदिम संस्करण। सीमित संस्करण में, खिलाड़ी के पास केवल 10 14 विकल्प हैं। तुलना के लिए, असीमित होल्डम में पहले से ही ऐसे विकल्पों में से 10 160 हैं । वैसे, खेल में 10,170 विकास विकल्प हैं , लेकिन पूरी जानकारी के साथ एक गेम है, जो एक मौलिक रूप से सरल कार्य है।

अधूरी जानकारी वाले खेलों के लिए पूरी जानकारी के साथ खेलों की तुलना में पुनरावर्ती सोच के एक और अधिक जटिल स्तर की आवश्यकता होती है। यहां एआई की सही कार्रवाई निर्भर करती है, एआईए प्रतिद्वंद्वी की कार्रवाई से प्राप्त जानकारी पर निर्भर करती है। लेकिन प्रतिद्वंद्वी ने जो जानकारी दी, वह एआई की पिछली कार्रवाइयों का एक व्युत्पन्न कार्य है और एआई ने अपने कार्यों के साथ एआईआर को जो जानकारी दी। यह पुनरावर्ती सोच है जो डीपस्टैक से संबंधित है। और वह बहुत अच्छी तरह से मुकाबला करती है, पेशेवरों के साथ खेल के परिणामों को देखते हुए (तालिका देखें)।


पेशेवर खिलाड़ियों के साथ हेड-अप परिणाम

डीपस्टैक कार्यक्रम की वास्तुकला को चित्रण में दिखाया गया है। जब कोई निर्णय आवश्यक होता है, तो कार्यक्रम प्रत्येक चरण में अपने कार्यों का पुनर्मूल्यांकन करता है। प्रत्येक शर्त के मूल्य की गणना करने के लिए, एक लाह के पेड़ का उपयोग किया जाता है, जिसके लिए जिन मूल्यों पर प्रकाश डाला जाता है, उनकी गणना एक तंत्रिका नेटवर्क का उपयोग करके की जाती है जो पहले यादृच्छिक गेम स्थितियों में प्रशिक्षित होती थी।



तंत्रिका नेटवर्क की संरचना दर्शाती है कि बर्तन का आकार, खुले कार्ड और खिलाड़ियों की श्रेणी (संभव संयोजन जिसके साथ खिलाड़ी खेल में प्रवेश कर सकता है, उसमें प्रवेश कर सकते हैं (कॉल, बढ़ा, 3-शर्त, आदि) प्रवेश द्वार पर सेवा कर रहे हैं। प्रत्येक संयोजन की संभावना)। एक तंत्रिका नेटवर्क में सात पूरी तरह से जुड़े हुए छिपे हुए परत होते हैं। आउटपुट मान फिर एक और तंत्रिका नेटवर्क द्वारा संसाधित होते हैं, जो यह सत्यापित करता है कि क्रियाएं शून्य राशि सीमा को संतुष्ट करती हैं



कार्यक्रम की एक विशेषता यह है कि यह प्रतिद्वंद्वी द्वारा अपनी रणनीति के विश्लेषण को सक्रिय रूप से हल करता है। दूसरे शब्दों में, कार्यक्रम नैश संतुलन , खेल सिद्धांत में एक प्रमुख अवधारणा का उपयोग करता है। नैश संतुलन रणनीतियों के एक सेट को संदर्भित करता है कि कोई भी प्रतिभागी अपनी रणनीति में बदलाव करके अपनी जीत को नहीं बढ़ा सकता है यदि उनकी रणनीतियों में अन्य प्रतिभागी नहीं बदलते हैं। एक विरोधी पोकर खेल के दृष्टिकोण से, डीपस्टैक का मुख्य कार्य नैश संतुलन को खोजने के लिए है, अर्थात, उसे लाभ कमाने के लिए किसी अन्य खिलाड़ी द्वारा उसकी रणनीति का फायदा उठाने की संभावना को कम से कम करना। एलबीआर (स्थानीय सर्वश्रेष्ठ-प्रतिक्रिया) तकनीक का उपयोग करके अपनी रणनीति का परीक्षण करने के बाद अब तक विकसित सभी पोकर कार्यक्रमों का आसानी से दोहन किया गया है - हाल ही मेंनवीनतम पोकर बॉट का अवलोकन

इसलिए, डीबीआर का उपयोग पूरी तरह से एलबीआर का उपयोग करके नहीं किया जाता है। पेशेवरों द्वारा बॉट को गेम में दिखाए गए वास्तविक परिणामों के साथ, केवल एक ही सवाल है: डेवलपर्स ने सार्वजनिक क्षेत्र में इस वास्तुकला के बारे में जानकारी क्यों प्रकाशित की?

वैज्ञानिक कार्य 6 जनवरी, 2017 को साइट arXiv.org पर प्रकाशित किया गया था , जहां आधिकारिक पत्रिका में प्रकाशित होने से पहले लेख रखे गए हैं।

डेवलपमेंट टीम का नेतृत्व यूनिवर्सिटी ऑफ अल्बर्टा (यूएसए) के कंप्यूटर साइंस माइकल बॉलिंग के प्रोफेसर कर रहे हैं


डीपस्टैक डेवलपमेंट टीम

अलबर्टा विश्वविद्यालय (कंप्यूटर पोकर रिसर्च ग्रुप) में पोकर बॉट्स विभाग को 90 के दशक में बनाया गया था, यहाँ बनाया गया पहला बॉट था1997 में लोकी । इसके बाद पोकी (1999), PsOpti / Sparbot (2002), Vexbot (2003), Hyperborean (2006), Polaris (2007), Hyperborean No-Limit (2007), Hyperborean Ring (2009), Cepheus (2015), और अंत में थे। , क्राउन ऑफ़ क्रिएशन - डीपस्टैक।

निकट भविष्य में, डीपस्टैक कार्यक्रम को अधिक अनुभवी पेशेवरों के साथ खेलों में परीक्षण किया जाएगा, जो कि लेख की शुरुआत में तालिका से लोगों की तुलना में बहुत अधिक स्तर हैं। इस सप्ताह के अंत में, कार्यक्रम पिट्सबर्ग कैसीनो में एक टूर्नामेंट में खेलेंगेजहां कई विश्व स्तरीय पेशेवरों के आने की उम्मीद है। 20 दिनों में, डीपस्टैक को लगभग 120,000 हाथों से खेलना चाहिए। यह कार्यक्रम की गुणवत्ता का सही आकलन करने के लिए पर्याप्त है।

आज तक, दीपस्टैक ने अंतर्राष्ट्रीय पोकर महासंघ द्वारा चुने गए पेशेवर स्वयंसेवकों के खिलाफ 44,852 हाथ खेले हैं। खिलाड़ियों को अच्छे खेल के लिए नकद पुरस्कार मिला ($ 5,000 सीएडी का पहला पुरस्कार), इसलिए लोगों ने पूरी ताकत से खेला। फिर भी, कार्यक्रम एक अच्छे प्लस में है।

Source: https://habr.com/ru/post/hi400709/


All Articles