डीपस्टैक पोकर प्रोग्राम एक-एक पेशेवर को हरा देता है
हेड-अप (वन-ऑन-वन गेम) में डीपस्टैक डिसीजन ट्री, पूर्व-फ्लॉप और फ्लॉप नो-लिमिट होल्ड'एमपायनियर ऑफ मॉडर्न गेम थ्योरी जॉन वॉन न्यूमैन ने कहा: "वास्तविक जीवन सभी को धोखा देने के बारे में है, धोखे की छोटी सी चाल, सोचने के लिए कि क्या कार्रवाई की उम्मीद है। आप से एक और व्यक्ति यह वही है जो खेल मेरे सिद्धांत का प्रतिनिधित्व करता है "(डॉक्यूमेंटरी श्रृंखला की 13 वीं श्रृंखला" मानवता का उद्वेलन ")।दूसरे शब्दों में, जॉन वॉन न्यूमैन ने कहा कि एक मजबूत एआई बनाने के लिए, एक कंप्यूटर को अधूरी जानकारी के साथ गेम खेलना सीखना चाहिए जो वास्तविक जीवन में मानव व्यवहार के सबसे निकट से मेल खाता है। पोकर की तरह खेल।बोर्ड गेम कृत्रिम बुद्धिमत्ता के क्षेत्र में प्रयोग का एक पारंपरिक क्षेत्र है। हर साल, AI विभिन्न खेलों में एक व्यक्ति को हरा देता है। पहले, चेकर्स ने आत्मसमर्पण किया, फिर शतरंज, फिर अटारी वीडियो गेम, आखिरी गेम गिर गया। लेकिन ये सभी पूरी जानकारी के साथ गेम हैं, जिसमें सभी खिलाड़ियों को खेल की स्थिति के बारे में पूरी जानकारी होती है। पोकर एक पूरी तरह से अलग मामला है।वैज्ञानिक लंबे समय से एक कार्यक्रम विकसित करने की कोशिश कर रहे हैं जो असीमित टेक्सास होल्डम में किसी व्यक्ति को हरा सकता है। कमजोर एआई के अन्य अनुप्रयोगों के विपरीत, सफल विकास यहां तुरंत भुगतान करेगा, क्योंकि हर दिन ऑनलाइन पोकर कमरे में अरबों डॉलर जीते जा सकते हैं।जॉन वॉन न्यूमैन ने कहा कि पोकर उसे प्रसन्न करता है, और यह आश्चर्यजनक नहीं है, इस गेम की अनूठी विशेषताओं को अधूरी जानकारी के साथ दिया गया है। प्रत्येक खिलाड़ी के पास खेल की स्थिति के बारे में जानकारी का केवल एक हिस्सा होता है - और वह इस आंशिक जानकारी के आधार पर कार्य करता है, साथ ही साथ अन्य खिलाड़ियों के कार्यों का मूल्यांकन भी करता है।इससे पहले, AI ने कुछ हद तक सफलता हासिल की, जब सीमित संख्या में खेल रहे थे, दांव लगाने में सीमित कदम के साथ खेल का सबसे आदिम संस्करण। सीमित संस्करण में, खिलाड़ी के पास केवल 10 14 विकल्प हैं। तुलना के लिए, असीमित होल्डम में पहले से ही ऐसे विकल्पों में से 10 160 हैं । वैसे, खेल में 10,170 विकास विकल्प हैं , लेकिन पूरी जानकारी के साथ एक गेम है, जो एक मौलिक रूप से सरल कार्य है।अधूरी जानकारी वाले खेलों के लिए पूरी जानकारी के साथ खेलों की तुलना में पुनरावर्ती सोच के एक और अधिक जटिल स्तर की आवश्यकता होती है। यहां एआई की सही कार्रवाई निर्भर करती है, एआईए प्रतिद्वंद्वी की कार्रवाई से प्राप्त जानकारी पर निर्भर करती है। लेकिन प्रतिद्वंद्वी ने जो जानकारी दी, वह एआई की पिछली कार्रवाइयों का एक व्युत्पन्न कार्य है और एआई ने अपने कार्यों के साथ एआईआर को जो जानकारी दी। यह पुनरावर्ती सोच है जो डीपस्टैक से संबंधित है। और वह बहुत अच्छी तरह से मुकाबला करती है, पेशेवरों के साथ खेल के परिणामों को देखते हुए (तालिका देखें)।
पेशेवर खिलाड़ियों के साथ हेड-अप परिणामडीपस्टैक कार्यक्रम की वास्तुकला को चित्रण में दिखाया गया है। जब कोई निर्णय आवश्यक होता है, तो कार्यक्रम प्रत्येक चरण में अपने कार्यों का पुनर्मूल्यांकन करता है। प्रत्येक शर्त के मूल्य की गणना करने के लिए, एक लाह के पेड़ का उपयोग किया जाता है, जिसके लिए जिन मूल्यों पर प्रकाश डाला जाता है, उनकी गणना एक तंत्रिका नेटवर्क का उपयोग करके की जाती है जो पहले यादृच्छिक गेम स्थितियों में प्रशिक्षित होती थी।
तंत्रिका नेटवर्क की संरचना दर्शाती है कि बर्तन का आकार, खुले कार्ड और खिलाड़ियों की श्रेणी (संभव संयोजन जिसके साथ खिलाड़ी खेल में प्रवेश कर सकता है, उसमें प्रवेश कर सकते हैं (कॉल, बढ़ा, 3-शर्त, आदि) प्रवेश द्वार पर सेवा कर रहे हैं। प्रत्येक संयोजन की संभावना)। एक तंत्रिका नेटवर्क में सात पूरी तरह से जुड़े हुए छिपे हुए परत होते हैं। आउटपुट मान फिर एक और तंत्रिका नेटवर्क द्वारा संसाधित होते हैं, जो यह सत्यापित करता है कि क्रियाएं शून्य राशि सीमा को संतुष्ट करती हैं।
कार्यक्रम की एक विशेषता यह है कि यह प्रतिद्वंद्वी द्वारा अपनी रणनीति के विश्लेषण को सक्रिय रूप से हल करता है। दूसरे शब्दों में, कार्यक्रम नैश संतुलन , खेल सिद्धांत में एक प्रमुख अवधारणा का उपयोग करता है। नैश संतुलन रणनीतियों के एक सेट को संदर्भित करता है कि कोई भी प्रतिभागी अपनी रणनीति में बदलाव करके अपनी जीत को नहीं बढ़ा सकता है यदि उनकी रणनीतियों में अन्य प्रतिभागी नहीं बदलते हैं। एक विरोधी पोकर खेल के दृष्टिकोण से, डीपस्टैक का मुख्य कार्य नैश संतुलन को खोजने के लिए है, अर्थात, उसे लाभ कमाने के लिए किसी अन्य खिलाड़ी द्वारा उसकी रणनीति का फायदा उठाने की संभावना को कम से कम करना। एलबीआर (स्थानीय सर्वश्रेष्ठ-प्रतिक्रिया) तकनीक का उपयोग करके अपनी रणनीति का परीक्षण करने के बाद अब तक विकसित सभी पोकर कार्यक्रमों का आसानी से दोहन किया गया है - हाल ही मेंनवीनतम पोकर बॉट का अवलोकन ।इसलिए, डीबीआर का उपयोग पूरी तरह से एलबीआर का उपयोग करके नहीं किया जाता है। पेशेवरों द्वारा बॉट को गेम में दिखाए गए वास्तविक परिणामों के साथ, केवल एक ही सवाल है: डेवलपर्स ने सार्वजनिक क्षेत्र में इस वास्तुकला के बारे में जानकारी क्यों प्रकाशित की?वैज्ञानिक कार्य 6 जनवरी, 2017 को साइट arXiv.org पर प्रकाशित किया गया था , जहां आधिकारिक पत्रिका में प्रकाशित होने से पहले लेख रखे गए हैं।डेवलपमेंट टीम का नेतृत्व यूनिवर्सिटी ऑफ अल्बर्टा (यूएसए) के कंप्यूटर साइंस माइकल बॉलिंग के प्रोफेसर कर रहे हैं ।
डीपस्टैक डेवलपमेंट टीमअलबर्टा विश्वविद्यालय (कंप्यूटर पोकर रिसर्च ग्रुप) में पोकर बॉट्स विभाग को 90 के दशक में बनाया गया था, यहाँ बनाया गया पहला बॉट था1997 में लोकी । इसके बाद पोकी (1999), PsOpti / Sparbot (2002), Vexbot (2003), Hyperborean (2006), Polaris (2007), Hyperborean No-Limit (2007), Hyperborean Ring (2009), Cepheus (2015), और अंत में थे। , क्राउन ऑफ़ क्रिएशन - डीपस्टैक।निकट भविष्य में, डीपस्टैक कार्यक्रम को अधिक अनुभवी पेशेवरों के साथ खेलों में परीक्षण किया जाएगा, जो कि लेख की शुरुआत में तालिका से लोगों की तुलना में बहुत अधिक स्तर हैं। इस सप्ताह के अंत में, कार्यक्रम पिट्सबर्ग कैसीनो में एक टूर्नामेंट में खेलेंगेजहां कई विश्व स्तरीय पेशेवरों के आने की उम्मीद है। 20 दिनों में, डीपस्टैक को लगभग 120,000 हाथों से खेलना चाहिए। यह कार्यक्रम की गुणवत्ता का सही आकलन करने के लिए पर्याप्त है।आज तक, दीपस्टैक ने अंतर्राष्ट्रीय पोकर महासंघ द्वारा चुने गए पेशेवर स्वयंसेवकों के खिलाफ 44,852 हाथ खेले हैं। खिलाड़ियों को अच्छे खेल के लिए नकद पुरस्कार मिला ($ 5,000 सीएडी का पहला पुरस्कार), इसलिए लोगों ने पूरी ताकत से खेला। फिर भी, कार्यक्रम एक अच्छे प्लस में है।
Source: https://habr.com/ru/post/hi400709/
All Articles