⏬ 🖕🏻 📦 तंत्रिका नेटवर्क और गहरी सीख: एक ऑनलाइन ट्यूटोरियल, अध्याय 6, भाग 2: छवि मान्यता में हाल की प्रगति ☣️ 🤹🏽 😫

सामग्री

1998 में, जब MNIST डेटाबेस दिखाई दिया, तो सबसे उन्नत कंप्यूटरों को प्रशिक्षित करने में कई सप्ताह लग गए, जिससे आज के कंप्यूटरों की तुलना में बहुत खराब परिणाम प्राप्त हुए, जो GPU के साथ प्राप्त करने में एक घंटे से भी कम समय लेते हैं। इसलिए, MNIST अब प्रौद्योगिकी की सीमाओं को धक्का देने वाला कार्य नहीं है; प्रशिक्षण की गति बताती है कि यह कार्य इस प्रौद्योगिकी के अध्ययन के लिए उपयुक्त है। इस बीच, अनुसंधान आगे बढ़ता है, और आधुनिक कार्य बहुत अधिक जटिल समस्याओं का अध्ययन करते हैं। इस खंड में, मैं संक्षेप में तंत्रिका नेटवर्क का उपयोग करके छवि मान्यता से संबंधित चल रहे काम के कुछ उदाहरणों का वर्णन करूंगा।

यह खंड बाकी किताब से अलग है। पुस्तक में, मैंने संभवतः लंबे समय तक रहने वाले विचारों पर ध्यान केंद्रित किया - बैकप्रॉपैगैनेशन, नियमितीकरण, दृढ़ नेटवर्क। मैंने लेखन के समय फैशनेबल माने जाने वाले परिणामों से बचने की कोशिश की, जिनका दीर्घकालिक मूल्य संदिग्ध लग रहा था। विज्ञान में, इस तरह के परिणाम ज्यादातर अक्सर अल्पकालिक होते हैं, जल्दी से गायब हो जाते हैं और दीर्घकालिक प्रभाव नहीं होते हैं। इसे देखते हुए, संशयवादी कहेंगे: “बेशक, छवि पहचान में हालिया प्रगति को इस तरह की एक दिन की यात्रा का उदाहरण माना जा सकता है? दो या तीन वर्षों में, सब कुछ बदल जाएगा। तो, क्या ये परिणाम अग्रभूमि में प्रतिस्पर्धा करने वाले पेशेवरों की कम संख्या के लिए रुचि रखते हैं? उन पर चर्चा क्यों करें? ”

इस तरह का संदेह सही होगा कि हाल के कार्यों के छोटे विवरण धीरे-धीरे कथित महत्व खो रहे हैं। हालांकि, पिछले कुछ वर्षों में गहरे तंत्रिका नेटवर्क (जीएनएस) का उपयोग करके छवि मान्यता की विशेष रूप से जटिल समस्याओं को हल करने में अविश्वसनीय सुधार हुए हैं। 2100 में कंप्यूटर दृष्टि के बारे में विज्ञान लेखन सामग्री के इतिहासकार की कल्पना करें। वे 2011-2015 (और संभवत: उसके कई साल बाद) को परिभाषित करेंगे, जो कि गहरे कनवल्शन नेटवर्क (जीएसएस) द्वारा संचालित महत्वपूर्ण सफलताओं की अवधि के रूप में है। इसका मतलब यह नहीं है कि GOS अभी भी 2100 में इस्तेमाल किया जाएगा, न कि अपवाद, ReLU, और अधिक जैसे विवरणों का उल्लेख करने के लिए। लेकिन यह सब समान अर्थ है कि वर्तमान समय में विचारों के इतिहास में एक महत्वपूर्ण संक्रमण है। यह परमाणु की खोज, एंटीबायोटिक दवाओं के आविष्कार: ऐतिहासिक अनुपात के आविष्कार और खोज के अवलोकन के समान है। इसलिए, विवरण में जाने के बिना, आज की जाने वाली दिलचस्प खोजों के कुछ विचार प्राप्त करने के लायक है।

काम 2012 LRMD

मुझे स्टैनफोर्ड और गूगल के शोधकर्ताओं के एक समूह के लेखक , 2012 के काम से शुरू करते हैं । मैं पहले चार लेखकों के नाम के पहले अक्षर से, उसे एलआरएमडी कहूंगा। LRMD ने NS का उपयोग इमेजनेट डेटाबेस से छवियों को वर्गीकृत करने के लिए किया, जो पैटर्न मान्यता का एक बहुत ही मुश्किल काम है। 2011 के इमेजनेट से उन्होंने जो डेटा इस्तेमाल किया, उसमें 16 मिलियन फुल-कलर इमेज शामिल थीं, जिन्हें 20,000 कैटेगरीज में बांटा गया था। छवियाँ इंटरनेट से डाउनलोड की गईं और अमेज़ॅन के मैकेनिकल तुर्क द्वारा वर्गीकृत की गईं। यहाँ उनमें से कुछ हैं:

वे क्रमशः श्रेणियों के हैं: कण्ठमाला, भूरे जड़ कवक, पास्चुरीकृत दूध, राउंडवॉर्म। यदि आप व्यायाम करना चाहते हैं, तो मैं सुझाव देता हूं कि आप इमेजनेट से हैंड टूल्स की सूची पर जाएं, जहां टीले बनाने के लिए टीले, अंतिम प्लानर, चेंफरिंग के लिए प्लानर और दर्जनों अन्य प्रकार के प्लानर के बीच अंतर किया जाता है, अन्य श्रेणियों का उल्लेख नहीं करना। मैं आपके बारे में नहीं जानता, लेकिन मैं इन सभी साधनों की निश्चितता के साथ अंतर नहीं कर सकता। यह स्पष्ट रूप से MNIST की तुलना में कहीं अधिक चुनौतीपूर्ण है! एलआरएमडी नेटवर्क को इमेजनेट से 15.8% छवि मान्यता सटीकता पर एक सभ्य परिणाम मिला। यह एक प्रभावशाली परिणाम की तरह प्रतीत नहीं हो सकता है, लेकिन यह 9.3% के पिछले परिणाम की तुलना में बहुत बड़ा सुधार था। ऐसी छलांग बताती है कि NS बहुत ही जटिल छवि पहचान कार्यों जैसे कि ImageNet के लिए एक प्रभावी दृष्टिकोण प्रदान कर सकता है।

काम 2012 KSH

2012 में LRMD के काम के बाद Krizhevsky, Sutskever और Hinton (KSH) का काम शुरू हुआ। केएसएच ने इमेजेसनेट डेटा के एक सीमित उपसमूह का उपयोग करके जीएसएस को प्रशिक्षित और परीक्षण किया। यह सबसेट लोकप्रिय मशीन लर्निंग प्रतियोगिता - इमेजनेट लार्ज-स्केल विजुअल रिकॉग्निशन चैलेंज (ILSVRC) द्वारा परिभाषित किया गया है। इस सबसेट का उपयोग करके उन्हें अन्य अग्रणी तकनीकों के साथ अपने दृष्टिकोण की तुलना करने का एक सुविधाजनक तरीका दिया गया। ILSVRC 2012 के सेट में 1000 श्रेणियों के लगभग 1.2 मिलियन चित्र हैं। सत्यापन और पुष्टिकरण सेट में क्रमशः 1000 श्रेणियों से 150,000 और 50,000 चित्र हैं।

ILSVRC प्रतियोगिता की चुनौतियों में से एक यह है कि ImageNet की कई छवियों में कई ऑब्जेक्ट हैं। उदाहरण के लिए, छवि में, लैब्राडोर रिट्रीवर एक फुटबॉल की गेंद के बाद चलता है। तथाकथित ILSVRC से "सही" वर्गीकरण लैब्राडोर रिट्रीवर लेबल के अनुरूप हो सकता है। क्या यह एल्गोरिथ्म से अंक का चयन करना आवश्यक है अगर यह एक फुटबॉल की गेंद की तरह छवि को चिह्नित करता है? इस तरह की अस्पष्टता के कारण, इमेजनेट वर्गीकरण सही माना जाता था यदि छवि की सामग्री के बारे में एल्गोरिथम के 5 सबसे संभावित अनुमानों में से एक था। इस मानदंड के अनुसार, शीर्ष 5 में से, केएसएच के जीएसएस ने 84.7% की सटीकता हासिल की, जो पिछले प्रतिद्वंद्वी की तुलना में बेहतर थी, जिसने 73.8% की सटीकता हासिल की। अधिक कठोर मीट्रिक का उपयोग करना, जब लेबल को निर्धारित से मेल खाना चाहिए, केएसएच सटीकता 63.3% तक पहुंच गई।

यह संक्षिप्त रूप से KSH नेटवर्क का वर्णन करने योग्य है, क्योंकि इसने बहुत सारे कार्यों को प्रेरित किया है। यह भी है, जैसा कि हम देखेंगे, इस अध्याय में प्रशिक्षित नेटवर्क के साथ निकटता से जुड़ा हुआ है, हालांकि यह अधिक जटिल है। केएसएच ने दो जीपीयू पर प्रशिक्षित जीएसएस का इस्तेमाल किया। उन्होंने दो GPU का उपयोग किया क्योंकि उनके विशेष कार्ड (NVIDIA GeForce GTX 580) के पास पूरे नेटवर्क को स्टोर करने के लिए पर्याप्त मेमोरी नहीं थी। इसलिए, वे नेटवर्क को दो भागों में विभाजित करते हैं।

केएसएच नेटवर्क में छिपे हुए न्यूरॉन्स की 7 परतें हैं। पहले पांच छिपी हुई परतें कंफर्टेबल हैं (कुछ अधिकतम पूलिंग का उपयोग करती हैं), और अगले 2 पूरी तरह से जुड़े हुए हैं। आउटपुट सॉफ्टमैक्स लेयर में 1000 इमेज कक्षाओं के अनुरूप 1000 न्यूरॉन्स होते हैं। यहां नेटवर्क का एक स्केच है, जिसे केएसएच के काम से लिया गया है। विवरण नीचे वर्णित हैं। ध्यान दें कि कई परतें दो GPU के अनुरूप 2 भागों में विभाजित हैं।

इनपुट परत में एक 3x224x224 न्यूरॉन है जो 224x224 आकार की छवि के लिए आरजीबी मूल्यों को दर्शाता है। याद रखें कि ImageNet में विभिन्न प्रस्तावों की छवियां शामिल हैं। यह एक समस्या प्रस्तुत करता है, क्योंकि इनपुट नेटवर्क परत आमतौर पर एक निश्चित आकार की होती है। केएसएच ने प्रत्येक छवि को स्केल करके इससे निपटा, ताकि इसके छोटे हिस्से की लंबाई 256 पिक्सेल हो। फिर उन्होंने आकार बदलने वाली छवि के बीच से 256x256 पिक्सेल का एक क्षेत्र काट दिया। अंत में, केएसएच 256x256 छवियों से यादृच्छिक 224x224 छवि टुकड़े (और उनके क्षैतिज प्रतिबिंब) को पुनः प्राप्त करता है। यह यादृच्छिक कटौती रिट्रेनिंग को कम करने के लिए प्रशिक्षण डेटा के विस्तार का एक तरीका है। यह विशेष रूप से केएसएच के रूप में इतने बड़े नेटवर्क को प्रशिक्षित करने में मदद करता है। और अंत में, इन 224x224 छवियों का उपयोग नेटवर्क के इनपुट के रूप में किया जाता है। ज्यादातर मामलों में, फसली छवि में मूल छवि से मुख्य ऑब्जेक्ट होता है।

हम KSH नेटवर्क की छिपी हुई परतों को पास करते हैं। पहली छिपी परत अधिकतम है, जिसमें अधिकतम-खींचने वाला कदम है। यह 11x11 आकार के स्थानीय ग्रहणशील क्षेत्रों और 4 पिक्सेल के एक चरण का उपयोग करता है। कुल में, 96 सुविधा कार्ड प्राप्त किए जाते हैं। चरित्र कार्ड को 48 टुकड़ों के दो समूहों में विभाजित किया गया है, पहला 48 कार्ड एक जीपीयू पर, और दूसरा दूसरे पर। इसमें और बाद की परतों में मैक्स-पूलिंग 3x3 वर्गों द्वारा किया जाता है, लेकिन पूलिंग अनुभाग ओवरलैप कर सकते हैं, और एक दूसरे से केवल 2 पिक्सल की दूरी पर स्थित हैं।

दूसरी छिपी हुई परत भी अधिकतम है, जिसमें अधिकतम पूलिंग है। यह स्थानीय 5x5 ग्रहणशील क्षेत्रों का उपयोग करता है, और इसमें 256 फीचर कार्ड हैं, जो प्रत्येक GPU के लिए 128 टुकड़ों में टूट गया है। फ़ीचर मैप्स केवल 48 इनकमिंग चैनलों का उपयोग करते हैं, और हमेशा की तरह पिछली परत से सभी 96 बाहर नहीं निकलते हैं। ऐसा इसलिए है क्योंकि कोई भी फीचर कार्ड GPU से इनपुट प्राप्त करता है, जिस पर वह संग्रहीत है। इस अर्थ में, नेटवर्क उस जटिल वास्तुकला से दूर जा रहा है जिसे हमने इस अध्याय में पहले वर्णित किया था, हालांकि, जाहिर है, मूल विचार समान है।

तीसरी, चौथी और पाँचवीं परतें दृढ़ हैं, लेकिन अधिकतम पूलिंग के बिना। उनके पैरामीटर: (3) 384 फ़ीचर मैप्स, स्थानीय ग्रहणशील क्षेत्र 3x3, 256 इनकमिंग चैनल; (४) ३ 3x४ फ़ीचर मैप्स, लोकल रिसेप्टिव फील्ड्स ३ एक्स ३, १ ९ २ इनकमिंग चैनल्स; (5) 256 फ़ीचर कार्ड, स्थानीय ग्रहणशील क्षेत्र 3x3, 192 आने वाले चैनल। तीसरी परत पर, GPUs के बीच डेटा का आदान-प्रदान किया जाता है (जैसा कि चित्र में दिखाया गया है) ताकि फीचर मैप सभी 256 आने वाले चैनलों का उपयोग कर सकें।

छठी और सातवीं छिपी हुई परतें पूरी तरह से जुड़ी हुई हैं, प्रत्येक में 4096 न्यूरॉन्स हैं।

आउटपुट लेयर सॉफ्टमैक्स है, इसमें 1000 इकाइयाँ हैं।

KSH नेटवर्क कई तकनीकों का लाभ उठाता है। सिग्माइड या हाइपरबोलिक स्पर्शरेखा को एक सक्रियण फ़ंक्शन के रूप में उपयोग करने के बजाय, यह ReLUs का उपयोग करता है, जो सीखने में बहुत तेजी लाता है। केएसएच नेटवर्क में लगभग 60 मिलियन प्रशिक्षण पैरामीटर हैं, और इसलिए, यहां तक कि प्रशिक्षण डेटा के एक बड़े सेट के साथ, यह रिट्रेनिंग के अधीन है। इसके साथ सामना करने के लिए, लेखकों ने बेतरतीब ढंग से चित्रों को सेट करके प्रशिक्षण का विस्तार किया, जैसा कि ऊपर वर्णित है। उन्होंने तब एल 2-नियमितीकरण संस्करण और अपवाद का उपयोग किया। गति के आधार पर और मिनी-पैकेट के साथ स्टोचस्टिक ढाल वंश का उपयोग करके नेटवर्क को प्रशिक्षित किया गया था।

यह KSH के कई प्रमुख अंतर्दृष्टि का संक्षिप्त विवरण है। मैंने कुछ विवरणों को छोड़ दिया, अपने आप को लेख में देखें। तुम भी एलेक्स Krizhevsky cuda-convnet (और उसके अनुयायियों) की परियोजना को देख सकते हैं, जिसमें कोड शामिल हैं जो वर्णित विचारों में से कई को लागू करता है। थीनो पर आधारित इस नेटवर्क का एक संस्करण भी विकसित किया गया है । आप कोड में उन विचारों को पहचान सकते हैं जो उन लोगों के समान हैं जिन्हें हमने इस अध्याय में विकसित किया था, हालांकि कई GPU का उपयोग मामलों को जटिल करता है। कैफ ढांचे का KSH नेटवर्क का अपना संस्करण है, विवरण के लिए उनके " चिड़ियाघर मॉडल " देखें।

2014 ILSVRC प्रतियोगिता

2012 से प्रगति काफी तेज है। 2014 ILSVRC प्रतियोगिता को लें। 2012 की तरह, प्रतिभागियों को 1000 श्रेणियों से 1.2 मिलियन छवियों के लिए नेटवर्क को प्रशिक्षित करना था, और सही श्रेणी में 5 संभावित पूर्वानुमानों में से एक गुणवत्ता मानदंड था। विजेता टीम , जिसमें मुख्य रूप से Google कर्मचारी शामिल हैं, ने 22 परतों वाले न्यूरॉन्स के साथ GSS का उपयोग किया। उन्होंने LeNet-5 के बाद अपने नेटवर्क का नाम GoogLeNet रखा। शीर्ष पांच विकल्पों को मारने की कसौटी के अनुसार, GoogLeNet 93.33% सटीकता के एक संकेतक पर पहुंच गया, जिसने 2013 के विजेता (क्लेरिफाई, 88.3% से) और 2012 के विजेता (केएसएच, 84.7% से) के परिणामों में गंभीरता से सुधार किया।

GoogLeNet 93.33% सटीकता कितनी अच्छी है? 2014 में, एक रिसर्च टीम ने ILSVRC प्रतियोगिता की समीक्षा लिखी। जिन मुद्दों को संबोधित किया गया था, उनमें से एक यह था कि लोग कार्य का सामना कैसे कर पाएंगे। प्रयोग के लिए, उन्होंने एक प्रणाली बनाई जो लोगों को ILSVRC के साथ छवियों को वर्गीकृत करने की अनुमति देती है। काम के लेखकों में से एक के रूप में, आंद्रेई करपाती बताते हैं, अपने ब्लॉग पर एक जानकारीपूर्ण प्रविष्टि में, GoogLeNet संकेतकों के लिए लोगों की प्रभावशीलता को लाना बहुत मुश्किल था:

1000 में से पांच श्रेणियों के साथ छवियों को जल्दी से चिह्नित करने का कार्य अत्यंत कठिन हो गया, यहां तक कि प्रयोगशाला में मेरे उन दोस्तों के लिए जो कुछ समय से ILSVRC और इसकी श्रेणियों के साथ काम कर रहे थे। पहले, हम अमेजन मैकेनिकल तुर्क को कार्य सौंपना चाहते थे। फिर हमने पैसे के लिए छात्रों को काम पर रखने की कोशिश करने का फैसला किया। इसलिए, मैंने अपनी प्रयोगशाला में विशेषज्ञों के बीच एक अंकन पार्टी का आयोजन किया। उसके बाद, मैंने एक संशोधित इंटरफ़ेस विकसित किया, जिसने 1000 से 100 तक श्रेणियों की संख्या को कम करने के लिए GoogLeNet भविष्यवाणियों का उपयोग किया। फिर भी, कार्य कठिन था - लोगों ने श्रेणियों को छोड़ दिया, 13-15% के आदेश की त्रुटियां दीं। अंत में, मुझे एहसास हुआ कि GoogLeNet परिणाम के करीब पहुंचने के लिए, मेरे लिए सबसे प्रभावी तरीका यह होगा कि मैं एक लंबी सीखने की प्रक्रिया और पूरी तरह से मार्कअप की बाद की प्रक्रिया से गुजरूं। सबसे पहले, अंकन 1 टुकड़ा प्रति मिनट के क्रम की गति पर था, लेकिन समय के साथ तेज हो गया। कुछ छवियों को पहचानना आसान था, जबकि अन्य (उदाहरण के लिए, कुछ कुत्तों की नस्लों, पक्षियों या बंदरों की प्रजाति) को कई मिनट एकाग्रता की आवश्यकता थी। मुझे कुत्ते की नस्लों के बीच अंतर करने में बहुत अच्छा लगा। छवियों के मेरे नमूने के आधार पर, निम्नलिखित परिणाम प्राप्त हुए थे: 6.8% मामलों में GoogLeNet को गलत माना गया था; मेरी त्रुटि दर 5.1% थी, जो लगभग 1.7% बेहतर थी।

दूसरे शब्दों में, विशेषज्ञ, जिन्होंने बहुत सावधानी से काम किया, केवल गंभीर प्रयास करके, एसटीएस से थोड़ा आगे निकलने में सक्षम थे। Karpaty की रिपोर्ट है कि कम छवियों पर प्रशिक्षित दूसरा विशेषज्ञ, प्रति छवि 5 लेबल चुनने पर त्रुटि को केवल 12% तक कम करने में कामयाब रहा, जो कि GoogLeNet की तुलना में बहुत कम है।

बहुत बढ़िया परिणाम। और इस काम के आगमन के बाद से, कई टीमों ने सिस्टम के विकास पर रिपोर्ट की है जिनकी त्रुटि दर 5 सर्वश्रेष्ठ टैग चुनने पर भी 5.1% से कम थी। कभी-कभी ये उपलब्धियाँ मीडिया में लोगों की तुलना में छवियों को पहचानने में सक्षम प्रणालियों के उद्भव के रूप में कवर की गईं। हालांकि परिणाम आम तौर पर हड़ताली हैं, लेकिन कई बारीकियां हैं जो यह नहीं माना जा सकता है कि इन प्रणालियों पर मनुष्यों की तुलना में कंप्यूटर की दृष्टि बेहतर है। कई मायनों में, ILSVRC प्रतियोगिता एक बहुत ही सीमित कार्य है - एक खुले नेटवर्क पर एक छवि खोज के परिणाम जरूरी नहीं होंगे कि कार्यक्रम एक व्यावहारिक कार्य में क्या होगा। और, ज़ाहिर है, कसौटी "पाँच सर्वश्रेष्ठ अंकों में से एक" काफी कृत्रिम है। हमारे पास अभी भी छवि मान्यता की समस्या को हल करने के लिए एक लंबा रास्ता तय करना है, न कि कंप्यूटर दृष्टि के अधिक सामान्य कार्य का उल्लेख करना। लेकिन फिर भी यह देखना बहुत अच्छा है कि केवल कुछ ही वर्षों में इस तरह के मुश्किल काम को हल करने में कितनी प्रगति हुई है।

अन्य कार्य

मैंने इमेजनेट पर ध्यान केंद्रित किया, हालांकि छवि पहचान के लिए एनएस का उपयोग करने वाले कुछ अन्य प्रोजेक्ट हैं। मुझे हाल ही में प्राप्त कुछ दिलचस्प परिणामों का संक्षेप में वर्णन करना है, बस आधुनिक काम का एक विचार प्राप्त करना है।

Google से एक टीम द्वारा परिणामों का एक प्रेरणादायक व्यावहारिक सेट प्राप्त किया गया था, जिसने Google स्ट्रीट व्यू में एड्रेस प्लेट मान्यता के कार्य के लिए GSS को लागू किया था। अपने काम में, वे रिपोर्ट करते हैं कि उन्होंने कैसे खोज की और स्वचालित रूप से मानव कार्य के लिए तुलनीयता के साथ लगभग 100 मिलियन एड्रेस प्लेटों को पहचान लिया। और उनकी प्रणाली तेज है: यह फ्रांस में सभी Google स्ट्रीट व्यू छवियों से एक घंटे से भी कम समय में डेटा को डिक्रिप्ट करने में सक्षम था! वे लिखते हैं: "इस नए डेटासेट को प्राप्त करने से कई देशों में Google मैप्स जियोकोडिंग की गुणवत्ता में काफी वृद्धि हुई है, विशेष रूप से जहां कोई अन्य जियोकोडिंग स्रोत नहीं थे।" फिर वे एक अधिक सामान्य बयान देते हैं: "हम मानते हैं कि, इस मॉडल के लिए धन्यवाद, हमने लघु अनुक्रमों की ऑप्टिकल मान्यता की समस्या को इस तरह से हल किया जो कई व्यावहारिक अनुप्रयोगों में लागू होता है।"

शायद मैंने विजयी और प्रेरक परिणामों की एक परेड की छाप बनाई। बेशक, सबसे दिलचस्प रिपोर्ट बुनियादी चीजों की चिंता करते हैं जो अभी तक हमारे लिए स्पष्ट नहीं हैं। उदाहरण के लिए, 2013 के काम में यह दिखाया गया था कि नेशनल असेंबली में वास्तव में, अंधे धब्बे हैं। नीचे दी गई छवियों पर एक नज़र डालें। बाईं ओर इमेजनेट से छवि है, जिसे शोधकर्ताओं के नेटवर्क ने सही ढंग से वर्गीकृत किया है। दाईं ओर थोड़ी संशोधित छवि है (बीच में अंतर दिखाए गए हैं), जिसे नेटवर्क अब सही ढंग से पहचान नहीं पा रहा था। और लेखकों ने पाया कि इस तरह के "प्रतिकूल" परिवर्तनों को डेटाबेस से किसी भी छवि के लिए चुना जा सकता है, न कि केवल अभिजात वर्ग के लिए।

अप्रिय परिणाम। हमने केएसएच नेटवर्क के समान कोड के आधार पर एक नेटवर्क का उपयोग किया - अर्थात, यह एक ऐसा नेटवर्क है जिसका अधिक से अधिक उपयोग किया जाता है। और यद्यपि ऐसे एनएस गणना करते हैं, सिद्धांत रूप में, निरंतर कार्य, समान परिणाम बताते हैं कि वे संभवतः लगभग असतत कार्यों की गणना करते हैं। इससे भी बदतर, वे एक तरह से असतत हो जाते हैं जो बुद्धिमान व्यवहार की हमारी सहज धारणा का उल्लंघन करता है। यह एक समस्या है। इसके अलावा, यह बहुत स्पष्ट नहीं है कि वास्तव में असुविधा क्या होती है, समस्या क्या है: नुकसान समारोह में? किस सक्रियण का उपयोग करने के लिए कार्य करता है? नेटवर्क आर्किटेक्चर में? कुछ और में? हम नहीं जानते।

लेकिन ये नतीजे उतने बुरे नहीं हैं, जितने लगते हैं। हालांकि इस तरह के प्रतिकूल परिवर्तन काफी आम हैं, लेकिन वे व्यवहार में पाए जाने की संभावना नहीं है। जैसा कि काम में संकेत दिया गया है:

प्रतिकूल नकारात्मकता का अस्तित्व उच्च सामान्यता प्राप्त करने के लिए नेटवर्क की क्षमता के विपरीत है। वास्तव में, यदि नेटवर्क अच्छी तरह से सामान्य हो सकता है, तो इस तरह के प्रतिकूल नकारात्मक विचारों से कैसे धोखा दिया जा सकता है? स्पष्टीकरण यह है कि प्रतिस्पर्धी नकारात्मकताओं के एक सेट में एक अत्यंत कम संभावना है, और इसलिए प्रशिक्षण डेटा सेट में मनाया नहीं जाता है (या लगभग नहीं देखा गया), हालांकि, इसका उच्च घनत्व (लगभग तर्कसंगत संख्याएं) है, और इसलिए इसे लगभग किसी भी मामले में पाया जा सकता है। ।

फिर भी, यह अप्रिय है कि हम नेशनल असेंबली के काम को इतने खराब तरीके से समझते हैं कि यह परिणाम हाल ही में खोजा गया था। बेशक, ऐसे परिणामों का मुख्य लाभ यह होगा कि उन्होंने इस विषय पर बाद के काम की उपस्थिति को उत्तेजित किया। 2014 में एक हालिया काम ने दिखाया कि एक प्रशिक्षित नेटवर्क के लिए छवियों को बनाना संभव है जो किसी व्यक्ति को सफेद शोर की तरह दिखते हैं, और नेटवर्क उन्हें उच्च श्रेणी के आत्मविश्वास के साथ अच्छी तरह से ज्ञात श्रेणियों में वर्गीकृत करेगा।यह एक और प्रदर्शन है जो हमें अभी भी एनएस के काम में और छवि मान्यता के लिए उनके उपयोग में समझने के लिए बहुत कुछ है।

लेकिन, समान परिणामों की उपस्थिति के बावजूद, समग्र तस्वीर प्रेरणादायक है। हम इमेजनेट जैसे अत्यंत जटिल परीक्षणों को करने में तेजी से प्रगति देख रहे हैं। हम वास्तविक दुनिया से समस्याओं को हल करने में तेजी से प्रगति देख रहे हैं, जैसे कि स्ट्रीट व्यू में एड्रेस प्लेट्स को पहचानना। लेकिन, प्रेरणा के बावजूद, यह गति परीक्षणों या वास्तविक दुनिया के कार्यों के प्रदर्शन में सुधार का निरीक्षण करने के लिए पर्याप्त नहीं है। मौलिक घटनाएं हैं, जिसका सार हम अभी भी खराब समझते हैं, उदाहरण के लिए, प्रतिस्पर्धी छवियों का अस्तित्व। और जबकि इस तरह की मूलभूत समस्याएं अभी भी खुलती हैं (उन्हें हल करने का उल्लेख नहीं है), यह छवि की समस्या के समाधान के बारे में बात करने के लिए समय से पहले होगी। लेकिन एक ही समय में, ऐसी समस्याएं आगे के काम के लिए उत्कृष्ट प्रोत्साहन हैं।

गहरे तंत्रिका नेटवर्क के लिए अन्य दृष्टिकोण

इस पुस्तक में, हमने एक कार्य पर ध्यान केंद्रित किया: संख्या MNIST का वर्गीकरण। एक उत्कृष्ट कार्य जिसने हमें बहुत सारे प्रभावी विचारों को समझा: स्टोचैस्टिक ग्रेडिएंट डिसेंट, बैकप्रोपेगेंशन, कनफ्लुएंसिव नेटवर्क, रेगुलराइजेशन इत्यादि। हालाँकि, यह भी एक संकीर्ण कार्य है। तंत्रिका नेटवर्क पर साहित्य पढ़ने के बाद, आप कई विचारों पर चर्चा करेंगे जिनके बारे में हमने चर्चा नहीं की थी: आवर्ती एनएस, बोल्ट्जमैन मशीनें, जेनेरेटिव मॉडल, प्रशिक्षण का स्थानांतरण, प्रबलित शिक्षण, और इसी तरह आगे! तंत्रिका नेटवर्क एक विशाल क्षेत्र है। हालाँकि, कई महत्वपूर्ण विचार उन विचारों के रूपांतर हैं जिन पर हम पहले ही चर्चा कर चुके हैं, और उन्हें समझना काफी आसान है। इस खंड में, मैं इन विशाल विस्तार पर थोड़ा पर्दा खोलूंगा। उनकी चर्चा विस्तृत और व्यापक नहीं होगी - यह पुस्तक को बहुत प्रभावित करेगी। यह प्रभावपूर्ण होगा,इस क्षेत्र की वैचारिक समृद्धि को दिखाने का प्रयास किया गया है, और कुछ अवधारणाओं को उन लोगों से जोड़ने के लिए जो हमने पहले ही देख लिए हैं। पाठ में मैं अन्य स्रोतों को कई संदर्भ दूंगा, जैसे कि आगे के प्रशिक्षण के लिए सामग्री। बेशक, उनमें से कई को जल्द ही दूसरों द्वारा दबा दिया जाएगा, और आप हाल के साहित्य की तलाश करना चाहते हैं। फिर भी, मेरा मानना है कि कई बुनियादी विचार आने वाले लंबे समय तक दिलचस्प रहेंगे।

आवर्तक तंत्रिका नेटवर्क (RNS)

प्रत्यक्ष प्रसार नेटवर्क में जो हमने उपयोग किया था, एक इनपुट है जो बाद के परतों में सभी न्यूरॉन्स की सक्रियता को पूरी तरह से निर्धारित करता है। यह एक बहुत ही स्थिर तस्वीर है: नेटवर्क में सब कुछ तय हो गया है, और एक जमे हुए, क्रिस्टलीय चरित्र है। लेकिन मान लीजिए कि हम नेटवर्क तत्वों को गतिशील रूप से बदलने की अनुमति देते हैं। उदाहरण के लिए, छिपे हुए न्यूरॉन्स के व्यवहार को न केवल पिछली परतों में सक्रियण द्वारा निर्धारित किया जा सकता है, बल्कि उन सक्रियताओं द्वारा भी किया जा सकता है जो समय से पहले हुई थीं। एक न्यूरॉन की सक्रियता आंशिक रूप से इसके पहले सक्रियण द्वारा निर्धारित की जा सकती है। प्रत्यक्ष वितरण वाले नेटवर्क में, यह स्पष्ट रूप से नहीं होता है। या, शायद, छिपे हुए और आउटपुट न्यूरॉन्स की सक्रियता न केवल नेटवर्क के वर्तमान इनपुट से, बल्कि पिछले वाले द्वारा भी निर्धारित की जाएगी।

इस प्रकार के समय-भिन्न व्यवहार वाले तंत्रिका नेटवर्क को आवर्तक तंत्रिका नेटवर्क या RNS के रूप में जाना जाता है। पिछले पैराग्राफ के अनौपचारिक विवरण को गणितीय रूप से औपचारिक रूप देने के कई तरीके हैं। आप विकिपीडिया लेख पढ़कर उनके बारे में विचार कर सकते हैं । लेखन के समय, लेख के अंग्रेजी संस्करण में, कम से कम 13 विभिन्न मॉडलों का वर्णन किया गया है [2019 में अनुवाद के समय, पहले से ही 18 / लगभग। ट्रांस।]।लेकिन, यदि हम गणितीय विवरणों को अलग रखते हैं, तो आरएनएस का सामान्य विचार समय के साथ होने वाले नेटवर्क में गतिशील परिवर्तनों की उपस्थिति है। और, ज़ाहिर है, वे डेटा या प्रक्रियाओं का विश्लेषण करने के लिए विशेष रूप से उपयोगी होते हैं जो समय के साथ बदलते हैं। इस तरह के डेटा और प्रक्रियाएं स्वाभाविक रूप से भाषण विश्लेषण या प्राकृतिक भाषा जैसे कार्यों में दिखाई देती हैं।

RNS का उपयोग करने के मौजूदा तरीकों में से एक तंत्रिका तंत्र को बेहतर तरीके से एल्गोरिदम का प्रतिनिधित्व करने के पारंपरिक तरीकों के साथ एकीकृत करना है, जैसे कि ट्यूरिंग मशीन और सामान्य प्रोग्रामिंग भाषाओं के साथ अवधारणाएं। 2014 को कामआरएनएस विकसित किया गया था, जो एक बहुत ही सरल अजगर कार्यक्रम के पत्र-दर-अक्षर विवरण को स्वीकार करने में सक्षम है, और इसके काम के परिणाम की भविष्यवाणी करता है। अनौपचारिक रूप से कहे तो, नेटवर्क कुछ अजगर कार्यक्रमों को "समझना" सीख रहा है। ट्यूरिंग न्यूरोमाचाइन (बीडीसी) के विकास के लिए 2014 से दूसरे काम ने आरएनएस का इस्तेमाल किया। यह एक सार्वभौमिक कंप्यूटर है, जिसकी पूरी संरचना को ढाल वंश का उपयोग करके प्रशिक्षित किया जा सकता है। उन्होंने अपने बीडीसी को कई सरल कार्यों के लिए एल्गोरिदम बनाने के लिए प्रशिक्षित किया, जैसे कि छंटाई या नकल।

ये, निश्चित रूप से, बहुत सरल, खिलौना मॉडल हैं। अजगर जैसे प्रोग्राम को प्रिंट (398345 + 42598) में चलाना सीखना कैसे एक तंत्रिका नेटवर्क को भाषा का पूर्ण रूप से व्याख्याकार नहीं बनाता है! यह स्पष्ट नहीं है कि ये विचार कितने मजबूत होंगे। फिर भी, परिणाम काफी दिलचस्प हैं। ऐतिहासिक रूप से, तंत्रिका नेटवर्क ने पारंपरिक एल्गोरिदम दृष्टिकोण पर ठोकर खाने वाले पैटर्न को पहचानने का अच्छा काम किया। और इसके विपरीत, पारंपरिक एल्गोरिदम दृष्टिकोण एनएस के लिए जटिल समस्याओं को हल करने का एक अच्छा काम करते हैं। आज, कोई भी NS पर आधारित वेब सर्वर या डेटाबेस को लागू करने का प्रयास नहीं कर रहा है! एकीकृत मॉडल विकसित करना बहुत अच्छा होगा जो एनएस और पारंपरिक एल्गोरिदम दोनों दृष्टिकोणों की ताकत को एकीकृत करता है। आरएनएस, और उनके द्वारा प्रेरित विचार, हमें ऐसा करने में मदद कर सकते हैं।

हाल के वर्षों में, RNS का उपयोग कई अन्य समस्याओं को हल करने के लिए किया गया है। वे भाषण मान्यता में विशेष रूप से उपयोगी थे। RNS- आधारित दृष्टिकोण ध्वनि पहचान गुणवत्ता के लिए रिकॉर्ड सेट करता है । उनका उपयोग लोगों द्वारा उपयोग की जाने वाली भाषा के उन्नत मॉडल को विकसित करने के लिए भी किया गया था । बेहतर भाषा मॉडल वाणी में अस्पष्टता को पहचानने में मदद करते हैं जो समान ध्वनि करते हैं। एक अच्छा भाषा मॉडल हमें बता सकता है कि "फॉरवर्ड इनफिनिटी" वाक्यांश "लिम्ब के बिना फॉरवर्ड" वाक्यांश की तुलना में बहुत अधिक संभावना है, हालांकि वे समान लगते हैं। RNS का उपयोग कुछ भाषा परीक्षणों में रिकॉर्ड उपलब्धियों को प्राप्त करने के लिए किया गया था।

यह काम भाषण मान्यता की समस्या को हल करने के लिए, RNS ही नहीं, सभी प्रकार के NS के व्यापक उपयोग का हिस्सा है। उदाहरण के लिए, जीएनएस-आधारित दृष्टिकोण ने एक बड़ी शब्दावली के साथ निरंतर भाषण को पहचानने में उत्कृष्ट परिणाम दिखाए हैं । Google से Android OS में एक और GNS- आधारित प्रणाली लागू की गई है।

मैंने थोड़ी बात की कि आरएनसी क्या सक्षम हैं, लेकिन यह नहीं बताया कि वे कैसे काम करते हैं। आपको यह जानकर आश्चर्य नहीं हो सकता है कि प्रत्यक्ष वितरण नेटवर्क की दुनिया के कई विचारों का उपयोग आरएनएस में भी किया जा सकता है। विशेष रूप से, हम माथे में ढाल वंश और वापस प्रसार को संशोधित करके आरएनएस को प्रशिक्षित कर सकते हैं। प्रत्यक्ष वितरण नेटवर्क में उपयोग किए जाने वाले कई अन्य विचार, नियमितीकरण तकनीकों से लेकर दृढ़ संकल्प और सक्रियण और लागत कार्यों तक भी काम आएंगे। इसके अलावा, कई विचार जो हमने पुस्तक के भाग के रूप में विकसित किए हैं, उन्हें आरएनएस में उपयोग के लिए अनुकूलित किया जा सकता है।

लॉन्ग-टर्म शॉर्ट टर्म मेमोरी (DCT) मॉड्यूल

आरएनएस की समस्याओं में से एक यह है कि शुरुआती मॉडल को प्रशिक्षित करना बहुत मुश्किल था, यहां तक कि जीएनएस से भी अधिक जटिल। इसका कारण अस्थिर ढाल की समस्याएं थीं, जिस पर हमने अध्याय 5 में चर्चा की। स्मरण करो कि इस समस्या का सामान्य रूप यह था कि ढाल हर समय विपरीत दिशा में परतों के माध्यम से प्रचार करते समय घट जाती है। यह शुरुआती परतों के सीखने को धीमा कर देता है। आरएनएस में, यह समस्या और भी बदतर हो जाती है, क्योंकि ग्रेडर न केवल परतों के साथ विपरीत दिशा में, बल्कि समय के विपरीत दिशा में भी प्रचार करते हैं। यदि नेटवर्क लंबे समय तक काम करता है, तो ढाल बेहद अस्थिर हो सकता है और इसके आधार पर सीखना बहुत मुश्किल होगा। सौभाग्य से, आरएनएस में दीर्घकालिक अल्पकालिक मेमोरी (डीसीटी) मॉड्यूल के रूप में जाना जाने वाला एक विचार शामिल किया जा सकता है । पहली बार, मॉड्यूल पेश किए गए1997 में Hochreiter और Schmidguber , विशेष रूप से एक अस्थिर ढाल की समस्या को हल करने में मदद करने के लिए। DCT ने RNS सीखने में अच्छे परिणाम प्राप्त करना आसान बना दिया है, और कई हालिया कार्य (जिनमें मैं पहले ही संदर्भित कर चुका हूं) DCT या इसी तरह के विचारों का उपयोग करते हैं।

डीप ट्रस्ट नेटवर्क, जेनेरेटिव मॉडल और बोल्ट्जमैन मशीनें

आजकल, गहरी सीखने में रुचि ने 2006 में एक दूसरी हवा प्राप्त की है, कार्यों के प्रकाशन ( 1 , 2 ) के बाद यह समझाते हुए कि एक विशेष प्रकार के एनएस को कैसे सिखाया जाता है जिसे डीप ट्रस्ट नेटवर्क (जीडीएस) कहा जाता है। कई वर्षों तक जीडीएस ने अनुसंधान के क्षेत्र को प्रभावित किया, लेकिन फिर उनकी लोकप्रियता घटने लगी और वितरण नेटवर्क और आवर्ती एनएसएस फैशन बन गया। इसके बावजूद, जीडीएस के कुछ गुण उन्हें बहुत दिलचस्प बनाते हैं।

सबसे पहले, जीडीएस एक जेनरेटिव मॉडल का एक उदाहरण है। एक प्रत्यक्ष वितरण नेटवर्क में, हम इनपुट सक्रियणों को निर्दिष्ट करते हैं, और वे नेटवर्क के आगे न्यूरॉन्स की सक्रियता को निर्धारित करते हैं। जेनेरेटिव मॉडल का उपयोग एक समान तरीके से किया जा सकता है, लेकिन आप इसमें न्यूरॉन्स के मूल्यों को सेट कर सकते हैं, और फिर नेटवर्क को "विपरीत दिशा में" चला सकते हैं, जिससे इनपुट एक्टिविटीज का मान पैदा होता है। विशेष रूप से, हस्तलिखित अंकों की छवियों पर प्रशिक्षित एक जीडीएस स्वयं हस्तलिखित अंकों (संभवत: और कुछ कार्यों के बाद) के समान चित्र उत्पन्न कर सकता है। दूसरे शब्दों में, GDM एक अर्थ में लिखना सीख सकता है। इस अर्थ में, जेनेरिक मॉडल मानव मस्तिष्क के समान होते हैं: वे न केवल संख्या पढ़ सकते हैं, बल्कि उन्हें लिख भी सकते हैं। जेफरी हिंटन की प्रसिद्ध कहावत है बताता है कि पैटर्न पहचान के लिए, आपको सबसे पहले छवियों को उत्पन्न करने का तरीका सीखने की जरूरत है।

दूसरे, वे शिक्षक के बिना सीखने में सक्षम हैं और लगभग शिक्षक के बिना। उदाहरण के लिए, जब छवियों पर प्रशिक्षण होता है, जीडीएस ऐसे संकेत सीख सकते हैं जो अन्य छवियों को समझने के लिए उपयोगी होते हैं, भले ही प्रशिक्षण छवियों पर कोई निशान न हों। एक शिक्षक के बिना सीखने की क्षमता एक मौलिक वैज्ञानिक दृष्टिकोण से और एक व्यावहारिक दोनों से बेहद दिलचस्प है - अगर इसे अच्छी तरह से काम करने के लिए बनाया जा सकता है।

गहन सीखने के लिए मॉडल के रूप में जीडीएस के इन सभी आकर्षक बिंदुओं को देखते हुए, उनकी लोकप्रियता में गिरावट क्यों आई? आंशिक रूप से इस तथ्य के कारण कि अन्य मॉडल, जैसे प्रत्यक्ष वितरण और आवर्तक नेटवर्क, ने आश्चर्यजनक परिणाम प्राप्त किए हैं, विशेष रूप से, छवि मान्यता और भाषण के क्षेत्रों में सफलता। यह आश्चर्य की बात नहीं है कि इन मॉडलों को इतना ध्यान मिला है, और बहुत ही योग्य है। हालांकि, इससे एक अप्रिय निष्कर्ष निकलता है। विचारों का बाजार अक्सर "विजेता को सब कुछ मिलता है" योजना के अनुसार काम करता है, और लगभग सभी का ध्यान इस क्षेत्र में सबसे फैशनेबल है। लोगों के लिए वर्तमान में अलोकप्रिय विचारों पर काम करना बेहद मुश्किल हो सकता है, भले ही यह स्पष्ट हो कि वे दीर्घकालिक हित के हो सकते हैं। मेरी व्यक्तिगत राय है कि जीडीएस और अन्य जेनेरेटिव मॉडल से अधिक ध्यान देने की जरूरत है।मुझे आश्चर्य नहीं होगा अगर GDM या इसी तरह का कोई मॉडल आज के लोकप्रिय मॉडल से आगे निकल जाए। पढ़नायह लेख जीडीएम के क्षेत्र से परिचय कराने के लिए है। यह लेख उपयोगी भी हो सकता है । यह पूरी तरह से जीडीएम के बारे में नहीं है, लेकिन इसमें जीडीएम के प्रमुख घटक सीमित बोल्ट्जमान मशीनों के बारे में बहुत सारी उपयोगी चीजें हैं।

अन्य विचार

नेशनल असेंबली और सिविल डिफेंस के क्षेत्र में और क्या हो रहा है? दिलचस्प काम की एक बड़ी राशि। अनुसंधान के सक्रिय क्षेत्रों में प्राकृतिक भाषा , मशीन अनुवाद और अधिक अप्रत्याशित अनुप्रयोगों के प्रसंस्करण के लिए NS का उपयोग है, उदाहरण के लिए, संगीत सूचना विज्ञान । कई अन्य क्षेत्र हैं। कई मामलों में, इस पुस्तक को पढ़ने के बाद, आप हाल के काम को समझने में सक्षम होंगे, हालांकि, निश्चित रूप से, आपको कुछ ज्ञान अंतरालों को भरने की आवश्यकता हो सकती है।

मैं इस खंड को एक विशेष रूप से दिलचस्प काम के उल्लेख के साथ समाप्त करूंगा। वह वीडियो को गेम (और इसके बारे में एक और लेख ) खेलने के तरीके को सीखने के लिए सुदृढीकरण सीखने वाली तकनीक के साथ गहरे संवादात्मक नेटवर्क को जोड़ती है। गेम स्क्रीन से पिक्सेल डेटा को सरल बनाने के लिए एक दृढ़ नेटवर्क का उपयोग करने का विचार है, इसे उन विशेषताओं के एक सरल सेट में बदल दें जिनका उपयोग आगे के कार्यों के बारे में निर्णय लेने के लिए किया जा सकता है: "बाएं जाएं", "दाएं जाएं", "शूट", और आदि विशेष रूप से दिलचस्प है कि एक नेटवर्क ने सात अलग-अलग क्लासिक वीडियो गेम खेलना सीखा, उनमें से तीन में विशेषज्ञों से आगे। यह, निश्चित रूप से, एक चाल की तरह दिखता है, और काम को सक्रिय रूप से "सुदृढीकरण के साथ अटारी खेल खेलना" शीर्षक के तहत सक्रिय रूप से विज्ञापित किया गया था। हालांकि, एक सतही चमक के पीछे यह इस तथ्य पर विचार करने के लायक है कि सिस्टम कच्चे पिक्सेल डेटा लेता है - यह खेल के नियमों को भी नहीं जानता है - और उनके आधार पर कई अलग-अलग और बहुत ही प्रतिस्पर्धी स्थितियों में अच्छी गुणवत्ता के निर्णय लेने के लिए प्रशिक्षित किया जाता है, जिनमें से प्रत्येक का अपना स्वयं का जटिल सेट है। बहुत अच्छा।

तंत्रिका नेटवर्क का भविष्य

उपयोगकर्ता इरादे इंटरफेस

एक पुराने मजाक में, एक अधीर प्रोफेसर एक भ्रमित छात्र से कहता है: "मेरे शब्दों को मत सुनो, मेरा मतलब सुनो।" ऐतिहासिक रूप से, कंप्यूटर अक्सर यह नहीं समझते थे कि एक भ्रमित छात्र की तरह, उपयोगकर्ता का क्या मतलब है। हालांकि, स्थिति बदल रही है। मुझे अब भी पहली बार याद है कि जब मैंने गलती से Google को एक अनुरोध लिखा था, तो मुझे आश्चर्य हुआ था, और खोज इंजन ने मुझसे कहा, "क्या आपका मतलब [सही अनुरोध] था?" Google के निदेशक लैरी पेज ने एक बार सही खोज इंजन को एक प्रणाली के रूप में वर्णित किया है जो वास्तव में आपके प्रश्नों का मतलब समझता है और आपको वही देता है जो आप चाहते हैं।

यह उपयोगकर्ता के इरादे पर आधारित इंटरफेस का विचार है। इसमें, शाब्दिक उपयोगकर्ता के अनुरोधों का जवाब देने के बजाय, खोज इंजन एक अस्पष्ट उपयोगकर्ता अनुरोध लेने के लिए एमओ का उपयोग करेगा, इसका सही अर्थ समझेगा और इस आधार पर कार्य करेगा।

उपयोगकर्ता के इरादे पर आधारित एक इंटरफ़ेस का विचार केवल खोज में अधिक व्यापक रूप से लागू किया जा सकता है। अगले कई दशकों में, हजारों कंपनियां ऐसे उत्पाद तैयार करेंगी जिनमें एमओ का उपयोग उपयोगकर्ता इंटरफेस के लिए किया जाएगा, जो शांत रूप से उपयोगकर्ता की कार्रवाइयों का जिक्र करेगा और उनके वास्तविक इरादों का अनुमान लगाएगा। हम पहले से ही इस तरह के इरादे आधारित इंटरफेस के शुरुआती उदाहरण देखते हैं: एप्पल सिरी; वोल्फ्राम अल्फा; आईबीएम वाटसन सिस्टम जो स्वचालित रूप से फ़ोटो और वीडियो को टैग करते हैं, और बहुत कुछ।

उनमें से ज्यादातर असफल हो जाएंगे। इंटरफ़ेस विकास एक जटिल बात है, और मुझे संदेह है कि प्रेरक इंटरफेस के बजाय, कई कंपनियां एमओ के आधार पर बेजान इंटरफेस बनाएंगी। यदि आपका इंटरफ़ेस बेकार है तो दुनिया का सबसे अच्छा MO आपकी मदद नहीं करेगा। हालांकि, कुछ उत्पाद सफल होंगे। समय के साथ, यह कंप्यूटर के साथ हमारे संबंधों में गंभीर बदलाव लाएगा। बहुत पहले नहीं, उदाहरण के लिए, 2005 में वापस, उपयोगकर्ताओं ने यह मान लिया कि कंप्यूटर के साथ बातचीत करने के लिए उच्च सटीकता की आवश्यकता होती है। कंप्यूटर की शाब्दिक प्रकृति ने इस विचार को फैलाने के लिए कार्य किया कि कंप्यूटर बहुत शाब्दिक हैं; एकमात्र भूल अर्धविराम कंप्यूटर के साथ बातचीत की प्रकृति को पूरी तरह से बदल सकता है। लेकिन मेरा मानना है कि अगले कुछ दशकों में हम उपयोगकर्ता के इरादे के आधार पर कई सफल इंटरफेस विकसित करेंगे, और यह कंप्यूटर के साथ काम करते समय हमारी उम्मीदों को मौलिक रूप से बदल देगा।

मशीन लर्निंग, डाटा साइंस और इनोवेशन सर्कल ऑफ इनोवेशन

बेशक, एमओ न केवल उपयोगकर्ता के इरादे के आधार पर इंटरफेस बनाने के लिए उपयोग किया जाता है। एमओ का एक और दिलचस्प अनुप्रयोग डेटा विज्ञान है, जहां इसे प्राप्त आंकड़ों में छिपे "ज्ञात अज्ञात" की खोज करने के लिए उपयोग किया जाता है। यह पहले से ही एक फैशनेबल विषय है, जिसके बारे में कई लेख लिखे गए हैं, इसलिए मैं इसे लंबे समय तक नहीं बढ़ाऊंगा। मैं इस फैशन के एक परिणाम का उल्लेख करना चाहता हूं, जो अक्सर नोट नहीं किया जाता है: लंबे समय में, यह संभव है कि मॉस्को क्षेत्र में सबसे बड़ी सफलता सिर्फ एक वैचारिक सफलता नहीं होगी। सबसे बड़ी सफलता यह होगी कि विज्ञान और अन्य क्षेत्रों में डेटा के उपयोग के माध्यम से एमओ के क्षेत्र में अनुसंधान लाभदायक हो जाएगा। यदि कोई कंपनी एमओ अनुसंधान में एक डॉलर का निवेश कर सकती है और एक डॉलर और दस सेंट राजस्व प्राप्त कर सकती है, तो एमओ क्षेत्र में बहुत सारा पैसा डाला जाएगा। दूसरे शब्दों में, एमओ वह इंजन है जो हमें कई बड़े बाजारों और प्रौद्योगिकी विकास के क्षेत्रों के उद्भव के लिए प्रेरित करता है। नतीजतन, इस क्षेत्र में विशेषज्ञों की बड़ी टीम दिखाई देगी जिनके पास अविश्वसनीय संसाधनों तक पहुंच होगी। यह एमओ को और भी आगे बढ़ाएगा, और भी अधिक बाजार और अवसर पैदा करेगा, जो नवाचार का बेदाग चक्र होगा।

तंत्रिका नेटवर्क और गहरी सीखने की भूमिका

मैंने एमओ को सामान्य शब्दों में प्रौद्योगिकी विकास के नए अवसर पैदा करने के तरीके के रूप में वर्णित किया। इस सब में नेशनल असेंबली और सिविल सोसाइटी की विशिष्ट भूमिका क्या होगी?

प्रश्न का उत्तर देने के लिए, इतिहास की ओर रुख करना उपयोगी है। 1980 के दशक में, तंत्रिका नेटवर्क के साथ एक सक्रिय हर्षित पुनरुद्धार और आशावाद जुड़ा हुआ था, विशेष रूप से पीठ के प्रसार के लोकप्रिय होने के बाद। लेकिन वसूली कम हो गई, और 1990 के दशक में, एमओ बैटन को अन्य तकनीकों में स्थानांतरित कर दिया गया, उदाहरण के लिए, समर्थन वेक्टर विधि। आज, नेशनल असेंबली फिर से घोड़े पर है, सभी प्रकार के रिकॉर्ड स्थापित करती है, और विभिन्न समस्याओं में कई प्रतिद्वंद्वियों को पछाड़ देती है। लेकिन कौन गारंटी देता है कि कल एक नया दृष्टिकोण विकसित नहीं किया जाएगा जो फिर से एनए को ओवरशैडो करेगा? या, शायद, नेशनल असेंबली के क्षेत्र में प्रगति रुकने लगेगी, और उनकी जगह कुछ नहीं आएगा?

इसलिए, रक्षा मंत्रालय के भविष्य के बारे में सोचना आसान है, विशेष रूप से नेशनल असेंबली के बारे में। समस्या का एक हिस्सा यह है कि हम नेशनल असेंबली को बहुत खराब समझते हैं। जानकारी संकलित करने में एनएस इतने अच्छे क्यों हैं? विकल्पों की सरासर संख्या को देखते हुए वे इतनी अच्छी तरह से परहेज करने से कैसे बचते हैं? स्टोचस्टिक ग्रेडिएंट डीसेंट इतनी अच्छी तरह से काम क्यों करता है? डेटा स्केलिंग करते समय NS कितनी अच्छी तरह काम करेगा? उदाहरण के लिए, यदि हम 10 बार ImageNet बेस का विस्तार करते हैं, तो क्या NS का प्रदर्शन अन्य MO तकनीकों की प्रभावशीलता से कम या ज्यादा सुधरेगा? ये सभी सरल, मौलिक प्रश्न हैं। और अभी तक हमें इन सवालों के जवाबों की बहुत कम समझ है। इस संबंध में, यह कहना मुश्किल है कि मॉस्को क्षेत्र के भविष्य में नेशनल असेंबली की क्या भूमिका होगी।

मैं एक भविष्यवाणी करूंगा: मुझे लगता है कि जीओ कहीं नहीं जाएगा। अमूर्तता की विभिन्न परतों के निर्माण के लिए अवधारणाओं के पदानुक्रम का अध्ययन करने की क्षमता, जाहिरा तौर पर, दुनिया के ज्ञान के लिए मौलिक है। इसका मतलब यह नहीं है कि कल के गो नेटवर्क आज के समय से अलग नहीं होंगे। हम उनके घटक भागों, आर्किटेक्चर या लर्निंग एल्गोरिदम में बड़े बदलाव ला सकते हैं। इन परिवर्तनों को नाटकीय नेटवर्क के रूप में समझने के लिए हमारे लिए पर्याप्त रूप से नाटकीय हो सकता है। हालांकि, वे अभी भी नागरिक सुरक्षा में संलग्न होंगे।

क्या NS और GO जल्द ही आर्टिफिशियल इंटेलिजेंस की उपस्थिति का नेतृत्व करेंगे?

इस पुस्तक में, हमने विशिष्ट समस्याओं को हल करने में एनएस के उपयोग पर ध्यान केंद्रित किया, उदाहरण के लिए, छवि वर्गीकरण। आइए अपने प्रश्नों का विस्तार करें: सामान्य-उद्देश्य वाले कंप्यूटर के बारे में क्या? क्या नेशनल असेंबली और सिविल सोसाइटी हमें एक सामान्य उद्देश्य AI बनाने की समस्या को हल करने में मदद कर सकते हैं? और यदि ऐसा है, तो नागरिक सुरक्षा के क्षेत्र में प्रगति की उच्च गति को देखते हुए, क्या हम निकट भविष्य में एआई का उदय देखेंगे?

इस तरह के प्रश्न के विस्तृत उत्तर के लिए एक अलग पुस्तक की आवश्यकता होगी। इसके बजाय, मैं आपको कॉनवे के नियम के आधार पर एक अवलोकन प्रदान करता हूं:

संगठन डिज़ाइनिंग सिस्टम एक डिज़ाइन तक सीमित हैं जो इस संगठन की संचार संरचना की प्रतिलिपि बनाता है।

उदाहरण के लिए, कॉनवे के नियम में कहा गया है कि बोइंग 747 विमान का लेआउट उस समय बोइंग और उसके ठेकेदारों की विस्तारित संरचना को प्रतिबिंबित करेगा, जब 747 मॉडल विकसित किया जा रहा था। या दूसरा, सरल और ठोस उदाहरण: कंपनी के जटिल सॉफ़्टवेयर पर विचार करें। यदि सॉफ्टवेयर कंट्रोल पैनल को एमओ एल्गोरिदम से जोड़ा जाना चाहिए, तो पैनल डिजाइनर को कंपनी के एमओ विशेषज्ञ के साथ संवाद करना चाहिए। कॉनवे का नियम केवल इस अवलोकन को औपचारिक बनाता है।

पहली बार जब उन्होंने कॉनवे के नियम को सुना, तो कई लोग कहते हैं कि "क्या यह एक सामान्य प्रमाण नहीं है?" या क्या ऐसा है? " मैं उनकी बेवफाई के बारे में एक टिप्पणी के साथ शुरू करूंगा। आइए विचार करें: बोइंग लेखांकन 747 मॉडल में कैसे परिलक्षित होता है? सफाई विभाग का क्या? एक खिला स्टाफ? इसका उत्तर यह है कि संगठन के ये भाग योजना 747 में स्पष्ट रूप से कहीं और दिखाई नहीं देते हैं। इसलिए, आपको यह समझने की आवश्यकता है कि कॉनवे का नियम केवल संगठन के उन हिस्सों पर लागू होता है जो सीधे डिजाइन और इंजीनियरिंग में शामिल हैं।

भोज और सबूत के बारे में टिप्पणी के बारे में क्या? शायद यह ऐसा है, लेकिन मुझे ऐसा नहीं लगता, क्योंकि संगठन अक्सर कॉनवे के नियम को अस्वीकार करने के लिए काम करते हैं। नए उत्पादों को विकसित करने वाली टीमों को अक्सर कर्मचारियों की अत्यधिक संख्या के कारण फुलाया जाता है, या, इसके विपरीत, उनके पास महत्वपूर्ण ज्ञान वाले व्यक्ति की कमी होती है। बेकार और जटिल सुविधाओं वाले सभी उत्पादों के बारे में सोचें। या स्पष्ट दोष वाले उत्पादों के बारे में सोचें - उदाहरण के लिए, एक भयानक उपयोगकर्ता इंटरफ़ेस के साथ। कार्यक्रमों के दोनों वर्गों में, एक अच्छा उत्पाद जारी करने के लिए आवश्यक टीम और वास्तव में इकट्ठी हुई टीम के बीच एक बेमेल के कारण समस्याएं उत्पन्न होती हैं। कॉनवे का नियम स्पष्ट हो सकता है, लेकिन इसका मतलब यह नहीं है कि लोग नियमित रूप से इसे अनदेखा नहीं कर सकते।

कॉनवे का नियम उन मामलों में प्रणालियों के डिजाइन और निर्माण के लिए लागू है जहां हम शुरुआत से ही कल्पना करते हैं कि उत्पाद किस घटक भागों से मिलकर बनेगा और उन्हें कैसे बनाया जाएगा। इसे सीधे AI के विकास पर लागू नहीं किया जा सकता है, क्योंकि AI ऐसा काम नहीं है (अभी तक): हम नहीं जानते कि इसमें क्या हिस्से हैं। हमें यह भी निश्चित नहीं है कि आप कौन से मूल प्रश्न पूछ सकते हैं। दूसरे शब्दों में, इस समय, AI इंजीनियरों की तुलना में विज्ञान की अधिक समस्या है। कल्पना करें कि आपको जेट इंजनों या वायुगतिकी के सिद्धांतों के बारे में कुछ भी जानने के बिना 747 वें को विकसित करना शुरू करना होगा। आपको नहीं पता होगा कि आपके संगठन में कौन से विशेषज्ञ हैं। जैसा कि वर्नर वॉन ब्रॉन ने लिखा है, "जब मैं कर रहा हूं तो मुझे पता नहीं है कि बुनियादी शोध मैं क्या कर रहा हूं।" क्या कॉनवे के नियम का एक संस्करण उन कार्यों पर लागू होता है जो इंजीनियरों से अधिक विज्ञान से संबंधित हैं?

इस प्रश्न का उत्तर खोजने के लिए, आइए हम चिकित्सा के इतिहास को याद करते हैं। शुरुआती दिनों में, चिकित्सा गैलेन या हिप्पोक्रेट्स जैसे चिकित्सकों का डोमेन था, जिन्होंने पूरे मानव शरीर का अध्ययन किया था। लेकिन हमारे ज्ञान की मात्रा में वृद्धि के साथ, मुझे विशेषज्ञता हासिल करनी थी। हमने कई गहरे विचारों की खोज की है - रोगों के सूक्ष्म सिद्धांत को याद करते हैं, या एंटीबॉडी के संचालन के सिद्धांत को समझते हैं, या तथ्य यह है कि हृदय, फेफड़े, नसें और धमनियां हृदय प्रणाली बनाती हैं। इस तरह के गहरे विचारों ने संकीर्ण विषयों के लिए नींव तैयार की, जैसे कि महामारी विज्ञान, प्रतिरक्षा विज्ञान, और हृदय प्रणाली से संबंधित अतिव्यापी क्षेत्रों का संचय। इस तरह हमारे ज्ञान की संरचना ने चिकित्सा की सामाजिक संरचना का गठन किया। यह प्रतिरक्षा विज्ञान के मामले में विशेष रूप से ध्यान देने योग्य है: एक अलग अध्ययन के योग्य एक प्रतिरक्षा प्रणाली के अस्तित्व का विचार बहुत nontrivial था। तो हमारे पास चिकित्सा का एक पूरा क्षेत्र है - विशेषज्ञों, सम्मेलनों, पुरस्कारों, और इसी तरह से - कुछ ऐसी चीज़ों के बारे में आयोजित किया जाता है जो न सिर्फ अदृश्य है, बल्कि शायद अलग भी नहीं है।

घटनाओं का ऐसा विकास अक्सर कई स्थापित वैज्ञानिक विषयों में दोहराया गया था: न केवल चिकित्सा में, बल्कि भौतिकी, गणित, रसायन विज्ञान और अन्य में भी। स्टॉक में कुछ ही गहरे विचारों वाले क्षेत्र अखंड पैदा होते हैं। पहले विशेषज्ञ उन सभी को कवर करने में सक्षम हैं। लेकिन समय के साथ, दृढ़ता बदल जाती है। हम कई नए गहरे विचारों की खोज करते हैं, और किसी के लिए उनमें से बहुत सारे हैं जो वास्तव में उन सभी को मास्टर करने में सक्षम हैं। परिणामस्वरूप, क्षेत्र की सामाजिक संरचना को इन विचारों के आसपास केंद्रित करते हुए, पुनर्गठित और विभाजित किया जा रहा है। एक मोनोलिथ के बजाय, हमारे पास खेतों द्वारा विभाजित क्षेत्रों से विभाजित क्षेत्र हैं - एक जटिल, पुनरावर्ती सामाजिक संरचना जो खुद को संदर्भित करती है, जिसका संगठन सबसे गहरा विचारों के बीच संबंध को दर्शाता है। इस प्रकार हमारे ज्ञान की संरचना विज्ञान के सामाजिक संगठन का निर्माण करती है। हालांकि, यह सामाजिक रूप बदले की सीमा में है और यह निर्धारित करने में मदद करता है कि हम क्या पता लगा सकते हैं। यह कॉनवे के नियम का वैज्ञानिक एनालॉग है।

लेकिन इन सबका गहन शिक्षा या एआई से क्या लेना-देना है?

खैर, एआई के विकास के शुरुआती दिनों से , इस बात पर बहस चल रही है कि सब कुछ या तो "बहुत जटिल नहीं होगा, हमारे पास जो सुपरवीपॉन है, उसके लिए धन्यवाद" या "सुपरवीपॉन पर्याप्त नहीं होगा।" डीप लर्निंग एक सुपरव्यूपन का नवीनतम उदाहरण है जिसका उपयोग मैंने देखे गए विवादों में किया है। ऐसे विवादों के शुरुआती संस्करणों में, तर्क का उपयोग किया गया था, या प्रोलॉग, या विशेषज्ञ प्रणाली, या कुछ अन्य तकनीक, जो तब सबसे शक्तिशाली थी। इस तरह के विवादों के साथ समस्या यह है कि वे आपको यह कहने का अवसर नहीं देते हैं कि सुपरविपन्स के लिए कोई भी उम्मीदवार कितना शक्तिशाली होगा। बेशक, हमने सिर्फ सबूतों की समीक्षा के लिए एक पूरा अध्याय बिताया है कि नागरिक सुरक्षा बेहद जटिल समस्याओं को हल कर सकती है। यह निश्चित रूप से बहुत दिलचस्प और आशाजनक दिखता है। लेकिन प्रोलोग, या एयुरेको जैसी प्रणालियों या विशेषज्ञ प्रणालियों के साथ ऐसा ही था। इसलिए, केवल यह तथ्य कि विचारों का एक सेट आशाजनक दिखता है, इसका मतलब कुछ खास नहीं है। हमें कैसे पता चलेगा कि GO वास्तव में इन शुरुआती विचारों से अलग है? क्या यह मापने का एक तरीका है कि विचारों का एक सेट कितना शक्तिशाली और होनहार है? यह कॉनवे के नियम का पालन करता है कि हम इन विचारों से जुड़ी सामाजिक संरचना की जटिलता का उपयोग एक कच्चे और हेयुरिस्टिक मीट्रिक के रूप में कर सकते हैं।

इसलिए, हमारे पास दो प्रश्न हैं। पहला, सामाजिक जटिलता के इस मीट्रिक के अनुसार नागरिक समाज से संबंधित विचारों का समूह कितना शक्तिशाली है? दूसरे, एक सामान्य-उद्देश्य AI बनाने के लिए हमें एक सिद्धांत की कितनी शक्तिशाली आवश्यकता है?

पहले सवाल पर: जब हम आज नागरिक सुरक्षा को देखते हैं, तो यह क्षेत्र दिलचस्प और तेजी से विकसित हो रहा है, लेकिन अपेक्षाकृत अखंड है। इसके कई गहरे विचार हैं और कई प्रमुख सम्मेलन आयोजित किए गए हैं, जिनमें से कुछ बहुत ओवरलैप हैं। काम पर काम विचारों के एक ही सेट का उपयोग करता है: लागत समारोह का अनुकूलन करने के लिए स्टोचस्टिक ग्रेडिएंट डिसेंट (या इसके करीब बराबर)। यह बहुत अच्छा है कि ये विचार इतने सफल हैं। अब तक हम जो नहीं देख रहे हैं वह अच्छी तरह से विकसित छोटे क्षेत्रों की एक बड़ी संख्या है, जिनमें से प्रत्येक अपने स्वयं के गहरे विचारों के सेट का पता लगाएगा, जो सभ्य समाज को कई दिशाओं में ले जाएगा। इसलिए, सामाजिक जटिलता, गहरी शिक्षा के मीट्रिक के अनुसार, दंड के लिए खेद है, जबकि यह अनुसंधान का एक बहुत उथला क्षेत्र बना हुआ है। एक व्यक्ति अभी भी इस क्षेत्र के अधिकांश गहरे विचारों में महारत हासिल करने में सक्षम है।

दूसरे सवाल पर: एआई बनाने के लिए विचारों के एक जटिल और शक्तिशाली सेट की कितनी आवश्यकता होगी? स्वाभाविक रूप से, उत्तर होगा: कोई भी निश्चित रूप से नहीं जानता है। लेकिन किताब के बाद में, मैंने इस विषय पर कुछ मौजूदा सबूतों का अध्ययन किया। मैंने निष्कर्ष निकाला कि, आशावादी अनुमानों के अनुसार, एआई के निर्माण के लिए कई, कई गहरे विचारों की आवश्यकता होगी। कॉनवे के नियम के अनुसार, इस बिंदु तक पहुंचने के लिए, हमें कई परस्पर संबंधित विषयों के उद्भव को देखना होगा, जिसमें एक जटिल और अप्रत्याशित संरचना होगी जो हमारे गहन विचारों की संरचना को दर्शाती है। हम अभी तक एनएस और नागरिक सुरक्षा का उपयोग करते हुए इस तरह की जटिल सामाजिक संरचना का निरीक्षण नहीं करते हैं। इसलिए, मेरा मानना है कि हम, कम से कम, सामान्य-उद्देश्य एआई को विकसित करने के लिए जीओ का उपयोग करने से कई दशक दूर हैं।

मैंने एक सट्टा तर्क बनाने पर बहुत प्रयास किया, जो कि, शायद, काफी स्पष्ट लगता है, और एक निश्चित निष्कर्ष पर नहीं जाता है। यह निश्चित रूप से निश्चित रूप से प्यार करने वाले लोगों को निराश करेगा। मैं ऑनलाइन ऐसे बहुत से लोगों से मिलता हूं, जो सार्वजनिक रूप से एआई के बारे में अपनी बहुत ही निश्चित और आश्वस्त राय की घोषणा करते हैं, जो अक्सर अस्थिर तर्क और गैर-मौजूद सबूत के आधार पर होता है। मैं ईमानदारी से कह सकता हूं: मुझे लगता है कि न्याय करना जल्दबाजी होगी। जैसा कि पुराने मज़ाक में: यदि आप किसी वैज्ञानिक से पूछते हैं कि हमें किसी भी खोज के लिए कितना इंतजार करने की ज़रूरत है, और वह कहता है "10 साल" (या अधिक), तो वास्तव में उसका मतलब है "मुझे कोई पता नहीं है"। एआई के आगमन से पहले, जैसा कि नियंत्रित परमाणु संलयन और कुछ अन्य प्रौद्योगिकियों के मामले में, "10 वर्ष" 60 से अधिक वर्षों से बने हुए हैं। दूसरी ओर, नागरिक सुरक्षा के क्षेत्र में हमारे पास निश्चित रूप से एक प्रभावी तकनीक है, जिसकी सीमाएँ अभी तक हमने नहीं खोजी हैं, और कई खुले मौलिक कार्य। और यह अद्भुत रचनात्मक अवसरों को खोलता है।

तंत्रिका नेटवर्क और गहरी सीख: एक ऑनलाइन ट्यूटोरियल, अध्याय 6, भाग 2: छवि मान्यता में हाल की प्रगति