यह लेख मेरी मुफ्त सीखने की क्षमता को अस्वीकार्य है, शाय बेन-डेविड, एट अल।
हाल ही में Habré पर लेख मशीन लर्निंग को एक अनसुलझे गणितीय समस्या का सामना करना पड़ा , जो इसी नाम के नेचर न्यूज़ लेख में Shay Ben-David के लेख का अनुवाद है। हालांकि, विषय की प्रकृति और मूल समीक्षा की संक्षिप्तता के कारण, यह मेरे लिए पूरी तरह से समझ में नहीं आया कि लेख में क्या था। शाही बेन-डेविड को जानने के बाद, उत्कृष्ट पुस्तक "अंडरस्टैंडिंग मशीन लर्निंग: फ्रॉम थ्योरी टू अल्गोरिद्म" के लेखक के रूप में, मुझे इस विषय में दिलचस्पी हो गई, इस काम से परिचित हो गए और यहां मुख्य बिंदुओं को रेखांकित करने का प्रयास किया।
मुझे तुरंत कहना होगा कि लेख बल्कि जटिल है और, शायद, मैंने कुछ महत्वपूर्ण बिंदुओं को याद किया, लेकिन मेरी समीक्षा उस पहले से अधिक पूर्ण होगी जो कि हैबे पर है।
सामान्य रूप से पीएसी सीखने के बारे में कुछ शब्द
पहली बात जिसने मुझे नेचर न्यूज की समीक्षा में उलझन में डाल दिया, वह यह कि सीखने की समस्या खुद को पूरी तरह से नए रूप में प्रस्तुत कर रही थी। वास्तव में, यह एक लंबी और अपेक्षाकृत अच्छी तरह से अध्ययन की जाने वाली समस्या है।
उन लोगों के लिए कुछ बुनियादी अवधारणाएं जो प्रश्न से परिचित नहीं हैंजोखिम का एक कार्य है - लक्ष्य चर का वास्तविक और अनुमानित मूल्य, जो दर्शाता है कि हम अपनी भविष्यवाणी में कितने गलत थे। एक कम मूल्य एक छोटी सी त्रुटि को दर्शाता है। एक वर्गीकरण समस्या के लिए सबसे सरल उदाहरण एक संकेतक फ़ंक्शन है। । प्रतिगमन के लिए, यह मानक विचलन होगा । जाहिर है, अधिक जटिल विकल्प हो सकते हैं। इस अवधारणा का एक अन्य नाम हानि कार्य है।
औसत जोखिम - संपूर्ण इनपुट डेटा स्थान पर औसत जोखिम मूल्य। इस तथ्य के कारण कि ऐसा स्थान आमतौर पर अनंत है (उदाहरण के लिए, वास्तविक सुविधाओं के लिए), या घातीय रूप से बड़ा (उदाहरण के लिए, 1024x1024 आकार की छवियों का स्थान और पिक्सेल मान 0 से 255 तक), हम सीधे इस मूल्य का अनुमान नहीं लगा सकते हैं। हालांकि, इस मात्रा का अनुमान लगाने के तरीके हैं कि हम अब इसमें नहीं जाएंगे। यह यह संकेतक है कि हम अंततः कम से कम करना चाहते हैं। कभी-कभी इस सूचक को सामान्यीकरण त्रुटि भी कहा जाता है।
अनुभवजन्य जोखिम पूरे इनपुट डेटा स्पेस से चुने गए एक निश्चित अनुभवजन्य डेटा सेट पर जोखिम का औसत मूल्य है। आमतौर पर हमारे मशीन लर्निंग एल्गोरिदम इस मूल्य को कम करने में शामिल होते हैं।
मशीन लर्निंग का कार्य उपलब्ध अनुभवजन्य डेटा सेट के आधार पर एक समाधान (फ़ंक्शन) का निर्माण करना है जो औसत जोखिम का न्यूनतम मूल्य देगा।
संभवतः लगभग सही अधिगम का एक सिद्धांत है (संभवतः A pproximately C orrect Learning, PAC )।
पीएसी प्रशिक्षित मशीन लर्निंग एल्गोरिदम की सरलीकृत परिभाषाएल्गोरिथ्म एक निर्माण, आकार n के एक अनुभवजन्य नमूना X का उपयोग करते हुए , कुछ फ़ंक्शन एच जो लक्ष्य चर के मूल्य को पुनर्स्थापित करता है पीएसी प्रशिक्षित है यदि किसी भी सीमा के लिए और आत्मविश्वास प्रशिक्षण के नमूने का ऐसा आकार n है कि उस पर सीखे गए फ़ंक्शन h के लिए, निम्नलिखित स्थिति पूरी हो गई है: औसत जोखिम मान से अधिक होने की संभावना से कम है ।
हम इसे इस तरह से समझ सकते हैं: फ़ंक्शन एच के लिए हमारी कुछ आवश्यकताओं का चयन करना, इसके औसत जोखिम मूल्य के दृष्टिकोण से, हम जानेंगे कि डेटा सेट का ऐसा आकार है (चयनित, जाहिर है, स्वतंत्र रूप से और यादृच्छिक रूप से पूरे स्थान से) जब हम इसे सीखते हैं। हम इन आवश्यकताओं को प्राप्त करेंगे।
यह सिद्धांत पिछली शताब्दी के 80 के दशक का है। हालांकि, यह कोई मापने योग्य संकेतक प्रदान नहीं करता है जो एल्गोरिथम की सीखने की क्षमता को दर्शाता है। लेकिन इस तरह का जवाब सांख्यिकीय शिक्षा के सिद्धांत ( वीसी सिद्धांत ) द्वारा दिया गया है जो पहले से ही वी। वैपनिक और ए। चेरोनोकिस द्वारा विकसित किया गया है। यह सिद्धांत कुलपति-आयाम के एक संख्यात्मक सूचक पर आधारित है। VC- डायमेंशन अधिकतम डेटा साइज का एक कॉम्बीनेटरियल अनुमान है जिसे एल्गोरिथ्म सभी संभावित तरीकों से दो भागों में विभाजित कर सकता है।
उदाहरणमान लीजिए हमारे पास एक एल्गोरिथ्म है जो एक एन-डायमेंशनल स्पेस में एक अलग हाइपरप्लेन बनाता है। एक आयामी स्थान पर विचार करें: ऐसे स्थान में दो बिंदुओं को हमेशा विभाजित किया जा सकता है, लेकिन तीनों को कभी भी विभाजित नहीं किया जा सकता है, जिसका अर्थ है कि VC = 2। दो-आयामी स्थान पर विचार करें: तीन बिंदुओं को हमेशा दो वर्गों में विभाजित किया जाता है, लेकिन चार बिंदुओं को सभी संभावित साधनों से विभाजित नहीं किया जा सकता है, इसलिए VC = 3।
वास्तव में, यह कड़ाई से दिखाया जा सकता है कि एक एन-आयामी अंतरिक्ष में हाइपरप्लेन के एक वर्ग के लिए वीसी है ।
वीसी-सिद्धांत का मुख्य प्रमेय, संभव योगों में से एक में, इस तथ्य को साबित करता है कि अगर एल्गोरिथ्म का वीसी-आयाम परिमित है, तो यह पीएसी-प्रशिक्षित है। इसके अलावा, वीसी-आयाम एक संकेतक है कि बढ़ती अनुभवजन्य नमूना आकार के साथ कैसे अनुभवजन्य जोखिम का मूल्य औसत जोखिम के मूल्य में परिवर्तित होता है।
इस प्रकार, मशीन लर्निंग एल्गोरिदम के मशीन लर्निंग की समस्या प्रति से अपेक्षाकृत अच्छी तरह से अध्ययन की गई है और इसका कठोर गणितीय आधार है।
तब, प्रकृति में एक लेख का विषय क्या है?
लेखक लिखते हैं कि आयाम के विभिन्न आयामों के आधार पर पीएसी सिद्धांत के साथ समस्या यह है कि यह सार्वभौमिक नहीं है।
पीएसी सिद्धांत से विभिन्न आयाम संकेतक लेखक एक समस्या का एक दिलचस्प उदाहरण देते हैं जिसका विवरण स्वयं ही तैयार किया गया है ताकि सफलता को पीएसी-शिक्षण के रूप में तैयार न किया जा सके। लेखक लिखते हैं:
कल्पना कीजिए कि हमारे पास एक इंटरनेट साइट है जिस पर हम विज्ञापन प्रदर्शित करते हैं। इस साइट के सभी संभावित आगंतुकों के सेट के रूप में एक्स को परिभाषित करें। विज्ञापन एक निश्चित विज्ञापन पूल से चुना जाता है। सशर्त रूप से, मान लें कि पूल के प्रत्येक विज्ञापन को उपयोगकर्ताओं की कुछ श्रेणी के लिए निर्देशित किया गया है: खेल विज्ञापन खेल के प्रशंसक, आदि। कार्य बिल्कुल उसी तरह का विज्ञापन करना है जो साइट आगंतुकों के लिए सबसे अधिक प्रासंगिक है ।
यहाँ समस्या यह है कि हम वास्तव में नहीं जानते हैं कि भविष्य में साइट पर कौन जाएगा। संक्षेप में, इस तरह की समस्या का विवरण निम्नानुसार किया जा सकता है:
फीचर सेट होना सेट पर इस तरह के एक समारोह का पता लगाएं ताकि अज्ञात वितरण पर इसकी मीट्रिक अधिकतम था। इसके अलावा, स्वतंत्र रूप से वितरित की गई मात्रा के सीमित सेट के आधार पर इस तरह के फ़ंक्शन को खोजना आवश्यक है
EMX प्रशिक्षण
Shai Ben-David और उनके सहयोगियों ने एक नई अवधारणा पेश की - E M द X एक्सम (EMX लर्निंग) को उत्तेजित करता है, जो इस तरह की अधिकतम समस्याओं के लिए सीखने के मानदंड देता है:
सुविधा सेट के लिए , इनपुट के सेट और अज्ञात वितरण किसी भी संख्या के लिए समारोह यह है -एक्सएक्स-प्रशिक्षित यदि किसी भी वितरण के लिए :
सीखने की यह परिभाषा निस्संदेह पीएसी की अवधारणा से अधिक सामान्य है।
फिर सातत्य और "गणित की अनसुलझी समस्या" का इससे क्या लेना-देना है?
लेखक निम्नलिखित प्रमेय साबित करते हैं:
EMX का कारोबार के बारे में ज़र्मेलो से स्वतंत्र - पसंद के स्वयंसिद्ध (बाद में ZFC) के साथ Frenkel स्वयंसिद्ध प्रणाली।
दूसरे शब्दों में, मानक गणितीय स्वयंसिद्धों का उपयोग करते हुए, हम सामान्य मामले में या तो EMX सीखने की समस्या का समाधान खोजने की संभावना साबित नहीं कर सकते हैं या इस समाधान को खोजने की असंभवता साबित कर सकते हैं।
लेखक यह भी बताते हैं कि ईएमएक्स सीखने के सामान्य मामले के लिए, वीसी-आयाम (या किसी अन्य आयाम) का कोई एनालॉग नहीं है जो ईएमएक्स-मापन्यता के मामले में परिमित होगा, और इसके विपरीत, ईएमएक्स-सीखने की क्षमता इसकी बारीकियों का पालन करेगी। अधिक सख्ती से वे इसे इस प्रकार तैयार करते हैं:
ऐसा एक स्थिरांक है अगर हम ZFC की स्थिरता मान लेते हैं, तो ऐसी कोई संपत्ति नहीं है कुछ के लिए $ इनलाइन $ m, M> c $ इनलाइन $ किसी के लिए और सुविधा सेट किया जाएगा:
- अगर सच है तो ईएमएक्स सीखने की जटिलता M से अधिक नहीं है;
- अगर फिर झूठ ईएमएक्स सीखने की जटिलता कम से कम मी;
इसके विपरीत, यह सच है, उदाहरण के लिए, वीसी-आयाम, के बाद से बराबर यह अनिवार्य रूप से वीसी-सिद्धांत के मुख्य प्रमेय का सूत्रीकरण होगा।
निष्कर्ष
कार्य का संदेश वास्तव में मशीन लर्निंग के व्यावहारिक मुद्दों से संबंधित है, या यहां तक कि सांख्यिकीय शिक्षा के सिद्धांत के सैद्धांतिक प्रश्नों से संबंधित है। मुझे यह प्रतीत हुआ कि कार्य में दो मुख्य विचार हैं:
- ईएमएक्स सीखने और गोडेल के प्रमेयों के बीच एक सुंदर संबंध;
- मशीन सीखने की समस्याओं के सामान्य वर्ग के लिए सीखने (जैसे वीसी-आयाम) के सार्वभौमिक लक्षण वर्णन बनाने की मौलिक असंभवता।
इस लेख की समीक्षा के अनुवाद में प्रयुक्त "मशीन लर्निंग ने एक अनसुलझी गणितीय समस्या का सामना किया," मैं व्यक्तिगत रूप से पूरी तरह से नापसंद करता हूं। मेरी राय में, यह एक पूर्ण क्लिकबैट है, इसके अलावा, यह बस वास्तविकता के अनुरूप नहीं है। मूल काम का मतलब यह नहीं है कि कोई व्यक्ति किसी चीज़ में भाग गया। मशीन लर्निंग और पीएसी सिद्धांत दोनों ने काम किया और काम करना जारी रखा। यह बताया गया है कि पीएसी सिद्धांत को मशीन सीखने की समस्या के कुछ विशेष विवरणों के लिए सामान्यीकृत नहीं किया जा सकता है, गोडेल के प्रमेयों के साथ दिलचस्प संबंध पाए जाते हैं, लेकिन मशीन सीखने में आई कुछ अनसुलझे समस्या के बारे में एक शब्द नहीं।