सीखने योग्य समीक्षा हो सकती है

यह लेख मेरी मुफ्त सीखने की क्षमता को अस्वीकार्य है, शाय बेन-डेविड, एट अल।


हाल ही में Habré पर लेख मशीन लर्निंग को एक अनसुलझे गणितीय समस्या का सामना करना पड़ा , जो इसी नाम के नेचर न्यूज़ लेख में Shay Ben-David के लेख का अनुवाद है। हालांकि, विषय की प्रकृति और मूल समीक्षा की संक्षिप्तता के कारण, यह मेरे लिए पूरी तरह से समझ में नहीं आया कि लेख में क्या था। शाही बेन-डेविड को जानने के बाद, उत्कृष्ट पुस्तक "अंडरस्टैंडिंग मशीन लर्निंग: फ्रॉम थ्योरी टू अल्गोरिद्म" के लेखक के रूप में, मुझे इस विषय में दिलचस्पी हो गई, इस काम से परिचित हो गए और यहां मुख्य बिंदुओं को रेखांकित करने का प्रयास किया।


मुझे तुरंत कहना होगा कि लेख बल्कि जटिल है और, शायद, मैंने कुछ महत्वपूर्ण बिंदुओं को याद किया, लेकिन मेरी समीक्षा उस पहले से अधिक पूर्ण होगी जो कि हैबे पर है।


सामान्य रूप से पीएसी सीखने के बारे में कुछ शब्द


पहली बात जिसने मुझे नेचर न्यूज की समीक्षा में उलझन में डाल दिया, वह यह कि सीखने की समस्या खुद को पूरी तरह से नए रूप में प्रस्तुत कर रही थी। वास्तव में, यह एक लंबी और अपेक्षाकृत अच्छी तरह से अध्ययन की जाने वाली समस्या है।


उन लोगों के लिए कुछ बुनियादी अवधारणाएं जो प्रश्न से परिचित नहीं हैं

जोखिम का एक कार्य है y, haty- लक्ष्य चर का वास्तविक और अनुमानित मूल्य, जो दर्शाता है कि हम अपनी भविष्यवाणी में कितने गलत थे। एक कम मूल्य एक छोटी सी त्रुटि को दर्शाता है। एक वर्गीकरण समस्या के लिए सबसे सरल उदाहरण एक संकेतक फ़ंक्शन है।  mathbb1(y neq haty)। प्रतिगमन के लिए, यह मानक विचलन होगा  sqrty2 haty2। जाहिर है, अधिक जटिल विकल्प हो सकते हैं। इस अवधारणा का एक अन्य नाम हानि कार्य है।


औसत जोखिम - संपूर्ण इनपुट डेटा स्थान पर औसत जोखिम मूल्य। इस तथ्य के कारण कि ऐसा स्थान आमतौर पर अनंत है (उदाहरण के लिए, वास्तविक सुविधाओं के लिए), या घातीय रूप से बड़ा (उदाहरण के लिए, 1024x1024 आकार की छवियों का स्थान और पिक्सेल मान 0 से 255 तक), हम सीधे इस मूल्य का अनुमान नहीं लगा सकते हैं। हालांकि, इस मात्रा का अनुमान लगाने के तरीके हैं कि हम अब इसमें नहीं जाएंगे। यह यह संकेतक है कि हम अंततः कम से कम करना चाहते हैं। कभी-कभी इस सूचक को सामान्यीकरण त्रुटि भी कहा जाता है।


अनुभवजन्य जोखिम पूरे इनपुट डेटा स्पेस से चुने गए एक निश्चित अनुभवजन्य डेटा सेट पर जोखिम का औसत मूल्य है। आमतौर पर हमारे मशीन लर्निंग एल्गोरिदम इस मूल्य को कम करने में शामिल होते हैं।


मशीन लर्निंग का कार्य उपलब्ध अनुभवजन्य डेटा सेट के आधार पर एक समाधान (फ़ंक्शन) का निर्माण करना है जो औसत जोखिम का न्यूनतम मूल्य देगा।


संभवतः लगभग सही अधिगम का एक सिद्धांत है (संभवतः A pproximately C orrect Learning, PAC )।


पीएसी प्रशिक्षित मशीन लर्निंग एल्गोरिदम की सरलीकृत परिभाषा

एल्गोरिथ्म एक निर्माण, आकार n के एक अनुभवजन्य नमूना X का उपयोग करते हुए , कुछ फ़ंक्शन एच जो लक्ष्य चर के मूल्य को पुनर्स्थापित करता है पीएसी प्रशिक्षित है यदि किसी भी सीमा के लिए  epsilonऔर आत्मविश्वास  प्रशिक्षण के नमूने का ऐसा आकार n है कि उस पर सीखे गए फ़ंक्शन h के लिए, निम्नलिखित स्थिति पूरी हो गई है: औसत जोखिम मान से अधिक होने की संभावना  epsilonसे कम है 1 


हम इसे इस तरह से समझ सकते हैं: फ़ंक्शन एच के लिए हमारी कुछ आवश्यकताओं का चयन करना, इसके औसत जोखिम मूल्य के दृष्टिकोण से, हम जानेंगे कि डेटा सेट का ऐसा आकार है (चयनित, जाहिर है, स्वतंत्र रूप से और यादृच्छिक रूप से पूरे स्थान से) जब हम इसे सीखते हैं। हम इन आवश्यकताओं को प्राप्त करेंगे।


यह सिद्धांत पिछली शताब्दी के 80 के दशक का है। हालांकि, यह कोई मापने योग्य संकेतक प्रदान नहीं करता है जो एल्गोरिथम की सीखने की क्षमता को दर्शाता है। लेकिन इस तरह का जवाब सांख्यिकीय शिक्षा के सिद्धांत ( वीसी सिद्धांत ) द्वारा दिया गया है जो पहले से ही वी। वैपनिक और ए। चेरोनोकिस द्वारा विकसित किया गया है। यह सिद्धांत कुलपति-आयाम के एक संख्यात्मक सूचक पर आधारित है। VC- डायमेंशन अधिकतम डेटा साइज का एक कॉम्बीनेटरियल अनुमान है जिसे एल्गोरिथ्म सभी संभावित तरीकों से दो भागों में विभाजित कर सकता है।


उदाहरण

मान लीजिए हमारे पास एक एल्गोरिथ्म है जो एक एन-डायमेंशनल स्पेस में एक अलग हाइपरप्लेन बनाता है। एक आयामी स्थान पर विचार करें: ऐसे स्थान में दो बिंदुओं को हमेशा विभाजित किया जा सकता है, लेकिन तीनों को कभी भी विभाजित नहीं किया जा सकता है, जिसका अर्थ है कि VC = 2। दो-आयामी स्थान पर विचार करें: तीन बिंदुओं को हमेशा दो वर्गों में विभाजित किया जाता है, लेकिन चार बिंदुओं को सभी संभावित साधनों से विभाजित नहीं किया जा सकता है, इसलिए VC = 3।


वास्तव में, यह कड़ाई से दिखाया जा सकता है कि एक एन-आयामी अंतरिक्ष में हाइपरप्लेन के एक वर्ग के लिए वीसी है n+1


वीसी-सिद्धांत का मुख्य प्रमेय, संभव योगों में से एक में, इस तथ्य को साबित करता है कि अगर एल्गोरिथ्म का वीसी-आयाम परिमित है, तो यह पीएसी-प्रशिक्षित है। इसके अलावा, वीसी-आयाम एक संकेतक है कि बढ़ती अनुभवजन्य नमूना आकार के साथ कैसे अनुभवजन्य जोखिम का मूल्य औसत जोखिम के मूल्य में परिवर्तित होता है।


इस प्रकार, मशीन लर्निंग एल्गोरिदम के मशीन लर्निंग की समस्या प्रति से अपेक्षाकृत अच्छी तरह से अध्ययन की गई है और इसका कठोर गणितीय आधार है।


तब, प्रकृति में एक लेख का विषय क्या है?


लेखक लिखते हैं कि आयाम के विभिन्न आयामों के आधार पर पीएसी सिद्धांत के साथ समस्या यह है कि यह सार्वभौमिक नहीं है।


पीएसी सिद्धांत से विभिन्न आयाम संकेतक
कार्यआयामी स्वरूप
बाइनरी वर्गीकरणकुलपति आयाम
बहु-श्रेणी वर्गीकरणनटराजन का आयाम
वापसीमोटा बिखरना
......

लेखक एक समस्या का एक दिलचस्प उदाहरण देते हैं जिसका विवरण स्वयं ही तैयार किया गया है ताकि सफलता को पीएसी-शिक्षण के रूप में तैयार न किया जा सके। लेखक लिखते हैं:


कल्पना कीजिए कि हमारे पास एक इंटरनेट साइट है जिस पर हम विज्ञापन प्रदर्शित करते हैं। इस साइट के सभी संभावित आगंतुकों के सेट के रूप में एक्स को परिभाषित करें। विज्ञापन एक निश्चित विज्ञापन पूल से चुना जाता है। सशर्त रूप से, मान लें कि पूल के प्रत्येक विज्ञापन को उपयोगकर्ताओं की कुछ श्रेणी के लिए निर्देशित किया गया है: खेल विज्ञापन खेल के प्रशंसक, आदि। कार्य बिल्कुल उसी तरह का विज्ञापन करना है जो साइट आगंतुकों के लिए सबसे अधिक प्रासंगिक है


यहाँ समस्या यह है कि हम वास्तव में नहीं जानते हैं कि भविष्य में साइट पर कौन जाएगा। संक्षेप में, इस तरह की समस्या का विवरण निम्नानुसार किया जा सकता है:


फीचर सेट होना सेट पर Xइस तरह के एक समारोह का पता लगाएं Fताकि अज्ञात वितरण पर इसकी मीट्रिक अधिकतम था। इसके अलावा, स्वतंत्र रूप से वितरित की गई मात्रा के सीमित सेट के आधार पर इस तरह के फ़ंक्शन को खोजना आवश्यक है


EMX प्रशिक्षण


Shai Ben-David और उनके सहयोगियों ने एक नई अवधारणा पेश की - E MX एक्सम (EMX लर्निंग) को उत्तेजित करता है, जो इस तरह की अधिकतम समस्याओं के लिए सीखने के मानदंड देता है:


सुविधा सेट के लिए , इनपुट के सेट Xऔर अज्ञात वितरण किसी भी संख्या के लिए d=d( epsilon, delta)समारोह G(s)यह है ( epsilon, delta)-एक्सएक्स-प्रशिक्षित यदि किसी भी वितरण के लिए :


PrS simPd[ mathbbEP(G(S)) leq suph inF mathbbE(h) epsilon]/leq delta


सीखने की यह परिभाषा निस्संदेह पीएसी की अवधारणा से अधिक सामान्य है।


फिर सातत्य और "गणित की अनसुलझी समस्या" का इससे क्या लेना-देना है?


लेखक निम्नलिखित प्रमेय साबित करते हैं:
EMX का कारोबार के बारे में ज़र्मेलो से स्वतंत्र - पसंद के स्वयंसिद्ध (बाद में ZFC) के साथ Frenkel स्वयंसिद्ध प्रणाली।


दूसरे शब्दों में, मानक गणितीय स्वयंसिद्धों का उपयोग करते हुए, हम सामान्य मामले में या तो EMX सीखने की समस्या का समाधान खोजने की संभावना साबित नहीं कर सकते हैं या इस समाधान को खोजने की असंभवता साबित कर सकते हैं।


लेखक यह भी बताते हैं कि ईएमएक्स सीखने के सामान्य मामले के लिए, वीसी-आयाम (या किसी अन्य आयाम) का कोई एनालॉग नहीं है जो ईएमएक्स-मापन्यता के मामले में परिमित होगा, और इसके विपरीत, ईएमएक्स-सीखने की क्षमता इसकी बारीकियों का पालन करेगी। अधिक सख्ती से वे इसे इस प्रकार तैयार करते हैं:


ऐसा एक स्थिरांक है अगर हम ZFC की स्थिरता मान लेते हैं, तो ऐसी कोई संपत्ति नहीं है (,)कुछ के लिए $ इनलाइन $ m, M> c $ इनलाइन $ किसी के लिए Xऔर सुविधा सेट किया जाएगा:


  • अगर (,)सच है तो (1/3,1/3)ईएमएक्स सीखने की जटिलता M से अधिक नहीं है;
  • अगर (,)फिर झूठ (1/3,1/3)ईएमएक्स सीखने की जटिलता कम से कम मी;

इसके विपरीत, यह सच है, उदाहरण के लिए, वीसी-आयाम, के बाद से (,)बराबर VC leqdयह अनिवार्य रूप से वीसी-सिद्धांत के मुख्य प्रमेय का सूत्रीकरण होगा।


निष्कर्ष


कार्य का संदेश वास्तव में मशीन लर्निंग के व्यावहारिक मुद्दों से संबंधित है, या यहां तक ​​कि सांख्यिकीय शिक्षा के सिद्धांत के सैद्धांतिक प्रश्नों से संबंधित है। मुझे यह प्रतीत हुआ कि कार्य में दो मुख्य विचार हैं:


  • ईएमएक्स सीखने और गोडेल के प्रमेयों के बीच एक सुंदर संबंध;
  • मशीन सीखने की समस्याओं के सामान्य वर्ग के लिए सीखने (जैसे वीसी-आयाम) के सार्वभौमिक लक्षण वर्णन बनाने की मौलिक असंभवता।

इस लेख की समीक्षा के अनुवाद में प्रयुक्त "मशीन लर्निंग ने एक अनसुलझी गणितीय समस्या का सामना किया," मैं व्यक्तिगत रूप से पूरी तरह से नापसंद करता हूं। मेरी राय में, यह एक पूर्ण क्लिकबैट है, इसके अलावा, यह बस वास्तविकता के अनुरूप नहीं है। मूल काम का मतलब यह नहीं है कि कोई व्यक्ति किसी चीज़ में भाग गया। मशीन लर्निंग और पीएसी सिद्धांत दोनों ने काम किया और काम करना जारी रखा। यह बताया गया है कि पीएसी सिद्धांत को मशीन सीखने की समस्या के कुछ विशेष विवरणों के लिए सामान्यीकृत नहीं किया जा सकता है, गोडेल के प्रमेयों के साथ दिलचस्प संबंध पाए जाते हैं, लेकिन मशीन सीखने में आई कुछ अनसुलझे समस्या के बारे में एक शब्द नहीं।

Source: https://habr.com/ru/post/hi484306/


All Articles