यह लेख मेरी मुफ्त सीखने की क्षमता को अस्वीकार्य है, शाय बेन-डेविड, एट अल।

हाल ही में Habré पर लेख मशीन लर्निंग को एक अनसुलझे गणितीय समस्या का सामना करना पड़ा , जो इसी नाम के नेचर न्यूज़ लेख में Shay Ben-David के लेख का अनुवाद है। हालांकि, विषय की प्रकृति और मूल समीक्षा की संक्षिप्तता के कारण, यह मेरे लिए पूरी तरह से समझ में नहीं आया कि लेख में क्या था। शाही बेन-डेविड को जानने के बाद, उत्कृष्ट पुस्तक "अंडरस्टैंडिंग मशीन लर्निंग: फ्रॉम थ्योरी टू अल्गोरिद्म" के लेखक के रूप में, मुझे इस विषय में दिलचस्पी हो गई, इस काम से परिचित हो गए और यहां मुख्य बिंदुओं को रेखांकित करने का प्रयास किया।

मुझे तुरंत कहना होगा कि लेख बल्कि जटिल है और, शायद, मैंने कुछ महत्वपूर्ण बिंदुओं को याद किया, लेकिन मेरी समीक्षा उस पहले से अधिक पूर्ण होगी जो कि हैबे पर है।

सामान्य रूप से पीएसी सीखने के बारे में कुछ शब्द

पहली बात जिसने मुझे नेचर न्यूज की समीक्षा में उलझन में डाल दिया, वह यह कि सीखने की समस्या खुद को पूरी तरह से नए रूप में प्रस्तुत कर रही थी। वास्तव में, यह एक लंबी और अपेक्षाकृत अच्छी तरह से अध्ययन की जाने वाली समस्या है।

उन लोगों के लिए कुछ बुनियादी अवधारणाएं जो प्रश्न से परिचित नहीं हैं

जोखिम का एक कार्य है $y, \ hat {y}$ - लक्ष्य चर का वास्तविक और अनुमानित मूल्य, जो दर्शाता है कि हम अपनी भविष्यवाणी में कितने गलत थे। एक कम मूल्य एक छोटी सी त्रुटि को दर्शाता है। एक वर्गीकरण समस्या के लिए सबसे सरल उदाहरण एक संकेतक फ़ंक्शन है। $\ mathbb {1} (y \ neq \ hat {y})$ । प्रतिगमन के लिए, यह मानक विचलन होगा $\ sqrt {y ^ 2 - \ hat {y} ^ 2}$ । जाहिर है, अधिक जटिल विकल्प हो सकते हैं। इस अवधारणा का एक अन्य नाम हानि कार्य है।

औसत जोखिम - संपूर्ण इनपुट डेटा स्थान पर औसत जोखिम मूल्य। इस तथ्य के कारण कि ऐसा स्थान आमतौर पर अनंत है (उदाहरण के लिए, वास्तविक सुविधाओं के लिए), या घातीय रूप से बड़ा (उदाहरण के लिए, 1024x1024 आकार की छवियों का स्थान और पिक्सेल मान 0 से 255 तक), हम सीधे इस मूल्य का अनुमान नहीं लगा सकते हैं। हालांकि, इस मात्रा का अनुमान लगाने के तरीके हैं कि हम अब इसमें नहीं जाएंगे। यह यह संकेतक है कि हम अंततः कम से कम करना चाहते हैं। कभी-कभी इस सूचक को सामान्यीकरण त्रुटि भी कहा जाता है।

अनुभवजन्य जोखिम पूरे इनपुट डेटा स्पेस से चुने गए एक निश्चित अनुभवजन्य डेटा सेट पर जोखिम का औसत मूल्य है। आमतौर पर हमारे मशीन लर्निंग एल्गोरिदम इस मूल्य को कम करने में शामिल होते हैं।

मशीन लर्निंग का कार्य उपलब्ध अनुभवजन्य डेटा सेट के आधार पर एक समाधान (फ़ंक्शन) का निर्माण करना है जो औसत जोखिम का न्यूनतम मूल्य देगा।

संभवतः लगभग सही अधिगम का एक सिद्धांत है (संभवतः A pproximately C orrect Learning, PAC )।

पीएसी प्रशिक्षित मशीन लर्निंग एल्गोरिदम की सरलीकृत परिभाषा

एल्गोरिथ्म एक निर्माण, आकार n के एक अनुभवजन्य नमूना X का उपयोग करते हुए , कुछ फ़ंक्शन एच जो लक्ष्य चर के मूल्य को पुनर्स्थापित करता है पीएसी प्रशिक्षित है यदि किसी भी सीमा के लिए $\ epsilon$ और आत्मविश्वास $\ डेल्टा$ प्रशिक्षण के नमूने का ऐसा आकार n है कि उस पर सीखे गए फ़ंक्शन h के लिए, निम्नलिखित स्थिति पूरी हो गई है: औसत जोखिम मान से अधिक होने की संभावना $\ epsilon$ से कम है $1 - \ डेल्टा$ ।

हम इसे इस तरह से समझ सकते हैं: फ़ंक्शन एच के लिए हमारी कुछ आवश्यकताओं का चयन करना, इसके औसत जोखिम मूल्य के दृष्टिकोण से, हम जानेंगे कि डेटा सेट का ऐसा आकार है (चयनित, जाहिर है, स्वतंत्र रूप से और यादृच्छिक रूप से पूरे स्थान से) जब हम इसे सीखते हैं। हम इन आवश्यकताओं को प्राप्त करेंगे।

यह सिद्धांत पिछली शताब्दी के 80 के दशक का है। हालांकि, यह कोई मापने योग्य संकेतक प्रदान नहीं करता है जो एल्गोरिथम की सीखने की क्षमता को दर्शाता है। लेकिन इस तरह का जवाब सांख्यिकीय शिक्षा के सिद्धांत ( वीसी सिद्धांत ) द्वारा दिया गया है जो पहले से ही वी। वैपनिक और ए। चेरोनोकिस द्वारा विकसित किया गया है। यह सिद्धांत कुलपति-आयाम के एक संख्यात्मक सूचक पर आधारित है। VC- डायमेंशन अधिकतम डेटा साइज का एक कॉम्बीनेटरियल अनुमान है जिसे एल्गोरिथ्म सभी संभावित तरीकों से दो भागों में विभाजित कर सकता है।

उदाहरण

मान लीजिए हमारे पास एक एल्गोरिथ्म है जो एक एन-डायमेंशनल स्पेस में एक अलग हाइपरप्लेन बनाता है। एक आयामी स्थान पर विचार करें: ऐसे स्थान में दो बिंदुओं को हमेशा विभाजित किया जा सकता है, लेकिन तीनों को कभी भी विभाजित नहीं किया जा सकता है, जिसका अर्थ है कि VC = 2। दो-आयामी स्थान पर विचार करें: तीन बिंदुओं को हमेशा दो वर्गों में विभाजित किया जाता है, लेकिन चार बिंदुओं को सभी संभावित साधनों से विभाजित नहीं किया जा सकता है, इसलिए VC = 3।

वास्तव में, यह कड़ाई से दिखाया जा सकता है कि एक एन-आयामी अंतरिक्ष में हाइपरप्लेन के एक वर्ग के लिए वीसी है $n + 1$ ।

वीसी-सिद्धांत का मुख्य प्रमेय, संभव योगों में से एक में, इस तथ्य को साबित करता है कि अगर एल्गोरिथ्म का वीसी-आयाम परिमित है, तो यह पीएसी-प्रशिक्षित है। इसके अलावा, वीसी-आयाम एक संकेतक है कि बढ़ती अनुभवजन्य नमूना आकार के साथ कैसे अनुभवजन्य जोखिम का मूल्य औसत जोखिम के मूल्य में परिवर्तित होता है।

इस प्रकार, मशीन लर्निंग एल्गोरिदम के मशीन लर्निंग की समस्या प्रति से अपेक्षाकृत अच्छी तरह से अध्ययन की गई है और इसका कठोर गणितीय आधार है।

तब, प्रकृति में एक लेख का विषय क्या है?

लेखक लिखते हैं कि आयाम के विभिन्न आयामों के आधार पर पीएसी सिद्धांत के साथ समस्या यह है कि यह सार्वभौमिक नहीं है।

पीएसी सिद्धांत से विभिन्न आयाम संकेतक

कार्य	आयामी स्वरूप
बाइनरी वर्गीकरण	कुलपति आयाम
बहु-श्रेणी वर्गीकरण	नटराजन का आयाम
वापसी	मोटा बिखरना
...	...

लेखक एक समस्या का एक दिलचस्प उदाहरण देते हैं जिसका विवरण स्वयं ही तैयार किया गया है ताकि सफलता को पीएसी-शिक्षण के रूप में तैयार न किया जा सके। लेखक लिखते हैं:

कल्पना कीजिए कि हमारे पास एक इंटरनेट साइट है जिस पर हम विज्ञापन प्रदर्शित करते हैं। इस साइट के सभी संभावित आगंतुकों के सेट के रूप में एक्स को परिभाषित करें। विज्ञापन एक निश्चित विज्ञापन पूल से चुना जाता है। सशर्त रूप से, मान लें कि पूल के प्रत्येक विज्ञापन को उपयोगकर्ताओं की कुछ श्रेणी के लिए निर्देशित किया गया है: खेल विज्ञापन खेल के प्रशंसक, आदि। कार्य बिल्कुल उसी तरह का विज्ञापन करना है जो साइट आगंतुकों के लिए सबसे अधिक प्रासंगिक है ।

यहाँ समस्या यह है कि हम वास्तव में नहीं जानते हैं कि भविष्य में साइट पर कौन जाएगा। संक्षेप में, इस तरह की समस्या का विवरण निम्नानुसार किया जा सकता है:

फीचर सेट होना $एफ$ सेट पर $X$ इस तरह के एक समारोह का पता लगाएं $F_ {सर्वोत्तम}$ ताकि अज्ञात वितरण पर इसकी मीट्रिक $पी$ अधिकतम था। इसके अलावा, स्वतंत्र रूप से वितरित की गई मात्रा के सीमित सेट के आधार पर इस तरह के फ़ंक्शन को खोजना आवश्यक है $पी$

EMX प्रशिक्षण

Shai Ben-David और उनके सहयोगियों ने एक नई अवधारणा पेश की - E M द X एक्सम (EMX लर्निंग) को उत्तेजित करता है, जो इस तरह की अधिकतम समस्याओं के लिए सीखने के मानदंड देता है:

सुविधा सेट के लिए $एफ$ , इनपुट के सेट $X$ और अज्ञात वितरण $पी$ किसी भी संख्या के लिए $d = d (\ epsilon, \ delta)$ समारोह $G (s)$ यह है $(\ epsilon, \ delta)$ -एक्सएक्स-प्रशिक्षित यदि किसी भी वितरण के लिए $पी$ :

P r_{S s i m P^{d}} [m a t h b b E_{P} (G (S)) l e q s u p_{h_{i} n F} m a t h b b E (h) - e p s i l o n] / l e q d e l t a

$Pr_ {S \ sim P ^ d} [\ mathbb {E} _P (G (S)) \ leq \ sup_ {h \ _ in F} \ mathbb {E} (h) - \ epsilon] / leq \ delta$

सीखने की यह परिभाषा निस्संदेह पीएसी की अवधारणा से अधिक सामान्य है।

फिर सातत्य और "गणित की अनसुलझी समस्या" का इससे क्या लेना-देना है?

लेखक निम्नलिखित प्रमेय साबित करते हैं:
EMX का कारोबार $एफ$ के बारे में $पी$ ज़र्मेलो से स्वतंत्र - पसंद के स्वयंसिद्ध (बाद में ZFC) के साथ Frenkel स्वयंसिद्ध प्रणाली।

दूसरे शब्दों में, मानक गणितीय स्वयंसिद्धों का उपयोग करते हुए, हम सामान्य मामले में या तो EMX सीखने की समस्या का समाधान खोजने की संभावना साबित नहीं कर सकते हैं या इस समाधान को खोजने की असंभवता साबित कर सकते हैं।

लेखक यह भी बताते हैं कि ईएमएक्स सीखने के सामान्य मामले के लिए, वीसी-आयाम (या किसी अन्य आयाम) का कोई एनालॉग नहीं है जो ईएमएक्स-मापन्यता के मामले में परिमित होगा, और इसके विपरीत, ईएमएक्स-सीखने की क्षमता इसकी बारीकियों का पालन करेगी। अधिक सख्ती से वे इसे इस प्रकार तैयार करते हैं:

ऐसा एक स्थिरांक है $सी$ अगर हम ZFC की स्थिरता मान लेते हैं, तो ऐसी कोई संपत्ति नहीं है $ए (एक्स, वाई)$ कुछ के लिए $ इनलाइन $ m, M> c $ इनलाइन $ किसी के लिए $X$ और सुविधा सेट $एफ$ किया जाएगा:

अगर $ए (एक्स, वाई)$ सच है तो $(1/3, 1/3)$ ईएमएक्स सीखने की जटिलता $एफ$ M से अधिक नहीं है;
अगर $ए (एक्स, वाई)$ फिर झूठ $(1/3, 1/3)$ ईएमएक्स सीखने की जटिलता $एफ$ कम से कम मी;

इसके विपरीत, यह सच है, उदाहरण के लिए, वीसी-आयाम, के बाद से $ए (एक्स, वाई)$ बराबर $VC \ leq d$ यह अनिवार्य रूप से वीसी-सिद्धांत के मुख्य प्रमेय का सूत्रीकरण होगा।

निष्कर्ष

कार्य का संदेश वास्तव में मशीन लर्निंग के व्यावहारिक मुद्दों से संबंधित है, या यहां तक कि सांख्यिकीय शिक्षा के सिद्धांत के सैद्धांतिक प्रश्नों से संबंधित है। मुझे यह प्रतीत हुआ कि कार्य में दो मुख्य विचार हैं:

ईएमएक्स सीखने और गोडेल के प्रमेयों के बीच एक सुंदर संबंध;
मशीन सीखने की समस्याओं के सामान्य वर्ग के लिए सीखने (जैसे वीसी-आयाम) के सार्वभौमिक लक्षण वर्णन बनाने की मौलिक असंभवता।

इस लेख की समीक्षा के अनुवाद में प्रयुक्त "मशीन लर्निंग ने एक अनसुलझी गणितीय समस्या का सामना किया," मैं व्यक्तिगत रूप से पूरी तरह से नापसंद करता हूं। मेरी राय में, यह एक पूर्ण क्लिकबैट है, इसके अलावा, यह बस वास्तविकता के अनुरूप नहीं है। मूल काम का मतलब यह नहीं है कि कोई व्यक्ति किसी चीज़ में भाग गया। मशीन लर्निंग और पीएसी सिद्धांत दोनों ने काम किया और काम करना जारी रखा। यह बताया गया है कि पीएसी सिद्धांत को मशीन सीखने की समस्या के कुछ विशेष विवरणों के लिए सामान्यीकृत नहीं किया जा सकता है, गोडेल के प्रमेयों के साथ दिलचस्प संबंध पाए जाते हैं, लेकिन मशीन सीखने में आई कुछ अनसुलझे समस्या के बारे में एक शब्द नहीं।

सीखने योग्य समीक्षा हो सकती है

सामान्य रूप से पीएसी सीखने के बारे में कुछ शब्द

तब, प्रकृति में एक लेख का विषय क्या है?

EMX प्रशिक्षण

फिर सातत्य और "गणित की अनसुलझी समस्या" का इससे क्या लेना-देना है?

निष्कर्ष

More articles: