विकीबूक उदाहरण (एक वैज्ञानिक लेख से चित्रण)सभी जानते हैं कि विकिपीडिया एक बहुमूल्य सूचना संसाधन है। आप एक विषय का अध्ययन करने में घंटे बिता सकते हैं, एक विषय से दूसरे विषय पर संदर्भ प्राप्त करने के लिए रुचि के विषय पर आगे बढ़ सकते हैं। लेकिन यह हमेशा स्पष्ट नहीं होता है कि किसी एक सामान्य विषय पर सभी सामग्री कैसे एकत्र करें। उदाहरण के लिए, अकार्बनिक रसायन विज्ञान या मध्य युग के इतिहास पर सभी लेखों को कैसे संयोजित किया जाए, जो सबसे महत्वपूर्ण है? इस बारे में, विकीबूक
-बॉट मशीन लर्निंग प्रोग्राम के डेवलपर्स, नेगेव (इज़राइल) में बेन-गुरियन के शाहर अदमती और उनके सहयोगियों ने ऐसा करने की कोशिश की।
विकिपीडिया और पाठ्यपुस्तक दो अलग-अलग चीजें हैं। यही कारण है कि
विकीबूक परियोजना बनाई गई थी, जहां लोग संयुक्त रूप से एक विषय पर सबसे महत्वपूर्ण को संक्षेप में प्रस्तुत करने का प्रयास करते हैं। उदाहरण के लिए, आप 6,000 से अधिक पृष्ठों के साथ एक मशीन सीखने वाली पाठ्यपुस्तक पा सकते हैं, जिसमें तंत्रिका नेटवर्क, आनुवंशिक एल्गोरिदम और मशीन विजन पर अपडेट किए गए अनुभाग हैं।
विकीबूक-बॉट कई मशीन सीखने के कार्यों को हल करता है। सबसे पहले, यह एक
वर्गीकरण कार्य है, अर्थात, आपको यह निर्धारित करने की आवश्यकता है कि क्या लेख एक विशिष्ट विकीबूक का है। दूसरे, आपको चयनित लेखों को अध्याय में विभाजित करने की आवश्यकता है - यह
क्लस्टरिंग का कार्य
है । यह प्रसिद्ध एल्गोरिदम द्वारा हल किया गया था। अंत में,
व्यवस्थितकरण कार्य, जिसमें दो उप-प्रकार शामिल हैं: प्रत्येक अध्याय में लेखों का क्रम और स्वयं अध्यायों का क्रम।

वास्तव में, कार्यक्रम अपेक्षाकृत सरल काम करता है। सिद्धांत उन सभी के लिए स्पष्ट है जिन्होंने तंत्रिका नेटवर्क सीखने का सामना किया है। पहला कदम प्रशिक्षण डेटासेट बनाना है। अंग्रेजी में लगभग 6,700 मौजूदा विकीबूक में से 1,000 से अधिक विचारों वाली और 10 लेखों या उससे अधिक पुस्तकों का चयन किया गया।

चूंकि ये विकीबूक प्रशिक्षण और परीक्षण दोनों के लिए एक प्रकार का स्वर्ण मानक है, इसलिए डेवलपर्स ने इसे एक गुणवत्ता मानक के रूप में लिया। तंत्रिका नेटवर्क को प्रशिक्षित करने के बाद, आगे के काम को ऊपर सूचीबद्ध कई चरणों में विभाजित किया गया था: वर्गीकरण, क्लस्टरिंग और सिस्टमैटिज़ेशन। कार्य मानव-निर्मित पाठ्यपुस्तक शीर्षक से शुरू होता है। नाम किसी भी मनमानी अवधारणा का वर्णन करता है। उदाहरण के लिए, मशीन लर्निंग: ए कम्प्लीट गाइड।
पहला काम लेखों के पूरे सेट को क्रमबद्ध करना और यह निर्धारित करना है कि कौन से विषय इस विषय में शामिल होने के लिए पर्याप्त प्रासंगिक हैं। लेखकों ने एक वैज्ञानिक पत्र में लिखा है, "विकिपीडिया पर लेखों की विशाल मात्रा और लाखों लोगों के लिए सबसे अधिक प्रासंगिक लेखों का चयन करने की आवश्यकता के कारण यह कार्य कठिन है।" इसे हल करने के लिए, उन्होंने विकिपीडिया नेटवर्क संरचना का उपयोग किया, क्योंकि कुछ लेख अक्सर दूसरों से लिंक होते हैं। यह मान लेना उचित है कि संबंधित लेख विषय पर भी होगा।
तो, काम लेख के शीर्षक में एक छोटे से कोर के साथ शुरू होता है जिसमें एक दिए गए शीर्षक का उल्लेख किया गया है। फिर सभी लेख जो कोर से तीन बदलावों की दूरी पर स्थित हैं, निर्धारित किए जाते हैं। लेकिन पाठ्यपुस्तक में कितने लेख पाए जाते हैं? इस सवाल का जवाब लोगों द्वारा बनाए गए विकीबूक द्वारा दिया गया है। उनकी सामग्री का एक स्वचालित विश्लेषण आपको यह निर्धारित करने की अनुमति देता है कि पाठ्यपुस्तक में मानव निर्मित पुस्तकों में विकिपीडिया से कितनी सामग्री शामिल है।
प्रत्येक मानव निर्मित विकिबुक में एक नेटवर्क संरचना होती है जो अन्य लेखों की ओर इशारा करते हुए लिंक की संख्या से परिभाषित होती है, एक निश्चित संख्या में लिंक पृष्ठों की ओर इशारा करते हैं, इसमें शामिल लेखों की रैंकिंग, और इसी तरह। विकसित एल्गोरिथम किसी दिए गए विषय के लिए प्रत्येक स्वचालित रूप से चयनित लेख का विश्लेषण करता है और इस सवाल का जवाब देता है: यदि आप इसे विकीबूक में शामिल करते हैं, तो क्या इसकी नेटवर्क संरचना किसी व्यक्ति द्वारा बनाई गई पुस्तकों के समान होगी या नहीं। यदि नहीं, तो लेख को छोड़ दिया गया है।
मुख्य रूप से प्रशिक्षण डेटा और मौजूदा मशीन सीखने के तरीकों के आधार पर, अन्य कार्यों को भी हल किया जाता है। इस प्रकार, टीम विकीबूक को स्वचालित रूप से उत्पन्न करने में सक्षम थी जो पहले से ही लोगों द्वारा बनाई गई हैं। प्रस्तावित विधि की प्रभावशीलता का मूल्यांकन 407 वास्तविक विकीबुक के साथ स्वचालित रूप से उत्पन्न पुस्तकों की तुलना करके किया गया था। ऐसा कहा जाता है कि सभी कार्यों के लिए तुलना करते समय उच्च और सांख्यिकीय रूप से महत्वपूर्ण परिणाम प्राप्त करना संभव था। लेकिन फिर भी, एल्गोरिथ्म की सही प्रभावशीलता का अनुमान विकीबूक को अन्य विषयों पर उत्पन्न करने के बाद लगाया जा सकता है, न कि केवल उन पर, जिन पर उसने अध्ययन किया था।
बॉट का विवरण एक आर्टिकल
"विकीबूक-बॉट - ऑटोमेटिक जनरेशन ऑफ विकिपीडिया बुक्स" के रूप में arXiv.org प्रिंट साइट पर प्रकाशित हुआ था।