संबंधित ग्रंथों को ढूंढें और सॉर्ट करें

किसी दिए गए पाठ की समानता से ग्रंथों के एक सेट को क्रमबद्ध करने की एक सरल विधि है: विश्लेषण किए गए ग्रंथों में शब्दों की आवृत्तियों के बीच यूक्लिडियन दूरी। सिद्धांत रूप में, एल्गोरिथ्म इस पर स्पष्ट होना चाहिए, एक सरल कार्यान्वयन यहां पाया जा सकता है

आश्चर्यजनक रूप से, एक सरल विधि अच्छे परिणाम देती है। उदाहरण के लिए, यदि हम पढ़ने के लिए अगली पुस्तक की तलाश कर रहे हैं, तो आप एक खोज पैटर्न के रूप में एक पढ़ी हुई पुस्तक या कई पढ़ी गई पुस्तकों के पाठ में प्रवेश कर सकते हैं, और फिर 10 पुस्तकों के इस भंडार के लिए हमें "ब्रदर्स ट्रीम बाय फेम ग्रिम" पुस्तक के निम्नलिखित परिणाम प्राप्त होंगे:

0.0320757 Repo\THE ADVENTURES OF TOM SAWYER.txt 0.0363329 Repo\A TALE OF TWO CITIES - A STORY OF THE FRENCH REVOLUTION.txt 0.0388528 Repo\ALICES ADVENTURES IN WONDERLAND.txt 0.0440605 Repo\MOBY-DICK or, THE WHALE.txt 0.046679 Repo\THE ADVENTURES OF SHERLOCK HOLMES.txt 0.0472574 Repo\The Iliad of Homer.txt 0.0511793 Repo\The Romance of Lust.txt 0.053746 Repo\PRIDE AND PREJUDICE.txt 0.0543531 Repo\BEOWULF - AN ANGLO-SAXON EPIC POEM.txt 0.0557194 Repo\Frankenstein; or, the Modern Prometheus.txt 

जैसा कि परिणामों से देखा जा सकता है, परी-कथा की किताबें सबसे अधिक समान थीं, और डरावनी किताब सबसे कम समान थी।

व्यावसायिक उद्देश्यों के लिए, किसी दिए गए वेब पेज के लिए सबसे उपयुक्त विज्ञापन खोजने के लिए इस तरह के कार्यक्रम का उपयोग करना संभव है, जहां उपयोगकर्ता द्वारा पढ़े गए पृष्ठ के पाठ की तुलना उन पृष्ठों के पाठ के साथ की जाती है जहां मौजूदा विज्ञापन लीड करते हैं।

एक अन्य आवेदन डेटाबेस से एक फिर से शुरू खोजने में है, एक उम्मीदवार के फिर से शुरू के उदाहरण के बाद जो इस स्थिति के लिए उपयुक्त है, लेकिन कंपनी में शामिल होना या छोड़ना नहीं चाहता है। एक कर्मचारी के लिए प्रतिस्थापन खोजना ऐसा दुर्लभ व्यवसाय मामला नहीं है। आप नौकरी विवरण के लिए समानता द्वारा फिर से शुरू डेटाबेस को भी सॉर्ट कर सकते हैं।

PS वैसे, इसी तरह के लेखों की सूची में हैबर कुछ समान नहीं है। क्या हैबरू इस विधि को भी लागू कर सकता है?

Source: https://habr.com/ru/post/hi422407/


All Articles