البحث عن النصوص ذات الصلة وفرزها

هناك طريقة بسيطة لفرز مجموعة من النصوص حسب التشابه مع نص معين: من خلال المسافة الإقليدية بين ترددات الكلمات في النصوص التي تم تحليلها. من حيث المبدأ ، يجب أن تكون الخوارزمية واضحة في هذا الصدد ، يمكن العثور على تنفيذ بسيط هنا .

والمثير للدهشة أن طريقة بسيطة تعطي نتائج جيدة. على سبيل المثال ، إذا كنا نبحث عن الكتاب التالي لقراءته ، فيمكنك إدخال نص كتاب قراءة أو العديد من الكتب المقروءة كنمط بحث ، ثم نحصل على هذا المستودع المؤلف من 10 كتب على النتائج التالية للكتاب "FAIRY TALES By The Brothers Grimm":

0.0320757 Repo\THE ADVENTURES OF TOM SAWYER.txt 0.0363329 Repo\A TALE OF TWO CITIES - A STORY OF THE FRENCH REVOLUTION.txt 0.0388528 Repo\ALICES ADVENTURES IN WONDERLAND.txt 0.0440605 Repo\MOBY-DICK or, THE WHALE.txt 0.046679 Repo\THE ADVENTURES OF SHERLOCK HOLMES.txt 0.0472574 Repo\The Iliad of Homer.txt 0.0511793 Repo\The Romance of Lust.txt 0.053746 Repo\PRIDE AND PREJUDICE.txt 0.0543531 Repo\BEOWULF - AN ANGLO-SAXON EPIC POEM.txt 0.0557194 Repo\Frankenstein; or, the Modern Prometheus.txt 

كما يتبين من النتائج ، تم العثور على كتب القصص الخيالية لتكون الأكثر تشابهًا ، وكان كتاب الرعب أقل تشابهًا.

لأغراض تجارية ، من الممكن استخدام مثل هذا البرنامج للعثور على الإعلان الأنسب لصفحة ويب معينة من خلال مقارنة نص الصفحة التي قرأها المستخدم مع نص الصفحات التي تؤدي إليها الإعلانات الحالية.

يوجد تطبيق آخر في العثور على سيرة ذاتية من قاعدة البيانات ، يتبع مثال السيرة الذاتية للمرشح المناسب لهذا المنصب ، لكنه لا يريد الانضمام أو مغادرة الشركة. إن إيجاد بديل لموظف ليس حالة عمل نادرة. يمكنك أيضًا فرز قاعدة بيانات السيرة الذاتية حسب التشابه مع الوصف الوظيفي.

PS بالمناسبة ، هبر في قائمة المقالات المماثلة ينتج شيئًا لا يشبهه كثيرًا. هل يستطيع حبرو تطبيق هذه الطريقة أيضًا؟

Source: https://habr.com/ru/post/ar422407/


All Articles