🚀 📢 🍒 كيف تعمل محركات البحث 👒 👐🏽 ✌🏾

قمنا بفرز الرسائل القديمة وصادفنا مقالًا كتبه إيليا سيغالوفيتش إيزغ لمجلة Internet World في عام 2002. في ذلك ، يقارن بين محركات البحث والإنترنت وعجائب العالم ، ويعكس تقنيات البحث ويتذكر تاريخهم. على الرغم من عبء العمل ، كتب إيليا مقالًا في وقت قياسي ، وقدم حتى مسردًا مفصلاً بما فيه الكفاية للمصطلحات ، وهو أمر مثير للاهتمام بشكل خاص لقراءة اليوم. لم نتمكن من العثور على نسخة إلكترونية من المجلة مع المقالة ، لذلك ننشرها اليوم على مدونتنا ، أول مؤلفين لها ، بالمناسبة ، هو إيليا.

تمت كتابة مئات محركات البحث في العالم ، وإذا قمت بحساب وظائف البحث المنفذة في مجموعة متنوعة من البرامج ، فأنت بحاجة إلى تتبع الآلاف. وبغض النظر عن كيفية تنفيذ عملية البحث ، وبغض النظر عن النموذج الرياضي الذي تستند إليه ، فإن الأفكار والبرامج التي تنفذ عملية البحث بسيطة للغاية. على الرغم من أن هذه البساطة ، على ما يبدو ، تنتمي إلى الفئة التي يقولون "بسيطة ولكنها تعمل". بطريقة أو بأخرى ، ولكن محركات البحث أصبحت واحدة من عجائبين جديدين في العالم ، مما منح Homo Sapiens وصولاً غير محدود وفوري إلى المعلومات. من الواضح أن المعجزة الأولى يمكن اعتبارها الإنترنت على هذا النحو ، بقدراتها على التواصل العالمي.

محركات البحث التاريخية

هناك اعتقاد واسع النطاق بأن كل جيل جديد من البرامج هو أكثر كمالا من الجيل السابق. قل ، قبل كل شيء كان غير كامل ، ولكن الذكاء الاصطناعي تقريبا يسود في كل مكان. وجهة نظر متطرفة أخرى هي أن "كل شيء جديد قديم منسيًا جيدًا". أعتقد أنه فيما يتعلق بمحركات البحث ، فإن الحقيقة تكمن في مكان ما بينهما.

ولكن ما الذي تغير بالفعل في السنوات الأخيرة؟ لا خوارزميات أو هياكل البيانات ، وليس النماذج الرياضية. على الرغم من أنهم أيضا. لقد تغير نموذج استخدام الأنظمة. ببساطة ، رُبطت ربة منزل ، تبحث عن مكواة أرخص ، وخريجة مدرسة داخلية إضافية على أمل العثور على ميكانيكي سيارات على الشاشة بخط البحث. بالإضافة إلى ظهور عامل مستحيل في عصر ما قبل الإنترنت - وهو عامل من إجمالي الطلب على محركات البحث - أصبح هناك المزيد من التغييرات الواضحة. أولاً ، أصبح من الواضح أن الناس لا "يفكرون بالكلمات" فحسب ، بل "يبحثون عن كلمات" أيضًا. في استجابة النظام ، يتوقعون رؤية الكلمة المكتوبة في سلسلة الاستعلام. والثاني: من الصعب "إعادة تدريب طالب" على "إعادة تدريب للبحث" ، تمامًا كما يصعب إعادة التحدث أو الكتابة. أحلام الستينيات والثمانينيات حول التنقيح التكراري للاستعلامات ، وفهم اللغة الطبيعية ، والبحث عن المعنى ، وتوليد إجابة متماسكة على سؤال ما بالكاد تصمد أمام اختبار الواقع القاسي الآن.

خوارزمية + بنية البيانات = محرك البحث

مثل أي برنامج ، يعمل محرك البحث بهياكل البيانات وينفذ خوارزمية. مجموعة متنوعة من الخوارزميات ليست كبيرة جدا ، لكنها كذلك. بصرف النظر عن أجهزة الكمبيوتر الكمومية ، التي تعدنا بانجاز كبير في "التعقيد الخوارزمي" للبحث ، والذي لا يعرف المؤلف عنه شيئًا تقريبًا ، هناك أربع فئات من خوارزميات البحث. تتطلب ثلاث من أصل أربعة خوارزميات "الفهرسة" ، والمعالجة الأولية للمستندات ، والتي تنشئ ملفًا مساعدًا ، بمعنى آخر ، "فهرس" ، مصممًا لتبسيط وتسريع عملية البحث نفسها. هذه هي خوارزميات الملفات المقلوبة وأشجار اللاحقة والتوقيعات . في حالة الانحطاط ، لا توجد خطوة فهرسة أولية ، ويتم البحث عن طريق عرض المستندات بالتتابع. مثل هذا البحث يسمى مباشرة .

البحث المباشر

أبسط نسخته مألوفة لدى الكثيرين ، ولا يوجد مبرمج لا يكتب مثل هذا الكود مرة واحدة على الأقل في حياته:

char* strstr(char *big,         char *little) {     char *x, *y, *z;     for (x = big; *x; x++) {         for (y = little, z = x;                 *y; ++y, ++z)         {             if (*y != *z)                 break;         }         if (!*y)             return x;     }     return 0; }

.
C big x little. , y z, . , !

على الرغم من بساطته الظاهرة ، إلا أن البحث المباشر تطور بشكل مكثف على مدار الثلاثين عامًا الماضية. تم طرح عدد كبير من الأفكار التي تقلل من وقت البحث في بعض الأحيان. يتم وصف هذه الخوارزميات بالتفصيل في مجموعة متنوعة من الأدب ، وهناك ملخصات ومقارناتها. يمكن العثور على تقييمات جيدة لطرق البحث المباشر في الكتب المدرسية مثل Sedgwick أو Cormen . يجب أن يؤخذ في الاعتبار أن الخوارزميات الجديدة وخياراتها المحسنة تظهر باستمرار.

على الرغم من أن النظر إلى جميع النصوص مباشرة يعد مهمة بطيئة إلى حد ما ، إلا أنه لا ينبغي عليك التفكير في أن خوارزميات البحث المباشر لا تُستخدم على الإنترنت. استخدم محرك البحث النرويجي Fast (www.fastsearch.com) شريحة تنفذ منطق البحث المباشر للتعبيرات العادية المبسطة ، ووضع 256 من هذه الرقائق على لوحة واحدة. هذا سمح لـ Fast بتقديم عدد كبير إلى حد ما من الطلبات لكل وحدة زمنية.

بالإضافة إلى ذلك ، هناك العديد من البرامج التي تجمع بين البحث في الفهرس للعثور على كتلة من النص مع مزيد من البحث المباشر داخل الكتلة. على سبيل المثال ، اللمحة شائعة جدًا ، بما في ذلك على Runet.

بشكل عام ، تتمتع الخوارزميات المباشرة بميزات مميزة مفيدة للجانبين. على سبيل المثال ، إمكانيات غير محدودة للبحث التقريبي والغامض. في الواقع ، يرتبط أي فهرسة دائما مع تبسيط وتطبيع المصطلحات ، وبالتالي ، مع فقدان المعلومات. البحث المباشر يعمل مباشرة على الوثائق الأصلية دون أي تشويه.

ملف مقلوب

هذه البنية البسيطة للبيانات ، على الرغم من اسمها الأجنبي الغامض ، مألوفة بشكل حدسي لأي شخص متعلم وأي مبرمج قاعدة بيانات لم يتعامل مع البحث عن النص الكامل. تعرف الفئة الأولى من الناس ما هو ، وفقًا لـ "concordances" - قوائم شاملة مرتبة حسب الترتيب الأبجدي للكلمات من نص واحد أو تنتمي إلى مؤلف واحد (على سبيل المثال ، "التوافق بين الآيات بقلم أ. ). يتعامل الأخير مع نموذج أو آخر من القائمة المقلوبة كلما قاموا بإنشاء أو استخدام "فهرس قاعدة البيانات حسب حقل المفتاح".

سنوضح هذا الهيكل بمساعدة التوافق الروسي الرائع - "السمفونية" ، الصادر عن بطريركية موسكو على نص الترجمة السينودسية للكتاب المقدس.

هذه قائمة أبجدية بالكلمات. لكل كلمة ، يتم سرد جميع "المواقف" التي تحدث فيها هذه الكلمة. تتكون خوارزمية البحث من العثور على الكلمة الصحيحة وتحميل قائمة من المواضع الموسعة بالفعل في الذاكرة.

لتوفير مساحة على القرص وتسريع عملية البحث ، عادة ما تلجأ إلى حيلتين. أولاً ، يمكنك حفظ تفاصيل الوظيفة نفسها. في الواقع ، كلما تم تعيين مثل هذا الموقف بشكل أكثر تفصيلًا ، على سبيل المثال ، في حالة "Symphony" يكون "book + Chapter + الآية" ، ستكون هناك حاجة إلى مساحة أكبر لتخزين الملف المقلوب.

في الإصدار الأكثر تفصيلاً ، في الملف المقلوب ، يمكنك تخزين رقم الكلمة والإزاحة بالبايت من بداية النص ولون وحجم الخط وغير ذلك الكثير. في كثير من الأحيان ، يشيرون فقط إلى عدد المستندات ، على سبيل المثال ، كتاب الكتاب المقدس ، وعدد استخدامات هذه الكلمة فيه. إنها بنية مبسطة تعتبر أساسية في النظرية الكلاسيكية لاسترجاع المعلومات - استرجاع المعلومات (IR).

طريقة الضغط الثانية (غير المرتبطة بالأول): لترتيب المواضع لكل كلمة بترتيب تصاعدي للعناوين ولكل موضع لا يخزن عنوانه الكامل ، ولكن الفرق عن العنوان السابق. فيما يلي الشكل الذي ستبدو عليه هذه القائمة لصفحتنا على افتراض أننا نتذكر الموضع حتى رقم الفصل:

: [.1],[+11],[0],[+2],[+4],[+2],[+4],..

بالإضافة إلى ذلك ، يتم فرض طريقة بسيطة للتعبئة على طريقة الفرق لتخزين العناوين: لماذا تخصص عددًا ثابتًا "ضخمًا" من البايتات لعدد صحيح صغير ، لأنه يمكنك منحها ما يقرب من عدد البايتات التي تستحقها. من المناسب هنا ذكر أكواد Golomb أو الوظيفة المدمجة للغة Perl الشائعة: pack(“w”) .

في الأدب ، هناك أيضًا مدفعية ثقيلة من خوارزميات التعبئة من أوسع مجموعة: الحساب ، Huffman ، LZW ، إلخ. التقدم في هذا المجال مستمر. في الممارسة العملية ، نادراً ما يتم استخدامها في محركات البحث: المكسب صغير ، ويتم إنفاق طاقة المعالج بشكل غير فعال.

كنتيجة لكل الحيل الموصوفة ، يتراوح حجم الملف المقلوب ، كقاعدة عامة ، بين 7 و 30 بالمائة من حجم النص المصدر ، اعتمادًا على تفاصيل العنونة.

المدرجة في الكتاب الأحمر

اقترح مرارًا وتكرارًا غير خوارزميات البحث المقلوبة والمباشرة وهياكل البيانات. بادئ ذي بدء ، هذه أشجار لاحقة (انظر كتب مانبر وجونيت ) ، بالإضافة إلى التوقيعات .

أولها يعمل على الإنترنت ، كونه خوارزمية حاصلة على براءة اختراع لنظام البحث OpenText . لقد صادفت مؤشرات لاحقة في محركات البحث المحلية.

والثاني - طريقة التوقيع - هو تحويل المستند لحظر جداول قيم التجزئة لكلماته - "التوقيع" والعرض المتسلسل لـ "التوقيعات" أثناء البحث.

لم يتم اعتماد أي من الطريقتين على نطاق واسع ، وبالتالي لم تستحق مناقشة مفصلة في هذه المقالة القصيرة.

النماذج الرياضية

يعمل حوالي 3 من 5 من محركات البحث والوحدات دون أي نماذج رياضية. بتعبير أدق ، لا يضع مطوروهم أنفسهم مهمة تنفيذ نموذج تجريدي و / أو لا يدركون وجوده. المبدأ هنا بسيط: إذا وجد البرنامج شيئًا ما. على أية حال. وبعد ذلك سوف المستخدم معرفة ذلك.

ومع ذلك ، بمجرد أن يتعلق الأمر بتحسين جودة البحث ، حول كمية كبيرة من المعلومات ، حول تدفق استفسارات المستخدم ، بالإضافة إلى المعاملات الملصقة تجريبياً ، فقد أصبح من المفيد العمل مع نوع من الأجهزة النظرية البسيطة. نموذج البحث هو تبسيط معين للواقع ، على أساسه يتم الحصول على صيغة (لم يعد هناك حاجة إليها من قبل أي شخص) ، مما يسمح للبرنامج باتخاذ قرار: أي وثيقة يجب اعتبارها موجودة وكيفية ترتيبها. بعد اعتماد النموذج ، غالبًا ما تكتسب المعاملات المعنى المادي وتصبح أكثر قابلية للفهم للمطور نفسه ، ويصبح تحديدها أكثر إثارة للاهتمام.

تنقسم مجموعة كاملة من نماذج استرجاع المعلومات التقليدية (IR) عادة إلى ثلاثة أنواع: نظرية المجموعة (منطقية ، مجموعات غامضة ، منطقية ممتدة) ، جبري (متجه ، ناقل متعمم ، شبكة كامنة ، عصبية) واحتمالية.

في الواقع ، فإن عائلة النماذج المنطقية هي الأولى التي تتبادر إلى ذهن مبرمج يقوم بتنفيذ بحث النص الكامل. هناك كلمة - تعتبر وثيقة موجودة ، لا - غير موجودة. في الواقع ، النموذج المنطقي الكلاسيكي هو جسر يربط بين نظرية استرجاع المعلومات ونظرية البحث ومعالجة البيانات.

إن نقد نموذج Boolean ، عادل للغاية ، يتألف من صلابة شديدة وعدم ملاءمة الترتيب. لذلك ، في عام 1957 ، اقترح جويس ونيدهام (جويس ونيدهام) مراعاة خصائص تردد الكلمات بحيث "... تكون عملية المقارنة هي نسبة المسافة بين المتجهات ...". تم تنفيذ نموذج المتجه بنجاح في عام 1968 من قبل الأب المؤسس لعلوم استرجاع المعلومات جيرارد سالتون (جيرارد سالتون) * في محرك البحث SMART (استرجاع النص التلقائي السحري من سالتون). يستند الترتيب في هذا النموذج إلى ملاحظة إحصائية طبيعية تفيد بأنه كلما زاد التكرار المحلي لمصطلح ما في وثيقة (TF) وكلما كان "نادرًا" (أي حدوث التكرار في المستندات ) لمصطلح في مجموعة (IDF) ، زاد وزن هذا المستند بالنسبة للمصطلح .

^{* جيرارد سالتون (سحلمان) 1927-1995.} ^{إنه Selton ، إنه Zalton ، وحتى Zalman ، إنه Gerard أو Gerard أو Gerard أو حتى Gerald ، اعتمادًا على ذوق المترجم والأخطاء المطبعية.} ^{http://www.cs.cornell.edu/Info/Department/Annual95/Faculty/Salton.html} ^{http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/s/Salton:Gerald.html} ^{http://www.cs.virginia.edu/~clv2m/salton.txt}
تم تقديم تسمية جيش الدفاع الإسرائيلي من قبل كارين سبارك جونز (كارين سبارك جونز) في عام 1972 في مقال عن مصطلح الخصوصية . من الآن فصاعدًا ، يتم استخدام تصنيف TF * IDF على نطاق واسع كمرادف لنموذج المتجه.

أخيرًا ، في عام 1977 ، قام روبرتسون وسبارك جونز ( روبرتسون وسبارك جونز) بدعم وتطبيق نموذج احتمالي ( اقترح في عام 1960) ، والذي وضع أيضًا الأساس لعائلة بأكملها. تعتبر الصلة في هذا النموذج بمثابة احتمال أن يكون هذا المستند ذا أهمية للمستخدم. هذا يعني وجود مجموعة أولية موجودة بالفعل من الوثائق ذات الصلة التي حددها المستخدم أو تم استلامها تلقائيًا وفقًا لبعض الافتراضات المبسطة. يتم احتساب احتمال أن تكون وثيقة الصلة بكل وثيقة لاحقة على أساس نسبة حدوث المصطلحات في المجموعة ذات الصلة إلى بقية الجزء "غير ذي صلة" من المجموعة. على الرغم من أن النماذج الاحتمالية لها بعض المزايا النظرية ، لأنها تقوم بترتيب المستندات بترتيب تنازلي "احتمال أن تكون ذات صلة" ، إلا أنها في الواقع لم تتلق الكثير من التوزيع.

لن أخوض في التفاصيل وأكتب صيغًا ضخمة لكل نموذج. يأخذ ملخصهما ، إلى جانب المناقشة ، 35 صفحة في شكل مضغوط في كتاب "البحث عن المعلومات الحديثة" . من المهم فقط ملاحظة أنه في كل عائلة من العائلات ، ينطلق النموذج الأبسط من افتراض "استقلال الكلمات" وله شرط تصفية بسيط: المستندات التي لا تحتوي على كلمات استعلام لا يمكن العثور عليها أبدًا. النماذج المتقدمة ("البديلة") لكل عائلة من العائلات لا تعتبر كلمة الاستعلام مستقلة ، لكن بالإضافة إلى ذلك ، تسمح لك بالعثور على مستندات لا تحتوي على كلمة واحدة من الاستعلام.

البحث "بالمعنى"

غالبًا ما تُعتبر القدرة على إيجاد وتصنيف المستندات التي لا تحتوي على كلمات من الاستعلام علامة على ذكاء اصطناعي أو بحث حسب المعنى وبدايةً تتعلق بمزايا النموذج. مسألة ما إذا كان هذا أم لا ، سنترك خارج نطاق هذه المقالة.

على سبيل المثال ، سأصف نموذجًا واحدًا فقط ، وربما النموذج الأكثر شعبية الذي يعمل حسب المعنى. في نظرية استرجاع المعلومات ، يُسمى هذا النموذج الفهرسة الدلالية الكامنة (بمعنى آخر ، الكشف عن المعاني الخفية). يعتمد هذا النموذج الجبري على التحلل المفرد لمصفوفة مستطيلة تربط الكلمات بالوثائق. عنصر المصفوفة هو استجابة التردد ، والتي تعكس درجة اتصال الكلمة والوثيقة ، على سبيل المثال ، TF * IDF. بدلاً من المصفوفة الأصلية ذات المليون ، اقترح مؤلفو الأسلوب Furnas و Deerwester استخدام 50-150 "المعاني الخفية" المقابلة للمكونات الرئيسية الأولى لتحللها المفرد .

يطلق على التحلل المفرد لمصفوفة حقيقية A بأحجام m * n أي تحلل في الشكل A = USV ، حيث U هي المصفوفة المتعامدة للأحجام m * m ، V هي المصفوفة المتعامدة للأحجام n * n ، S هي المصفوفة المائلة للأحجام m * n ، وعناصرها s _ij = 0 إذا كنت لا تساوي j ، و s _ii = s _i > = 0. تسمى الكميات si بالأرقام الفردية للمصفوفة وتكون مساوية للقيم الحسابية للجذور المربعة للقيم المتماثلة للمصفوفة AA ^T. في الأدب الإنجليزي ، يسمى التحلل المفرد عادةً تحلل SVD .

لقد ثبت منذ زمن طويل أننا إذا تركنا الأرقام المفرد k الأولى في الاعتبار (مساواة الباقي بالصفر) ، فسوف نحصل على أقرب تقريب ممكن للمصفوفة الأولية للرتبة k (بمعنى ، "أقرب تفسير دلالي للرتبة k"). بتخفيض الرتبة ، نقوم بتصفية التفاصيل غير ذات الصلة ؛ زيادة ، ونحن نحاول أن تعكس جميع الفروق الدقيقة في هيكل البيانات الحقيقية.

عمليات البحث أو البحث عن مستندات مماثلة مبسطة إلى حد كبير ، حيث إن كل كلمة وكل وثيقة ترتبط بموجه قصير نسبيًا لمعاني k (الصفوف والأعمدة من المصفوفات المقابلة). ومع ذلك ، بسبب قلة معنى "المعاني" ، أو لسبب آخر ، فإن استخدام LSI في الجبهة للبحث لم ينتشر بعد. على الرغم من أنه لأغراض مساعدة (التصفية التلقائية ، التصنيف ، فصل المجموعات ، التخفيض الأولي للأبعاد في الطرز الأخرى) ، يبدو أن هذه الطريقة تجد التطبيق.

تقييم الجودة

أظهر التحقق من التناسق أن تداخل المستندات ذات الصلة بين أي من حاملي المساعدة يبلغ حوالي 40٪ في المتوسط ... استدعاء المحامض المتقلب ودقة تبلغ حوالي 65٪ ... وهذا يعني وجود حد عملي أعلى على أداء نظام الاسترجاع بنسبة 65٪ ...
دونا هارمان
ما تعلمناه ، ولم نتعلمه ، من TREC

ترجمة
"... أظهر فحص الثبات أن نسبة تداخل المستندات ذات الصلة بين أي مقيمين تقارب 40٪ في المتوسط ... تبلغ الدقة والاكتمال المقاسة بين المقيمين حوالي 65٪ ... وهذا يفرض حدًا عمليًا أعلى على جودة البحث في المنطقة بنسبة 65٪ ..."

أياً كان النموذج ، يحتاج محرك البحث إلى "توليف" - تقييم لجودة البحث وضبط المعلمات. يعتبر تقييم الجودة فكرة أساسية لنظرية البحث. لأنه بفضل تقييم الجودة يمكننا أن نتحدث عن قابلية التطبيق أو عدم إمكانية تطبيق نموذج معين وحتى مناقشة الجوانب النظرية الخاصة بهم.

على وجه الخصوص ، واحدة من القيود الطبيعية لجودة البحث هي الملاحظة التي تمت في النص: آراء اثنين من "المقيِّمين" (خبراء يصدرون حكمًا بشأن الصلة) في المتوسط لا تتزامن مع بعضها البعض إلى حد كبير! وهذا يعني أيضًا الحد الأعلى الطبيعي لجودة البحث ، لأن الجودة تقاس بالمقارنة مع رأي المُقيِّم.

عادة ، يتم قياس معلمتين لتقييم جودة البحث:

الدقة - نسبة المواد ذات الصلة في استجابة محرك البحث
اكتمال (سحب) - نسبة الوثائق ذات الصلة الموجودة في العدد الإجمالي لوثائق المجموعة ذات الصلة

تم استخدام هذه المعلمات وتستخدم بشكل منتظم لتحديد النماذج ومعلماتها في إطار مؤتمر تقييم استرجاع النص (TREC) * الذي أنشأه المعهد الأمريكي للمعايير (NIST). ابتداء من عام 1992 ، كونسورتيوم من 25 مجموعة ، بحلول عام 12 من وجوده ، وقد تراكمت المؤتمر المواد الهامة التي لا تزال محركات البحث شحذ. لكل مؤتمر منتظم ، يتم إعداد مواد جديدة (ما يسمى "المسار") في كل مجال من مجالات الاهتمام. يتضمن "المسار" مجموعة من المستندات والطلبات. سأقدم أمثلة:

- تتبع طلبات عشوائية ( أقران ) - حاضر في جميع المؤتمرات
- بحث متعدد اللغات
- التوجيه والتصفية
- بحث عالي الدقة (مع إجابة واحدة ، يتم تنفيذها في الوقت المحدد)
- تفاعل المستخدم
- المسار الطبيعي للغة
- إجابات على "أسئلة"
- البحث في النصوص "القذرة" (الممسوحة ضوئيًا فقط)
- البحث الصوتي
- ابحث في حالة كبيرة جدًا (20 جيجابايت ، 100 جيجابايت ، إلخ)
- فيلق WEB (في المؤتمرات الأخيرة ، يتم تمثيله باختيار لمجال .gov)
- البحث الموزع ودمج نتائج البحث من أنظمة مختلفة

^{* مواد المؤتمر متاحة للجمهور على العنوان trec.nist.gov/pubs.html .}

ليس فقط البحث

كما يتضح من "مسارات" TREC ، يرتبط عدد من المهام ارتباطًا وثيقًا بالبحث نفسه ، إما بمشاركة أيديولوجية مشتركة (التصنيف ، التوجيه ، التصفية ، التعليق التوضيحي) ، أو أن تكون جزءًا لا يتجزأ من عملية البحث (تجميع النتائج ، توسيع الاستعلامات وتضييقها ، التغذية الراجعة ، التعليقات التوضيحية "تعتمد على الاستعلام" ، واجهة البحث ولغات الاستعلام). لا يوجد محرك بحث واحد لن يلزمه حل واحد من هذه المهام في الممارسة العملية.

غالبًا ما يكون وجود خاصية إضافية أو أخرى حجة حاسمة في منافسة محركات البحث. على سبيل المثال ، تساعد التعليقات التوضيحية الموجزة التي تتضمن اقتباسات مفيدة للمستند الذي ترافقه بعض محركات البحث مع نتائج عملهم ، على البقاء نصف خطوة إلى الأمام من المنافسة.

من المستحيل معرفة جميع المهام وكيفية حلها. على سبيل المثال ، ضع في اعتبارك "ملحق الاستعلام" ، والذي يتم عادةً من خلال المشاركة في البحث عن المصطلحات المرتبطة. يمكن حل هذه المشكلة في شكلين - محلي (ديناميكي) وعالمي (ثابت). يعتمد الفنيون المحليون على نص الاستعلام ويقومون بتحليل المستندات الموجودة عليه فقط. يمكن أن تعمل "الامتدادات" العالمية مع المرادفات ، سواء بدائية (لغوية) ويتم إنشاؤها تلقائيًا خلال مجموعة المستندات. وفقًا للرأي المقبول عمومًا ، تعمل تعديلات الاستعلام العامة من خلال المعجم بشكل غير فعال ، مما يقلل من دقة البحث. يعتمد النهج العالمي الأكثر نجاحًا على التصنيفات الثابتة المضمّنة يدويًا ، مثل أدلة WEB. يستخدم هذا النهج على نطاق واسع في محركات البحث على الإنترنت في عمليات التضييق أو توسيع الاستعلام.

في كثير من الأحيان ، يعتمد تطبيق الميزات الإضافية على نفس المبادئ أو النماذج المتشابهة جدًا مثل البحث نفسه. , , , ( – TF*IDF), . (relevance feedback), () , .

, , «Term Vector Database» , «» ( ).

, . . , (, , ), . , (, ) , . , , :

—
— ( ): ,
— ( - )
— (, ): «», ,
— () (, )
— :
—

, . - (LSI, ), - , .

“Things that work well on TREC often do not produce good results on the web… Some argue that on the web, users should specify more accurately what they want and add more words to their query. We disagree vehemently with this position. If a user issues a query like «Bill Clinton» they should get reasonable results since there is a enormous amount of high quality information available on this topic”
Sergei Brin, Larry Page
The Anatomy of a Large-Scale Hypertextual Web Search Engine

ترجمة
«, TREC, … , , , . . « », , ...»

«I was struck when a Google person told me at SIGIR that the most recent Google ranking algorithm completely ignores anything discovered at TREC, because all the good Ad Hoc ranking algorithms developed over the 10 years of TREC get trashed by spam»
Mark Sanderson

ترجمة
« , - Google , TREC, , « » ...»

, : ?

, , , - , ( , . .) . (off-page) , ́ , . , , , , – .

C , -. , «» , . , , , « » , , .

, , , , , . ( – ), . .

.

. , 1999-2000 . ( ) , .

( ) , . , . 1998 . , , . 1998 PageRank – , , . , (, , 80- ), .

, PageRank, ( , ) – HITS , - . , (. . ) , .

, , , . , , : , . . , : (, www.teoma.com ), .., . .

, . , Google Fast, . : «» , , 100 , 30% – . .

, , : , .. , , , « ».

. : ; – .

– , , , . . : , , , , . . , .

, , , : , , .

, , . - .

Udi Manber ( ) ( agrep) 1994 , Andrei Broder ( ) 1997- «» ( shingles, «», «»). .

( ). , , , . (, , 9) , , , 25. , . , – , , , , ( ) : ! 25 !

, , .. : « » ! . ( ; , 0%; .)

, , - , . , ( ), -.

. , . .

, , . , 1997 ( Inktomi) 32- (Linux, Solaris, FreeBSD, Win32) . AltaVista, «» 64- Alpha.

(, , c) . . , , , , . Pruning ( . , ) , . pruning, , .

– , , . , .

, (, - ) . , , , , : , .

, , , . , , , . , , , 2-4 , , , , . .

(assesor, ) – , , .

(boolean, , , ) – , , .

– , , – .

– , .

(off-page, ) – , , .

(doorways, hallways) – , ( ). .

(tagging, part of speech disambiguation, ) – c ; « ».

(duplicates) – , , ; (near duplicates, -), , .

– , , .

(inverted file, , , ) – , , , .

(index, ) – . .

(citation index) – () , , , .

(indexing, ) – ( ) – , .

(Information Retrieval, IR) – , . , . , . « », , . , , (), , , .

(cloaking) – , ( ) , , .

– . .

- – , . .

(lemmatization, ) – , .

– . .

– , .

(inverted document frequency, IDF, , ) – ( ); «» , , .

– , , , , . – , .

– . .

– , () .

– , , .

(similar document search) – , , .

(search engine, SE, - , , , , «», «») – , , .

(query, ) – .

(polysemy, homography, , , ) — .

(recall, ) – , , .

- (near-duplicates, ) – . .

(pruning) – .

– , ( ).

- – . .

(term specificity, term discriminating power, , ) – . , . , .

(regualr expression, pattern, «», «», «») – , , , . . – , .

(relevance, relevancy) – .

(signature, ) – - . - .

(inflection) – , , (), . , . (declension), – (conjugation).

(derivation) – . , .

– . .

(spam, , ) – .

– . PageRank .

– .

- (stop-words) – , , / .

, (suffix trees, suffix arrays, PAT-arrays) – , , (trie). «», ( ) . , – , . , , .

(tokenization, lexical analysis, , ) – , , , , .

(precision) — .

- (hash-value) – - (hash-function), (, ) .

() (document frequency, , ) – , .

(term frequency, TF) – .

– (shingle) – - .

PageRank – () , — . .

TF*IDF – ; , – .

^{Modern Information Retrieval
Baezo-Yates R. and Ribeiro-Neto B.
ACM Press Addison Wesley, 1999

The Connectivity Server: fast access to linkage information on the Web
K. Bharat, A. Broder, M. Henzinger, P. Kumara, and S. Venkatasubramanian
WWW7, 1998
http://www7.scu.edu.au/programme/fullpapers/1938/com1938.htm

The Anatomy of a Large-Scale Hypertextual Web Search Engine
S.Brin and L. Page
WWW7, 1998
http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm

Syntactic Clustering of the Web
Andrei Z. Broder, Steven C. Glassman, Mark S. Manasse
WWW6, 1997

Indexing by Latent Semantic Analysis
S. Deerwester, ST Dumais, GW Furnas, TK Landauer, R. Harshman
JASIS, 1990
http://citeseer.nj.nec.com/deerwester90indexing.html

The approximation of one matrix by another of lower rank
C. Eckart, G. Young
Psychometrika, 1936

Description and performance analysis of signature file methods
C. Faloutsos, S. Christodoulakis
ACM TOIS 1987

FAST PMC — The Pattern Matching Chip
http://www.fast.no/product/fastpmc.html
www.idi.ntnu.no/grupper/KS-grp/microarray/slides/heggebo.pdf ( , web.archive.org – . .)

Information retrieval using a Singular Value Decomposition Model of Latent Semantic Structure
GW Furnas, S. Deerwester, ST Dumais, TK Landauer, RA Harshman, LA Streeter, and KE Lochbaum
ACM SIGIR, 1988

Glimpse, Webglimpse, Unix-based search software…
http://webglimpse.org

Examples of PAT applied to the Oxford English Dictionary
Gonnet G.
University of Waterloo, 1987

What we have learned, and not learned, from TREC
Donna Harman
http://irsg.eu.org/irsg2000online/papers/harman.htm

The Thesaurus Approach to Information Retrieval
T. Joyce and RM Needham
American Documentation, 1958

Authoritative Sources in a Hyperlinked Environment
Jon M. Kleinberg
JACM, 1998
http://citeseer.nj.nec.com/87928.html

An efficient method to detect duplicates of Web documents with the use of inverted index
S. Ilyinsky, M. Kuzmin, A. Melkov, I. Segalovich
WWW2002, 2002

Suffix Arrays: A New Method for On-line String Searches
U. Manber, G. Myers
1st ACM-SIAM Symposium on Discrete Algorithms, 1990

Finding similar files in a large file system
U. Manber
USENIX Conference, 1994

ME Maron and JL Kuhns
On relevance, probabilistic indexing and information retrieval
Journal of the ACM, 1960

Open Text Corporation
http://www.opentext.com

SE Robertson and Sparck Jones K.
Relevance Weighting of Search Terms
JASIS, 1976

Algorithms in C++, Robert Sedgewick
Addison-Wesley, 1992

A Statistical Interpretation of Term Specificity and Its Application in Retrieval
Karen Sparck Jones
Journal of Documentation, 1972

The Term Vector Database: fast access to indexing terms for Web pages
R. Stata, K. Bharat, F. Maghoul
WWW9, 2000
http://www9.org/w9cdrom/159/159.html

Natural Language Information Retrieval
Tomek Strzalkowski (ed.)
Kluwer Academic Publishers, 1999

: , . , . , .
, 2000
https://www.ozon.ru/context/detail/id/33769775/

- . .. , .., ..
- , 1995}

كيف تعمل محركات البحث