في بعض الأحيان يلجأ الناس إلى ياندكس للعثور على فيلم ظهر اسمه من رؤوسهم. يصفون المؤامرة والمشاهد التي لا تنسى والتفاصيل الحية: على سبيل المثال ، [ما اسم الفيلم الذي يختار فيه رجل حبة حمراء أو زرقاء]. قررنا دراسة أوصاف الأفلام المنسية ومعرفة أكثر ما يتذكره الناس في الأفلام.
اليوم لن نشارك فقط رابطًا
لدراستنا ، بل نتحدث أيضًا باختصار عن كيفية تطور البحث الدلالي في Yandex. سوف تتعلم التقنيات التي تساعد في البحث للعثور على الإجابة حتى عندما يكون من المستحيل ببساطة صياغة الطلب الدقيق.
وأضفنا أيضًا منزلقات الألغاز بأمثلة على طلبات الأشخاص الحقيقيين - أشعر بأنك محرك بحث ومحاولة تخمين الإجابة.
بدأت جميع محركات البحث مع كلمة البحث. كان Yandex بالفعل في البداية قادرًا على أن يأخذ في الاعتبار مورفولوجيا اللغة الروسية ، لكنه كان لا يزال نفس البحث عن كلمات من استعلام على صفحات على الشبكة. احتفظنا بقوائم بجميع الصفحات المعروفة لكل كلمة. إذا كان الطلب يحتوي على عبارة ، فكانت كافية لتجاوز قوائم الكلمات - إليك الإجابة. لقد نجحت بشكل كبير في تلك الأيام التي كانت فيها مواقع قليلة ، ولم تكن مسألة التصنيف حادة بعد.
Runet المتقدمة ، أصبحت المواقع أكثر وأكثر. تم إضافة عاملين آخرين إلى عامل عبور الكلمة. من ناحية ، ساعدنا المستخدمون أنفسهم. بدأنا في النظر في أي المواقع ولأي استفسارات يختارونها. لا يوجد تطابق تام للكلمات ، لكن هل يحل الموقع المشكلة الإنسانية؟ هذه إشارة مفيدة. من ناحية أخرى ، تم إنقاذ الروابط بين المواقع التي ساعدت في تقييم أهمية الصفحات.
ثلاثة عوامل قليلة جدا. خاصةً عندما تتم محاكمتهم من قِبل مُحسِّن محرك البحث الموهوبين جدًا. ولكن الهضم أكثر باليد كان صعبا. وهنا بدأ عصر التعلم الآلي. في عام 2009 ، نقدم Matrixnet استنادًا إلى تعزيز التدرج اللاحق (شكلت هذه التكنولوجيا لاحقًا مكتبة
CatBoost مفتوحة المصدر الأكثر تقدماً).
منذ ذلك الحين ، كان هناك المزيد والمزيد من العوامل ، لأنه لم يعد علينا البحث عن العلاقات بينهما يدويًا. فعلت سيارة ذلك بالنسبة لنا.
بالنسبة لقصة جميع التغييرات اللاحقة في البحث ، لن يكون المنشور فقط ، بل الكتب أيضًا كافية ، لذلك سنحاول التركيز على أهمها.
الترتيب ليس فقط مقارنة بين الكلمات والصفحات الاستعلام لفترة طويلة. مثالان.
مرة أخرى في عام 2014 ، قدمنا تقنية التعليقات التوضيحية للمستندات مع استعلامات مميزة. لنفترض في الماضي أنه كان هناك طلب [سلسلة من البرازيل حول ملك اللحوم] ، والتي كانت إجابة جيدة معروفة بالفعل. ثم يقوم مستخدم آخر بإدخال استعلام [السلسلة البرازيلية التي كان فيها ملك لحم وملك حليب] ، والتي لا يعرف الجهاز الإجابة عنها بعد. لكن هذه الاستعلامات لها العديد من الكلمات الشائعة. هذه إشارة إلى أن الصفحة الموجودة في الطلب الأول قد تكون ذات صلة في الطلب الثاني.
مثال آخر دعنا نلقي الاستفسارات [السلسلة البرازيلية التي كان فيها ملك لحم وملك لبن] و [ميراث قاتل متسلسل]. من المجموع ، لديهم كلمة واحدة فقط - "سلسلة" ، وهذا لا يكفي للمطابقة الصريحة للطلبات. في هذه الحالة ، بدأنا نأخذ في الاعتبار تاريخ البحث. إذا كان هناك طلبان متباينان في الطلب على نفس المواقع في الإصدار ، فيمكننا افتراض أن الطلبات قابلة للتبادل. هذا مفيد لأننا الآن سنستخدم نص كلا الاستعلامات للبحث للعثور على المزيد من الصفحات المفيدة. لكن هذا يعمل فقط مع الطلبات المتكررة عندما يكون هناك بالفعل بعض الإحصاءات على الأقل. ماذا تفعل مع الطلبات الجديدة؟
يمكن تعويض نقص الإحصاءات عن طريق تحليل المحتوى. وفي تحليل البيانات المتجانسة (النص والصوت والصور) تظهر الشبكات العصبية نفسها بشكل أفضل. في عام 2016 ، أخبرنا مجتمع
Habr لأول مرة عن
تقنية Palekh ، التي أصبحت نقطة الانطلاق للاستخدام الأوسع للشبكات العصبية في البحث.
لقد بدأنا في تدريب الشبكة العصبية لمقارنة القرب الدلالي (الدلالي) لنص الطلب وعنوان الصفحة. يتم تمثيل نصين في شكل متجهات في الفضاء متعدد الأبعاد بحيث يتنبأ جيب تمام الزاوية بينهما جيدًا باختيار شخص ما للصفحة ، وبالتالي قربه الدلالي. يتيح لك هذا تقييم مدى قرب معاني النصوص التي لا يوجد بها تقاطع للكلمات.
مثال على بنية الطبقة للفضوليين بنفس الطريقة ، بدأنا بمقارنة نصوص الاستعلام من أجل تحديد الروابط بينهما. مثال حقيقي من تحت غطاء محرك البحث: بالنسبة للاستعلام [سلسلة أمريكية حول كيفية غلي الميثامفيتامين] ، فإن الشبكة العصبية هي التي تجد العبارات [معنى سيئ] و [كسر سيء] مماثلة في المعنى.
الطلبات والرؤوس جيدة بالفعل ، لكننا لم نتخل عن الأمل في استخدام الشبكات العصبية في النص الكامل للصفحات. بالإضافة إلى ذلك ، عندما نتلقى طلب مستخدم ، نبدأ في اختيار أفضل الصفحات من بين ملايين صفحات الفهرس ، لكن في باليه استخدمنا نماذج الشبكات العصبية فقط في أحدث مراحل التصنيف (L3) - إلى حوالي 150 من أفضل الوثائق. هذا يمكن أن يؤدي إلى فقدان الإجابات الجيدة.

السبب يمكن التنبؤ به - الموارد المحدودة والمتطلبات العالية لسرعة الاستجابة. ترتبط القيود الصارمة للحسابات بحقيقة بسيطة: لا يمكنك إجبار المستخدم على الانتظار. ولكن بعد ذلك توصلنا إلى شيء.
في عام 2017 ، قدمنا تحديث بحث Korolev ، والذي تضمن ليس فقط الاستخدام الموسع للشبكات العصبية ، ولكن أيضًا العمل الجاد في الهندسة المعمارية لتوفير الموارد. بمزيد من التفاصيل ، مع الرسوم البيانية للطبقات والتفاصيل الأخرى التي أبلغنا عنها بالفعل في منشور آخر على Habré ، لكننا الآن سنذكر الشيء الرئيسي.
بدلاً من أخذ عنوان المستند وحساب متجه الدلالي أثناء تنفيذ الاستعلام ، يمكنك إجراء حساب مسبق لهذا المتجه وحفظه في قاعدة بيانات البحث. وبعبارة أخرى ، يمكننا أن نفعل جزءًا كبيرًا من العمل مسبقًا. بالطبع ، في نفس الوقت ، كنا بحاجة إلى مساحة أكبر لتخزين المتجهات ، لكن هذا وفر لنا وقت المعالج. لكن هذا ليس كل شيء.
بنينا فهرس إضافي. يعتمد ذلك على الفرضية: إذا كنت تأخذ قائمة كبيرة بما يكفي من المستندات الأكثر صلة بكل كلمة أو عبارة لاستعلام من عدة كلمات ، فستكون هناك فيما بينها مستندات ذات صلة بجميع الكلمات. في الممارسة العملية ، هذا يعني هذا. بالنسبة لجميع الكلمات والأزواج الشائعة من الكلمات ، يتم تكوين فهرس إضافي مع قائمة الصفحات وأهميتها الأولية للاستعلام. وهذا يعني أننا ننقل جزءًا من العمل من المرحلة L0 إلى مرحلة الفهرسة ، ثم ننقذ مرة أخرى.
ونتيجة لذلك ، سمح لنا تغيير في الهندسة المعمارية وإعادة توزيع الأحمال باستخدام الشبكات العصبية ليس فقط في المرحلة L3 ، ولكن أيضًا في L2 و L1. علاوة على ذلك ، سمحت لنا القدرة على تكوين متجه مسبقًا ومع متطلبات أداء أقل صرامة باستخدام ليس فقط عنوان الصفحة ، ولكن أيضًا نصه.
أكثر هو أكثر. مع مرور الوقت ، بدأنا في استخدام الشبكات العصبية في أقرب مرحلة من الترتيب. نحن نعلم الشبكات العصبية تحديد الأنماط الضمنية في ترتيب الكلمات ومواضعها النسبية. وحتى للكشف عن التشابه الدلالي للنصوص بلغات مختلفة. يتم جذب كل من هذه المناطق إلى مقال منفصل ، وسنحاول العودة معهم في المستقبل القريب.
اليوم ، تذكرنا مرة أخرى كيف تتعلم محركات البحث العثور على الإجابة في ظروف الاستعلام الغامض ونقص المعلومات. إن البحث عن الأفلام حسب وصفها ليس مجرد حالة خاصة لمثل هذه الطلبات ، ولكنه أيضًا موضوع رائع
للبحث . سوف تتعلم منه: أكثر ما يتذكره الناس في السينما ، والذي ترتبط به أنواع مختلفة من السينما والسينموغرافيات من بلدان مختلفة ، مما يجعل حركات المؤامرة لها انطباع خاص.