إلغاء البيانات المكررة للإعلانات على Yandex.Real Estate

في الفصل الدراسي الأخير ، عمل الطلاب في مركز علوم الكمبيوتر ، سيرجي غورباتيوك وبيتر كارول ، على نشر إعلانات مكررة على Yandex.Real Estate تحت قيادة فلاديمير غوروفوي ، مدير المشروع. أخبرنا الرجال كيف يعمل المشروع وما هي النتائج التي حققوها.

صورة


مهمة التصميم


Yandex.Real Estate هي خدمة إعلانات لبيع وتأجير الشقق والغرف والمنازل والأراضي. يتم وضع الإعلانات من قبل الأفراد أو مطوري العقارات أو الوكالات ، لذلك يتم تمثيل العقار في كثير من الأحيان بالعديد من العروض. في أغلب الأحيان ، تحاول عدة وكالات بيع شقة في وقت واحد ، وأحيانًا المالك أيضًا.

تكرارات الإعلانات التي يتم عرضها في أحسن الأحوال تزعج المستخدمين ، وفي أسوأ الأحوال تكون مضللة. هذا يمنع أيضًا فريق Yandex من جمع التحليلات حسب الشقة والعدد الدقيق للمبلغ للبيع أو للإيجار. لذلك ، أريد أن أتعلم كيفية البحث عن التكرارات والغراء في عرض واحد.

لا يمكن إدارة تدفق الإعلان يدويًا لأنه ضخم. لذلك ، نحن بحاجة إلى خوارزمية قادرة على العثور على أكبر عدد ممكن من التكرارات بدقة عالية. الدقة مهمة لأن سعر الخطأ مرتفع: ربط الإعلانات المختلفة سيؤدي إلى شكوى المستخدمين.

يتم حل المهام ذات المتطلبات العالية وبنية البيانات المعقدة تقليديًا باستخدام خوارزميات التعلم الآلي ، لذلك في الواقع تمت صياغة المهمة على أنها "تدريب أحد المصنفات الحديثة".

المشاكل


  • مجال الموضوع جديد بالنسبة لنا ، وله صعوباته وميزاته.
  • لا توجد بيانات موسومة على الإطلاق.
  • لا توجد مهمة واضحة للتعلم الآلي - ما هي العوامل والمتغيرات المستهدفة هنا؟

مع الفقرة الأخيرة ، كل شيء بسيط نسبيًا: ستكون العوامل هي معلومات حول زوج من الكائنات من إعلانات مختلفة ، والمتغير المستهدف هو ما إذا كان المرء كائنًا في الواقع أم مختلفين. ولكن اكتشاف ميزات سوق العقارات وترميز البيانات استغرق معظم وقت المشروع.

ترميز البيانات


لقد تلقينا جزءًا من قاعدة البيانات مع عروض على بيع الشقق في موسكو. البيانات الرئيسية التي تصفهم هي:

  • بيانات منظمة عامة - لقطات ، سعر ، أرضية ، عدد الغرف ، الحمامات ، ارتفاع السقف ، معلومات التعريف عن البائع والآخرين.
  • وصف النص للكائن.
  • صور للكائن.

قبل Yandex ، كان لدينا مصنّف مكرر تم تدريبه على عوامل من نقطة واحدة دون بيانات تحكم. هذا هو خوارزمية عرض المجموعات التي تسمى العروض المكررة التي تقع في كتلة واحدة. كان دقة عالية إلى حد ما ، ولكن اكتمال منخفضة نسبيا. هذا يعني أن نسبة التكرارات التي اكتشفها كانت منخفضة ، على الرغم من أنه نادراً ما كان مخطئًا.

استخدمنا فكرة مقارنة العروض مع بعضها البعض بناءً على الاختلافات والعلاقات بين المؤشرات الرئيسية: على سبيل المثال ، السعر أو الحد الأدنى ، للحصول على مقياس تجريبي لتباين الإعلانات. وقد توصلوا إلى وظيفة ربطت بين الرقمين ورقم واحد - وهو مقياس لمدى اختلاف الإعلانين في البيانات الأولية. ساعدنا هذا المؤشر في إنشاء عينة متوازنة أثناء ترميز البيانات وتنظيم توزيع الأمثلة تقريبًا على الأقل: نريد أمثلة أكثر مطابقة أو مختلفة جدًا أو معقدة في مكان ما في الوسط.

تحولت العلامات إلى أنها أكثر تعقيدًا مما توقعنا. وهنا السبب:

  • أوصاف متطابقة وغير مفيدة لكائنات مماثلة. خاصة من الصندوق الجديد: شركات البناء تحملها على دفعات ، وفقط في حالات نادرة يمكن تمييزها برقم القطعة.
  • تلف البيانات المتعمد. أوضح لنا المتخصصون في مجال العقارات أنه في بعض الأحيان يريد الناس إخفاء الأرضية الحقيقية أو مظهر الشقة.
  • ليس بالمعلومات الخارجية أو صور مماثلة من الأشياء.
  • صور مختلفة من نفس الكائن. فيما يلي أحد الأمثلة البسيطة ، ومع ذلك ، يتعين على بعض الصور أن تبحث عن وقت طويل مثل المباحث ، باستخدام كل قوة الأسلوب الاستنتاجي لغرض وحيد هو تحديد ما إذا كانت شقة واحدة أو شقتين مختلفتين.


صورة

صورة

خط الأساس تحت الإشراف


قمنا بترميز البيانات وحاولنا تدريب Random Forest فقط على العوامل الواردة في الفقرة الأولى - المؤشرات الفئوية والمستمرة للسعر ، اللقطات ، إلخ. تم استخدام الاختلافات والعلاقات بين هذه العوامل ، بالإضافة إلى العوامل التي تم إنشاؤها بالإضافة إلى ذلك استنادًا إلى وقت التنسيب والتحديث ، ومعلومات عن البائع ، وما إلى ذلك ، كمتنبئات. على بيانات الاختبار ، كان هذا المصنف أكثر دقة من خوارزمية المجموعات المحافظة بنسبة 5-8 ٪ ، وتجاوز اكتمالها النتيجة السابقة بنسبة 30-35 ٪.

بتشجيع من هذه النتيجة ، تحولنا إلى عاملين آخرين - وصف النص والصور. لقد فشلنا تقريبًا في العمل مع الأخير: لقد قمنا بتفريغها في وقت متأخر جدًا. لقد حاولوا استخدام تجزئة لتصفية الصور الخارجية الشائعة ، والتجزئة الإدراكية للتعامل مع العلامات المائية ومخرجات طبقات عالية من الشبكات التلافيفية (ResNet-18) كعوامل إضافية ، ولكن لمفاجأتنا ، أنها لم تحصل على زيادة كبيرة في الدقة.

في رأينا ، من الضروري التعامل مع تحليل الصور في هذا الموضوع بشكل أكثر شمولًا ، وإيلاء اهتمام كبير لعملية معالجة الصور ، وتجربة بنى أخرى ووظائف خسارة خاصة. بالنسبة للبيانات النصية المتجهية والمتجهة ، تم تطبيق خوارزمية متجه Tf-Idf وتم استخدام التمثيل المتجه كميزات أساسية. أعطت مقاييس مختلفة على هذه المتجهات زيادة أكثر إثارة للإعجاب في جودة التنبؤات. وكانت أفضل نتيجة كعامل هي الاحتمال الذي تنبأ به الانحدار اللوجستي الذي تم تدريبه بشكل منفصل على هذه النواقل.

النموذج النهائي


كان النموذج الأخير ، الذي جمع كل علامات ونتائج الآخرين ، CatBoost. هذا منتج من منتجات Yandex المدربة على وظيفة فقد خاصة - مقياس F معدّل. أثبتت تقنية CatBoost أنها واحدة من الأفضل في مهمة التصنيف ويتم دمجها بسهولة في البنية التحتية. جودة الخوارزمية في عينة الاختبار هي دقة 98 ٪ واكتمال 93 ٪.

نحن نعتبر هذه نتيجة جيدة ، وما إذا كانت هي نفسها من وجهة نظر العمل - سيقرر الخبراء من قسم التسويق :)

Source: https://habr.com/ru/post/ar457464/


All Articles