كيف نخفف الإعلانات



كل خدمة ، يمكن لمستخدميها إنشاء محتوى خاص بهم (UGC - محتوى من إنشاء المستخدم) ، لا تضطر إلى حل مشاكل العمل فحسب ، بل أيضًا إلى ترتيب الأمور في UGC. يمكن أن يؤدي تعديل المحتوى الرديء أو السيئ الجودة في النهاية إلى تقليل جاذبية الخدمة للمستخدمين ، حتى انتهاء عملها.

سنخبرك اليوم عن التآزر بين Yula و Odnoklassniki ، مما يساعدنا على تنسيق الإعلانات بفعالية في Yule.

التآزر بشكل عام مفيد للغاية ، وفي العالم الحديث ، عندما تتغير التكنولوجيا والاتجاهات بسرعة كبيرة ، يمكن أن تتحول إلى منقذ. لماذا تنفق الموارد الشحيحة والوقت على اختراع ما اخترعته بالفعل وتذكرك به؟

لقد فكرنا بنفس الطريقة عندما واجهنا التحدي المتمثل في إدارة المحتوى الذي ينشئه المستخدمون - الصور والنصوص والروابط. يقوم المستخدمون بتحميل الملايين من وحدات المحتوى إلى Yula يوميًا ، وبدون المعالجة التلقائية ، يعد تعديل كل هذه البيانات يدويًا غير واقعي على الإطلاق.

لذلك ، استفدنا من منصة الاعتدال التي تم إعدادها بالفعل ، والتي بحلول ذلك الوقت أطلق عليها زملاؤنا من Odnoklassniki حالة "الكمال تقريبًا".

لماذا زملاء الدراسة؟


كل يوم ، يأتي عشرات الملايين من المستخدمين إلى الشبكة الاجتماعية لنشر مليارات وحدات المحتوى: من الصور إلى مقاطع الفيديو والنصوص. تساعد منصة الإشراف في Odnoklassniki على التحقق من كميات كبيرة جدًا من البيانات والتصدي لمرسلي البريد العشوائي والبوتات.

اكتسب فريق OK الاعتدال الكثير من الخبرة ، حيث قام بتحسين أداته لمدة 12 عامًا. من المهم ألا يتمكنوا من مشاركة حلولهم الجاهزة فحسب ، ولكن أيضًا تكوين بنية النظام الأساسي لمهامنا المحددة.



لمزيد من الإيجاز سوف نسميها منصة الاعتدال موافق ببساطة "منصة".

كيف يعمل


بين Yula و Odnoklassniki يتم تأسيس تبادل البيانات من خلال Apache Kafka .

لماذا اخترنا هذه الأداة:

  • في يوليا ، يتم الإشراف على جميع الإعلانات ، لذلك في البداية لم يكن مطلوبًا استجابة متزامنة.
  • في حالة حدوث فقرة شرسة ، ولن تكون Yula أو Odnoklassniki متاحة ، بما في ذلك بسبب بعض الأحمال الذروة ، فلن تختفي البيانات من Kafka في أي مكان ويمكن قراءتها لاحقًا.
  • تم دمج النظام الأساسي بالفعل مع تطبيق كافكا ، لذا تم حل معظم مشكلات الأمان.



لكل إعلان تم إنشاؤه أو تعديله من قبل المستخدم في Yule ، يتم إنشاء JSON مع البيانات ، والتي يتم وضعها في كافكا للاعتدال اللاحق. من كافكا ، يتم تحميل الإعلانات على المنصة ، حيث يتم اتخاذ القرارات تلقائيًا أو يدويًا. يتم حظر الإعلانات السيئة لسبب ما ، ويتم تمييز تلك الإعلانات التي لم يجد النظام فيها انتهاكات بأنها "جيدة". ثم يتم إرسال جميع القرارات إلى Yula وتطبيقها في الخدمة.

نتيجة لذلك ، بالنسبة إلى Yula ، كل هذا يتوقف على الإجراءات البسيطة: إرسال إعلان إلى منصة Odnoklassniki والعودة للحصول على الدقة "موافق" ، أو لماذا لا "موافق".

المعالجة التلقائية


ماذا يحدث لإعلان ما بعد أن وصل إلى المنصة؟ يتم تقسيم كل إعلان إلى عدة كيانات:

  • اسم،
  • وصف،
  • صور
  • الفئة التي حددها المستخدم والفئة الفرعية للإعلان ،
  • السعر.



ثم ، لكل كيان ، مجموعات النظام الأساسي للعثور على التكرارات. علاوة على ذلك ، يتم تجميع النصوص والصور بطرق مختلفة.

تتم تسوية النصوص قبل التجميع لمسح الأحرف الخاصة والأحرف التي تم تغييرها والقمامة الأخرى. تنقسم البيانات المستلمة إلى N-gram ، تم تجزئة كل منها. والنتيجة هي الكثير من التجزئة فريدة من نوعها. يعتبر التشابه بين النصوص بمثابة جاكار بين المجموعتين الناتجتين. إذا كان التشابه أكثر من عتبة ، فسيتم لصق النصوص معًا في مجموعة واحدة. لتسريع البحث عن مجموعات مماثلة ، يتم استخدام MinHash والتجزئة الحساسة للموقع.

تم اختراع خيارات مختلفة للصور الملصقة للصور ، من مقارنة صور pHash إلى إيجاد التكرارات باستخدام شبكة عصبية.

الطريقة الأخيرة هي الأكثر "قسوة". لتدريب النموذج ، تم اختيار مثل هذه الصور الثلاثية (N ، A ، P) والتي لا تبدو فيها N مثل A ، و P - تشبه A (هو نصف مكرر). ثم ، تعلمت الشبكة العصبية جعل A و P أقرب ما يمكن ، و A و N إلى أقصى حد ممكن. ينتج عن ذلك إيجابيات أقل كاذبة مقارنة بالتضمين ببساطة من شبكة مدربة مسبقًا.

عندما تستقبل الشبكة العصبية الصور عند الإدخال ، فإنها تنشئ متجهًا أبعاد N (128) لكل منها ، ويتم تقديم طلب لتقييم قرب الصورة. بعد ذلك ، يتم حساب العتبة التي تعتبر فيها الصور القريبة مكررة.

يمكن للنموذج أن يجد بمهارة مرسلي البريد العشوائي الذين يصورون نفس المنتج على وجه التحديد من زوايا مختلفة للتحايل على مقارنة pHash.


مثال على صور البريد العشوائي التي تم لصقها بواسطة الشبكة العصبية كنسخة مكررة.

في المرحلة النهائية ، يتم البحث عن الإعلانات المكررة في وقت واحد في كل من النص والصورة.

في حالة تعليق إعلانين أو أكثر في نظام مجموعة ، يبدأ النظام في حظر تلقائي ، والذي يحدد ، وفقًا لخوارزميات معينة ، التكرارات المراد إزالتها وأي منها يترك. على سبيل المثال ، إذا كان لدى مستخدمين نفس الصور في الإعلان ، فسيقوم النظام بحظر إعلان أحدث.

بعد الخلق ، تمر كل المجموعات بسلسلة من المرشحات التلقائية. يمنح كل مرشح المجموعة درجة: مع أي احتمال يحتوي على تهديد يحدده هذا المرشح.

على سبيل المثال ، يقوم النظام بتحليل الوصف في الإعلان وتحديد الفئات المحتملة لذلك. ثم يأخذ الشخص الأكثر إحتمالية ويقارنه بالفئة التي أشار إليها مصمم الإعلان. إذا كانت غير متطابقة ، فسيتم حظر الإعلان عن الفئة الخطأ. ونظرًا لأننا طيبون وصادقون ، فنحن نخبر المستخدم مباشرةً عن الفئة التي يحتاج إلى اختيارها بحيث يمر الإعلان بالاعتدال.


حظر الإعلام للفئة الخطأ.

في نظامنا الأساسي ، يكون التعلم الآلي في المنزل. على سبيل المثال ، بمساعدتنا ، نبحث عن البضائع الممنوعة في الاتحاد الروسي بالأسماء والأوصاف. ونماذج الشبكات العصبية "تنظر" بدقة إلى الصور لعناوين URL ونصوص مرسلي البريد العشوائي والهواتف ونفسها "المحظورة".

بالنسبة للحالات التي يحاولون فيها بيع البضائع المحظورة عن طريق إخفاء أنفسهم كشيء قانوني ، وفي الوقت نفسه لا يوجد نص في الاسم أو الوصف ، فإننا نستخدم وضع علامات على الصور. لكل صورة يمكن إرفاق ما يصل إلى 11 ألف علامة مختلفة تصف ما هو موجود في الصورة.


إنهم يحاولون بيع الشيشة ، متنكرين في زي الساموفار.

بالتوازي مع المرشحات المعقدة ، بسيطة ، حل المهام الواضحة المتعلقة بالعمل النصي:

  • antimat.
  • عنوان URL ورقم الهاتف للكشف ؛
  • ذكر الرسائل الفورية وجهات الاتصال الأخرى ؛
  • سعر منخفض
  • الإعلانات التي لا تبيع شيئًا ، إلخ.

اليوم ، يمر كل إعلان بمنخل جيد يضم أكثر من 50 فلترًا تلقائيًا يحاول العثور على شيء سيء في الإعلان.

إذا لم يعمل أي من الكاشفات ، فيتم إرسال استجابة إلى Yulu تفيد بأن الإعلان "على الأرجح" مكتمل. نستخدم هذه الإجابة في المنزل ، ويتلقى المستخدمون المشتركون في البائع إشعارًا بشأن ظهور منتج جديد.


إشعار أن البائع لديه منتج جديد.

نتيجةً لذلك ، يتم "تضخم" كل إعلان باستخدام البيانات الوصفية ، ويتم إنشاء بعضها عند إنشاء الإعلان (عنوان IP للمؤلف ، وكيل المستخدم ، النظام الأساسي ، تحديد الموقع الجغرافي ، وما إلى ذلك) ، والباقي هو النتيجة التي يمنحها كل مرشح.

طوابير الإعلان


عندما يضرب إعلان النظام الأساسي ، يضعه النظام في إحدى قوائم الانتظار. يتم تشكيل كل قائمة انتظار باستخدام صيغة رياضية تجمع بيانات التعريف الإعلانية بطريقة تكتشف نوعًا من الأنماط السيئة.

على سبيل المثال ، يمكنك إنشاء قائمة انتظار للإعلانات في فئة "الهواتف المحمولة" من مستخدمي Yula المفترض أنهم من سانت بطرسبرغ ، ولكن في نفس الوقت عناوين IP الخاصة بهم من موسكو أو مدن أخرى.


مثال على الإعلانات التي نشرها مستخدم واحد في مدن مختلفة.

أو يمكنك إنشاء قوائم انتظار بناءً على النقاط التي تقوم الشبكة العصبية بتعيينها للإعلانات ، وترتيبها بترتيب تنازلي.

وفقًا لصيغته ، يقوم كل سطر بتعيين النتيجة النهائية للإعلان. ثم يمكنك التصرف بطرق مختلفة:

  • تحديد قيمة الحد الأدنى التي سيتلقى فيها الإعلان نوعًا معينًا من الحظر ؛
  • يجب إرسال جميع الإعلانات في قائمة الانتظار إلى المشرفين للمراجعة اليدوية ؛
  • أو ضم الخيارات السابقة: حدد الحد الأقصى للحظر التلقائي وأرسل إلى المشرفين تلك الإعلانات التي لم تصل إلى هذا الحد.



لماذا هذه الخطوط ضرورية؟ دعنا نقول أن المستخدم حمّل صورة سلاح ناري. تقوم الشبكة العصبية بتخصيص درجة من 95 إلى 100 وبنسبة 99 في المائة من الدقة التي تحدد الأسلحة الموجودة في الصورة. ولكن إذا كانت قيمة النتيجة أقل من 95٪ ، فإن دقة النموذج تبدأ في الانخفاض (هذه ميزة من نماذج الشبكات العصبية).

نتيجة لذلك ، يتم تشكيل قائمة انتظار استنادًا إلى نموذج النقاط ، ويتم تلقائيًا حظر الإعلانات التي تم استلامها من 95 إلى 100 باسم "البضائع المحظورة". يتم إرسال الإعلانات التي تحتوي على نقاط أقل من 95 إلى المشرفين للمعالجة اليدوية.


بيريتا بالشوكولاته مع الخراطيش. فقط للاعتدال اليدوي! :)

دليل الاعتدال


في بداية عام 2019 ، يتم الإشراف على حوالي 94٪ من جميع الإعلانات في Yule تلقائيًا.



إذا لم يستطع النظام الأساسي تحديد أي إعلانات ، فسوف يرسلها للإشراف اليدوي. طور زملاء الدراسة أداة خاصة بهم: تعرض مهام المشرفين فورًا جميع المعلومات اللازمة لاتخاذ قرار سريع - الإعلان مناسب أو يجب حظره مع الإشارة إلى السبب.

وحتى مع عدم وجود جودة خدمة معتدلة يدويًا ، يتم مراقبة عمل الأشخاص باستمرار. على سبيل المثال ، في مجموعة المهام ، يعرض المشرف "الفخاخ" - الإعلانات التي توجد بالفعل حلول جاهزة لها. إذا لم يتزامن قرار المشرف مع القرار الجاهز ، فسيتم احتساب الخطأ على المشرف.

يقضي المشرف العادي 10 ثوانٍ للتحقق من إعلان واحد. علاوة على ذلك ، لا يزيد عدد الأخطاء عن 0.5٪ من جميع الإعلانات التي تم اختبارها.

الاعتدال الشعبي


ذهب الزملاء من Odnoklassniki إلى أبعد من ذلك ، واستفادوا من "مساعدة القاعة": لقد كتبوا لعبة تطبيق للشبكة الاجتماعية والتي يمكنك من خلالها ترميز بسرعة كمية كبيرة من البيانات ، وتسليط الضوء على بعض علامات سيئة ، - Odnoklassnikov Moderator ( https://ok.ru/app/ مشرف ). طريقة جيدة للاستفادة من مساعدة مستخدمي OK الذين يحاولون جعل المحتوى أكثر متعة.


لعبة يقوم فيها المستخدمون بتمييز الصور التي لها رقم هاتف.

يمكن إعادة توجيه أي قائمة انتظار للإعلانات في المنصة إلى Odnoklassniki Moderator للعبة. كل ما يميزه مستخدمو اللعبة ، ينتقل بعد ذلك إلى المشرفين الداخليين للتحقق. يسمح لك هذا المخطط بحظر الإعلانات التي لم يتم إنشاء فلاتر لها بعد ، وإنشاء نماذج تدريب في وقت واحد.

تخزين نتائج الاعتدال


نقوم بحفظ جميع القرارات التي تم اتخاذها أثناء الإشراف ، حتى لا نقوم في وقت لاحق بمعالجة الإعلانات التي اتخذت بالفعل قرارًا.

تولد الإعلانات ملايين المجموعات يوميًا. بمرور الوقت ، تتلقى كل مجموعة علامة "جيدة" أو "سيئة". كل إعلان جديد أو إصداره ، يقع في المجموعة مع علامة ، يتلقى تلقائيًا دقة المجموعة نفسها. حوالي 20 ألف من هذه القرارات التلقائية في اليوم الواحد.



إذا لم تتلق المجموعة إعلانات جديدة ، فسيتم حذفها من الذاكرة ، وتتم كتابة التجزئة والحل الخاص بها إلى Apache Cassandra.

عندما تتلقى المنصة إعلانًا جديدًا ، تحاول أولاً العثور على مجموعة مماثلة بين المجموعات التي تم إنشاؤها بالفعل واتخاذ قرار بشأنها. إذا لم يكن هناك كتلة من هذا القبيل ، فإن المنصة تذهب إلى كاساندرا وتبحث هناك. وجدت ذلك؟ عظيم ، يطبق الحل على الكتلة ويرسله إلى يولا. في المتوسط ​​، يتم توظيف 70.000 من هذه القرارات "المتكررة" - 8 ٪ من المجموع.

لتلخيص


نحن نستخدم منصة الاعتدال Odnoklassniki لمدة عامين ونصف. نحن نحب النتائج:

  • نحن نضبط 94٪ من جميع الإعلانات يوميًا تلقائيًا.
  • تم تخفيض تكلفة الإشراف من إعلان واحد من 2 روبل إلى 7 كوبيل.
  • بفضل الأداة النهائية ، نسوا مشاكل إدارة المشرفين.
  • زاد مرتين ونصف عدد الإعلانات التي تمت معالجتها يدويًا بنفس عدد المشرفين والميزانية. زادت جودة التعديل اليدوي أيضًا بسبب التحكم الآلي ، وتتقلب حوالي 0.5٪ من الأخطاء.
  • تصفية بسرعة أنواع جديدة من البريد المزعج.
  • قم بتوصيل وحدات جديدة من Yula Vertical بالاعتدال. منذ عام 2017 ، ظهرت قطاعات العقارات والوظائف والسيارات في يول.

Source: https://habr.com/ru/post/ar455128/


All Articles