يعد إرسال الرسائل غير المرغوب فيها على الشبكات الاجتماعية والمراسلات الفورية بمثابة ألم. ألم لكل من المستخدمين والمطورين الشرفاء. قال Mikhail Ovchinnikov على Highload ++ ، ثم النسخة النصية من هذا التقرير: كيف يقاومونه في Badoo.
نبذة عن المتحدث: يعمل ميخائيل أوفشينيكوف في Badoo وكان يعمل ضد الرسائل غير المرغوب فيها منذ خمس سنوات.
لدى Badoo 390 مليون مستخدم مسجل (بيانات أكتوبر 2017). إذا قارنا حجم جمهور الخدمة مع سكان روسيا ، فيمكننا القول ، وفقًا للإحصاءات ، أن كل 100 مليون شخص محميون بـ 500 ألف ضابط شرطة ، وفي Badoo ، هناك موظف واحد لمكافحة البريد العشوائي يحمي كل 100 مليون مستخدم من الرسائل غير المرغوب فيها. ولكن حتى مثل هذا العدد الصغير من المبرمجين يمكن أن يحمي المستخدمين من مشاكل مختلفة على الإنترنت.
لدينا جمهور كبير ، ويمكن أن يكون لها مستخدمين مختلفين:
- جيد وجيد جدًا ، عملاء الدفع المفضلين لدينا ؛
- السيئون هم أولئك الذين ، على العكس من ذلك ، يحاولون كسب المال منا: يرسلون رسائل غير مرغوب فيها ، ويحتالون المال ، وينخرطون في الاحتيال.
من عليه القتال
يمكن أن يكون البريد العشوائي مختلفًا ، وغالبًا لا يمكن تمييزه على الإطلاق عن سلوك المستخدم العادي. يمكن أن تكون يدوية أو أوتوماتيكية - الروبوتات التي تعمل في البريد الآلي تريد أيضًا الوصول إلينا.
ربما كنت قد كتبت مرة واحدة برامج التتبع - تم إنشاء نصوص للنشر التلقائي. إذا كنت تفعل ذلك الآن ، فمن الأفضل عدم قراءة المزيد - لا يجب عليك معرفة ما سأخبرك به الآن.
هذه بالطبع مزحة. لن تحتوي المقالة على معلومات من شأنها تبسيط حياة مرسلي البريد العشوائي.

إذن من علينا أن نقاتل معه؟ هؤلاء هم مرسلو البريد العشوائي والمخادعون.
ظهرت الرسائل غير المرغوب فيها منذ وقت طويل ، منذ البداية الأولى لتطوير الإنترنت. في خدمتنا ، يحاول مرسلو البريد العشوائي ، كقاعدة عامة ، تسجيل حساب عن طريق تحميل
صورة لفتاة جذابة هناك . في أبسط صورة ، يبدأون في إرسال أكثر أنواع الروابط غير المرغوب فيها وضوحًا.
الخيار الأكثر تعقيدًا هو عندما لا يرسل الأشخاص أي شيء صريح ، ولا يرسلون أي روابط ، ولا يعلنوا عن أي شيء ، ولكن
يجذبون المستخدم إلى مكان أكثر ملاءمة لهم ، على سبيل المثال ، المراسلات الفورية : Skype ، Viber ، WhatsApp. هناك يمكنهم ، دون سيطرتنا ، بيع أي شيء للمستخدم ، والترويج ، وما إلى ذلك.
لكن
مرسلي البريد العشوائي ليسوا المشكلة الأكبر . إنها واضحة وسهلة القتال. الشخصيات الأكثر تعقيدًا
وإثارة للاهتمام هي
المحتالين الذين يتظاهرون بأنهم شخص آخر ويحاولون خداع المستخدمين بكل الطرق الموجودة على الإنترنت.
بالطبع ، لا تختلف إجراءات كل من مرسلي الرسائل غير المرغوب فيها والمحتالين دائمًا عن سلوك المستخدمين العاديين الذين يقومون بذلك أيضًا في بعض الأحيان. هناك العديد من الإشارات الرسمية في كل من تلك التي لا تسمح برسم خط واضح بينهما. هذا غير ممكن على الإطلاق.
كيفية التعامل مع البريد المزعج في العصر الوسيط
- أبسط شيء يمكن القيام به هو كتابة تعبيرات عادية منفصلة لكل نوع من أنواع البريد العشوائي وإدخال كل كلمة سيئة وكل مجال منفصل في هذا النظام العادي. كل هذا تم يدويًا ، وبطبيعة الحال ، كان غير مريح وغير فعال قدر الإمكان.
- يمكنك العثور يدويًا على عناوين IP المشكوك فيها وإدخالها في تكوين الخادم بحيث لا يتمكن المستخدمون المشبوهون من الوصول إلى موردك مرة أخرى. هذا غير فعال لأن عناوين IP تتم إعادة تعيينها باستمرار وإعادة توزيعها.
- اكتب نصوصًا لمرة واحدة لكل نوع من أنواع الرسائل غير المرغوب فيها أو الروبوت ، وكشط سجلاتهم ، والعثور على الأنماط يدويًا. إذا تغير شيء صغير في سلوك صاحب الأسلوب غير المرغوب فيه ، فكل شيء يتوقف عن العمل - كما أنه غير فعال تمامًا.

أولاً ، سأوضح لك أبسط الطرق لمكافحة الرسائل غير المرغوب فيها التي يمكن للجميع تنفيذها لأنفسهم. ثم سأخبرك بالتفصيل عن الأنظمة الأكثر تعقيدًا التي طورناها باستخدام التعلم الآلي والمدفعية الثقيلة الأخرى.
أسهل الطرق للتعامل مع البريد العشوائي
الاعتدال اليدوي
في أي خدمة ، يمكنك تعيين مشرفين يمكنهم عرض محتوى المستخدم وملف تعريفه يدويًا ، وتحديد ما يجب القيام به مع هذا المستخدم. عادة ، تبدو هذه العملية مثل العثور على إبرة في كومة قش. لدينا عدد كبير من المستخدمين ، المشرفين أقل.

بالإضافة إلى حقيقة أن المشرفين يحتاجون كثيرًا ، فأنت بحاجة إلى الكثير من البنية التحتية. ولكن ، في الواقع ، أصعب شيء آخر - تنشأ مشكلة: كيف ، على العكس من ذلك ، حماية المستخدمين من المشرفين.
من الضروري التأكد من أن المشرفين لا يمكنهم الوصول إلى البيانات الشخصية. هذا أمر مهم لأن المشرفين يمكن أن يحاولوا نظريًا إيذاءهم. أي أننا بحاجة إلى مكافحة البريد العشوائي لمكافحة البريد العشوائي ، بحيث يخضع المشرفون لسيطرة محكمة.
من الواضح أنه لا يمكنك التحقق من جميع المستخدمين بهذه الطريقة. ومع ذلك ، فإن
الاعتدال ضروري على أي حال ، لأن أي أنظمة في المستقبل تحتاج إلى التدريب واليد البشرية التي ستحدد ما يجب فعله مع المستخدم.
جمع الإحصائيات
يمكنك محاولة استخدام الإحصائيات - لجمع معلمات مختلفة لكل مستخدم.

يقوم المستخدم Innokenty بتسجيل الدخول من عنوان IP الخاص به. أول شيء نقوم به هو تسجيل الدخول إلى عنوان IP الذي أدخلته. بعد ذلك ، نقوم بإنشاء فهرس للأمام والعكس بين جميع عناوين IP وجميع المستخدمين ، حتى تتمكن من الحصول على جميع عناوين IP التي يسجل منها مستخدم معين ، وكذلك جميع المستخدمين الذين يسجلون الدخول من عنوان IP معين.
بهذه الطريقة نحصل على اتصال بين السمة والمستخدم. يمكن أن يكون هناك الكثير من هذه السمات. يمكننا أن نبدأ في جمع المعلومات ليس فقط حول عناوين IP ، ولكن أيضًا الصور والأجهزة التي دخل منها المستخدم - حول كل شيء يمكننا تحديده.

نقوم بجمع هذه الإحصائيات وربطها بالمستخدم. يمكننا جمع العدادات التفصيلية لكل سمة.
لدينا الإشراف اليدوي الذي يقرر المستخدم الجيد أو السيئ ، وفي مرحلة ما يتم حظر المستخدم أو التعرف عليه كالمعتاد. يمكننا الحصول على بيانات لكل سمة بشكل منفصل ، وعدد المستخدمين الإجمالي ، وعدد المستخدمين المحظورين ، وعدد المستخدمين المعترف بهم على أنهم عاديون.
بوجود مثل هذه الإحصائيات لكل من السمات ، يمكننا تحديد من هو صاحب المحتوى غير المرغوب فيه ، ومن ليس كذلك.

لنفترض أن لدينا عنواني IP - 80٪ من مرسلي البريد العشوائي على واحد و 1٪ على الثاني. من الواضح أن الأول هو أكثر بكثير من البريد المزعج ، تحتاج إلى فعل شيء به وتطبيق نوع من العقوبات.
أبسط شيء هو كتابة
قواعد ارشادية . على سبيل المثال ، إذا كان المستخدمون المحظورون أكثر من 80٪ ، والذين يعتبرون طبيعيين - أقل من 5٪ ، فإن عنوان IP هذا يعتبر سيئًا. ثم نحظر أو نفعل شيئًا آخر مع جميع المستخدمين بعنوان IP هذا.
جمع الإحصائيات من النصوص
بالإضافة إلى السمات الواضحة التي يمتلكها المستخدمون ، يمكنك أيضًا إجراء تحليل النص. يمكنك تحليل رسائل المستخدم تلقائيًا ، وعزلها عن كل ما يتعلق بالرسائل غير المرغوب فيها: ذكر الرسل ، والهواتف ، والبريد الإلكتروني ، والروابط ، والمجالات ، وما إلى ذلك ، وجمع نفس الإحصائيات منها تمامًا.

على سبيل المثال ، إذا تم إرسال اسم المجال في الرسائل بواسطة 100 مستخدم ، تم حظر 50 منهم ، فإن اسم النطاق هذا سيئ. يمكن إدراجها في القائمة السوداء.
سوف نتلقى كمية كبيرة من الإحصائيات الإضافية لكل مستخدم بناءً على نصوص الرسائل. لا يلزم التعلم الآلي لهذا.
توقف عن الكلمات
بالإضافة إلى الأشياء الواضحة - الهواتف والروابط - يمكنك استخراج عبارات أو كلمات من النص الشائعة بشكل خاص لمرسلي البريد العشوائي. يمكنك الحفاظ على قائمة كلمات التوقف يدويًا.
على سبيل المثال ، في حسابات مرسلي البريد العشوائي والمخادعين ، غالبًا ما يتم العثور على العبارة: "هناك الكثير من المنتجات المزيفة". يكتبون أنهم بشكل عام هم الوحيدون هنا الذين تم إعدادهم لشيء خطير ، جميع المنتجات المزيفة الأخرى ، والتي لا يمكن الوثوق بها بأي حال من الأحوال.
في مواقع المواعدة وفقًا للإحصاءات ، يستخدم مرسلو البريد العشوائي في كثير من الأحيان العبارة "أنا أبحث عن علاقة جدية". من غير المحتمل أن يكتب شخص عادي هذا على موقع المواعدة - مع احتمال 70 ٪ هذا هو صاحب أسلوب غير مرغوب فيه يحاول جذب شخص ما.
ابحث عن حسابات مماثلة
باستخدام إحصائيات السمات وإيقاف الكلمات الموجودة في النصوص ، يمكنك بناء نظام للبحث عن حسابات مماثلة. يعد ذلك ضروريًا للعثور على جميع الحسابات التي أنشأها نفس الشخص وحظرها. يمكن لمرسِل البريد العشوائي الذي تم حظره تسجيل حساب جديد على الفور.
على سبيل المثال ، يقوم مستخدم Harold بتسجيل الدخول وتسجيل الدخول إلى الموقع وتقديم سماته الفريدة إلى حد ما: عنوان IP ، الصورة ، إيقاف الكلمة التي استخدمها. ربما قام حتى بالتسجيل باستخدام حساب Facebook مزيف.

يمكننا العثور على جميع المستخدمين المماثلين له ممن لديهم واحدة أو أكثر من هذه السمات المتطابقة. عندما نعلم على وجه اليقين أن هؤلاء المستخدمين مترابطون ، باستخدام الفهرس الأمامي والعكسي للغاية ، فإننا نجد السمات ، وبواسطة جميع المستخدمين ، وتصنيفها. إذا ، دعنا نقول أول هارولد ، قمنا بحظره ، فإن الباقي من السهل أيضًا "القتل" باستخدام هذا النظام.
جميع الطرق التي وصفتها للتو بسيطة للغاية: من السهل جمع الإحصائيات ، ثم من السهل البحث عن المستخدمين باستخدام هذه السمات. ولكن ، على الرغم من السهولة ، وبمساعدة هذه الأشياء البسيطة - الاعتدال البسيط والإحصاءات البسيطة والكلمات البسيطة - تمكنوا
من هزيمة 50٪ من الرسائل غير المرغوب فيها .
في شركتنا ، في الأشهر الستة الأولى من العمل ، هزم قسم مكافحة البريد العشوائي 50٪ من البريد العشوائي. 50٪ المتبقية ، كما تعلمون ، أكثر تعقيدًا.
كيفية جعل الحياة صعبة على مرسلي البريد العشوائي
يخترق مرسلو الرسائل غير المرغوب فيها شيئًا ما ، ويحاولون تعقيد حياتنا ، ونحن نحاول محاربتهم. هذه حرب لا نهاية لها. هناك الكثير منهم أكثر منا ، وفي كل خطوة نخرج بمساراتهم الخاصة المتعددة.
أنا متأكد من أن مؤتمرات مرسلي الرسائل غير المرغوب فيها تُعقد في مكان ما حيث يتحدث المتحدثون عن كيفية هزيمتهم لـ Badoo Antispam ، أو عن مؤشرات الأداء الرئيسية الخاصة بهم ، أو عن كيفية بناء بريد عشوائي غير مرغوب فيه يتحمل الأخطاء باستخدام أحدث التقنيات.
للأسف ، لسنا مدعوين لحضور مثل هذه المؤتمرات.
ولكن يمكننا أن نجعل الحياة صعبة على مرسلي البريد العشوائي. على سبيل المثال ، بدلاً من إظهار نافذة "أنت مقفل" للمستخدم مباشرةً ، يمكنك استخدام ما يسمى
حظر التسلل - هذا عندما لا نقول للمستخدم أنه محظور. حتى أنه لا ينبغي أن يشك في ذلك.

يدخل المستخدم إلى sandbox (Silent Hill) ، حيث يبدو أن كل شيء حقيقي: يمكنك إرسال الرسائل والتصويت ، ولكن في الواقع كل ذلك يذهب إلى الفراغ ، إلى الضباب. لن يرى أو يسمع أحد ، ولن يتلقى أي شخص رسائله وتصويته.
كانت لدينا حالة عندما قام أحد المتطفلين بإرسال رسائل غير مرغوب فيها لفترة طويلة ، وقام بترويج سلعه وخدماته السيئة ، وبعد ستة أشهر قرر استخدام الخدمة على النحو المنشود. قام بتسجيل حسابه الحقيقي: صور حقيقية ، اسم ، إلخ. وبطبيعة الحال ، اكتشف محرك بحثنا للحسابات المماثلة ذلك بسرعة ووضعه في حظر التسلل. بعد ذلك ، كتب لمدة ستة أشهر في الفراغ أنه كان وحيدًا جدًا ، ولم يجب أحد. بشكل عام ، سكب روحه كلها على ضباب سايلنت هيل ، لكنه لم يتلق أي إجابة.
بطبيعة الحال ، ليس مرسلي البريد العشوائي حمقى. إنهم يحاولون بطريقة ما تحديد ما إذا كانوا قد دخلوا في وضع الحماية وأنهم تم حظرهم ، وإنهاء الحساب القديم والعثور على حساب جديد. في بعض الأحيان نحصل على فكرة أنه سيكون من اللطيف إرسال العديد من مرسلي الرسائل غير المرغوب فيها إلى صندوق الرمل معًا ، حتى يتمكنوا من بيع كل شيء لبعضهم البعض والحصول على المتعة كما يحلو لك. ولكن بينما لم نصل إلى هذه النقطة ، فإننا نبتكر طرقًا أخرى ، على سبيل المثال ، التحقق من الصور والهاتف.

كما تعلم ، من الصعب على مرسل البريد الإلكتروني العشوائي الذي يكون روبوتًا وليس شخصًا اجتياز التحقق عبر الهاتف أو الصورة.
في حالتنا ، يبدو التحقق بالصورة كما يلي: يُطلب من المستخدم التقاط صورة بإيماءة معينة ، وتتم مقارنة الصورة الناتجة بالصور التي تم تحميلها بالفعل في الملف الشخصي. إذا كانت الوجوه متشابهة ، فمن المرجح أن يكون الشخص حقيقيًا ، وقام بتحميل صوره الحقيقية ويمكن تركه لبعض الوقت.
ليس من السهل على مرسلي البريد العشوائي اجتياز هذا الاختبار. حتى أننا حصلنا على لعبة صغيرة داخل الشركة تسمى Guess Who the Spammer. مع إعطاء أربع صور ، تحتاج إلى فهم أي منها هو صاحب أسلوب غير مرغوب فيه.

للوهلة الأولى ، تبدو هؤلاء الفتيات غير مؤذيات تمامًا ، ولكن بمجرد أن يبدأن في الخضوع للتحقق من الصورة ، يصبح من الواضح في مرحلة ما أن واحدة منهم ليست تمامًا ما تدعي أنها.
على أي حال ، يواجه مرسلو البريد العشوائي صعوبة في مكافحة التحقق من الصور. إنهم يعانون حقًا ، ويحاولون الالتفاف بطريقة ما ، ويخدعون ، ويظهرون جميع مهاراتهم في الفوتوشوب.

يفعل مرسلو البريد العشوائي كل ما في وسعهم ، وفي بعض الأحيان يعتقدون ، على الأرجح ، أن كل هذا يتم معالجته بالكامل من خلال بعض التقنيات الحديثة المذهلة التي يتم بناؤها بشكل سيئ للغاية بحيث يسهل خداعها.
إنهم لا يعرفون أن كل صورة يتم فحصها يدويًا من قبل المشرفين.
لا وقت
في الواقع ، على الرغم من حقيقة أننا توصلنا إلى طرق مختلفة لجعل الحياة صعبة على مرسلي البريد العشوائي ، فعادة ما لا يتوفر الوقت الكافي ، لأن مكافحة البريد الإلكتروني العشوائي يجب أن تعمل على الفور. يجب عليه إيجاد المستخدم وتحييده قبل أن يبدأ نشاطه السلبي.
أفضل شيء يمكن القيام به هو أن تحدد في مرحلة التسجيل أن المستخدم ليس جيدًا جدًا. يمكن القيام بذلك ، على سبيل المثال ، باستخدام المجموعات.
تجمع المستخدم
يمكننا جمع كل المعلومات الممكنة مباشرة بعد التسجيل. ما زلنا لا نمتلك أي أجهزة يسجل المستخدم الدخول عليها ، ولا صور ، ولا توجد إحصاءات. ليس لدينا شيء نرسله للتحقق منه ، لم يفعل أي شيء مريب. لكن لدينا بالفعل معلومات أولية:
- الجنس
- العمر
- بلد التسجيل ؛
- الدولة ومزود بروتوكول الإنترنت ؛
- مجال البريد الإلكتروني
- مشغل الهاتف (إن وجد) ؛
- البيانات من الفيس بوك (إن وجد) - كم عدد الأصدقاء الذين لديه ، وعدد الصور التي قام بتحميلها ، وكم من الوقت قام بالتسجيل هناك ، وما إلى ذلك.
يمكن استخدام كل هذه المعلومات لتحديد مجموعات المستخدمين. نحن نستخدم خوارزمية التجميع البسيطة والشعبية
على شكل حرف
K. يتم تنفيذه بشكل مثالي في كل مكان ، وهو مدعوم في أي مكتبات MachineLearning ، وهو متوازي تمامًا ، ويعمل بسرعة. هناك إصدارات متدفقة من هذه الخوارزمية تسمح لك بتوزيع المستخدمين على مجموعات أثناء التنقل. حتى في أحجامنا ، كل هذا يعمل بسرعة كبيرة.
بعد تلقي مجموعات المستخدمين هذه (المجموعات) ، يمكننا القيام بأي إجراءات. إذا كان المستخدمون متشابهين جدًا (المجموعة متصلة بشكل كبير) ، فمن المرجح أن يكون هذا التسجيل الجماعي ، يجب إيقافه على الفور. لم يكن لدى المستخدم الوقت للقيام بأي شيء حتى الآن ، فقط نقر على زر "تسجيل" - وهذا كل شيء ، لقد دخل بالفعل في وضع الحماية.
يمكن جمع الإحصائيات حول المجموعات - إذا تم حظر 50٪ من المجموعة ، فيمكن إرسال 50٪ المتبقية للتحقق منها ، أو الإشراف الفردي على كل المجموعات يدويًا ، وإلقاء نظرة على السمات التي تتطابق بها ، واتخاذ قرار. بناءً على هذه البيانات ، يمكن للمحللين تحديد الأنماط.
الأنماط
الأنماط هي مجموعات من أبسط سمات المستخدم التي نعرفها على الفور. تعمل بعض الأنماط بشكل فعال للغاية ضد أنواع معينة من مرسلي الرسائل غير المرغوب فيها.
على سبيل المثال ، ضع في اعتبارك مزيجًا من ثلاث سمات مستقلة تمامًا وشائعة إلى حد ما:
- المستخدم مسجل في الولايات المتحدة الأمريكية.
- مزودها هو Privax LTD (مشغل VPN) ؛
- مجال البريد الإلكتروني: [mail.ru، list.ru، bk.ru، inbox.ru].
هذه السمات الثلاث ، التي لا تبدو منفصلة عن كل شيء على حدة ، تعطي معًا احتمال أن يكون هذا صاحب أسلوب غير مرغوب فيه ، ما يقرب من 90٪.
يمكنك استخراج مثل هذه الأنماط كما تشاء لكل نوع من أنواع الرسائل غير المرغوب فيها. هذا أكثر كفاءة وأسهل بكثير من عرض جميع الحسابات يدويًا أو حتى المجموعات.
تجميع النص
بالإضافة إلى تجميع المستخدمين حسب السمات ، يمكنك العثور على مستخدمين يكتبون نفس النصوص. بالطبع ، هذا ليس بهذه البساطة. الحقيقة هي أن خدمتنا تعمل بالعديد من اللغات. علاوة على ذلك ، غالبًا ما يكتب المستخدمون بالاختصارات ، العامية ، وأحيانًا مع أخطاء. حسنًا ، عادةً ما تكون الرسائل نفسها قصيرة جدًا ، وتعني حرفيا 3-4 كلمات (حوالي 25 حرفًا).
وفقًا لذلك ، إذا أردنا العثور على نصوص مشابهة بين مليارات الرسائل التي يكتبها المستخدمون ، فيجب علينا التوصل إلى شيء غير عادي. إذا حاولت استخدام الأساليب الكلاسيكية القائمة على تحليل المورفولوجيا والمعالجة الصادقة الحقيقية للغة ، فمع كل هذه القيود ، والعبارات العامية ، والمختصرات ومجموعة من اللغات ، هذا أمر صعب للغاية.
يمكنك القيام بالمزيد ببساطة - تطبيق خوارزمية
n-gram . يتم تقسيم كل رسالة تظهر إلى n-grams. إذا كان n = 2 ، فهذه هي الأحرف الكبيرة (أزواج من الحروف). تدريجيًا ، يتم تقسيم الرسالة بأكملها إلى أزواج من الحروف والإحصاءات التي يتم جمعها ، وكم مرة تحدث كل bigram في النص.

لا يمكنك التوقف عند bigrams ، ولكن يمكنك إضافة trigrams ، skipgrams (إحصائيات الحروف بعد 1 ، 2 ، إلخ.). كلما حصلنا على مزيد من المعلومات ، كان ذلك أفضل. ولكن حتى البغرامات تعمل بشكل جيد بالفعل.
ثم نحصل على متجه من الأحرف الكبيرة لكل رسالة يبلغ طولها يساوي مربع طول الأبجدية.
من السهل جدًا العمل مع هذا الناقل وتجميعه ، لأنه:
- يتكون من أرقام ؛
- مضغوط ، لا توجد فراغات ؛
- دائما حجم ثابت.
- إن الخوارزمية k- مع هذه النواقل المضغوطة ذات الحجم الثابت سريعة جدًا. يتم تجميع مليارات رسائلنا في دقائق معدودة.
لكن هذا ليس كل شيء لسوء الحظ ، إذا جمعنا ببساطة جميع الرسائل المتشابهة في التردد مع bigrams ، نحصل على رسائل متشابهة في التردد مع bigrams. ومع ذلك ، لا يجب أن تكون في الواقع متشابهة إلى حد ما في المعنى. غالبًا ما تكون هناك نصوص طويلة تكون فيها المتجهات قريبة جدًا ، تقريبًا نفس الشيء ، لكن النصوص نفسها مختلفة تمامًا. علاوة على ذلك ، بدءًا من طول نص معين ، ستتوقف طريقة التجميع هذه عن العمل بشكل عام ، لأنه ترددات bigrams متساوية.

لذلك ، تحتاج إلى إضافة التصفية. نظرًا لأن المجموعات موجودة بالفعل ، فهي صغيرة جدًا ، يمكننا بسهولة إجراء التصفية داخل الكتلة باستخدام Stemming أو Bag of Words. داخل مجموعة صغيرة ، يمكنك مقارنة جميع الرسائل حرفيًا مع الجميع ، والحصول على المجموعة التي تضمن أن تكون هناك نفس الرسائل ، والتي تتزامن ليس فقط في الإحصائيات ، ولكن أيضًا في الواقع.
لذا ، فقد قمنا بالتجميع - ومع ذلك ، بالنسبة لنا (وللتجميع) ، من المهم جدًا معرفة الحقيقة حول المستخدم. إذا كان يحاول إخفاء الحقيقة عنا ، فعلينا اتخاذ بعض الإجراءات.إخفاء المعلومات
النوع النموذجي لإخفاء المعلومات هو VPN و TOR و Proxy و Anonymizers. يستخدمه المستخدم ، محاولًا التظاهر بأنه من أمريكا ، على الرغم من أنه في الواقع من نيجيريا.من أجل التغلب على هذه المشكلة ، أخذنا أشهر الكتب الدراسية "كيف تحسب عن طريق IP".
بمساعدة هذا البرنامج التعليمي ، كتبنا مصنفًا لشبكة VPN - أي مصنف مصنف يتلقى عنوان IP كمدخل ويذكر ما إذا كان عنوان IP هذا هو VPN أم وكيل أم لا.لتنفيذ المصنف ، نحتاج إلى عدة مكونات:- ISP (Internet Service Provider), IP- . , .
- Whois . IP- Whois : ; ; , IP-; , IP- .. , IP-.
- GeolP. , IP- , , IP- , , , IP- - .
- — IP- , GeolP, Whois, .
, , , IP- VPN .

, — , , .., , IP- VPN.
, . , advanced-, 100% . .
, IP- VPN, , IP- . , , . SOCKS-proxy, IP- .
, , ,
p0f . , fingerprinting , : , VPN-, Proxy .. , .
, , , , , : ? — ! , , , .
— ? . 2 , .
, , , , , , , .

, , ?
«User Decency»
— , .
«» :
.
. , , , .
, , «
». , , , , . .
1, , , , — .

.
False positive
, — . , IP-. , -, . , fingerprint, , , — , , , , - .
: : «, — Pornhub — ?» , - , .
. , , , .
- «Pornhub». - , - .

- -, .
, , . : , , , , .. , «» . , , , . , , .
, .
-
— MachineLearning, , 0 1 — .

, ,
, . , , . , - , .
, — . — , .
, ( ) , , . , , , : , , . .
HighLoad++ 2018 , , :
- ML- ,
- NVIDIA , .
- use case .
youtube- , — , .