🧛 🙌🏼 ✋🏽 تحديد ملفات تعريف ذات معنى في VK 👩🏽‍✈️ 🔒 🧓

من الصعب حقًا تمييز الروبوتات عن الأشخاص. لا يمكنني فعل ذلك بنفسي. ولكن من ناحية أخرى ، توصلت إلى ~~دراجة~~ جيدة ~~...~~ طريقة للتمييز في VK "الأشخاص المثيرين للاهتمام" عن "غير المثير للاهتمام". من حيث اتصال الشبكة ، بالطبع ، وليس في الحياة.

إذا كان شخص ما يطرق على أصدقائك ، ولكن للوهلة الأولى لا يمكنك أن تفهم أن هذا شخص عادي أو يعرف الجحيم ، يمكن أن توفر هذه الطريقة بعض المعلومات المفيدة حول المستخدم. من غير المحتمل أن تستخدمه لتحديد المجموعات المستهدفة ذات الصلة ، لأن VK وضعت قيودًا على القدرة على تنزيل محتويات جدران المستخدم ، وبطء إيذائها. على سبيل المثال من الممكن ، ولكن من الضروري تحسين وتحسين المراوغة بشكل كبير من أجل التحايل على القيود.

الفكرة الرئيسية

الفكرة الرئيسية هي أن البوتات ، والشخصيات الباهتة (من حيث الشبكة) ، وجميع أنواع جامعي التحف الجماعية من الأصدقاء المشتركين لا يهتمون حقًا بمن هم أصدقاء ، على الرغم من أنه يمكنهم "كتابة" الكثير من المنشورات ذات المغزى على جدرانهم. لكن الشخصيات الباهتة لا تقرأ الشريط الخاص بها على وجه الخصوص ، ولا تحتاج البوتات إليه على الإطلاق. علاوة على ذلك ، هذا ليس ضروريًا لهواة الجمع من المشتركين والنجوم.

ولكن بالنسبة للأشخاص الذين لديهم على الأقل بعض الاهتمامات الاتصالية فيما يتعلق بـ VK ، فمن المهم جدًا أن يكونوا أصدقاء معهم. وبالطبع ، لن يتمكنوا من جمع 6000 رجل في أصدقائهم الذين سيشاركون فقط في إعادة النشر وصور النساء العاريات والإعلان عن براميل التصريف بخصم من مستودع في Novy Urengoy.

وعلى هذا الأساس ، يمكنك محاولة وضع معيار يتم من خلاله تحديد الأشخاص المهتمين بمحتوى خلاصتهم. هؤلاء الناس يظهرون ملامح الشخص الحقيقي. الشخص الذي يقوم ، على الأقل ، بتنفيذ فعل تواصلي أحادي الجانب ذي مغزى. في الوقت الحاضر ، هذا ليس صغيرا جدا.

تبادر إلى ذهني معياران:

متوسط القاموس لأصدقاء شخص ما لـ N من المشاركات الأخيرة
النسبة المئوية للمشاركات بدون نصوص من أصدقاء الشخص الذي يتم التحقق منه.

وعلى أساس شيء من هذا القبيل ، يمكنك بالفعل محاولة بناء نوع من النماذج التي تميز الأشخاص المثيرين للاهتمام عن غير المثيرين للاهتمام.

وكيف انتهى بي المطاف بالتحقق من هذا؟

لقد اخترت 50 صديقًا عشوائيًا و 50 متابعًا عشوائيًا استوفوا بعض المعايير التي من شأنها قطع المزيفين الواضحين أو الأطفال أو الأشخاص الذين لم يستخدموا كل شيء. اكتب أنه لا يجب إلغاء تنشيط المستخدم وفي نفس الوقت يجب أن يكون لديه أكثر من 50 صديقًا موجودًا.

نظرت من خلال كل هؤلاء الناس وحددت أي منهم هو "بوت" وأيهم ليس كذلك. بطبيعة الحال ، كان معظم الأصدقاء حقيقيين ، وعرض معظم المشتركين شراء شيء ما (ولكن كان هناك عدد قليل من الأشخاص الحقيقيين).

علاوة على ذلك ، أخذت أول 100 مشاركة من كل صديق للشخص الذي يتم فحصه ، إذا كان هناك الكثير من الرسائل على الحائط. بالنسبة لكل شخص ، فكرت في عاملين من هذا القبيل:

متوسط حجم قاموس أصدقاء الشخص لأول 100 مشاركة. على سبيل المثال 50 صديق ، لكل منهم ما يقرب من 100 وظيفة. لكل صديق ، يتم تجميع كل الكلمات من 100 مشاركة في كومة ، ومختومة ويتم النظر في عدد الكلمات الفريدة لصديق. علاوة على ذلك ، يعتبر متوسط جميع الأصدقاء الخمسين. من هذه القيمة ، تم أخذ الجذر - SQRT (Dic).
إذا كان لدى الصديق أكثر من 60 من أصل 100 وظيفة بدون كلمات ، يتم تمييزه على أنه "مفقود". النسبة المئوية للأشخاص "الضائعين" في الأصدقاء هي العامل الثاني - النسبة المئوية.

ظهر عامل آخر عن طريق الصدفة. هذا هو اللوغاريتم من Idy في VK log10 (ID)

حول هذا ، دربت الجميع على الانحدار اللوجستي ، وحصلت على هذا:

تسجيل (OR) = 9.92-1.537 * log10 (ID) + 0.067 * SQRT (Dic) -0.023 * النسبة المئوية

بالنسبة لجزء الاختبار في العينة ، حصلنا على مصنف جيد جدًا مع AUC = 0.93. هذا هو منحنى ROC :

ROC منحنى المصنف الذي يحدد محتوى صفحة الشخص

تثار بعض الأسئلة حول أهمية معرف VC لتصنيف محتوى الشخص ، ولكن يبدو للأسف أنه يعمل بهذه الطريقة. كلما كان المعرّف من 1 ، زادت احتمالية كونه مجرد روبوت مصنوع للإعلان عن القروض الصغيرة. بدون معرف ، يعمل المصنف أيضًا ، ولكنه أسوأ. الجامعة الأمريكية بالقاهرة = 0.78. هذا ليس جيدًا بشكل مباشر ، ولكنه ليس أيضًا غير مباشر.

على أي حال ، القرار النهائي بشأن فائدة الشخصية يعود إلى صانع القرار.

فحص إضافي

لقد أخذت جميع المشتركين فيها البالغ عددهم 5000 مشترك من أحد رفاقي ، حيث ، بالطبع ، تم إرسال 95 ٪ من خبث الإعلان وتم تشغيل الانحدار دون تدريب إضافي. مع قطع 20 ٪ ، خرجت النتائج مثل TP = 78 ٪ ، FP = 11 ٪ . هذا ، بشكل عام ، على الشخص التعسفي ، يعمل هذا أيضًا بشكل أو بآخر.

هل يمكنهم صنع روبوتات تجتاز هذا الاختبار؟

نعم ، من السهل بما فيه الكفاية إنشاء روبوت مع بعض المنشورات ذات المغزى الزائف محاطة بالأصدقاء ، ولكن حتى الآن لا يحتاج إليها أحد. حسنًا ، من الصعب الإزعاج بمحتوى مختلف ، لأنه إذا كانت جميع برامج الروبوت تولد الشيء نفسه ، فمن السهل أيضًا التعرف عليه.

هل من الممكن إنشاء تطبيق يتحقق من الأشخاص من خلال معرف؟

ممكن على الأرجح ، لكني أقوم بتفكيكها لأرحب مرحبا VK. إذا أراد أي شخص ، دعه يفعل ذلك. يبدو أن الطريقة موصوفة ، فكرتها بسيطة.

هل هو شائع جدا؟

كفى ولكن فجأة سوف يكون شخص ما مفيدًا كقاعدة لتطوراتهم. يمكن أن تكون هذه الطريقة معقدة بسهولة ، على سبيل المثال ، من خلال النظر ليس فقط في طول القواميس ، ولكن بالنظر إلى المحتوى. هنا يمكنك بالفعل استخدام القوة الكاملة لـ NLP والتدريب في المحتوى. لا يزال بإمكانك أخذ المصنفات الأكثر تعقيدًا: الأشجار والشبكات العصبية وما إلى ذلك. يمكن أن يكون كل هذا معقدًا ، ولكن من المهم أن تعطي الأشياء البسيطة شيئًا مثيرًا للاهتمام.