اتجاهات تحليل يوتيوب الروسي لعام 2018

ربما لن يتذكر الموقرون القدامى ، لكن في نهاية عام 2017 في المناقشات على الإنترنت ، تم تعميم فكرة أن اتجاهات YouTube غالبًا ما تعرض مقاطع فيديو "مختصرة".


لذلك ، عشية العام الجديد 2018 ، كتبت أداة مساعدة لجمع معلومات حول مقاطع الفيديو التي تدخل في الاتجاهات. لكل فيديو ، يُطلب أيضًا اسمًا وقائمة بالعلامات وتاريخ الإنشاء وتاريخ التغييرات في الورنيش / الأشياء التي لا تعجبهم / مشاهداتهم. تم إجراء التطوير على TypeScript for NodeJS ، تم نشر الكود نفسه على جيثب .


نتيجة لذلك ، هناك الآن فرصة لبناء رسومات جميلة:
رسم بياني للتغيرات في عدد الإعجابات والكره


هناك أيضًا فرصة لإنشاء رسوم بيانية لتغييرات الاتجاهات حسب الكلمات الرئيسية. في المجموع ، لعام 2018 ، تم جمع المعلومات على 29271 فيديو. يتم جمع الإحصاءات الآن.



المبدأ العام للعمل


  1. مرة واحدة كل 5 دقائق ، يتم أخذ قائمة الاتجاهات الحالية.
  2. لكل فيديو جديد ، يتم حفظ المعلومات الأساسية (العنوان ، قائمة العلامات ، تاريخ الإنشاء)
  3. بناءً على العنوان والعلامات ، يتم تعيين كل فيديو على سحابة الكلمة الرئيسية.
  4. وفقًا للجدول الزمني ، يتم طلب معلومات حول الإعجابات / مقاطع الفيديو / مقاطع الفيديو لكل فيديو. يتم جمع الإحصاءات في غضون يومين ، ويتم إرسال طلبات أول مرة على فترات من دقيقتين ، ثم يزيد الفاصل الزمني. إذا كان هناك شك في الغش ، فسيتم ضبط الفاصل الزمني مرة أخرى على دقيقتين.

إذا كان الرسم البياني للتغيرات في عدد الإعجابات / الأشياء التي لم تعجبهم في أي من الأقسام هو خط مستقيم ، فسيتم حفظ القيمة الأولى والأخيرة فقط في هذا القسم. يتم ذلك لتقليل حجم قاعدة البيانات. يوجد الآن في الجدول مع الإحصاءات 6908449 من السجلات فقط ، على القرص ، يشغل الجدول 458 ميغابايت.


مبدأ الكشف التلقائي عن هوامش الربح


بنفسي ، قمت بصياغة المشكلة على النحو التالي: أنت بحاجة إلى وضع علامة على الفيديو الذي يحتوي على "سلم" على الرسم البياني لأحب / يكره التغييرات. يتم تحديد خطوات هذا السلم بالذات على أساس ثلاثة قياسات مجاورة للإحصاءات. تؤخذ الزاوية بين خطين في الاعتبار: يتم رسم خط واحد بين القياسات الأولى والثانية ، والثانية - بين الثانية والثالثة ، وكذلك أطوال القطاعات. ويلاحظ أيضا الرسوم البيانية التي تحتوي على العديد من المخالفات الصغيرة.


مثال على مخطط مريب:

مثال الرسم البياني المشبوهة


تم تحديد جميع معلمات الخوارزمية بواسطتي يدويًا والتحقق من الفيديو الذي تم تجميعه بالفعل في ذلك الوقت وخلال العام تم إجراء تغييرات على هذه الخوارزمية. لذلك ، فإن معالجة مثل هذه النتائج بجدية لكل فيديو فردي ربما لا يستحق كل هذا العناء. في دفاعي ، يمكنني القول أنه عند تغيير المعلمات ، بدأ إعادة فرز الأصوات لجميع مقاطع الفيديو التي تم جمعها بالفعل ، وبالتالي تم تطبيق نفس الخوارزمية على جميع مقاطع الفيديو.


بشكل عام ، من المستحيل تحديد ما إذا كان هناك ترميز على مخطط (أو عدة) من التغييرات في الإعجابات / الأشياء التي لا تعجبهم. يمكن تفسير أي اختلافات مشبوهة من خلال تشغيل CQRS أو التوهجات الشمسية. نعم ، هناك رسم بياني سلس ، والآخر متدرج ، ولكن هل من الممكن أن تواجه جميع مقاطع الفيديو هذا السلوك من حين لآخر؟ هذا هو السبب ، لتجميع الصورة الشاملة ، تم جمع المعلومات من جميع مقاطع الفيديو التي ضربت الاتجاهات.


التفاف الإحصاءات


لعام 2018 ، أظهرت الخوارزمية النتائج التالية:
اشتباه في الغش: 180 فيديو (0.32٪ من إجمالي عدد الفيديوهات)
الغش المشتبه به في حالات عدم الإعجاب: 1303 مقطع فيديو (4.45٪ من إجمالي عدد مقاطع الفيديو)


يوجد عدد قليل من مقاطع الفيديو ذات الرسوم البيانية المشبوهة ، ولكن لم يكن هذا هو الحال دائمًا: في الشهر الأول من عام 2018 ، تم تسجيل 96 مقطع فيديو من هذا القبيل (أكثر من 50٪ من إجمالي الإعجابات المشبوهة في العام). ومع ذلك ، في فبراير كان هناك عدد أقل بكثير من هذه الفيديوهات ، 8 فقط.


هنا ، ربما يجب أن تتحول مرة أخرى إلى المستخدمين القدامى الذين قد يتذكرون (أو لا يتذكروا) الحدث الذي وقع في 10 يناير 2018 ، عندما حظر YouTube العديد من القنوات . من جهتي ، أستطيع أن أقول أنه من بين تلك المحظورة ، كانت هناك أدوات تمكنت الأداة المساعدة من جمع المعلومات عليها. جدولة أحد مقاطع الفيديو المحذوفة:

الصورة


إذا افترضنا أن هناك غشًا كبيرًا ، فيبدو أن YouTube قام بالكثير من العمل والآن يمكنك مشاهدة مقاطع الفيديو العصرية كما هو الحال في مقاطع الفيديو ليس كل يوم (وتلك التي تحدث غالبًا ما تكون بمثابة حادث أو خطأ). من ناحية أخرى ، يمكن تفسير هذا الاختلاف في الترميز من خلال حقيقة أنه ، على عكس الكراهية ، ليس من المنطقي إنهاء مقاطع الفيديو التي أصبحت عصرية بالفعل.


وبعض الإحصاءات الأخرى. في المتوسط ​​، 21.569 إعجابًا و 2،863 إعجابًا يكتسبون مقاطع الفيديو الشائعة.
اشتباه في الغش يحب: 15502/4250
الغش المشبوهة على شاشات: 16868/22087
وبالتالي ، إذا نظرت إلى النتيجة ، فلن يكون هناك أي فائدة لتكوين إعجابات ، بينما من الممكن زيادة النسبة المئوية للكراهية.


المخططات المشبوهة للكراهية غير متساوية. على سبيل المثال ، على قناة Yevgeny Roizman ، من بين 21 مقطع فيديو أصبحت تتجه ، تم وضع الخوارزمية في أكثر من نصفها على أنها جرح بسبب الكراهية.


بخصوص الرسم البياني من عنوان هذه المقالة. إذا افترضنا أن هناك مجموعة من الحسابات بمبلغ يتراوح بين 5 و 10 آلاف ، والتي تم منحها أولاً الأمر بوضع الكراهية ، ومن ثم دون انتظار نهاية العمل على نفس المجموعة ، فقد أعطوا الأمر لوضع أمثال ، ثم ، على الأرجح ، يمكنك الحصول على جدول زمني مماثل.


أغرب رسم بياني رأيته:

الصورة
سأكون ممتناً لو قدم أحدهم شرحًا لما يجري بحق الجحيم هنا. بالمناسبة ، يمكنك أن ترى أنه وفقًا لهذا الرسم البياني ، تم جمع الإحصاءات لمدة أسبوع تقريبًا ، وليس يومين.


مبدأ الخوارزمية لقياس شعبية الكلمات الرئيسية


كما سبق وقلت ، يتم حفظ الاسم ومجموعة العلامات لكل مقطع فيديو. بعد ذلك ، يتم تقسيم الاسم وكل علامة من علامات التمييز إلى كلمات منفصلة ، يتم تشغيلها من خلال أداة الاختزال ويتم حفظها ككلمة أساسية في الفيديو.


الحصول على معلومات حول الوقت الذي دخل فيه الفيديو إلى الاتجاهات وعندما خرج عن الاتجاهات ، فضلاً عن مجموعات من الكلمات للفيديو ، يمكنك عمل رسم بياني للتغير في شعبية كل كلمة من الكلمات الرئيسية. في الوقت الحالي ، يتم إنشاء جدول لتغيير مؤشرات ترابط الكلمات الرئيسية يوميًا. كتدبير ، يتم استخدام إجمالي الوقت (بالساعات) ، حيث كانت جميع مقاطع الفيديو بهذه الكلمة الرئيسية في الاتجاهات.


مثال: في الاتجاهات ، لم يكن هناك سوى مقطعين فيديو يطابقان الكلمة الرئيسية. استمر فيديو واحد لمدة 5 ساعات في الاتجاهات ، والآخر 10 ساعات. ثم يتم تعيين شعبية الكلمة الرئيسية مساوية 10 + 5 = 15.


أمثلة شعبية الكلمات الرئيسية


وفقًا للخوارزمية التي كتبتها أعلاه ، فإن الحدث الأكثر رنينًا والأكثر شهرة في عام 2018 لم يكن الانتخابات أو حتى كرة القدم ، ولكن المأساة في كيميروفو:

مخطط الاتجاه: كيميروفو ، الانتخابات ، كرة القدم


على عكس جميع الأحداث الأخرى ، أثرت مأساة كيميروفو على الجميع ، وأدى الفيديو الذي تم عرضه على هذا الحادث إلى إبعاد كل شخص عن الاتجاهات.


حسنا ، قليلا من السياسة:

الصورة


كيف تشعر


عرض الرسوم البيانية واللعب مع الاتجاهات هنا .


الآن يعمل النظام على Amazon Cloud ، يتم استخدام حالتين:

  • t2.micro - خادم الويب
  • t3.small هو خادم مع الخلية. يتم تشغيل الأدوات المساعدة لجمع الإحصائيات على نفس الخادم.

ربما ، في حالة التحميل ، سوف يسقط خادم الويب أولاً ، بينما سيواصل الخادم الثاني جمع الإحصاءات. هذا هو لي حقيقة أنه لا توجد حاجة للدهشة إذا توقف كل شيء عن العمل.

يمكن تنزيل قاعدة البيانات نفسها اعتبارًا من 01/23/2019 من هنا .


أيضا ، في وقت واحد كتب اثنين من المكونات الإضافية لكروم و filrefox . الآن الفائدة الوحيدة: مباشرة على قائمة اتجاهات YouTube يمكنك مشاهدة عدد الإعجابات / الأشياء التي لم تعجبهم في كل مقطع فيديو.

Source: https://habr.com/ru/post/ar436750/


All Articles