حول الشذوذ من habrostatistics

وقبل ذلك ، لاحظت سلوكًا غريبًا للتقييمات ، لكن في الآونة الأخيرة ، بدا الغرابة واضحًا جدًا. وقررت أن أبحث في المشكلة مع الأساليب العلمية المتاحة لي ، وهي: تحليل ديناميكيات زائد-ناقص. تخيلت فجأة؟

ما زلت مبرمجًا ، لكني أعرف كيفية القيام بالأشياء الأساسية جدًا. لذلك قمت بترميز أداة مساعدة بسيطة تجمع إحصائيات من لوحات وظيفة Habrovsky: إيجابيات وسلبيات وجهات نظر وإشارات مرجعية وغير ذلك.



يتم عرض الإحصائيات في الرسوم البيانية ، بعد الدراسة التي كان من الممكن العثور على بعض المفاجآت ، أصغر منها. لكن أول الأشياء أولا.

الغرابة 1.
معها ، في الواقع ، بدأت دراستي الإحصائية.

بدا لي غريباً أنه في الساعات الأولى بعد نشر بعض مشاركاتي أصبحت فجأة سلبية ، ثم تمت إعادة تعيينها إلى الصفر ، وفي النهاية حصلوا على الإضافة المتوقعة. لماذا سيكون ذلك؟

كنت على وشك نشر منشور آخر - في جزأين. قرر إخضاعها للإعداد الإحصائي.

نشرت الجزء الأول. في الوقت نفسه ، أطلق الأداة وبدأ انتظار النتيجة. لسوء الحظ ، توقف البرنامج في الليل - في حالة سكر - عن جمع المعلومات بسبب وجود خطأ معترف به. في صباح اليوم التالي أصلحت الخطأ ، ولكن تبين أن الإحصاءات غير مكتملة ليوم واحد. ومع ذلك ، فإن الاتجاهات واضحة لساعات العمل.

يتم تقديم البيانات لأول 14 ساعة من تاريخ النشر ، الفاصل الزمني بين القياسات 10 دقائق.



لا يتم خداع العيون: معظم السلبيات في الساعة الأولى من المنشور. أولا ، ذهب المنصب فجأة ، ثم تقويمها. فيما يلي الأرقام التي تم بناء الرسم البياني عليها:



وهذا على الرغم من حقيقة أن وجهات النظر تزيد بسلاسة!



يتم شرح الخطوات التي تنطلق من الألف من خلال حقيقة أن التخفيضات تبدأ في لوحة Khabrovsky: لا يوجد مكان لاتخاذ العدد الدقيق من المشاهدات (يمكن أن تؤخذ من خدمات الجهات الخارجية ، لكنني لم أستخدمها).

لست متخصصًا في الإحصائيات ، لكن توزيع السلبيات هذا أمر غير طبيعي ، بقدر ما أفهم؟!

انظر ، يتم توزيع الإشارات المرجعية أكثر أو أقل بالتساوي خلال فترة التسجيل:



يتم أيضًا توزيع التعليقات بالتساوي:



لوحظت رشقات من النشاط والسلبية ، ولكن يتم توزيعها أيضًا حسب الفترة: التعليق يتلاشى ، ثم يستأنف.

الشيء نفسه مع المشتركين - هناك زيادة طفيفة موحدة:



الكرمة للفترة المشمولة بالتقرير لم يتغير - أنا لا أحضره. ويتم احتساب التصنيف بواسطة هابري ، وليس من المنطقي إحضاره.

تتغير جميع المؤشرات بما يتناسب مع عدد مرات المشاهدة ، وفقط في حالات السلبيات ، يكون هناك شيء خاطئ: تسقط وميض من المرارة في الساعة الأولى من بداية النشر. لوحظ نفس الشيء مع مشاركاتي السابقة. ولكن إذا كان في وقت سابق ، إذا جاز التعبير ، انطباعات شخصية ، والآن يتم تأكيدها عن طريق التسجيل.

في رأيي النوبي البحت ، يعني هذا التوزيع: هناك العديد من المستخدمين الذين يجلسون على الموقع والذين ينظرون عن قصد إلى أحدث المنشورات المنشورة وبعض المنشورات ، بناءً على الاحتياجات المعروفة لهم فقط ، يتم تصغيرها. أكتب "بعض المنشورات" ، لأنني لاحظت هذا التأثير ليس فقط في مطبوعاتي. في جميع الحالات ، يكون التأثير واضحًا ، وإلا لن أكون قد اهتمت به.

لدي أربعة إصدارات لماذا يحدث هذا.

الإصدار 1. تشويه العقلية. يحرس المرضى المرضى على وجه التحديد المؤلفين غير السارة ونقصًا من أجل الإضرار.

أنا لا أؤمن بهذا الإصدار.

الإصدار 2. التأثير النفسي. الذي - لا أعرف. حسنًا ، لماذا يقوم القراء في البداية بالإجماع مطروحًا من منشور ، ثم على الأقل بالإجماع؟ ناقص غير الموضوعية ، ولكن زائد بعد خبراء الجمال هي في الغالبية؟ لا أعرف ، لا أعرف.

إذا كان هناك علماء نفس بين القراء ، فدعهم يقولون كلمتهم الثقيلة.

الإصدار 3. خوادم تعمل. لماذا يجب على رؤساءهم التشهير بخبروف المشاركات - الله يعلم. ومع ذلك ، هناك جنود ليس فقط في بلدنا. من سيفهمهم يا رهاب؟

الإصدار 4. الآثار مجتمعة من العوامل المحددة سابقا.

إنه أمر يمكن تصوره تمامًا.

وبغض النظر عن ذلك ، يتمكن ناقصو السيارات من تقليل عدد مرات المشاهدة. لست على دراية بالقواعد الخاصة بوضع منشورات خابروف في القمة ، لا أعرف حتى ما إذا كانت هذه الخوارزميات قد تم نشرها على الجمهور أم لا ، لكن هذا واضح بالنسبة لي: التقليل المبكر يمنع المشاركات المنبوذة من الوصول إلى القمم - وبشكل أكثر دقة ، فإنه يؤخر الوصول إلى هناك ، وهذا بدوره كبير. مرات ، يقلل من عدد المشاهدات.

بقدر ما أفهم ، لا توجد طرق فعالة لمكافحة هذا الشر. الطريقة الوحيدة هي التصويت الشخصي. في هذه الحالة فقط ، يمكنك تحديد ملفات التعريف التي تأتي من التعقب الدوري ناقص أحدث المشاركات. ومع ذلك ، لا يوجد تصويت مسجل على حبري (أو بالأحرى ، لن يتم الإعلان عنه).

لكن ليس بهذه البساطة.

كما قلت ، تم نشر المواد المعدة في أجزاء. بعد نشر الجزء الثاني ، توقعت صورة مماثلة: مع خروج أولي إلى ناقص و التالي إلى زائد. ومع ذلك ، فقد تبين أن التأثير كان أكثر سلاسة: لم يتم نشر المنشور بعد طرحه.

بحلول الوقت الذي تم فيه نشر الجزء الثاني ، تم إصلاح الخلل ، وبالتالي يتم تقديم البيانات يوميًا:



من أين جاء التجانس غير معروف بالنسبة لي. ربما بسبب المنشور يوم السبت (لا يعمل الناجحون يوم السبت؟) أو لأن هذه هي نهاية المواد المنشورة مسبقًا.

ومع ذلك ، لا يزال توزيع السلبيات غير متساوٍ: جميع السلبيات موجودة في النصف الأول من فترة التسجيل ، وينتهي الطرح في وقت أبكر بكثير من علامة الجمع. في الوقت نفسه ، يتم توزيع المشاهدات على مدار الفترة تمامًا مثل آخر مرة - بالتساوي:



القفزة التي حدثت حوالي الساعة الثالثة بعد الظهر ليست مادة مصنفة. لمدة ساعة فقط تم قطع اتصال الإنترنت الخاص بي. الأداة لا يمكن الاتصال بالموقع.



كل شيء آخر هو المعيار تماما.

العناوين:



التعليقات: آخر مرة ، تتناوب فترات النشاط مع فترات الصمت.



الكرمة. تم تسجيل زيادة في عدد من الوحدات - بالطبع ، ليس في وقت واحد:



والمشتركين. لم يتغير العدد الإجمالي (على ما يبدو ، أولئك الذين يرغبون في التسجيل عند نشر الجزء الأول). فقط حوالي ساعة في فترة ما بعد الظهر حدث تقلب واحد: شخص لم يتم الاشتراك فيه - ربما عن طريق الخطأ - ولكن تم تسجيله مرة أخرى على الفور. إذا كان شخصًا آخر ، فقد حدث تعويض: لم يتغير العدد الإجمالي للمشتركين.



لذا ، فإن مؤشرات النشر تتصرف بطريقة مفهومة ويمكن التنبؤ بها. جميع المؤشرات ، باستثناء السلبيات. نظرًا لأنني لا أرى سببًا واضحًا لذلك ، فإنني أجد الذروة ناقصًا غريبة على الأقل.

الغرابة 2.
في بعض الأحيان يتناقص عدد مرات المشاهدة (وهو أمر مستحيل بالطبع) ، لكن سرعان ما يعود إلى طبيعته.

لقد قمت بتتبعها عن طريق الصدفة ، أثناء تصحيح البرنامج ، عندما لم يتم إرفاق وظيفة التصدير والاستيراد بعد ، وبالتالي فإن الخط متعرج مفقود على الرسم البياني. يمكنك أن تأخذ كلمة - وقد لوحظ هذا التأثير مرتين. عدة آلاف من المشاهدات ، يتناقص عدد المشاهدات بشكل مفاجئ بضع مئات ، بعد 10-20 دقيقة يتم استعادتها إلى المستوى السابق (دون مراعاة الزيادة الطبيعية).

مع هذا ، الأمر بسيط للغاية: خطأ في الموقع. وليس هناك شيء للتفكير.

الغرابة 3.
هذا ما بدا لي أكثر غرابة من التأثيرات التطوعية الأولى والتقنية. الإيجابيات لا تحدث منفردة ، مع توزيع موحد على مدار الفترة ، ولكن في كتل. لكن الإضافة ليست تعليقًا ، عندما يتبع السؤال إجابة بشكل طبيعي ، فهي فعل فردي!

ألقِ نظرة على الرسوم البيانية للنتائج المنشورة أعلاه: الكتل ملحوظة.

أومأ الأشخاص المطلعون على إيمائي عند توزيع Poisson ، لكنني غير قادر على حساب الاحتمال بنفسي. إذا كنت قادرا ، عد. بالنسبة لي ، من الواضح بالفعل أن عدد الإيجابيات المزدوجة أعلى بكثير من المعيار.

هنا هي البيانات الرقمية على إيجابيات الجزء الأول من هذا المنصب. يوضح الرسم البياني عدد الإيجابيات لكل وحدة ، والمواقف المزدوجة والثلاثية في إجمالي عدد التصنيفات. كما ذكرنا سابقًا ، فاصل القياس 10 دقائق.



من 30 الوخزة في 84 خلية ، تم خنق خليتين ثلاث مرات. حسنًا ، لا أعرف كم يتوافق هذا مع نظرية الاحتمالات ...

بيانات الجزء الثاني من المنشور (نظرًا لأن فترة القياس أطول ، أقصرها خلال مدة الجزء الأول ، من أجل المقارنة):



بالمناسبة ، هنا واحدة من الإيجابيات المفردة تجاور مع الوقت ثلاثة أضعاف ، أي في حوالي 20 دقيقة كانت هناك زيادة في الإضافة (29 ٪ من إجمالي عدد الإيجابيات تم تسليمها). وهذا لم يحدث في الدقائق الأولى من النشر.

النسبة بين المواقف الفردية والمزدوجة والثلاثية هي نفسها تقريباً بالنسبة للجزء الأول. يفسر انخفاض حصة التصنيفات في القياسات بحقيقة أنه تم تعيين تقييمات أقل كثيرًا. تم إجراء قياسات ، ولكن لم يتم تسجيل أي إيجابيات.

لا أستطيع تفسير هذا التأثير لحشو البلوك بأي شكل من الأشكال ، وهذا بأي حال من الأحوال على الإطلاق. بالنسبة للسلبيات ، يبدو أن مثل هذا السلوك "الغريب" ليس نموذجيًا.

بواعث الخير ترسل اقتراحات جزئيا ، ثم تحول وإيقاف؟ هيه هه هه ...

PS
إذا كان لدى أي شخص رغبة في تحليل إحصائيات المنشورات باستخدام طرق أكثر تقدمًا أو التحقق من الحساب ، فإن الملفات التي تحتوي على البيانات المصدر موجودة هنا:
yadi.sk/d/iN4SL6tzsGEQxw

أنا لا أصر على شكوكي - ربما أكون مخطئًا ، لا سيما في الإحصائيات ، لا يوجد بلمز. آمل أن توضح تعليقات الإحصائيين المحترفين وعلماء النفس وغيرهم من المستخدمين المهتمين الحيرة التي نشأت.

شكرا لاهتمامكم

Source: https://habr.com/ru/post/ar473354/


All Articles