À propos des bizarreries de la habrostatistique

Et avant, j'ai remarqué un comportement étrange des évaluations, mais récemment, l'étrangeté s'est manifestée trop clairement. Et j'ai décidé d'étudier le problème avec les méthodes scientifiques à ma disposition, à savoir: analyser la dynamique du plus-moins. Soudain imaginé?

Je suis toujours programmeur, mais je sais faire des choses très basiques. J'ai donc codé un utilitaire simple qui recueille des statistiques à partir des panneaux du poste Habrovsky: avantages, inconvénients, vues, signets, etc.



Les statistiques sont affichées sous forme de graphiques, après avoir étudié ce qui a permis de trouver quelques autres surprises, plus petites. Mais tout d'abord.

Étrangeté 1.
Avec elle, en fait, mon étude statistique a commencé.

Il m'a semblé étrange que dans les premières heures après la publication de certains de mes messages, ils soient devenus brusquement négatifs, puis ils ont été remis à zéro et, finalement, ils ont gagné le plus attendu. Pourquoi serait-ce?

J'étais sur le point de publier un autre article - en deux parties. Il a décidé de le soumettre à une préparation statistique.

Publié la première partie. En même temps, il a lancé l'utilitaire et a commencé à attendre le résultat. Malheureusement, la nuit - alors que j'étais ivre - le programme a cessé de collecter des informations en raison d'un bogue admis. Le lendemain matin, j'ai corrigé l'erreur, mais les statistiques se sont révélées incomplètes pendant une journée. Cependant, les tendances sont évidentes pour les heures travaillées.

Les données sont données pour les 14 premières heures à compter de la date de publication, l'intervalle entre les mesures est de 10 minutes.



Les yeux ne sont pas trompés: la plupart des inconvénients sont dans la première heure de la poste. D'abord, le poste est allé brusquement, puis s'est redressé. Voici les nombres sur lesquels le graphique est construit:



Et cela malgré le fait que les vues augmentent en douceur!



Les étapes allant des millièmes s'expliquent par le fait que les réductions commencent dans le panel Khabrovsky: il n'y a nulle part où prendre le nombre exact de vues (cela pourrait probablement être pris par des services tiers, mais je ne les ai pas utilisés).

Je ne suis pas spécial en statistique, mais une telle répartition des inconvénients est anormale, pour autant que je sache?!

Regardez, les signets sont répartis plus ou moins uniformément sur la période d'enregistrement:



Les commentaires sont également répartis uniformément:



Des explosions d'activité et de passivité sont observées, mais elles sont également réparties par période: les commentaires s'estompent, puis reprennent.

La même chose avec les abonnés - il y a une légère augmentation uniforme:



Le karma pour la période considérée n'a pas changé - je ne l'apporte pas. Et la note est calculée par Habré, cela n'a aucun sens de l'apporter.

Tous les indicateurs changent proportionnellement au nombre de vues, et c'est seulement avec les inconvénients que quelque chose ne va pas: un flash d'amertume tombe sur la première heure depuis le début de la publication. La même chose a été observée avec mes messages précédents. Mais si auparavant c'était, pour ainsi dire, des impressions personnelles, maintenant maintenant elles sont confirmées par l'inscription.

À mon avis purement nubien, une telle distribution signifie: il y a plusieurs utilisateurs assis sur le site qui regardent délibérément les derniers messages publiés et certains des messages, en fonction des besoins connus d'eux seuls, sont masqués. J'écris «certains des articles», car j'ai remarqué cet effet non seulement dans mes publications. Dans tous les cas, l'effet est prononcé, sinon je n'y aurais tout simplement pas prêté attention.

J'ai quatre versions de pourquoi cela se produit.

Version 1. Distorsion mentale. Les personnes malades gardent spécifiquement les auteurs désagréables et les moins afin de leur faire du mal.

Je ne crois pas à cette version.

Version 2. Effet psychologique. Lequel - je ne sais pas. Eh bien, pourquoi les lecteurs d'abord à l'unanimité moins un article, puis au moins à l'unanimité plus? Moins comme non thématique, mais en plus les connaisseurs de beauté sont majoritaires? Je ne sais pas, je ne sais pas.

S'il y a des psychologues parmi les lecteurs, laissez-les dire leur mot de poids.

Version 3. Les serveurs sont opérationnels. Pourquoi leurs patrons devraient-ils calomnier les postes de Khabrov - Dieu sait. Cependant, il n'y a pas que des militaires dans notre pays. Qui les comprendra, la russophobie?!

Version 4. Les effets combinés de facteurs précédemment identifiés.

C'est tout à fait concevable.

Quoi qu'il en soit, les minusers parviennent à réduire le nombre de vues. Je ne connais pas les règles pour mettre les messages de Khabrov au sommet, je ne sais même pas si ces algorithmes ont été rendus publics ou non, mais c'est évident pour moi: une minusculation précoce empêche les messages ostracisés d'atteindre les sommets - plus précisément, cela retarde leur arrivée, ce qui est à son tour significativement fois, réduit le nombre de vues.

Autant que je sache, il n'existe aucun moyen efficace de lutter contre ce mal. Le seul moyen est le vote personnel. Seulement dans ce cas, vous pouvez déterminer de quels profils provient le suivi périodique et moins les derniers messages. Cependant, il n'y a pas de vote enregistré sur Habré (ou plutôt, il ne sera pas rendu public).

Mais pas si simple.

Comme je l'ai dit, le matériel préparé a été publié en plusieurs parties. Après la publication de la deuxième partie, je m'attendais à une image similaire: avec la sortie initiale vers moins et la suivante vers plus. Cependant, l'effet s'est avéré beaucoup plus fluide: le message n'est pas sorti en moins.

Au moment où la deuxième partie a été publiée, le bug a été corrigé, donc les données sont fournies par jour:



Je ne sais pas d'où vient le lissage. Peut-être à cause de la publication du samedi (les mineurs les samedis ne fonctionnent pas?) Ou au fait que c'est la fin du matériel déjà publié.

Cependant, la répartition des inconvénients est encore inégale: tous les inconvénients se situent dans la première moitié de la période d'inscription et le moins se termine bien plus tôt que le plus. Dans le même temps, les vues sont réparties sur la période exactement comme la dernière fois - uniformément:



Le saut qui s'est produit vers trois heures de l'après-midi n'est pas du matériel classifié. Pendant une heure, mon Internet a été coupé. L'utilitaire n'a pas pu se connecter au site.



Tout le reste est complètement standard.

Signets:



Commentaires: comme la dernière fois, des périodes d'activité alternent avec des périodes de silence.



Karma Une augmentation de quelques unités a été enregistrée - bien sûr, pas simultanément:



Et les abonnés. Le nombre total est resté inchangé (apparemment, ceux qui souhaitent s'inscrire lorsque la première partie a été publiée). Il ne s'est produit qu'une heure environ dans l'après-midi: une personne s'est désinscrite - peut-être par erreur - mais s'est immédiatement inscrite à nouveau. S'il s'agissait d'une autre personne, une compensation s'est produite: le nombre total d'abonnés n'a pas changé.



Ainsi, les indicateurs de poste se comportent de manière compréhensible et prévisible. Tous les indicateurs, à l'exception des inconvénients. Comme je ne vois pas de raison évidente à cela, je trouve le pic négatif au moins étrange.

Étrangeté 2.
Parfois, le nombre de vues diminue (ce qui, bien sûr, est impossible), mais revient rapidement à la normale.

Je l'ai suivi par accident, lors du débogage du programme, lorsque la fonction d'exportation-import n'était pas encore attachée, donc le zigzag correspondant est manquant sur le graphique. Vous pouvez prendre un mot - cet effet a été observé deux fois. Plusieurs milliers de vues, du coup le nombre de vues diminue de quelques centaines, après 10-20 minutes il revient au niveau précédent (sans tenir compte de l'augmentation naturelle).

Avec ça, c'est assez simple: un bug sur le site. Et il n'y a rien à penser.

Étrangeté 3.
C'est ce qui m'a semblé bien plus étrange que le premier effet volontariste et le second effet technique. Les avantages ne se produisent pas individuellement, avec une distribution uniforme sur la période, mais en blocs. Mais plus n'est pas un commentaire, quand une question suit naturellement une réponse, c'est un acte individuel!

Jetez un œil aux graphiques de résultats publiés ci-dessus: les blocs sont visibles.

Des gens bien informés m'ont fait signe de la tête de la distribution de Poisson, mais je ne suis pas en mesure de calculer la probabilité moi-même. Si vous en êtes capable, comptez. Pour moi, il est déjà évident que le nombre de doubles avantages est beaucoup plus élevé que la norme.

Voici les données numériques sur les pros de la première partie du post. Le graphique montre le nombre de points positifs par unité, les positions doubles et triples dans le nombre total de notes. Comme mentionné précédemment, l'intervalle de mesure est de 10 minutes.



De 30 coups dans 84 cellules, deux cellules ont été poussées trois fois. Eh bien, je ne sais pas dans quelle mesure cela correspond à la théorie des probabilités ...

Données sur la deuxième partie du poste (puisque la période de mesure est plus longue, je la raccourcis de la durée de la première partie, à des fins de comparabilité):



Soit dit en passant, ici l'un des avantages simples se joint au triple ici dans le temps, c'est-à-dire qu'en 20 minutes environ, il y a eu une forte augmentation de l'offre (29% du nombre total d'avantages ont été livrés). Et cela ne s'est pas produit dans les premières minutes de publication.

Le rapport entre les positions simple, double et triple est approximativement le même que pour la première partie. Une diminution de la part des notes dans les mesures s'explique par le fait que les notes ont été fixées moins souvent. Des mesures ont été faites, mais aucun avantage n'a été enregistré.

Je ne peux en aucun cas expliquer cet effet du remplissage de bloc, c'est-à-dire en aucune façon. Pour les inconvénients, un tel comportement «en bloc» ne semble pas typique.

Les émetteurs de bonnes envoient des suggestions par portions, puis s'allument et s'éteignent? Hé hé hé ...

PS
Si quelqu'un souhaite analyser les statistiques des publications à l'aide de méthodes plus avancées ou vérifier l'arithmétique, les fichiers contenant les données source sont ici:
yadi.sk/d/iN4SL6tzsGEQxw

Je n'insiste pas sur mes doutes - peut-être que je me trompe, d'autant plus qu'en statistiques il n'y a pas de belmez. J'espère que les commentaires des statisticiens professionnels, des psychologues et des autres utilisateurs intéressés clarifieront la perplexité qui a surgi.

Merci de votre attention.

Source: https://habr.com/ru/post/fr473354/


All Articles