Les anciens ne s'en souviendront probablement même pas, mais à la fin de 2017, lors des discussions sur Internet, l'idée a circulé que les tendances YouTube comportent souvent des vidéos «liquidées».
Par conséquent, à la veille de la nouvelle année 2018, j'ai écrit un utilitaire pour collecter des informations sur les vidéos qui sont entrées dans les tendances. Pour chaque vidéo, un nom, une liste de tags, une date de création sont demandés, et un historique des changements de vernis / aversions / vues est également conservé. Le développement a été effectué sur TypeScript pour NodeJS, le code lui-même est publié sur GitHub .
En conséquence, il est maintenant possible de créer de beaux graphismes:

Il est également possible de créer des graphiques des changements de tendance par mots clés. Au total, pour l'année 2018, des informations ont été collectées sur 29271 vidéos. Des statistiques sont en cours de collecte.
Principe général de travail
- Toutes les 5 minutes, la liste actuelle des tendances est prise.
- Pour chaque nouvelle vidéo, les informations de base sont enregistrées (titre, liste des tags, date de création)
- En fonction du titre et des tags, chaque vidéo est mappée sur un nuage de mots clés.
- Selon le calendrier, des informations sur les goûts / aversions / vues pour chaque vidéo sont demandées. Les statistiques sont collectées dans les deux jours, les premières demandes sont envoyées à des intervalles de 2 minutes, puis l'intervalle augmente. En cas de suspicion de tricherie, l'intervalle est à nouveau réglé sur 2 minutes.
Si le graphique des changements dans le nombre de j'aime / n'aime pas dans l'une des sections est une ligne droite, seule la première et la dernière valeur de cette section sont enregistrées. Cela est fait pour réduire le volume de la base de données. Maintenant, dans le tableau avec les statistiques, il n'y a que 6908449 enregistrements, sur le disque, la table occupe 458 Mo.
Le principe de la détection automatique des annotations
Pour ma part, j'ai formulé le problème comme suit: vous devez marquer la vidéo qui a une «échelle» sur le graphique des changements de j'aime / n'aime pas. Les étapes de cette échelle sont déterminées sur la base de trois mesures de statistiques adjacentes. L'angle entre deux lignes est pris en compte: une ligne est tracée entre la première et la deuxième mesure, la seconde - entre la deuxième et la troisième, ainsi que les longueurs des segments. Les graphiques présentant de nombreuses petites irrégularités sont également notés.
Un exemple de graphique suspect:

Tous les paramètres de l'algorithme ont été déterminés par mes soins manuellement et vérifiés sur la vidéo déjà collectée à ce moment-là et au cours de l'année, des changements ont été apportés à cet algorithme. Par conséquent, le traitement sérieux de ces résultats pour chaque vidéo individuelle n'en vaut probablement pas la peine. Pour ma défense, je peux dire que lors du changement des paramètres, un recomptage a été lancé pour toutes les vidéos déjà collectées, donc le même algorithme a été appliqué à toutes les vidéos.
En général, il est impossible de dire s'il y a eu une majoration sur un (ou plusieurs) tableau des changements dans les likes / détestes. Toute différence suspecte peut être expliquée par le fonctionnement du CQRS ou des éruptions solaires. Oui, un graphique est fluide, l'autre est pas à pas, mais est-il possible que toutes les vidéos rencontrent occasionnellement un tel comportement? C'est pourquoi, pour compiler l'image globale, des informations ont été collectées à partir de toutes les vidéos qui ont frappé les tendances.
Statistiques de bouclage
Pour 2018, l'algorithme a montré les résultats suivants:
Suspicion de tricherie aime: 180 vidéos (0,32% du nombre total de vidéos)
Suspicion de triche sur les aversions: 1303 vidéos (4,45% du nombre total de vidéos)
Il y a peu de vidéos avec des graphiques de goûts suspects, mais ce n'était pas toujours le cas: au premier mois de 2018, 96 de ces vidéos ont été enregistrées (plus de 50% de tous les likes suspects de l'année). Cependant, en février, il y avait beaucoup moins de telles vidéos, seulement 8.
Ici, vous devriez probablement à nouveau vous tourner vers les anciens qui peuvent se souvenir (ou ne pas se souvenir) de l'événement qui s'est produit le 10 janvier 2018, lorsque YouTube a bloqué de nombreuses chaînes . Pour ma part, je peux dire que parmi ceux bloqués il y avait ceux sur lesquels mon utilitaire a réussi à collecter des informations. Planification pour l'une des vidéos supprimées:

En supposant qu'il y ait vraiment eu des tricheurs, il semble que YouTube ait fait beaucoup de travail et maintenant vous pouvez trouver des vidéos tendances qui sont suspectes dans les likes pas tous les jours (et celles qui se produisent le plus souvent ressemblent à un accident ou à une erreur). D'un autre côté, une telle différence dans les marges peut s'expliquer par le fait que, contrairement à l'aversion, il n'a pas de sens de conclure les goûts de vidéos qui sont déjà devenues à la mode.
Et quelques statistiques supplémentaires. En moyenne, 21 569 likes et 2 863 dislags gagnent en vidéos tendance.
Suspicion de tricherie aime: 15502/4250
Tricherie suspecte sur les écrans: 16868/22087
Ainsi, si vous regardez le résultat, il n'est pas utile de créer des likes, alors qu'il est tout à fait possible d'augmenter le pourcentage de dégoûts.
Les graphiques suspects pour les aversions sont inégaux. Par exemple, sur la chaîne de Yevgeny Roizman, sur 21 vidéos qui sont devenues tendance, plus de la moitié sont marquées par l'algorithme comme enroulées par des aversions.
Concernant le graphique du titre de cet article. Si nous supposons qu'il existe un ensemble de comptes d'un montant de 5 à 10 000, qui ont d'abord reçu la commande de mettre des aversions, puis sans attendre la fin du travail sur le même ensemble, ils ont donné la commande de mettre des likes, alors vous pouvez probablement obtenir un calendrier similaire.
Le graphique le plus étrange que j'ai vu:

Je serais reconnaissant si quelqu'un offre une explication de ce qui se passe ici. Soit dit en passant, vous pouvez voir que selon ce graphique, les statistiques ont été collectées pendant près d'une semaine, pas deux jours.
Le principe de l'algorithme de mesure de la popularité des mots-clés
Comme déjà dit, pour chaque vidéo, le nom et le jeu de tags sont enregistrés. Ensuite, le nom et chacune des balises sont divisés en mots distincts, ils sont exécutés dans le stemmer et enregistrés en tant que nuage de mots clés pour la vidéo.
En ayant des informations sur le moment où la vidéo est entrée dans les tendances et quand elle est sortie des tendances, ainsi que des ensembles de mots pour la vidéo, vous pouvez faire un graphique du changement de popularité pour chacun des mots clés. À l'heure actuelle, un calendrier de modification des threads de mots clés est en cours d'élaboration quotidiennement. Comme mesure, le temps total (en heures) est utilisé, ce que toutes les vidéos avec ce mot-clé étaient dans les tendances.
Exemple: dans les tendances, il n'y avait que deux vidéos correspondant au mot-clé. Une vidéo a duré 5 heures dans les tendances, les 10 autres heures. Ensuite, la popularité du mot clé est définie sur 10 + 5 = 15.
Exemples de popularité des mots clés
Selon l'algorithme que j'ai écrit ci-dessus, l'événement le plus retentissant et le plus notable de 2018 n'a pas été les élections ni même le football, mais la tragédie de Kemerovo:

Contrairement à tous les autres événements, la tragédie de Kemerovo a touché tout le monde et la vidéo sur cet incident a chassé tout le monde des tendances.
Eh bien, un peu de politique:

Comment se sentir
Consultez les graphiques et jouez avec les tendances ici .
Maintenant que le système fonctionne sur Amazon Cloud, deux instances sont utilisées:
- t2.micro - serveur web
- t3.small est un serveur avec MySQL. Les utilitaires de collecte de statistiques sont exécutés sur le même serveur.
Peut-être qu'en cas de charge, le serveur Web tombera le premier, tandis que le deuxième serveur continuera à collecter des statistiques. C'est moi au fait qu'il n'y a pas lieu d'être surpris si tout cesse de fonctionner.
La base de données elle-même au 23/01/2019 peut être téléchargée ici .
Aussi, à un moment donné, il a écrit deux plugins pour chrome et filrefox . Maintenant, le seul avantage: directement sur la liste des tendances YouTube, vous pouvez voir le nombre de j'aime / n'aime pas pour chaque vidéo.