Oldtimer werden sich wahrscheinlich nicht einmal daran erinnern, aber Ende 2017 wurde in den Diskussionen im Internet die Idee verbreitet, dass YouTube-Trends häufig „abgewickelte“ Videos enthalten.
Daher habe ich am Vorabend des neuen Jahres 2018 ein Dienstprogramm geschrieben, um Informationen über Videos zu sammeln, die in Trends geraten sind. Für jedes Video wird ein Name, eine Liste von Tags, ein Erstellungsdatum angefordert und ein Verlauf der Änderungen an Lacken / Abneigungen / Ansichten wird ebenfalls gespeichert. Die Entwicklung wurde auf TypeScript für NodeJS durchgeführt, der Code selbst wird auf GitHub veröffentlicht .
Als Ergebnis gibt es jetzt die Möglichkeit, schöne Grafiken zu erstellen:

Es besteht auch die Möglichkeit, Diagramme von Trendänderungen anhand von Schlüsselwörtern zu erstellen. Insgesamt wurden für das Jahr 2018 Informationen zu 29.271 Videos gesammelt. Statistiken werden jetzt gesammelt.
Allgemeines Arbeitsprinzip
- Einmal alle 5 Minuten wird die aktuelle Liste der Trends erstellt.
- Für jedes neue Video werden grundlegende Informationen gespeichert (Titel, Liste der Tags, Erstellungsdatum).
- Basierend auf dem Titel und den Tags wird jedes Video einer Keyword-Cloud zugeordnet.
- Gemäß dem Zeitplan werden Informationen zu Vorlieben / Abneigungen / Ansichten für jedes Video angefordert. Statistiken werden innerhalb von zwei Tagen gesammelt. Wenn Anfragen zum ersten Mal in Intervallen von 2 Minuten gesendet werden, erhöht sich das Intervall. Wenn der Verdacht auf Betrug besteht, wird das Intervall erneut auf 2 Minuten eingestellt.
Wenn das Diagramm der Änderungen der Anzahl der Vorlieben / Abneigungen in einem der Abschnitte eine gerade Linie ist, werden nur der erste und der letzte Wert in diesem Abschnitt gespeichert. Dies geschieht, um das Volumen der Datenbank zu reduzieren. Jetzt in der Tabelle mit Statistiken gibt es nur 6908449 Datensätze, auf der Festplatte belegt die Tabelle 458 MB.
Das Prinzip der automatischen Erkennung von Markups
Für mich selbst habe ich das Problem wie folgt formuliert: Sie müssen das Video mit einer „Leiter“ in der Grafik der Änderungen von Vorlieben / Abneigungen markieren. Die Schritte dieser Leiter werden auf der Grundlage von drei benachbarten statistischen Messungen bestimmt. Der Winkel zwischen zwei Linien wird berücksichtigt: Eine Linie wird zwischen der ersten und zweiten Messung gezogen, die zweite - zwischen der zweiten und dritten - sowie die Länge der Segmente. Diagramme mit vielen kleinen Unregelmäßigkeiten werden ebenfalls notiert.
Ein Beispiel für ein verdächtiges Diagramm:

Alle Parameter des Algorithmus wurden von mir manuell ermittelt und anhand des zu diesem Zeitpunkt bereits gesammelten Videos überprüft. Im Laufe des Jahres wurden Änderungen an diesem Algorithmus vorgenommen. Daher lohnt es sich wahrscheinlich nicht, solche Ergebnisse für jedes einzelne Video ernsthaft zu behandeln. Zu meiner Verteidigung kann ich sagen, dass beim Ändern der Parameter eine Nachzählung für alle bereits gesammelten Videos gestartet wurde, daher wurde auf alle Videos der gleiche Algorithmus angewendet.
Im Allgemeinen ist es unmöglich zu sagen, ob es in einem (oder mehreren) Diagrammen einen Aufschlag für Änderungen der Vorlieben / Abneigungen gab. Verdächtige Unterschiede können durch den Betrieb von CQRS oder Sonneneruptionen erklärt werden. Ja, ein Diagramm ist glatt, das andere ist schrittweise, aber ist es möglich, dass alle Videos gelegentlich auf ein solches Verhalten stoßen? Aus diesem Grund wurden zur Erstellung des Gesamtbilds Informationen aus allen Videos gesammelt, die den Trends entsprechen.
Statistiken umbrechen
Für 2018 zeigte der Algorithmus die folgenden Ergebnisse:
Verdacht auf Betrug mag: 180 Videos (0,32% der Gesamtzahl der Videos)
Verdacht auf Abneigungen: 1303 Videos (4,45% der Gesamtzahl der Videos)
Es gibt nur wenige Videos mit verdächtigen Liking-Charts, aber dies war nicht immer der Fall: Im ersten Monat des Jahres 2018 wurden 96 solcher Videos aufgenommen (mehr als 50% aller verdächtigen Likes pro Jahr). Im Februar gab es jedoch viel weniger solcher Videos, nur 8.
Hier sollten Sie sich wahrscheinlich wieder an Oldtimer wenden, die sich möglicherweise an das Ereignis vom 10. Januar 2018 erinnern (oder nicht erinnern), als YouTube viele Kanäle blockierte . Ich für meinen Teil kann sagen, dass es unter den blockierten diejenigen gab, über die mein Dienstprogramm Informationen sammeln konnte. Planen Sie eines der gelöschten Videos:

Unter der Annahme, dass es wirklich Cheats gab, hat YouTube anscheinend viel Arbeit geleistet, und jetzt können Sie Trendvideos finden, die nicht jeden Tag in Likes verdächtig sind (und solche, die häufiger auftreten, sehen aus wie ein Unfall oder ein Fehler). Andererseits kann ein solcher Unterschied in den Markups durch die Tatsache erklärt werden, dass es im Gegensatz zu Abneigung nicht sinnvoll ist, solche Videos zu beenden, die bereits im Trend liegen.
Und noch ein paar Statistiken. Im Durchschnitt gewinnen 21.569 Likes und 2.863 Dislags an Trendvideos.
Verdacht auf Betrug mag: 15502/4250
Verdächtiges Betrügen von Displays: 16868/22087
Wenn Sie sich also das Ergebnis ansehen, ist es nicht sinnvoll, Likes aufzubauen, während es durchaus möglich ist, den Prozentsatz der Abneigungen zu erhöhen.
Diagramme, die für Abneigungen verdächtig sind, sind ungleichmäßig. Zum Beispiel wird auf dem Kanal von Jewgeni Roizman von 21 Videos, die im Trend liegen, mehr als die Hälfte vom Algorithmus als durch Abneigungen verwundet markiert.
In Bezug auf die Grafik aus dem Titel dieses Artikels. Wenn wir davon ausgehen, dass es eine Reihe von Konten in Höhe von 5-10.000 gibt, die zuerst den Befehl zum Ablegen von Abneigungen erhalten haben und dann, ohne auf das Ende der Arbeit am gleichen Satz zu warten, den Befehl zum Ablegen von Likes gegeben haben, können Sie wahrscheinlich einen ähnlichen Zeitplan erhalten.
Das seltsamste Diagramm, das ich gesehen habe:

Ich wäre dankbar, wenn jemand eine Erklärung anbieten würde, was zum Teufel hier los ist. Übrigens können Sie sehen, dass gemäß dieser Grafik Statistiken für fast eine Woche und nicht für zwei Tage gesammelt wurden.
Das Prinzip des Algorithmus zur Messung der Popularität von Schlüsselwörtern
Wie bereits erwähnt, werden für jedes Video der Name und der Satz von Tags gespeichert. Als nächstes werden der Name und jedes der Tags in separate Wörter unterteilt. Sie werden durch den Stemmer geführt und als Keyword-Cloud für das Video gespeichert.
Mit Informationen darüber, wann das Video in Trends geraten ist und wann es aus Trends herausgekommen ist, sowie einer Reihe von Wörtern für das Video können Sie die Änderung der Popularität für jedes der Keywords grafisch darstellen. Derzeit wird täglich ein Zeitplan für das Ändern von Keyword-Threads erstellt. Als Maß wird die Gesamtzeit (in Stunden) verwendet, bei der alle Videos mit diesem Schlüsselwort im Trend waren.
Beispiel: In Trends gab es nur zwei Videos, die dem Keyword entsprachen. Ein Video dauerte 5 Stunden in Trends, die anderen 10 Stunden. Dann wird die Popularität des Schlüsselworts auf 10 + 5 = 15 gesetzt.
Beispiele für die Popularität von Keywords
Nach dem Algorithmus, den ich oben geschrieben habe, war das resonanteste und auffälligste Ereignis des Jahres 2018 nicht die Wahl oder gar der Fußball, sondern die Tragödie in Kemerowo:

Im Gegensatz zu allen anderen Ereignissen betraf die Tragödie von Kemerowo alle, und das Video zu diesem Vorfall trieb alle anderen aus den Trends.
Nun, ein bisschen Politik:

Wie man sich fühlt
Sehen Sie sich hier Diagramme an und spielen Sie mit Trends .
Jetzt läuft das System auf Amazon Cloud, zwei Instanzen werden verwendet:
- t2.micro - Webserver
- t3.small ist ein Server mit MySQL. Dienstprogramme zum Sammeln von Statistiken werden auf demselben Server ausgeführt.
Im Falle einer Auslastung fällt der Webserver möglicherweise zuerst aus, während der zweite Server weiterhin Statistiken sammelt. Das bin ich an der Tatsache, dass es nicht nötig ist, sich zu wundern, wenn alles nicht mehr funktioniert.
Die Datenbank selbst vom 23.01.2019 kann hier heruntergeladen werden .
Außerdem schrieb er einmal zwei Plugins für Chrome und Filrefox . Jetzt der einzige Vorteil: Direkt auf der YouTube-Trendliste können Sie die Anzahl der Vorlieben / Abneigungen für jedes Video sehen.