Análisis de tendencias de YouTube ruso para 2018

Los veteranos, probablemente, ni siquiera lo recordarán, pero a fines de 2017, en las discusiones en Internet, se hizo circular la idea de que las tendencias de YouTube a menudo presentan videos "enrollados".


Por lo tanto, en la víspera del nuevo año de 2018, escribí una utilidad para recopilar información sobre videos que se pusieron de moda. Para cada video, se solicita un nombre, una lista de etiquetas, una fecha de creación y también se mantiene un historial de cambios en barnices / disgustos / vistas. El desarrollo se realizó en TypeScript para NodeJS, el código en sí está publicado en GitHub .


Como resultado, ahora existe la oportunidad de crear hermosos gráficos:
Gráfico de cambios en la cantidad de Me gusta y No me gusta


También existe la oportunidad de crear gráficos de cambios de tendencia por palabras clave. En total, para el año 2018, se recopiló información sobre 29,271 videos. Las estadísticas se están recopilando ahora.



Principio general de trabajo


  1. Una vez cada 5 minutos, se toma la lista actual de tendencias.
  2. Para cada video nuevo, se guarda información básica (título, lista de etiquetas, fecha de creación)
  3. Según el título y las etiquetas, cada video se asigna a una nube de palabras clave.
  4. De acuerdo con el cronograma, se solicita información sobre me gusta / no me gusta / vistas para cada video. Las estadísticas se recopilan dentro de dos días, la primera vez que se envían solicitudes a intervalos de 2 minutos, luego el intervalo aumenta. Si hay una sospecha de trampa, entonces el intervalo se establece nuevamente en 2 minutos.

Si la gráfica de los cambios en el número de Me gusta / No me gusta en cualquiera de las secciones es una línea recta, solo se guarda el primer y último valor en esta sección. Esto se hace para reducir el volumen de la base de datos. Ahora en la tabla con estadísticas solo hay 6908449 registros, en el disco la tabla ocupa 458 mb.


El principio de detección automática de marcas.


Para mí, formulé el problema de la siguiente manera: debe marcar el video que tiene una "escalera" en el gráfico de cambios de me gusta / no me gusta. Los pasos de esta misma escalera se determinan sobre la base de tres mediciones adyacentes de estadísticas. Se tiene en cuenta el ángulo entre dos líneas: se dibuja una línea entre la primera y la segunda medición, la segunda, entre la segunda y la tercera, así como las longitudes de los segmentos. También se observan gráficos que tienen muchas pequeñas irregularidades.


Un ejemplo de un cuadro sospechoso:

Ejemplo de gráfico sospechoso


Todos los parámetros del algoritmo fueron determinados por mí manualmente y verificados en el video ya recopilado en ese momento y durante el año se realizaron cambios en este algoritmo. Por lo tanto, tratar seriamente tales resultados para cada video individual probablemente no valga la pena. En mi defensa, puedo decir que al cambiar los parámetros, se inició un recuento de todos los videos ya recopilados, por lo tanto, se aplicó el mismo algoritmo a todos los videos.


En general, es imposible decir si hubo un marcado en uno (o varios) gráficos de cambios en me gusta / no me gusta. Cualquier diferencia sospechosa puede explicarse por la operación de CQRS o llamaradas solares. Sí, un gráfico es suave, el otro es paso a paso, pero ¿es posible que todos los videos ocasionalmente encuentren ese comportamiento? Es por eso que, para compilar la imagen general, se recopiló información de todos los videos que alcanzaron las tendencias.


Estadísticas de envoltura


Para 2018, el algoritmo mostró los siguientes resultados:
Sospecha de hacer trampa en Me gusta: 180 videos (0.32% del número total de videos)
Sospecha de trampa en disgustos: 1303 videos (4.45% del número total de videos)


Hay pocos videos con gráficos de me gusta sospechosos, pero este no siempre fue el caso: en el primer mes de 2018, se grabaron 96 videos de este tipo (más del 50% de todos los me gusta sospechosos por año). Sin embargo, en febrero había muchos menos videos de este tipo, solo 8.


Aquí, probablemente debería volver a recurrir a los veteranos que pueden recordar (o no recordar) el evento que ocurrió el 10 de enero de 2018, cuando YouTube bloqueó muchos canales . Por mi parte, puedo decir que entre los bloqueados hubo aquellos en los que mi utilidad logró recopilar información. Programa para uno de los videos eliminados:

imagen


Si asumimos que realmente hubo trampas, entonces parece que YouTube hizo mucho trabajo y ahora puedes ver videos de moda como en los videos no todos los días (y los que ocurren con más frecuencia parecen un accidente o un error). Por otro lado, tal diferencia en los márgenes puede explicarse por el hecho de que, a diferencia del disgusto, no tiene sentido terminar los videos que ya se han puesto de moda.


Y algunas estadísticas más. En promedio, 21,569 Me gusta y 2,863 dislags ganan en videos de tendencias.
Sospecha de trampas: 15502/4250
Trampas sospechosas en las exhibiciones: 16868/22087
Por lo tanto, si nos fijamos en el resultado, entonces no sirve de nada acumular Me gusta, mientras que es muy posible aumentar el porcentaje de No me gusta.


Los gráficos sospechosos de disgustos son desiguales. Por ejemplo, en el canal de Yevgeny Roizman, de los 21 videos que se han convertido en tendencia, más de la mitad están marcados por el algoritmo como heridos por disgustos.


Respecto al gráfico del título de este artículo. Si suponemos que hay un conjunto de cuentas por la cantidad de 5-10 mil, a las que primero se les dio la orden de poner disgustos, y luego sin esperar el final del trabajo en la misma serie, dieron la orden de poner Me gusta, entonces, probablemente, puede obtener un horario similar.


El gráfico más extraño que he visto:

imagen
Estaría agradecido si alguien ofrece una explicación de qué demonios está pasando aquí. Por cierto, puede ver que según este gráfico, las estadísticas se recopilaron durante casi una semana, no dos días.


El principio del algoritmo para medir la popularidad de las palabras clave.


Como ya se dijo, para cada video, se guardan el nombre y el conjunto de etiquetas. A continuación, el nombre y cada una de las etiquetas se divide en palabras separadas, se ejecutan a través de la raíz y se guardan como una nube de palabras clave para el video.


Al tener información sobre cuándo el video entró en tendencias y cuándo salió de las tendencias, así como los conjuntos de palabras para el video, puede hacer un gráfico del cambio en la popularidad de cada una de las palabras clave. En este momento, se está creando diariamente un cronograma para cambiar los hilos de palabras clave. Como medida, se utiliza el tiempo total (en horas), que todos los videos con esta palabra clave estuvieron en tendencia.


Ejemplo: en las tendencias solo había dos videos que coincidían con la palabra clave. Un video duró 5 horas en tendencias, el otro 10 horas. Entonces la popularidad de la palabra clave se establece igual a 10 + 5 = 15.


Ejemplos de popularidad de palabras clave


Según el algoritmo que escribí anteriormente, el evento más resonante y más notable de 2018 no fueron las elecciones o incluso el fútbol, ​​sino la tragedia en Kemerovo:

gráfico de tendencias: Kemerovo, elecciones, fútbol


A diferencia de todos los demás eventos, la tragedia de Kemerovo afectó a todos, y el video de este incidente expulsó a todos los demás de las tendencias.


Bueno, un poco de política:

imagen


Como sentirse


Vea gráficos y juegue con las tendencias aquí .


Ahora el sistema se ejecuta en Amazon Cloud, se utilizan dos instancias:

  • t2.micro - servidor web
  • t3.small es un servidor con MySQL. Las utilidades para recopilar estadísticas se ejecutan en el mismo servidor.

Quizás, en caso de carga, el servidor web caerá primero, mientras que el segundo servidor continuará recopilando estadísticas. Soy yo ante el hecho de que no hay necesidad de sorprenderse si todo deja de funcionar.

La base de datos en sí a partir del 23/01/2019 se puede descargar aquí .


Además, en un momento escribió dos complementos para Chrome y Filrefox . Ahora, el único beneficio: en la lista de tendencias de YouTube, puede ver la cantidad de Me gusta / No me gusta para cada video.

Source: https://habr.com/ru/post/es436750/


All Articles