AnĂĄlise de tendĂȘncias do YouTube russo para 2018

Os veteranos, provavelmente, nem se lembrarĂŁo, mas no final de 2017, nas discussĂ”es na Internet, foi divulgada a ideia de que as tendĂȘncias do YouTube costumavam exibir vĂ­deos "acabados".


Portanto, na vĂ©spera do novo ano de 2018, escrevi um utilitĂĄrio para coletar informaçÔes sobre vĂ­deos que entraram em tendĂȘncias. Para cada vĂ­deo, um nome, uma lista de tags, uma data de criação sĂŁo solicitados e um histĂłrico de alteraçÔes em vernizes / desgostos / visualizaçÔes tambĂ©m Ă© mantido. O desenvolvimento foi realizado no TypeScript for NodeJS, o cĂłdigo em si Ă© publicado no GitHub .


Como resultado, agora hĂĄ a oportunidade de criar belos grĂĄficos:
GrĂĄfico de alteraçÔes no nĂșmero de gostos e desgostos


HĂĄ tambĂ©m a oportunidade de criar grĂĄficos de mudanças de tendĂȘncia por palavras-chave. No total, para o ano de 2018, foram coletadas informaçÔes em 29.271 vĂ­deos. As estatĂ­sticas estĂŁo sendo coletadas agora.



PrincĂ­pio geral do trabalho


  1. A cada 5 minutos, Ă© feita a lista atual de tendĂȘncias.
  2. Para cada novo vídeo, as informaçÔes båsicas são salvas (título, lista de tags, data de criação)
  3. Com base no tĂ­tulo e nas tags, cada vĂ­deo Ă© mapeado para uma nuvem de palavras-chave.
  4. De acordo com a programação, são solicitadas informaçÔes sobre gostos / desgostos / visualizaçÔes para cada vídeo. As estatísticas são coletadas dentro de dois dias, na primeira vez em que as solicitaçÔes são enviadas em intervalos de 2 minutos, o intervalo aumenta. Se houver suspeita de trapaça, o intervalo serå novamente definido para 2 minutos.

Se o grĂĄfico de alteraçÔes no nĂșmero de gostos / desgostos em qualquer uma das seçÔes for uma linha reta, apenas o primeiro e o Ășltimo valor nesta seção serĂŁo salvos. Isso Ă© feito para reduzir o volume do banco de dados. Agora, na tabela com estatĂ­sticas, existem apenas 6908449 registros, no disco a tabela ocupa 458 mb.


O princípio da detecção automåtica de marcaçÔes


Para mim, formulei o problema da seguinte maneira: vocĂȘ precisa marcar o vĂ­deo que tem uma “escada” no grĂĄfico de alteraçÔes de que gosta / nĂŁo gosta. Os passos desta mesma escada sĂŁo determinados com base em trĂȘs medidas estatĂ­sticas adjacentes. O Ăąngulo entre duas linhas Ă© levado em consideração: uma linha Ă© desenhada entre a primeira e a segunda medidas, a segunda - entre a segunda e a terceira, bem como os comprimentos dos segmentos. GrĂĄficos com muitas pequenas irregularidades tambĂ©m sĂŁo anotados.


Um exemplo de grĂĄfico suspeito:

Exemplo de grĂĄfico suspeito


Todos os parùmetros do algoritmo foram determinados por mim manualmente e verificados no vídeo jå coletado naquela época e durante o ano foram feitas alteraçÔes nesse algoritmo. Portanto, tratar seriamente esses resultados para cada vídeo individual provavelmente não vale a pena. Em minha defesa, posso dizer que, ao alterar os parùmetros, uma recontagem foi iniciada para todos os vídeos jå coletados, portanto o mesmo algoritmo foi aplicado a todos os vídeos.


Em geral, Ă© impossĂ­vel dizer se houve uma marcação em um (ou vĂĄrios) grĂĄficos de alteraçÔes nos gostos / desgostos. Quaisquer diferenças suspeitas podem ser explicadas pela operação do CQRS ou explosĂ”es solares. Sim, um grĂĄfico Ă© suave e o outro Ă© gradual, mas Ă© possĂ­vel que todos os vĂ­deos encontrem esse comportamento ocasionalmente? Por isso, para compilar a imagem geral, foram coletadas informaçÔes de todos os vĂ­deos que atingiram as tendĂȘncias.


Agrupar estatĂ­sticas


Para 2018, o algoritmo apresentou os seguintes resultados:
Suspeita de fraude: 180 vĂ­deos (0,32% do nĂșmero total de vĂ­deos)
Suspeita de trapaça em antipatias: 1303 vĂ­deos (4,45% do nĂșmero total de vĂ­deos)


Existem poucos vĂ­deos com grĂĄficos de gostos suspeitos, mas esse nem sempre foi o caso: no primeiro mĂȘs de 2018, 96 vĂ­deos foram gravados (mais de 50% de todos os gostos suspeitos por ano). No entanto, em fevereiro, havia muito menos vĂ­deos, apenas 8.


Aqui, vocĂȘ provavelmente deve recorrer novamente aos veteranos que podem se lembrar (ou nĂŁo) do evento que ocorreu em 10 de janeiro de 2018, quando o YouTube bloqueou muitos canais . Da minha parte, posso dizer que, entre os bloqueados, havia aqueles em que meu utilitĂĄrio conseguiu coletar informaçÔes. Agende um dos vĂ­deos excluĂ­dos:

imagem


Supondo que realmente houvesse truques, parece que o YouTube deu muito trabalho e agora vocĂȘ pode encontrar vĂ­deos populares suspeitos de gostos nĂŁo todos os dias (e os que ocorrem com mais frequĂȘncia parecem um acidente ou um erro). Por outro lado, essa diferença nas marcaçÔes pode ser explicada pelo fato de que, diferentemente da antipatia, nĂŁo faz sentido encerrar os gostos de vĂ­deos que jĂĄ estĂŁo na moda.


E mais algumas estatĂ­sticas. Em mĂ©dia, 21.569 curtidas e 2.863 dislags ganham em vĂ­deos de tendĂȘncias.
Suspeita de traição: 15502/4250
Trapaças suspeitas em desvios: 16868/22087
Portanto, se vocĂȘ observar o resultado, nĂŁo haverĂĄ utilidade para criar curtidas, enquanto Ă© possĂ­vel aumentar a porcentagem de nĂŁo curtidas.


Os grĂĄficos suspeitos de nĂŁo gostar sĂŁo desiguais. Por exemplo, no canal de Yevgeny Roizman, dos 21 vĂ­deos que se tornaram tendĂȘncia, mais da metade Ă© marcada pelo algoritmo como sendo prejudicada por aversĂ”es.


Em relação ao gråfico do título deste artigo. Se assumirmos que hå um conjunto de contas no valor de 5 a 10 mil, que recebeu primeiro o comando de não gostar e, em seguida, sem aguardar o término do trabalho no mesmo conjunto, eles deram o comando para colocar curtidas, provavelmente é possível obter um cronograma semelhante.


O grĂĄfico mais estranho que jĂĄ vi:

imagem
Ficaria muito grato se alguĂ©m oferecer uma explicação sobre o que diabos estĂĄ acontecendo aqui. A propĂłsito, vocĂȘ pode ver que, de acordo com este grĂĄfico, as estatĂ­sticas foram coletadas por quase uma semana, nĂŁo dois dias.


O princĂ­pio do algoritmo para medir a popularidade das palavras-chave


Como jĂĄ foi dito, para cada vĂ­deo, o nome e o conjunto de tags sĂŁo salvos. Em seguida, o nome e cada uma das tags sĂŁo divididos em palavras separadas. Elas sĂŁo executadas na raiz e salvas como uma nuvem de palavras-chave para o vĂ­deo.


Com informaçÔes sobre quando o vĂ­deo entrou nas tendĂȘncias e quando saiu das tendĂȘncias, bem como conjuntos de palavras para o vĂ­deo, vocĂȘ pode fazer um grĂĄfico da mudança de popularidade para cada uma das palavras-chave. No momento, estĂĄ sendo criada uma programação para alterar os segmentos de palavras-chave diariamente. Como medida, Ă© usado o tempo total (em horas), que todos os vĂ­deos com essa palavra-chave estavam em tendĂȘncias.


Exemplo: nas tendĂȘncias, havia apenas dois vĂ­deos correspondentes Ă  palavra-chave. Um vĂ­deo durou 5 horas em tendĂȘncias, o outro 10 horas. Em seguida, a popularidade da palavra-chave Ă© definida como 10 + 5 = 15.


Exemplos de popularidade de palavras-chave


De acordo com o algoritmo que escrevi acima, o evento mais ressonante e mais perceptível de 2018 não foram as eleiçÔes ou o futebol, mas a tragédia em Kemerovo:

grĂĄfico de tendĂȘncias: Kemerovo, eleiçÔes, futebol


Ao contrĂĄrio de todos os outros eventos, a tragĂ©dia de Kemerovo afetou a todos, e o vĂ­deo sobre esse incidente afastou todos os demais das tendĂȘncias.


Bem, um pouco de polĂ­tica:

imagem


Como se sentir


Veja grĂĄficos e brinque com as tendĂȘncias aqui .


Agora, o sistema Ă© executado no Amazon Cloud, duas instĂąncias sĂŁo usadas:

  • t2.micro - servidor web
  • O t3.small Ă© um servidor com MySQL. Os utilitĂĄrios para coletar estatĂ­sticas sĂŁo executados no mesmo servidor.

Talvez, em caso de carga, o servidor web caia primeiro, enquanto o segundo servidor continuarĂĄ a coletar estatĂ­sticas. Sou eu o fato de que nĂŁo hĂĄ necessidade de se surpreender se tudo parar de funcionar.

O prĂłprio banco de dados a partir de 23/01/2019 pode ser baixado aqui .


AlĂ©m disso, ele escreveu dois plugins para chrome e filrefox . Agora, o Ășnico benefĂ­cio: diretamente na lista de tendĂȘncias do YouTube, vocĂȘ pode ver o nĂșmero de curtidas / nĂŁo curtidas para cada vĂ­deo.

Source: https://habr.com/ru/post/pt436750/


All Articles