Os veteranos, provavelmente, nem se lembrarĂŁo, mas no final de 2017, nas discussĂ”es na Internet, foi divulgada a ideia de que as tendĂȘncias do YouTube costumavam exibir vĂdeos "acabados".
Portanto, na vĂ©spera do novo ano de 2018, escrevi um utilitĂĄrio para coletar informaçÔes sobre vĂdeos que entraram em tendĂȘncias. Para cada vĂdeo, um nome, uma lista de tags, uma data de criação sĂŁo solicitados e um histĂłrico de alteraçÔes em vernizes / desgostos / visualizaçÔes tambĂ©m Ă© mantido. O desenvolvimento foi realizado no TypeScript for NodeJS, o cĂłdigo em si Ă© publicado no GitHub .
Como resultado, agora hĂĄ a oportunidade de criar belos grĂĄficos:

HĂĄ tambĂ©m a oportunidade de criar grĂĄficos de mudanças de tendĂȘncia por palavras-chave. No total, para o ano de 2018, foram coletadas informaçÔes em 29.271 vĂdeos. As estatĂsticas estĂŁo sendo coletadas agora.
PrincĂpio geral do trabalho
- A cada 5 minutos, Ă© feita a lista atual de tendĂȘncias.
- Para cada novo vĂdeo, as informaçÔes bĂĄsicas sĂŁo salvas (tĂtulo, lista de tags, data de criação)
- Com base no tĂtulo e nas tags, cada vĂdeo Ă© mapeado para uma nuvem de palavras-chave.
- De acordo com a programação, sĂŁo solicitadas informaçÔes sobre gostos / desgostos / visualizaçÔes para cada vĂdeo. As estatĂsticas sĂŁo coletadas dentro de dois dias, na primeira vez em que as solicitaçÔes sĂŁo enviadas em intervalos de 2 minutos, o intervalo aumenta. Se houver suspeita de trapaça, o intervalo serĂĄ novamente definido para 2 minutos.
Se o grĂĄfico de alteraçÔes no nĂșmero de gostos / desgostos em qualquer uma das seçÔes for uma linha reta, apenas o primeiro e o Ășltimo valor nesta seção serĂŁo salvos. Isso Ă© feito para reduzir o volume do banco de dados. Agora, na tabela com estatĂsticas, existem apenas 6908449 registros, no disco a tabela ocupa 458 mb.
O princĂpio da detecção automĂĄtica de marcaçÔes
Para mim, formulei o problema da seguinte maneira: vocĂȘ precisa marcar o vĂdeo que tem uma âescadaâ no grĂĄfico de alteraçÔes de que gosta / nĂŁo gosta. Os passos desta mesma escada sĂŁo determinados com base em trĂȘs medidas estatĂsticas adjacentes. O Ăąngulo entre duas linhas Ă© levado em consideração: uma linha Ă© desenhada entre a primeira e a segunda medidas, a segunda - entre a segunda e a terceira, bem como os comprimentos dos segmentos. GrĂĄficos com muitas pequenas irregularidades tambĂ©m sĂŁo anotados.
Um exemplo de grĂĄfico suspeito:

Todos os parĂąmetros do algoritmo foram determinados por mim manualmente e verificados no vĂdeo jĂĄ coletado naquela Ă©poca e durante o ano foram feitas alteraçÔes nesse algoritmo. Portanto, tratar seriamente esses resultados para cada vĂdeo individual provavelmente nĂŁo vale a pena. Em minha defesa, posso dizer que, ao alterar os parĂąmetros, uma recontagem foi iniciada para todos os vĂdeos jĂĄ coletados, portanto o mesmo algoritmo foi aplicado a todos os vĂdeos.
Em geral, Ă© impossĂvel dizer se houve uma marcação em um (ou vĂĄrios) grĂĄficos de alteraçÔes nos gostos / desgostos. Quaisquer diferenças suspeitas podem ser explicadas pela operação do CQRS ou explosĂ”es solares. Sim, um grĂĄfico Ă© suave e o outro Ă© gradual, mas Ă© possĂvel que todos os vĂdeos encontrem esse comportamento ocasionalmente? Por isso, para compilar a imagem geral, foram coletadas informaçÔes de todos os vĂdeos que atingiram as tendĂȘncias.
Agrupar estatĂsticas
Para 2018, o algoritmo apresentou os seguintes resultados:
Suspeita de fraude: 180 vĂdeos (0,32% do nĂșmero total de vĂdeos)
Suspeita de trapaça em antipatias: 1303 vĂdeos (4,45% do nĂșmero total de vĂdeos)
Existem poucos vĂdeos com grĂĄficos de gostos suspeitos, mas esse nem sempre foi o caso: no primeiro mĂȘs de 2018, 96 vĂdeos foram gravados (mais de 50% de todos os gostos suspeitos por ano). No entanto, em fevereiro, havia muito menos vĂdeos, apenas 8.
Aqui, vocĂȘ provavelmente deve recorrer novamente aos veteranos que podem se lembrar (ou nĂŁo) do evento que ocorreu em 10 de janeiro de 2018, quando o YouTube bloqueou muitos canais . Da minha parte, posso dizer que, entre os bloqueados, havia aqueles em que meu utilitĂĄrio conseguiu coletar informaçÔes. Agende um dos vĂdeos excluĂdos:

Supondo que realmente houvesse truques, parece que o YouTube deu muito trabalho e agora vocĂȘ pode encontrar vĂdeos populares suspeitos de gostos nĂŁo todos os dias (e os que ocorrem com mais frequĂȘncia parecem um acidente ou um erro). Por outro lado, essa diferença nas marcaçÔes pode ser explicada pelo fato de que, diferentemente da antipatia, nĂŁo faz sentido encerrar os gostos de vĂdeos que jĂĄ estĂŁo na moda.
E mais algumas estatĂsticas. Em mĂ©dia, 21.569 curtidas e 2.863 dislags ganham em vĂdeos de tendĂȘncias.
Suspeita de traição: 15502/4250
Trapaças suspeitas em desvios: 16868/22087
Portanto, se vocĂȘ observar o resultado, nĂŁo haverĂĄ utilidade para criar curtidas, enquanto Ă© possĂvel aumentar a porcentagem de nĂŁo curtidas.
Os grĂĄficos suspeitos de nĂŁo gostar sĂŁo desiguais. Por exemplo, no canal de Yevgeny Roizman, dos 21 vĂdeos que se tornaram tendĂȘncia, mais da metade Ă© marcada pelo algoritmo como sendo prejudicada por aversĂ”es.
Em relação ao grĂĄfico do tĂtulo deste artigo. Se assumirmos que hĂĄ um conjunto de contas no valor de 5 a 10 mil, que recebeu primeiro o comando de nĂŁo gostar e, em seguida, sem aguardar o tĂ©rmino do trabalho no mesmo conjunto, eles deram o comando para colocar curtidas, provavelmente Ă© possĂvel obter um cronograma semelhante.
O grĂĄfico mais estranho que jĂĄ vi:

Ficaria muito grato se alguĂ©m oferecer uma explicação sobre o que diabos estĂĄ acontecendo aqui. A propĂłsito, vocĂȘ pode ver que, de acordo com este grĂĄfico, as estatĂsticas foram coletadas por quase uma semana, nĂŁo dois dias.
O princĂpio do algoritmo para medir a popularidade das palavras-chave
Como jĂĄ foi dito, para cada vĂdeo, o nome e o conjunto de tags sĂŁo salvos. Em seguida, o nome e cada uma das tags sĂŁo divididos em palavras separadas. Elas sĂŁo executadas na raiz e salvas como uma nuvem de palavras-chave para o vĂdeo.
Com informaçÔes sobre quando o vĂdeo entrou nas tendĂȘncias e quando saiu das tendĂȘncias, bem como conjuntos de palavras para o vĂdeo, vocĂȘ pode fazer um grĂĄfico da mudança de popularidade para cada uma das palavras-chave. No momento, estĂĄ sendo criada uma programação para alterar os segmentos de palavras-chave diariamente. Como medida, Ă© usado o tempo total (em horas), que todos os vĂdeos com essa palavra-chave estavam em tendĂȘncias.
Exemplo: nas tendĂȘncias, havia apenas dois vĂdeos correspondentes Ă palavra-chave. Um vĂdeo durou 5 horas em tendĂȘncias, o outro 10 horas. Em seguida, a popularidade da palavra-chave Ă© definida como 10 + 5 = 15.
Exemplos de popularidade de palavras-chave
De acordo com o algoritmo que escrevi acima, o evento mais ressonante e mais perceptĂvel de 2018 nĂŁo foram as eleiçÔes ou o futebol, mas a tragĂ©dia em Kemerovo:

Ao contrĂĄrio de todos os outros eventos, a tragĂ©dia de Kemerovo afetou a todos, e o vĂdeo sobre esse incidente afastou todos os demais das tendĂȘncias.
Bem, um pouco de polĂtica:

Como se sentir
Veja grĂĄficos e brinque com as tendĂȘncias aqui .
Agora, o sistema Ă© executado no Amazon Cloud, duas instĂąncias sĂŁo usadas:
- t2.micro - servidor web
- O t3.small Ă© um servidor com MySQL. Os utilitĂĄrios para coletar estatĂsticas sĂŁo executados no mesmo servidor.
Talvez, em caso de carga, o servidor web caia primeiro, enquanto o segundo servidor continuarĂĄ a coletar estatĂsticas. Sou eu o fato de que nĂŁo hĂĄ necessidade de se surpreender se tudo parar de funcionar.
O prĂłprio banco de dados a partir de 23/01/2019 pode ser baixado aqui .
AlĂ©m disso, ele escreveu dois plugins para chrome e filrefox . Agora, o Ășnico benefĂcio: diretamente na lista de tendĂȘncias do YouTube, vocĂȘ pode ver o nĂșmero de curtidas / nĂŁo curtidas para cada vĂdeo.