Se o número de comentários no artigo de fast jack for próximo de 1000, tenha certeza - independentemente do tópico declarado pelo autor, srach está furioso por dentro: focos de incêndio político cercados por especialistas em sofás em todas as questões, diagnósticos psiquiátricos à distância por imagem e apelido, transição para personalidades, ataques sarcásticos, cuja causticidade é maior que a do sangue dos xenomorfos e, é claro, o prato obrigatório nesses casos são as acusações mútuas de que seu parceiro e você estão discutindo exclusivamente em troca de uma recompensa e / ou em serviço. O que, aparentemente, é perigoso e difícil, e à primeira vista parece invisível, e trinta moedas de prata não ficam na estrada.
A coisa mais engraçada nessa situação é
que as pessoas profundamente afetadas pela síndrome
da Internet - alguém errado - costumam passar um tempo e nervos para provar a outra pessoa tão
completamente livre que ele faz exatamente a mesma coisa
por dinheiro ou por ordens . Você está procurando lógica aqui? Ela não é. Esta é a internet, querida.
Vamos fazer uma das
perguntas relativamente recentes sobre a alegada discriminação territorial no Gitlab. Quatro dias se passaram desde a publicação do artigo e, é claro, a discussão, há muito tempo, afastou-se do tópico originalmente declarado para terras distantes. Estas frases soam:
Uma pessoa real não poderá opor nada a um comentarista profissional em uma assinatura ...
O usuário (tal e tal) gasta simplesmente uma quantidade irreal de tempo nos comentários ...
Ao mesmo tempo, sua atividade não possui padrões geralmente inerentes a um usuário comum ...
ps, mas me levou a escrever um analisador de analisador para esses comentadores) Com uma indicação de atividade por hora, a quantidade de tempo por dia, por semana, etc. ... Um bom tópico para o artigo)
Então pare com isso. E quais são esses padrões "tipicamente inerentes ao usuário médio"? O autor desta frase nesse tópico, infelizmente, já foi translucidado, então você deve escolher aleatoriamente.
A pergunta que quero colocar diante de seus olhos é clara, a próxima - é possível, com a ajuda de métodos estatísticos, distinguir pelo menos de alguma maneira de maneira confiável esses mesmos padrões, de modo a criar um classificador formal que distinga os comentaristas casuais dos profissionais? Imagine - "de acordo com o Habr-Botometer, você tem 76% de probabilidade de ser um bot do Kremlin". Será muito mais legal do que ataques cármicos entre si.
Infelizmente, minhas competências não são suficientes para adivinhar qual caminho cavar para resolver esse problema. No entanto, ontem à noite eu derrubei "de joelhos" um pequeno analisador primitivo, que (como a página de comentários é aberta até para visitantes não autorizados) faz duas coisas por enquanto - a) coleta estatísticas de todos os seus comentários (por enquanto, é hora) -stamp) e adiciona ao banco de dados MySQL; b) desenha um gráfico de tempo, marcando nele os eventos de envio de um comentário retirado desse banco de dados. Mesmo sem uma análise complicada, ficou bem engraçado. É assim que meu diagrama de comentários se parece. Explicações estão por baixo. É melhor visualizado em uma janela separada em uma escala de 100% ou mais.

No eixo horizontal está o tempo, cada pixel é igual a um minuto, o preço das divisões cinza é igual a uma hora, toda a linha horizontal é igual a um dia. O dia vai de baixo para cima ao longo do eixo vertical, o preço de divisão é de 365 dias.
Não há nada particularmente interessante no meu diagrama. Percebe-se que eu gosto de dormir por 7-8 horas, geralmente vou dormir depois da meia-noite e às vezes organizo maratonas de comentários de várias horas, e essa atividade no ano passado excede ou é aproximadamente igual à dos cinco anos anteriores.
Ou, o camarada
gecube manteve um voto de silêncio por três anos e meio, e depois rompeu ...

Um diagrama típico de atividades de habra-commenter se parece com isso (este é
QtRoS )

Uma “cavidade sonolenta” distinta à esquerda em algum lugar da noite europeia e comentando vagarosamente durante o dia, possivelmente com interrupções por meio ano.
Mas nem todos os gráficos são tão chatos! Como você gosta disso:

Por mais de dois anos, nosso colega aparentemente treinou novamente seus biorritmos para dormir em uma noite européia em algum lugar sob o cume do Meio Atlântico, além disso, de maneira uniforme e gradual, e depois passou mais dois anos para retornar à costa de Portugal. Andando? Nadar? Não consigo encontrar explicações plausíveis ... Nas primeiras três horas de vigília, os comentários voam como uma metralhadora e, no final do dia, uma vez em uma hora, olhei para o que estava feito e é tudo.
Foi, a propósito,
0xd34df00d .
E aqui está outro enigma:

Por quatro anos e meio, o colega durou sem um único comentário - ele viu que treinou em algum lugar em mosteiros secretos, como não dormir durante dias, julgando por quantos comentários foram enviados no "vazio sonolento".
Mas a coisa mais interessante aqui é a anomalia na 16ª hora, que dura mais de três anos e desaparece gradualmente no último ano. Fumaça? Passeando com o cachorro? Jogging? O que mais pode rasgar um habrovchanin de uma fita de comentários no auge de um dia útil com essa predeterminação diária? Estou arrancando uma
batata do sofá , não consigo imaginar tanta autodisciplina que o respeitado
khim possa pagar.
Finalmente, o último diagrama para pensar:

Geralmente não possui um "oco sonolento" pronunciado. Mal adivinha o excesso aparente do número de comentários enviados à tarde e enviados anteriormente.
Com toda a severidade do Komsomol, exorto o respeitado
MTyrz a se desarmar diante da festa e sinceramente admito quantos avós, netas, insetos e ratos dirigem sua conta e escrevem comentários.
E, no final, a pergunta insidiosa - alguém pode estar tão interessado em tudo que deseja desenvolver o código do analisador e / ou obter um dump do banco de dados ou acessar a ele e assim por diante? Meu próprio conhecimento em mineração de dados e em métodos de visualização de dados dificilmente excede a erudição geral. Algo mais inteligente e interessante do que esses pequenos diagramas simples em que mal consigo pensar. Se alguém estiver interessado, escreva-me em telegrama (apelido no perfil).
Obrigado pela atenção!
UPD Publiquei o
código fonte no GitHub .