La ciudad se duerme, los residentes de Habrovsk se despiertan

Si el número de comentarios en el artículo por un gato rápido es cercano a 1000, asegúrese, independientemente del tema declarado por el autor, srach enfurece en el interior: focos del fuego de la política rodeado de expertos en sofá en todos los temas, diagnósticos psiquiátricos a distancia por imagen de perfil y apodo, transiciones a personalidades, ataques sarcásticos, cuya causticidad es mayor que la de la sangre de los xenomorfos, y, por supuesto, el plato obligatorio en tales casos son las acusaciones mutuas que su contraparte está discutiendo exclusivamente con usted. y / o de turno. Lo cual, al parecer, es peligroso y difícil, y a primera vista parece invisible, y treinta piezas de plata no se encuentran en el camino.

Lo más divertido en esta situación es que las personas que están profundamente afectadas por el síndrome de alguien equivocado en Internet a menudo pasan un maldito descanso y nervios para demostrarle a otro tan completamente liberado que hace exactamente lo mismo por dinero o por pedido . ¿Estás buscando lógica aquí? Ella no es Esto es internet, bebé.

Tomemos una de las preguntas relativamente recientes sobre la supuesta discriminación territorial en Gitlab. Han pasado 4 días desde la publicación del artículo y, por supuesto, la discusión hace mucho tiempo se alejó del tema originalmente establecido para tierras lejanas. Estas frases suenan:
Una persona real no puede oponerse a un comentarista profesional en una suscripción ...

El usuario (tal y tal) dedica una cantidad de tiempo poco realista a los comentarios ...
Al mismo tiempo, su actividad no tiene patrones que suelen ser inherentes a un usuario común ...

PD, pero me llevó a escribir un analizador analizador para tales comentaristas) con una indicación de actividad por hora, la cantidad de tiempo por día, por semana, etc. ... Un buen tema para el artículo)
Así que detenlo. ¿Y cuáles son estos patrones "típicamente inherentes al usuario promedio"? El autor de esta frase en ese tema, lamentablemente, ya ha sido translucido, por lo que debe ir al azar.

La pregunta que quiero plantear ante sus ojos es la siguiente: ¿es posible incluso por métodos estadísticos distinguir de manera confiable estos patrones para crear un clasificador formal que distinga a los comentaristas casuales de los profesionales? Imagínese: "según el Habr-Botometer, tiene 76% de probabilidades de ser un bot del Kremlin". Serán incursiones kármicas mucho más frías entre sí.
Desafortunadamente, mis competencias no son suficientes para siquiera adivinar qué manera de excavar para resolver tal problema. Sin embargo, anoche golpeé "sobre mis rodillas" un pequeño analizador primitivo, que (dado que la página de comentarios está abierta incluso para visitantes no autorizados) hace dos cosas por ahora: a) recopila estadísticas de todos sus comentarios (por ahora, es solo el momento -stamp) y se agrega a la base de datos MySQL; b) dibuja un diagrama de tiempo, marcando en él los eventos de enviar un comentario tomado de esta base de datos. Incluso sin un análisis complicado, resultó bastante divertido. Así es como se ve mi diagrama de comentario. Las explicaciones están debajo. Se ve mejor en una ventana separada en una escala del 100% o más.

imagen

En el eje horizontal es el tiempo, cada píxel es igual a un minuto, el precio de las divisiones grises es igual a una hora, toda la línea horizontal es igual a un día. El día va de abajo hacia arriba a lo largo del eje vertical, el precio de división es de 365 días.

No hay nada particularmente interesante en mi diagrama. Se puede ver que me gusta dormir durante 7-8 horas, a menudo me acuesto después de la medianoche, y a veces organizo maratones de comentarios de muchas horas, y esa actividad durante el año pasado excede o es aproximadamente igual a la de los cinco años anteriores.
O bien, el compañero gecube mantuvo un voto de silencio durante tres años y medio, y luego se abrió paso ...

imagen

Un diagrama de actividad típico de un habra-comentador se parece a esto (esto es QtRoS )

imagen

Un distintivo "sueño hueco" a la izquierda en algún lugar de la noche europea y comentando tranquilamente durante el día, posiblemente con interrupciones durante medio año.

¡Pero no todas las listas son tan aburridas! ¿Cómo te gusta esto?

imagen

Durante más de dos años, nuestro colega, aparentemente, volvió a entrenar sus biorritmos para dormir de una noche europea en algún lugar bajo la Cordillera del Atlántico Medio, además, de manera uniforme y gradual, y luego pasó otros dos años para regresar a la costa de Portugal. Caminando? Nadar? No puedo dar explicaciones plausibles ... Las primeras tres horas de vigilia, los comentarios vuelan como una ametralladora, y al final del día ya veía una vez cada hora que todo se hace allí.

Fue, por cierto, 0xd34df00d .

Y aquí hay otro acertijo:

imagen

Durante cuatro años y medio, un colega resistió sin un solo comentario: vio que había entrenado en algún lugar de los monasterios secretos, cómo no dormir durante días, a juzgar por la cantidad de comentarios que se enviaron en el "hueco con sueño".

Pero lo más interesante aquí es la anomalía a la hora 16, que dura más de tres años y se desvanece gradualmente en el último año. Descanso de humo? Paseando al perro? Trotar? ¿Qué más puede arrancar un habrovchanin de una cinta de comentarios a la altura de un día de trabajo con tal predeterminación diaria? Estoy gouging y un teleadicto , no puedo imaginar tal autodisciplina que el respetado khim puede permitirse.

Finalmente, el último diagrama para pensar:

imagen

Por lo general, no tiene un pronunciado "sueño hueco". Apenas adivina el aparente exceso del número de comentarios enviados por la tarde sobre los enviados antes.

Con toda la severidad de Komsomol, insto al respetado MTyrz a desarmarse antes de la fiesta y honestamente admito cuántos abuelos, nietas, bichos y ratones dirigen su cuenta y escriben comentarios.

Y al final, la pregunta insidiosa: ¿alguien puede estar tan interesado en todo lo que quiere desarrollar el código del analizador y / o obtener un volcado de la base de datos o acceder a él, etc.? Mi propio conocimiento en minería de datos y en métodos de visualización de datos apenas supera la erudición general. Algo más inteligente e interesante que estos pequeños diagramas simples en los que apenas puedo pensar. Si alguien está interesado, escríbeme en telegrama (apodo en el perfil).

Gracias por su atencion!

UPD Publiqué el código fuente en GitHub .

Source: https://habr.com/ru/post/475058/


All Articles