城市入睡,哈布罗夫斯克居民醒来

如果快速起草文章下的评论数量接近1000条,请确保-不管作者说什么话题,里面的内容都会泛滥成灾:关于政治问题的焦点由沙发专家围绕着所有问题,根据个人资料图片和昵称在一定距离内进行精神病诊断,向人格转变,讽刺性攻击,其腐蚀性大于异形血液,当然,在这种情况下的强制性条件是对方的相互指责,即对方专门与您讨论 和/或值班。 显然,这既危险又困难,而且乍一看似乎是看不见的,而且路上没有三十块银子躺在上面。

在这种情况下最有趣的是 那些深受互联网错误提示综合症影响的人们经常花时间和神经来证明另一个人完全自由为自己赚钱或按订单做同样的事情。 您在这里寻找逻辑吗? 她不是。 宝贝,这是互联网。

让我们来谈谈有关Gitlab所谓的领土歧视的相对较新的问题之一。 自从文章发表以来已经过去了4天,当然,很久以前的讨论已经脱离了最初提出的关于遥远土地的话题。 这些短语听起来:
真实的人将无法对订阅的专业评论员提出任何反对...

用户(某某某某)仅仅在评论上花费了不切实际的时间...
同时,它的活动没有普通用户通常固有的模式 ...

ps,但它导致我为此类评论员编写了一个解析器分析器)以小时,每天,每周,等的时间指示活动。……这是一篇不错的文章)
别这样 这些模式“通常是普通用户所固有的”是什么? 不幸的是,该主题中该短语的作者已经被弄清楚了,因此您必须随机进行。

我想摆在您面前的问题很明显,以下是-甚至可以通过统计方法至少以某种方式可靠地区分这些模式,从而创建一个将临时评论员与专业评论员区分开的正式分类器吗? 想象一下-“根据Habr-Botometer,您有76%的可能性是克里姆林宫机器人。” 这将比彼此的业力袭击凉爽得多。
不幸的是,我的能力还不足以猜测要采用哪种方法来解决此类问题。 尽管如此,昨晚我还是敲了一个小的原始解析器,(因为评论页面甚至对未经授权的访问者开放),到目前为止,它做了两件事:a)它从所有评论中收集统计信息(目前,这只是时间-stamp)并添加到MySQL数据库; b)绘制一个时间表,在其上标记从该数据库发送评论的事件。 即使没有一些棘手的分析,结果也很有趣。 这就是我的评论图。 在下面进行说明。 最好在单独的窗口中以100%或更大的比例查看。

图片

在水平轴上是时间,每个像素等于一分钟,灰色分割的价格等于一小时,整个水平线等于一天。 该日沿垂直轴从下到上,其分割价格为365天。

我的图中没有什么特别有趣的。 可以看出,我喜欢睡7-8个小时,经常在午夜后上床睡觉,有时组织数小时的解说马拉松比赛,过去一年的活动超过或大约等于前五年的活动。
或者, 古切伯同志保持了三年半的沉默誓言,然后就破裂了……

图片

典型的habra-commenter活动图如下所示(这是QtRoS

图片

欧洲之夜某处左边明显的“昏昏欲睡的空洞”,白天则悠闲地发表评论,可能会中断半年。

但是,并非所有图表都这么无聊! 您的感觉如何:

图片

两年多来,我们的同事显然重新训练了他的生物节律,使之从大西洋中脊下的欧洲之夜中均匀地,逐渐地入睡,然后又花了两年时间回到葡萄牙的海岸。 走路吗 游泳吗 我无法提出合理的解释...在头三个小时的清醒中,评论像机关枪一样飞扬,最终一天一小时,我已经看完了所有内容。

顺便说一下,它是0xd34df00d

这是另一个谜语:

图片

四年半来,一位同事坚持不懈地发表了评论-他看到他在秘密修道院里某个地方训练,如何在“昏昏欲睡的空洞”中发了多少评论,这几天不睡觉。

但是,最有趣的是第16小时的异常,该异常持续了三年多,并在去年逐渐消失。 抽烟吗? 狗? 慢跑吗 在每天工作量如此之大的情况下,每天工作量最多的时候,还有什么方法可以从评论磁带上撕下哈布罗夫黄素? 我在刨土豆 ,我无法想象尊敬的希姆能承受得起这样的自律。

最后,要考虑的最后一个图:

图片

它通常没有明显的“昏昏欲睡的凹陷”。 仅勉强猜测下午发送的评论数量明显超过了之前发送的评论数量。

考虑到所有Komsomol的严重性,我敦促受人尊敬的MTyrz在聚会前解除武装,并诚实地承认有多少祖父母,孙女,虫子和老鼠操纵了您的帐户并乱写评论。

最后,这是一个阴险的问题-任何人都对他们想开发解析器代码和/或获取数据库转储或对其进行访问等一切都如此感兴趣吗? 我自己在数据挖掘和数据可视化方法方面的知识几乎不超出一般知识。 比这些简单的小图更聪明,更有趣的事情我几乎想不起来。 如果有人感兴趣,请给我写电报(个人资料中的昵称)。

感谢您的关注!

UPD 我将源代码发布在GitHub上

Source: https://habr.com/ru/post/zh-CN475058/


All Articles