
您知道Habr有编辑吗? 那些是人。 多亏了他们,新闻板块才永远空无一人,您始终有机会开玩笑地谈论阿里扎尔的遗产。
以编辑的名义,每本每周都有数十种出版物。 有时Habr用户甚至认为他们实际上不是人,而只是查找和修改材料的算法。
今天,我们将尝试找出他们的工作时间多长时间,他们是否完全休息以及是否有假期。 也许他们是机器人? 至少一些。 关于哈布雷的新侦探故事。 会很有趣。 让我们开始吧!
寻找受害者
确定Habr的哪个用户是编辑者并不困难。 他们多产,写作,写作,写作。 其中一些人撰写常规文章,其他人撰写新闻,而其他人则同时撰写。 今天,我们将专注于新闻。 在我进行初步分析时,最近可见的第50页新闻载有从2019年9月3日开始的出版物。 十二月就在院子里,这意味着在三个月内找到出版物并不困难。 对于偶数账户(实际上不是),我使用了从09/04/2019到04/04/2019的时间段,因此没有几天仅部分包含在数据中。 此外,自12月4日起已经整整一周了,有些事情告诉我,没有人会特别看这则新闻。 因此,他们将不会在草稿副本中进行编辑/隐藏。
因此,我们有92天的时间在“新闻”部分发布了946条帖子。 作者统计如下:
图 1.新闻出版物统计
220个出版物可能是“ elf_elf” , 139 - AnnieBronson , 129 - denis- 19,122- 马克和总共86 - alizar 。 总计-来自5位作者的696条新闻。 他们没有一个人躲藏起来,并且清楚地写在他们在哈布雷工作的每个人的简介中。 另外92位作者中有6位作者在92天内撰写了10篇出版物,其中19篇发表了超过一本。 在新闻的一个帖子上发表了52个报道。
由于我们想知道编辑器的工作时间和放松时间,因此最好的是尽可能多的出版商-前三者。 毕竟,我希望他们不要休息,而全天候工作将出卖任何人。
假设将从事几个月编辑工作的人与已经在Habré工作多年的人进行比较是不公平的。 或者只是阅读我并不真正想要的所有7.3万个帖子标记和8.8万个alizar帖子。 所以, 也许 elf , AnnieBronson和denis-19 。
资料收集
由于我根本不想手动排序所有出版物,因此我使用了自动化方法。 一方面,这使数据收集失去了与我如此亲密并始终吸引人的温暖和类似灯的功能。 另一方面,有些事情告诉我,尽管我将重新阅读或至少翻阅所有已写的内容,但要阅读的出版物数量可能翻倍。
这样啊 记录每个作者的出版物列表,可在habr(。)Com / en / users / username / posts /从第1页到第20页进行记录。 在下一步中,将下载每个出版物,并将必要的信息写在作者出版物的一个公用表中。
收到的信息- 出版物ID;
- 日期和时间;
- 名
- 评分(总票数,加,减,最终评分);
- 书签的数量;
- 观看次数;
- 评论数。
这个故事只使用了部分信息,但是整个事情对于下载帖子并没有收集所有可能的东西不是太合理。
值得注意的是,从本节开始,将考虑所有类型的出版物,而不仅仅是新闻。 这对于统计的完整性是必需的。
仔细观察显示器后,您会发现很多...
结果
第一名
让我们从过去三个月中最活跃的Habr编辑器开始。 在2019年9月26日注册后, maybe_elf立即开始写信,但他从未写过任何评论。 每天有6种出版物的最大生产率达到7倍,而15天没有出版物。 现在让我们获取更多详细信息。
图 2.maybe_elf出版统计
您可能会注意到编辑们有一个周末。 虽然,显然不是每周。 在扰流板下面可以找到周末列表。 Maybe_elf在11月初的假期为8天,在80天内有3个免费的星期六和4个星期日。 你问为什么要请假而不是请病假。 医院几乎不会在周六结束,而在周日立即结束工作。
假期清单10/05/2019(星期六);
10/06/2019(星期日);
10/12/2019(六);
10/13/2019(日);
10/20/2019(日);
11/02/2019-11/09/2019(星期六-星期六);
12/01/2019(日);
12/07/2019(六)。
那工作时间呢? 帖子的发布时间是UTC时间07:02(如果我没记错的话,TM和Habr的办公室在莫斯科10:02)发布,直到UTC时间21:59(00:59)为止。 生产力的高峰是从10:00到10:59,并且在8:00之前和19:00之后的职位很少。
文章发表时间(UTC)5 (07:00-07:59);
25 (08:00-08:59);
27 (09:00-09:59);
33 (10:00-10:59);
26 (11:00-11:59);
20 (12:00-12:59);
17 (13:00-13:59);
24 (14:00-14:59);
21 (15:00-15:59);
15 (16:00-16:59);
13 (17:00-17:59);
10 (18:00-18:59);
7 (19:00-19:59);
5 (20:00-20:59);
2 (21:00-21:59)。
值得澄清的是,工作时间可能取决于星期几,因为有一些细节。 例如,星期五17:43之后没有帖子-这就是为什么星期五。 但是最新的帖子是在星期三和星期四。 扰流板下的细节。
活动时间(UTC)取决于星期几08:39-18:25(星期一);
07:10-19:54(星期二);
07:41-21:01(星期三);
07:02-21:59(星期四);
08:33-17:43(星期五);
07:24-17:43(星期六);
08:36-18:27(星期日)。
由于我们发现至少有一位剪辑师肯定有一个周末(甚至是假期?),因此我们转向最重要的问题。 他经常引起Habr读者的兴趣,并在对那些最不喜欢的帖子的评论中定期对其进行讨论。 数量还是质量? 编辑者对出版物有规范吗?
我的回答是。 怎么了 只需查看每周的出版物数量即可。 有了令人羡慕的规律性,这个数字仅在休息期间以及工作的第一周(不到4天而不是7天)才降至20以下。每周平均出版数量为23.7,而每周的详细信息在扰民之下等待着您。
每周出版物数量22 (12/09/2019-12/14/2019);
22 (12/02/2019-12/08/2019);
22 (11/25/2019-12/01/2019);
27 (11/18/2019-11/24/2019);
23 (11.11.2019-17.11.2019);
3 (2019年11月4日至 2019年11月10日);
24 (10.28.2019-03.11.2019);
25 (10/21/2019-10/27/2019);
26 (2019年10月14日至2019年10月20日);
26 (10/07/2019-10/13/2019);
20 (2019年9月30日-2019年10月6日);
10 (09/ 26 /2019-09/29/2019)。
第二名
在92天内的139个帖子中排名第二的是编辑Anya AnnieBronson (用户信息中的名称)。 在《哈勃拉圣经》 2019年6月20日开头,她的帐户上已有255个帖子。 每天最多可以进行5次(达到7次),而最有效的一天是星期三。 178个中的66天没有出版物。
图 3. AnnieBronson出版物统计
每周的出版物数量从3(仅一次)到17(这样的3周)不等,平均职位数量为每周9.8。
每周出版物数量12 ( 12/9 /2019-12/14/2019);
4 (12/02/2019-12/08/2019);
14 (11/25/2019-12/01/2019);
14 (11/18/2019-11/24/2019);
6 (11.11.2019-17.11.2019);
10 (04.11.2019-10.11.2019);
15 (2019年10月28日-2019年11月3日);
8 (10/21/2019-10/27/2019);
7 (10/14/2019-10/20/2019);
13 (10/07/2019-10/ 13 /2019);
17日 (2019年9月30日-2019年10月6日);
8 (09/23/2019-09/29/2019);
7 (2019年9月16日-2019年9月22日);
13 (09.09.2019-09.15.2019);
12 (2019年9月2日-2019年9月8日);
4 (08/26/2019-09/01/2019);
8 (08.19.2019-08.25.2019);
17 (08/ 12 /2019-08/18/2019);
17 (08/05/2019-08/11/2019);
5 (07/29/2019-08/04/2019);
6 (07/22/2019-07/28/2019);
3 (07/15/2019-07/21/2019);
8 (07/08/2019-07/14/2019);
4 (07/01/2019-07/07/2019);
13 (06/24/2019-06/30/2019);
10 (06/20/2019-06/23/2019)。
工作时间是一个有趣的时刻。 出版物开始于世界标准时间3:00,结束于22:33。 似乎有人在做些微处理,但这并不准确。
文章发表时间(UTC)8 (03:00-06:59)
7 (07:00-07:59);
15 (08:00-08:59);
10 (09:00-09:59);
24 (10:00-10:59);
30 (11:00-11:59);
29 (12:00-12:59);
30 (13:00-13:59);
23 (14:00-14:59);
19 (15:00-15:59);
20 (16:00-16:59);
14 (17:00-17:59);
8 (18:00-18:59);
9 (19:00-19:59);
6 (20:00-20:59);
2 (21:00-21:59);
1 (22:00-22:59)。
一周中的哪几天最长? 答案是星期五。 实际上,不要忘记我忽略了日期,而只看星期几。 日程安排可能发生了重大变化。 在2019年9月27日03:00,显然发生了有趣的事情。
活动时间(UTC)取决于星期几07:16-19:26(星期一);
07:29-19:37(星期二);
05:11-20:17(星期三);
06:00-22:33(星期四);
03:00-20:12(星期五);
05:20-20:31(星期六);
05:00-20:11(星期日)。
另一个有趣的事实是,该编辑器几乎也从不编写注释。 在178天内,对哈布雷进行5条评论。
第三名
denis-19是今天在92天之内排名129的最终第三名。 他总共拥有359种出版物,其中一些早在2018年。 该用户什么时候成为编辑的,或者他从一开始就成为编辑? 自2019年8月1日以来,出版物的数量急剧增加。 从那时起,共撰写了242条帖子,平均每天1.8条。 假设这是授权的生效日期。 所以,统计。
图 4.出版物统计denis-19
生产力最高的一天是星期四,周末出版的出版物也很多。 那工作时间呢? 最早的出版物是世界标准时间02:27,最新的是23:25。
可能不为人知的事实,但事实并非如此。 在242分钟中,有155种出版物(占64.5%)在5分钟内(:00,:05,:10等)出版。 例如,所有从18:00开始的出版物就是这样。 一天多次发生这种情况。 要么是非常准确的人(有很多空闲时间),要么是照常准备文章,然后自动将它们从出版物的草稿中打印出来。
如果某人发表出版物,则遵守此类模板所花费的时间平均为每篇文章2.5分钟,即155种出版物大约花费387.5分钟。
对于另两名编辑,250个帖子中的54个(21.6%, maybe_elf )和255个帖子中的54个(21.2%, AnnieBronson )说明了这一准确性,这与统计数据相符。 十进制数字系统假设遇到以0或5结尾的数字的理想机会为20%。
在这方面,我认为研究出版时间并不有趣。 如果他们不是由一个人犯下的,那么这将不会提供任何信息,但是,如果一个人-他具有超能力,那么就不可能找到任何东西。
最著名的全时出版物列表18:00-4个;
17:50-4个;
17:30-4个;
16:00-6个;
15:10-4个;
08:40-4个;
08:20-4个;
08:00-4个;
06:40-4个;
06:00-4个;
05:50-4个;
等
每天的活动时间也不会背叛真实的人。
活动时间(UTC)取决于星期几03:51-23:25(星期一);
04:00-18:30(星期二);
04:18-18:20(星期三);
02:48-23:00(Th);
04:30-17:50(星期五);
02:27-18:50(星期六);
04:10-16:00(星期日)。
他与其他两位编辑者不同的另一点是,他有时会写评论。 发表360件。
而不是结论
因此,我们发现了Habr编辑有多少人(其中三人是最近最活跃的新闻撰稿人),他们有周末,而其中一些人确实是真正的人并且正在休假。
偶然发现另一个谜语。 好吧,或者至少是可疑的东西。 看来,至少在某些情况下,列出的三者之一在自动模式下工作。
也许不是这样。 但是我们有个侦探。 什么都可能发生...
让我们再想一想...
今天就这些。 感谢您的关注!
附注:如果您发现文字有错别字或错误,请告诉我。 可以通过突出显示部分文本并按Ctrl /⌘+ Enter (如果有Ctrl /⌘)或通过私人消息来完成 。 如果两个选项都不可用,请在注释中写出有关错误的信息。 谢谢你
PPS也许您也会对我对Habr的其他研究感兴趣,或者您想为下一份出版物或者甚至一系列新的出版物提出建议。