2018年俄罗斯YouTube趋势分析

也许老人们甚至都不记得了,但是在2017年底的互联网讨论中,人们流传着YouTube的趋势经常带有“伤口”视频的想法。


因此,在2018年新年前夕,我编写了一个实用程序来收集有关流行趋势视频的信息。 对于每个视频,都要求提供名称,标签列表,创建日期以及清漆/不喜欢/观看次数的更改历史记录。 开发是在用于NodeJS的TypeScript上进行的,代码本身已发布在GitHub上


结果,现在有机会构建漂亮的图形:
喜欢和不喜欢的次数变化图


也有机会通过关键字构建趋势变化图。 在2018年,总共收集了29,271个视频信息。 现在正在收集统计信息。



一般工作原理


  1. 每5分钟一次,获取当前趋势列表。
  2. 对于每个新视频,将保存基本信息(标题,标签列表,创建日期)
  3. 根据标题和标签,每个视频都映射到关键字云。
  4. 根据时间表,要求提供有关每个视频的喜欢/不喜欢/观看次数的信息。 两天内收集统计信息,第一次以2分钟为间隔发送请求,然后间隔增加。 如果怀疑有作弊行为,则将间隔时间再次设置为2分钟。

如果任何部分的喜欢/不喜欢次数变化图是一条直线,则仅保存该部分的第一个和最后一个值。 这样做是为了减少数据库的容量。 现在,在具有统计信息的表中,只有6908449条记录,该表在磁盘上占用458 mb。


自动检测标记的原理


对于我自己,我提出了以下问题:您需要标记视频中喜欢/不喜欢的变化具有“阶梯”的视频。 这个阶梯的步骤是根据三个相邻的统计量确定的。 考虑到两条线之间的角度:在第一和第二测量之间绘制一条线,在第二和第三测量之间绘制一条线,以及线段的长度。 还应注意具有许多小的不规则性的图表。


可疑图表的示例:

可疑图表示例


我手动确定了算法的所有参数,并检查了当时已经收集的视频,并在这一年中对该算法进行了更改。 因此,认真对待每个视频的这种结果可能不值得。 为了辩护,我可以说在更改参数时,对所有已经收集的视频开始重新计数,因此对所有视频都应用了相同的算法。


通常,不可能说一张(或几张)喜欢/不喜欢变化图表上是否有标记。 任何可疑的差异都可以通过CQRS或太阳耀斑的运行来解释。 是的,一个图形是平滑的,另一个图形是逐步的,但是是否所有视频偶尔都会遇到这种行为? 这就是为什么要汇总总体情况,是从所有流行趋势的视频中收集信息的原因。


包装统计


对于2018年,该算法显示以下结果:
涉嫌作弊:180个视频(占视频总数的0.32%)
涉嫌不喜欢的作弊嫌疑:1303个视频(占视频总数的4.45%)


带有可疑喜好图表的视频很少,但并非总是如此:在2018年的第一个月,录制了96个此类视频(占该年所有可疑点赞的50%以上)。 但是,2月份这类视频的数量要少得多,只有8个。


在这里,您可能应该再次找老兄,他们可能会想起(或不记得)发生在2018年1月10日的事件,当时YouTube封锁了许多频道 。 就我而言,我可以说,在被阻止的工具中,有一些是我的实用程序设法收集信息的工具。 安排已删除的视频之一:

图片


假设确实存在作弊行为,YouTube似乎做了很多工作,现在您可以发现并非每天都有喜欢的可疑趋势视频(而发生的视频看起来更像是意外或错误)。 另一方面,标记的这种差异可以通过以下事实来解释:与喜欢不同的是,结束已经流行的视频的喜欢没有意义。


还有更多统计信息。 趋势影片平均获得21,569顶顶和2,863次投放。
怀疑作弊喜欢:15502/4250
可疑作弊行为:16868/22087
因此,如果您查看结果,那么建立喜欢点是没有用的,而增加不喜欢百分比的可能性却很大。


可疑的图表不平衡。 例如,在叶夫根尼·罗伊兹曼(Yevgeny Roizman)频道上,在21个已成为趋势的视频中,有超过一半的视频被算法标记为不喜欢收看。


关于本文标题中的图表。 如果我们假设有一组5到1万个帐户,这些帐户首先被赋予放置不喜欢的命令,然后不等待同一集合上的工作结束,而是给出了放置喜欢的命令,那么您可能会得到一个相似的时间表。


我见过的最奇怪的图:

图片
如果有人能解释一下这里到底发生了什么,我将不胜感激。 顺便说一下,您可以看到根据此图,统计数据收集了将近一周而不是两天的时间。


衡量关键字受欢迎程度的算法原理


如前所述,对于每个视频,将保存名称和标签集。 接下来,将名称和每个标签分成独立的词,它们贯穿词干搜索器并保存为视频的关键字云。


了解有关视频何时流行,何时不流行的信息,以及视频中的单词集,您可以制作每个关键字的受欢迎程度变化的图表。 目前,每天都在建立更改关键字线程的时间表。 作为一种度量,使用了总时间(以小时为单位),所有使用此关键字的视频都处于趋势中。


示例:在趋势中,只有两个与关键字匹配的视频。 一个视频持续了5个小时的趋势,另外10个小时。 然后,将关键字的受欢迎程度设置为等于10 + 5 = 15。


关键字受欢迎度示例


根据我上面写的算法,2018年最令人共鸣和最引人注目的事件不是选举,甚至不是足球,而是克麦罗沃的悲剧:

趋势图:克麦罗沃,选举,足球


与所有其他事件不同,克麦罗沃的悲剧影响了所有人,有关该事件的视频使其他所有人脱离了潮流。


好吧,有点政治:

图片


感觉如何


在此处查看图表并了解趋势


现在,系统在Amazon Cloud上运行,使用了两个实例:

  • t2.micro-Web服务器
  • t3.small是带有MySQL的服务器。 收集统计信息的实用程序在同一服务器上运行。

也许在负载的情况下,Web服务器将首先掉线,而第二服务器将继续收集统计信息。 这就是我的事实,如果一切都停止了,就不必惊讶了。

截至2019年1月23日的数据库本身可以在此处下载。


另外,他一次为chromefilrefox编写了两个插件。 现在,这是唯一的好处:在YouTube趋势列表上,您可以看到每个视频的喜欢/不喜欢的次数。

Source: https://habr.com/ru/post/zh-CN436750/


All Articles