在YouTube上可视化评论:视频,频道,流派,跨流派

大家好! 坦纳·斯托克斯 Tanner Stokes) 编写了一个插件 ,以“ herp derp”的形式重新制作了YouTube上的评论文字。 这使某些人的生活好得多。 我们以相同的方式进行,但是对概念进行了少许更改。 我们以图片或带有顶点和边缘的图形的形式呈现YouTube评论。 我们可以可视化所有类型的对象-从视频和频道到跨流派的交集。 我们该怎么做? 让我们找出答案。



我们为什么想像


哲学家说,事实不是重要的,而是他们的比较。 对于我们来说,不要对视频本身发表评论,而是要比较不同视频中评论者的行为,这一点也很重要。 可持续再现的情况对应于可视化中可见的模式。 我们选择的主要任务是可视化和区域检测-基于其模式,以及在YouTube上评论者互动的一般映射,以便编制评论图集。

软体类


直到最近,我们仍使用Youtube Comment Scraper Web服务缩小评论 ,但似乎已不再支持该评论 ,因此您可以使用服务。

现在,我们使用自己的工具,使我们可以整体抽取一个或几个通道的注释,这对于我们的目的而言更加方便。

对于数据可视化,我们使用Gephi v。 0.9.2 。 对于顶点和边的堆叠,我们使用了Force Atlas 2算法,为了显示统计数据,使用了“平均(加权)度”和“模块化”功能。

演算法


问题出现了,但是如何跟踪评论,应该采取哪些客观指标呢? 我们尝试将用户名绑定到视频的标识符-在我们的情况下,是按顺序编号,例如“ OverlordXXX”-“ 1”; “霸王XXY”-“ 2”,依此类推。 然后根据本手册创建两个文件,“节点”和“边缘”。

Gephi中的可视化如下。 评论者(1)连接到滚筒(2),这是评论。 如果评论者对一个以上的剪辑进行了评论,则它将与他评论的所有剪辑相关联(3)。



视频评论可视化


为了比较评论者,选择了三个视频( 1、2、3 )。

在Gephi中可视化视频评论的结果:



对视频的评论以具有10,462个顶点和10,692个边的有向图的形式呈现。 可视化结果显示,三个视频之间的评论者互动很少表现出来。 这在很大程度上与视频内容的差异相对应,这反映在每个视频的评论中。 第一个视频演示了磁控管的使用体验。 第二个视频包括体验和与体验没有直接关系的事件的报道。 第三个视频仅用于事件,不涉及实验。

为了进行控制测量,使用了来自同一频道的剪辑( 1、2、3 ),但与以前的剪辑不同,它们在相似的上下文中彼此之间的关系更为紧密(涉及模因特技演员的实验)。

可视化结果:



对视频的评论以具有10108个顶点和10857个边的有向图的形式呈现。 一般情境对应于三个视频中至少两个视频中评论员的强烈互动。

也就是说,不同视频中的评论者社区之间的差异(反之亦然)与视频的整体上下文不同(反之亦然)相关。 有趣的是,即使不先熟悉内容,可视化也能很好地抓住它。

可视化YouTube频道评论


为了进行可视化,选择了172个频道视频的472,286条评论:



常见的评论云链接了大多数视频。 在此基础上,我们可以将通道称为语义(语义和上下文)完整性。 但也有有趣的区域特征。 很容易看到在图像顶部突出显示的两个对称注释集的区域,分别用绿色和蓝色绘制:



事实证明,它们是通过对有关鞭炮的四个视频( 1、2、3、4 )进行评论而形成的,其中放有烟火画。

可以假设这些视频与其余视频之间的联系程度较低,是由于通过外部链接过渡到它们而导致的,因此,特定受众群体的出现与该频道的其余内容间接相关。

初步结论-在评论的可视化中,区域的选择效果很好。 然后,您可以借助定性方法(例如内容分析和人种志)探索一个单独的区域。

YouTube评论可视化:电影评论


为了与流派领域合作,使用了九个YouTube频道( 1、2、3、4、5、6、7、8、9 ),其作者在说明中表示对电影的评论是主要的内容类型。

在所有频道的视频上可视化1 920 865条评论:



可视化显示,两个大型(从100万个订户)频道实际上吸收了七个小型(最大50万个订户)频道。 实际上,小通道已成为大通道的区域,在图片中作为该区域的相应颜色值得注意。 可以假设,小渠道的评论者大多是大渠道的评论者。 也就是说,维恩图更适合于它们的研究,例如,您可以确切地看到它们在不同通道中以多少比例呈现。

为了进行控件比较,在美容博客类型中对八个通道(1、2、3、4、5、6、7、8)的注释进行了可视化的513282注释:



仅在两个子集中观察到通道的强交叉点,而两个通道(黑色和淡紫色)彼此之间的连接相对较弱。 与第一个示例不同,美容博客评论员互动的可能性较小,在某些情况下是相对孤立的受众。 因此,例如,出于广告目的,在设置频道受众的最大覆盖范围时必须考虑到这一点。 如果就电影评论而言,足以在百万个以上的频道上订购广告,那么对于美容博客,您就需要订购广告,包括在孤立的频道上进行订购,否则就不会覆盖他们的受众群体。

跨流派交叉注释的可视化


为了可视化跨体裁的交集,在美容博客的体裁中选择了三个频道(115个剪辑上的1,142,231条评论),实验(81个剪辑上的2、72,163条评论)和旅行(482个剪辑上的3,135,403条评论)选择了三个渠道。

1)美容博客评论员与实验交集的可视化:



2)评论员对实验和旅行的可视化:



3)可视化美容博客和旅行评论员:



4)可视化所有频道的评论者:



从视觉上,您可以注意到,旅行和实验的频道评论员有许多交叉点,尽管美容博客评论员与其他人分开,但它们与旅行评论员的关系要比与实验评论员的联系多。

初步结果


在评论研究的情况下,可视化的总体趋势是合理的。
在研究频道或单个视频的情况下,可视化使您可以突出显示和细化研究人员感兴趣的区域。 这大大简化了随后对YouTube频道上的评论和视频内容的定性研究。

在实践方面,例如,在优化渠道广告的情况下,可视化渠道的活跃观众(评论员)的交集会很有用。 如果在可视化过程中检测到渠道评论者/渠道集的强大而稳定的交集,则可以让您正确分发广告,从而节省广告的位置。

Source: https://habr.com/ru/post/zh-CN416931/


All Articles