在Vkontakte上确定机器人和商品的算法

猫下不会有神经网络和复杂的公式,只会描述我在膝盖上抓到机器人的标志,将这些标志的过滤结果与通过一个广告服务进行过滤的比较以及到具有js实现的页面的链接进行比较,据此,任何人都可以自己测试过滤器自己的列表或测试最后加入社区的人。

图片引起关注:



背景知识


最近,我需要收集有关商业婚礼社区每周新订户数量的统计信息。 为完成此任务,编写了一个脚本,该脚本收集了必要社区中的新参与者,并乍一看产生了明亮的数字。 只是在从组合清单中检查了随机帐户后,它们似乎就不再显得乐观了:有些在收款之日被社交网络禁止,有些结果是开放的漫游器或要约(以后我会称这两种漫游器)。

为了获得实数,有必要找出收集的订户中机器人的大致份额。 我曾尝试通过目标猎人来清理机器人的观众(这是第一个吸引我注意的服务,可让您免费过滤机器人),但清理的质量却是一般的(在其余的服务中,有假账户,而且很多)。 我决定不使用“付款,然后我们将向您展示我们可以做到的事情”之类的服务-金钱是可惜的,结果是同样的黑匣子和可疑的结果。 我决定研究机器人的页面并编写自己的过滤器。

我们在过滤谁


首先,我要澄清一下,我的目标是从邀请他们参加商业婚礼社区的角度过滤掉我认为是垃圾的帐户。 此定义包括进入机器的两个漫游器,并提供有人每人生成100,500,然后将它们作为所谓的“实时订户”出售。 显然,学生手动赶上的报价不会像追赶脚本的机器人那样购买任何东西。 他们所能做的最好的是支付1000次展示就可以得出广告的统计信息。 它也可以吸引相当真实的人,但是如果他们没有看到他的帖子,那么他们在社区中的用途是什么(以及向他们展示社区广告没有意义)?

如何过滤


在我看来,最简单的想法似乎是在0到100的范围内评估每个帐户,据此,明确的机器人会获得100分,而普通人则保持在0分左右(理想情况下。实际上,一些真实的人可以得分50分)。 该技术并不完美(就像防御剑战的盾牌上的所有东西一样),但是正如实践所示,机器人的创造者在创建假货时并没有真正打扰(完美的机器人将比广告所吸引的客户花费更多),因此目前可以使用。 为了填补规模,选择了几个记号,每个记号可以增加或减少一定数量的分数,并且得分达到一定数量的账户(在我的情况下为70-100)被认为是低质量的并被过滤。 我不会写找到特定属性时分配的点数,您可以在文章结尾的示例中看到它们,在那里可以更改它们以及阈值,如果超过该阈值,则将账户记入机器人账户。 现在让我们看一下检查的标志:

帐户被禁止


我要过滤用户的第一件事。 我不知道为什么这些服务会留下这样的帐户(而上述服务“ tx”离开了它们)。 使用社交网络的在世人士将重新获得访问权限。 禁止后,拥有一千个帐户的垃圾邮件发送者或漫游器驱动程序更容易创建一个新帐户。 而且,仍然无法将广告扭曲到禁止的在线用户上。

页面链接未更改


Vkontakte允许用户输入指向其页面的唯一链接,而不是未命名的id12345678。 这不是一个非常重要的信号,因为并非所有在世人士都对其进行更改,并且被盗的联系人可以具有这样的链接,但是对于新注册的漫游器来说,这样的链接保持不变。

没有头像


在2018年,这不再与机器人相关。 相反,对于完全懒惰的人来说,缺乏化身是典型的伪造品,但我认为该受众群体的素质不是很高。 无论如何,这也不是一个很重要的信号。

有指向其他社交网络的链接


这是一个活人的好兆头。 我没有找到通过api设置到facebook / instagram的链接的方法。 也许他看上去很糟,或者也许不是。 但是,为机器人设置链接要困难得多:您至少必须在社交网络上创建此帐户并将其链接到VKontakte界面。 因此,配置文件中此类链接的存在会重置机器人标识符的计数器上的一些点。

没有上网超过1-3个月


在每个人的手机上都安装了社交媒体客户端的世纪中,如此低的活动似乎令人怀疑。 即使不是所有者遗忘的漫游器,通过广告与这样的人合作也要困难得多。 如果您需要热门受众群体,那么一个月后才能提供服务(他们已经找到了另一个提供商)将为时已晚,并且此人处于离线状态,您无法联系到他。 我重复文章开头所说的内容-我研究了有关婚礼主题的听众,因为她的热心联系很重要。 如果您决定根据人们的爱好来宣传娱乐场所或商店,则这种症状对您的重要性可能较小。

订阅了500-1500个社区


垃圾帐户的明显标志。 通过机器人赚钱的主要文章是加入各种团体(嗯,是的,喜欢和转发)。 而且,botofarm的所有者不太可能将其隐藏。 出于同样的原因,顺便说一句,您可以尝试过滤掉那些将自己的组隐藏起来而不被窥探的人(在这种情况下,偏执狂也会被过滤掉,但VKontakte的听众中有一些人是这样)。 即使您以此为基础筛选了一个活人,也不会有什么不好的事情,他也不大可能在自己的供稿中看到您所在社区的新闻,因为该订阅了1000个其他人。

互助社区成员


仅当您的目标受众是缺乏注意力,缺乏兴趣和大量空闲时间的学童时,才应留给此类儿童。 我个人认为这样的听众不仅是垃圾,而且是一个不真实的信号。

由许多关于不同城市的社区组成


坦白说,我没有一个单一的理由可以让普通人同时关注喀山洗衣机维修,鄂木斯克户外广告,卡卢加州室内设计团队以及不同城市的其他十个商业社区的新闻。 尤其要考虑95%的此类社区中内容的质量。 但是,通过加入社区赚取收益的机器人非常有利可图。

没有化​​身的群组成员


我认为这个迹象并不重要,但是,在测试过程中,有一篇文章以此为基础对机器人进行了检测。 通常,此类社区可以用作技术培训场(程序员可以访问社区密钥),它们可以很年轻。 但是当与他们的朋友讨论这个标志时,他们告诉我他们不会加入这样的社区。 总的来说,这个标志对我来说仍然是最模棱两可的,充满了秘密和奥秘(以及没有化身的社区的存在)。

没有人在看用户帖子


此症状要简单得多。 通常,如果用户有很多朋友,但同时他在墙上几乎没有视野,那么他的朋友就是模仿对象。 而且,为什么要模仿朋友才能将真实账户变成现实?

在其他用户的照片中标记


目前,机器人没有习惯在照片中互相标记,但真正的人确实注意到了这一点,特别是因为社交网络提供了非常侵入性的功能(以至于它使我可以在自己的个人资料照片上进行标记)。 出现此类标记通常表示帐户被盗或真实用户。

筛选检查


为了检查通过这些参数搜索机器人的有效性,编写了一个小型服务 ,该服务可让您检查下载的联系人列表。 另外,为了使这项研究对人们具有实用价值,该服务中还添加了查看社区的功能-如果您主持社区,则可以自动下载最新成员并进行检查。 如果您雇了一个人做广告,并且他为您提供了有关订户增长的统计信息,但同时您看不到订单/评论/喜欢的数量真正增加,这很有用。

该算法使用wall.get方法从墙上检查记录,每天最多有1000个呼叫,因此使用此脚本时,您最多只能检查1000个人。 但是,这足以评估观众的素质。 此外,该脚本允许您为每个属性和确定机器人的阈值设置自己的权重值,因此,如果您不同意此参数定义机器人,则可以将其设置为0(反之亦然)以增加其值。

测试和结果比较


根据审核结果,目标猎人从2935人的测试受众中过滤了877个机器人。 通过所描述的算法进行过滤消除了1984个人。 如果您加紧筛选器并仅识别最恶意的机器人(订阅500-1000个社区,其中很大一部分是不同城市的社区,则被禁止或包含在推广组中),则检测到的人数将减少到1215人,但是,其数量也超过了结果以上服务。 但是,我查看了大约20页的目标猎人认为是正常用户的用户,而我的算法是漫游器,而所有这些用户对我来说都是可疑的,许多页面包含可疑服务的转发(赌场,成人约会,参加比赛,体育预报),或者记录查看次数少。 我还遇到了类似于推广某些服务的商业帐户的帐户,但是我个人准备忽略它们,尤其是考虑到这些帐户,除了我需要的社区之外,还可以在短时间内订阅数十个其他帐户,以及他们是否对我需要的主题感兴趣。 尽管较弱的过滤器可能会留下此类帐户。 当然,我知道20页不足以判断1984年所有帐目的质量。

无论如何,我得到的结果都令我满意,尽管如果有空闲时间,则可以大大扩展寻找机器人的迹象。 但是,以上所述(目前)已经足够获得定性结果。 并再次链接到该算法的实现 ,以免跳过本文。

Source: https://habr.com/ru/post/zh-CN413855/


All Articles