识别VK中有意义的配置文件

区分机器人和人真的很困难。 我自己真的做不到。 但是另一方面,我想出了一辆好自行车……一种在VK中如何区分“有趣的人”与“不太有趣的人”的方法。 就网络通信而言,当然不是生活中的事情。



如果有人在敲你的朋友,但是乍一看你可能不知道这是一个普通人还是地狱的人,这种方法可以提供一些有关用户的有用信息。 不太可能用它来识别相关的目标群体,因为VK限制了下载用户墙内容的能力 ,而且伤害缓慢。 即 可能,但有必要大大完善,优化和闪避,以规避限制。

主要思想


其主要思想是,僵尸机器人(以网络术语而言)是沉闷的(个性化),各种各样的朋友-订户收藏者并不真正在乎他们与谁成为朋友,尽管他们可以在墙上“写下”很多有意义的帖子。 但是呆板的人物不会特别阅读他们的录音带,而机器人则根本不需要它。 此外,这对于订户和明星的大众收藏家来说不是必需的。

但是对于对VK至少具有某些交流兴趣的人,与他们成为朋友非常重要。 而且,当然,他们将无法在他们的朋友中收集6,000个花花公子,这些朋友只能在Novy Urengoy的一个仓库中以折扣价分享转贴,裸女照片和排水桶广告

在此基础上,您可以尝试制定一个标准,以根据该标准挑选出对Feed内容感兴趣的人。 这样的人展现出真实人物的特征。 至少执行有意义的单方面交往行为的人。 如今,这已经不小了。

我立即想到两个标准:

  • 一个人的朋友最近N条帖子的平均词典。
  • 被检查者的朋友发的无短信的帖子所占的百分比。
基于这样的事情,您已经可以尝试建立某种模型,以区分有趣的人和不太有趣的人。

最终我如何检查呢?


我选择了50个随机的朋友和50个随机的追随者,他们符合一定的条件,可以切断非常明显的假货,孩子或未全部使用的人。 键入不应该停用该用户,同时应拥有50个以上的现有朋友。

我仔细检查了所有这些人,确定其中哪些是“机器人”,哪些不是。 自然,大多数朋友都是真实的,大多数订户都愿意买东西(但那里有几个真实的人)。

此外,如果墙上有很多人,我从被检查者的每个朋友那里获得前100个帖子。 对于每个人,我考虑了两个这样的因素:

  1. 一个人的朋友词典的前100条帖子的平均大小。 即 50个朋友,每个朋友约有100个帖子。 对于每个朋友,将100个帖子中的所有单词倾斜成一堆, 加盖戳记,并考虑一个朋友的唯一单词的数量。 此外,考虑所有50个朋友的平均值。 从该值开始,取根-SQRT(Dic)。
  2. 如果一个朋友的100篇帖子中有60篇以上没有单词,则将其标记为“丢失”。 朋友中“迷失”的人的百分比是第二个因素-百分比。

另一个因素是偶然出现的。 这是VK log10(ID)中来自Idy的对数

在此基础上,我对所有人进行了逻辑回归培训,得到了:

log(OR)= 9.92-1.53​​7 * log10(ID)+ 0.067 * SQRT(Dic)-0.023 *百分比

对于样本的测试部分,我们得到了很好的分类器,AUC = 0.93。 这是这样的ROC曲线


确定一个人页面内容的分类器的ROC曲线

VC ID在对人的内容进行分类中的重要性提出了一些问题,但是,a,它确实有效。 ID距离1越远,就越有可能是一个用来宣传小额贷款的机器人。 没有ID,分类器也可以工作,但效果更差。 AUC = 0.78。 这不是直接的好,也不是直接无用的。

无论如何,关于角色有用性的最终决定权取决于决策者。

额外检查


我从一位同志那里带走了全部5,000名订阅者,当然,那里有95%的广告渣是送出的,回归是在没有额外培训的情况下进行的。 截止值为20%,结果得出TP = 78%,FP = 11% 。 即,通常,对于任意人,这或多或少地起作用。

他们可以制造出通过此测试的机器人吗?


是的,生成一个带有一些伪造的,被朋友包围的帖子的机器人很容易,但是到目前为止,没有人需要它。 好吧,很难打扰不同的内容,因为如果所有漫游器都生成相同的东西,这也很容易识别。

是否可以制作一个按ID检查人员的应用程序?


可能是可行的,但我将其分解为打招呼VK。 如果有人愿意,让他去做。 似乎已经描述了该方法,其思想很简单。

太平常了吗?


够了 但是突然有人会派上用场作为他们发展的基础。 例如,不仅考虑字典的长度,还考虑内容,很容易使此方法变得复杂。 在这里,您已经可以使用NLP的全部功能并进行内容培训。 您仍然可以采用更复杂的分类器:树,神经网络等。 所有这一切都可能很复杂,但是重要的是,即使是简单的东西也可以提供一些有趣的东西。

Source: https://habr.com/ru/post/zh-CN422871/


All Articles