Cambridge Analytica如何将点击转化为声音

消息灵通的克里斯托弗·威利(Christopher Wiley)解释了剑桥分析公司将Facebook调查和数据转化为政治武器的使命背后的科学




Facebook产生的8700万个帖子如何变成可以改变选举结果的广告活动? 收集这么多数据的过程包括什么? 这些数据告诉我们有关我们自己什么?

剑桥分析公司(Cambridge Analytica)的丑闻引发了许多问题,但对许多人来说,该公司独特的销售主张(上周宣布关闭)仍然是个谜。

特别是对于那些对他们的数据到底发生了什么感兴趣的8700万人,我向公司前雇员克里斯托弗·威利(Christopher Wiley)澄清,他向所有人介绍了观察家关于她的有问题的行为。 根据Wiley的说法,对于这样的工作,您几乎不需要有关数据处理科学,无聊的富裕女性和人类心理的信息。

他通过电话解释了第一步,试图赶上火车:“创建算法时,您首先需要收集测试数据集。” 也就是说,无论将如何使用复杂的技术来收集数据-首先,您都必须以旧的,好的方式来收集数据。 在开始使用Facebook喜欢预测某人的心理状况之前,您需要使数十万人进行120个问题的心理调查。

测试集将一次包含所有数据:Facebook喜欢,心理测试以及您想学习的其他所有内容。 最重要的是,它应包含“一组特征”:“您要基于其进行预测的基本数据,” Wiley说。 “在我们的情况下,这是Facebook数据,但可以是自然语言的文本或点击数据,”是您在线活动的完整记录。 “所有这些都是可以用于预测的数据。”

另一方面,您将需要“目标变量”,Wiley说,“您要预测的是什么。 在这种情况下,个人特征,政治倾向等等。”



如果您用一件事预测其他事情,那么回顾这两件事可以为您提供帮助。 “如果您需要了解功能集中的Facebook喜欢与作为目标变量的个人素质之间的关系,则需要同时查看它们,” Wiley说。

就数据处理科学而言,构成Cambridge Analytica故事基础的Facebook数据是一个非常丰富的资源-甚至在2014年Wiley首次开始在该领域工作时,这一数据就更是如此。 收集个人素质要困难得多:尽管可以从BuzzFeed上的问卷调查中得出结论,但要使一个人完成120个问题的测试相当困难(这是标准心理调查之一IPIP-NEO的简短版本的长度)。

但是“相当困难”是一个相对的概念。 “对于某些人来说,参加这项调查的动机是经济上的。 如果您是学生或正在寻找工作,或者只是想赚5美元,那么这就是动力。” 根据Wiley的说法,对调查而言,确实是2美元到4美元不等。 预计“难以到达的群体”的价值将增加。 通过调查的可能性最小,因此,对黑人的依赖最大。 “其他人因为有兴趣或无聊而接受采访。 因此,我们对有钱白人妇女的数据进行了枚举。 如果您居住在汉普顿[ 长岛精英住房区/大约。 翻译],而您白天却无事可做,请填写消费者调查问卷。”

个人调查问卷使用120个问题在五个不同的轴上建立人格特征-这是“五个因素”模型,在行话中称为“ OCEAN”,是“对新经验的开放性,意识,外向性,喜欢和神经质的开放性”的缩写。 ,认真,外向,和agree,神经质]。

该模型将个人特质分为几类,显然,这些特质保留在不同的文化中和在不同的时间。 因此,例如,那些描述自己为“大声”的人可能会将自己描述为“交际”。 如果他们今天同意这样的描述,那么他们将在一年内同意他的意见。 这些群体最有可能以任何语言出现。 如果一个人对某事做出消极反应,那么他与做出积极反应的人会有明显而明显的差异。

威利说,模型的这些特性对于建立人的形象非常有用-与其他流行的心理形象(例如Myers-Briggs类型学)不同 。 在研究的验证阶段,Facebook实际上没有受到影响。 在商业数据挖掘站点上进行了调查-首先是在Amazon Mechanical Turk平台上,然后是通过Qualtrics运营商进行的(根据Wiley的说法,运营商发生了变化,因为亚马逊存在着非常热衷于填写问卷的用户的问题-结果,民意调查的结果失真了)


“不仅是法律-责任/捍卫第二修正案
精选的Cambridge Analytica广告

Facebook仅在最后连接。 为了获得填写问卷的付款,用户必须登录该站点并允许访问由剑桥大学科学家Alexander Kogan创建的调查应用程序数据。 由罗伯特·默瑟Robert Mercer)赞助的Cambridge Analytica,使他对类似于Facebook的个性建设的研究成为了快速进入市场的绝佳机会。 Kogan声称Cambridge Analytica向他保证了数据的正确使用,并称他“被用作Facebook和Cambridge Analytica的替罪羊”。

对于收集了数据的用户,该过程非常快捷:“单击应用程序,获取货币代码”。 但是在这几秒钟中,发生了许多重要的事情。 首先,应用程序收集了有关用户的所有可能数据。 心理特征是目标变量,Facebook的数据是“一组特征”:数据处理专家为所有用户收集的信息,他将使用该信息准确地预测他感兴趣的特征。

该应用程序还收集了个性化信息,例如真实姓名,位置,联系方式-在调查站点上找不到。 “这意味着可以将信息与真实人物进行比较,并将其信息与选民登记册进行比较。”

其次,该应用程序对安装它的用户的所有朋友都执行相同的操作。 突然之间,成千上万的您花了几美元来填写调查表的人,其身份是一个谜,变成了数以百万计的人,这些人在Facebook上的个人资料是一本公开的书。

正是在这一刻,最后的转变发生了。 如何将数十万个人资料变成几百万? 使用大型计算机容量和大量机会。 “尽管您的样本中包括30万人,但是您的功能集已经是1亿,” Wiley说。 每个来自Facebook的数据集喜欢在这个巨大的矩阵中变成单独的列。 “即使整个集合出现了一次,这也已经是一个功能。”

“然后,所有数据都以复杂的模型收集,” Wiley说。 -此时,您正在使用不同的机器学习系列或方法,因为它们各自都有自己的优点和缺点。 然后他们进行投票,然后您将结果混合在一起并得出结论。” 在这一点上,数据处理科学正在成为一门艺术:每种方法中输入数据的确切集合都没有刻在花岗岩上,也没有一种“正确”的方式来收集它。 在学术界,这有时被称为“研究生培训”-此刻之后,剩下的就是要做不断尝试和尝试的事情。 然而,它运行得很好,最后,根据Wiley的说法,“我们创建了253种算法,即每个配置文件记录存在253个预测”。 目标得以实现:事实上,该模型能够从Facebook上获得喜欢,并以相反的方向填写表格中的所有列,猜测该人的个人素质,他的政治倾向等。

到2014年8月,威利获得了第一个成功的结果:210万条记录,并重新创建了美国11个目标州的档案。 该计划是在Mercer和Stephen Bannon赞助的共和党竞选活动中,使用这些数据来创建和改善广告信息,并达到2016年的初选 (Wiley离开了他们的公司)。 “这个数字不仅表明我们从Facebook收集数据,投票数据和消费者数据的所有人群,而且还建立了253个预测添加到他们的个人资料中。”

这253个预测是Cambridge Analytica作为向消费者提供的独特产品提供的“秘密成分”。 仅使用来自Facebook的数据,广告商将面临太多的人口统计样本,并且在算法上定义了几个较窄的类别-您喜欢爵士还是喜欢的足球队? 但是,根据253条预测,剑桥分析公司(Cambridge Analytica)可以像其他广告一样微调广告:投票支持民主党的神经质,容易达成共识的性格外向者将不会受到情绪上稳定的知识分子性格内向的广告,即使相同的广告也是如此如果交换消息,则会产生相反的效果。

威利(Wiley)提到候选人如此令人欣慰的政治声明是希望增加工作岗位的愿望。 “经济中的工作是无意义声明的一个很好的例子。 在经济学中,每个人都赞成工作机会。 因此,使用简单的陈述“我代表经济中的职位空缺”或“我有计划通过经济中的职位空缺来解决这种情况”,并不能使您与对手有所不同。”

“但是,我们发现,如果我们查看职位空缺的概念对每个人的意义,就会发现不同的人会受到具有不同动机和价值观的不同设计的影响。”

实际上,这意味着可以针对不同的人以不同的方式表达相同的chat不休,给人一种在情感层面上影响选民的印象。 “如果您正在与一个有意识的人谈话-在OCEAN模型中[C诚实,正直]的参数C得分很高-您正在谈论的是获得成功的机会以及工作场所承担的责任。 如果这是一个开放的人,那么您正在谈论成长为一个人的可能性。 对于神经质患者,您依赖于工作场所将为家庭提供的安全保障。”

由于现代活动的网络性质,理论上所有这些消息都可以同时传递给不同的受众。 到活动结束时,当消息已经扎根时,甚至可以使用算法对字典进行组合来自动搜索消息,以寻找每个子组的单词的完美组合。


“看看婚姻意味着什么,然后回到我身边/因为传统并不过时”
精选的Cambridge Analytica广告

当然,这不是100%的chat不休。 权利使用了一条信息,攻击同性婚姻。 威利说:“尽管该信息是由一群同性恋者创造的,但事实却是如此令人反感和恐同,这很有趣。” -针对有意识的人。 有一本字典的图像和题词“看看婚姻意味着什么,然后回到我身边。”对于一个有意识的人,该信息看起来令人信服:字典是秩序的源泉,这样的人尊重结构化。”

在某些时候, 心理测验的目标已经进入了狗哨政治领域 。 例如,墙壁图像已证明在移民运动中有效。 “有意识的人喜欢结构性,因此,从他们的角度来看,应该简化移民问题的解决方案,如隔离墙所示。 您可以创建一条消息,对于某些人来说,这是没有意义的,但对于其他人而言,则是充满意义的。 在展示这种形象时,有些人不会理解我们在谈论移民,而另一些人会立即意识到这一点。” 从威利的角度来看,真正的问题是政治上的“一无所有的三明治”,正等待着将其付诸实践。 “没有人喜欢没有任何东西的三明治。” 他说,数据应该“找出特定的风味或调味料”,以使三明治更具吸引力。

尽管这肯定是一台非常困难的瞄准机器,但有关Cambridge Analytica心理测量模型的问题仍然存在-Wiley可能无法更好地回答。 当科根(Kogan)在4月向议会提供证据时,他辩称,结果不只是随机分配OCEAN等级更好。 当然,也许这个小的差异就足够了,或者Cambridge Analytica只是交易了另一种“ 蛇油 ”。 即使个人正确地用这五个因素打了标签,选择专业广告对他们来说真的是如此简单,以吸引秩序,恐惧或其他吗?

但是,考虑到所有这些,仍然有一些东西。 注意2012年“基于社交网络上的消息确定用户的个人特征”专利。 如专利所述,“个性特征的存储可以用作广告的目标标准,以增加用户与广告积极互动的可能性。” 该专利的作者是Facebook本身。

Source: https://habr.com/ru/post/zh-CN413903/


All Articles