如果您能从中获得有用的信息,对不起,请允许您的程序检查我的个人数据。 但这通常不会发生。
我的前同事告诉我:“每个人都喜欢收集数据,但没有人喜欢以后再进行分析。” 这个说法可能令人震惊,但是参与数据收集和分析的人员却遇到了这种情况。 一切都始于一个绝妙的主意:我们将收集有关用户在应用程序每个页面上进行的每次单击的信息! 我们将跟踪它们反映特定选择的时间! 他们多久使用一次后退按钮! 在断开连接之前,他们需要多少秒钟才能观看我们的介绍性视频! 他们在社交网络上分享了我们的帖子多少次!
他们会跟踪所有这一切。 追踪很容易。 添加日志,将其转储到数据库中,然后继续。
然后呢? 好吧,那么所有这些都必须进行分析。 作为分析
大量与各种事物相关
的 数据 集的人,我可以说:分析师的工作很困难,而且大多数情况下是不感恩的(薪水除外)。
问题在于,几乎没有任何方法可以确认您是对的(而且正确性本身的定义也不是很清楚,下面是哪一项)。 几乎不可能得出简单的结论,只能得出复杂的结论,而且复杂的结论容易出错。 分析人员没有在谈论的是在制定正确计划的过程中制定了多少错误的计划(以及相应的结论)。 或对我们认为正确的人。 一个好的时间表令人信服,以至于如果您只需要说服某个人,那么是否正确就没关系。 也许这就是为什么报纸,杂志和说客发布如此多的欺骗性时间表的原因。
但是,我们将错误推迟了一段时间。 我们做出一个非常不现实的假设,即我们非常擅长分析各种不同的事物。 接下来是什么?
好吧,让我们丰富针对性的广告和个人推荐算法。 毕竟,这正是每个人的工作!
还是不行
根据个人的建议,一切都非常糟糕。 今天,第一个推荐将是一篇有关电影明星或特朗普在过去6个小时内已做过或未做过的事情的文章,该文章带有吸引人的点击和令人激动的标题。 或者不是文章,而是视频或纪录片。 我不想阅读或观看它,但有时还是让我感到困惑-然后欢迎提出建议的启示,现在算法认为我喜欢阅读有关特朗普的信息,现在特朗普无处不在。 永远不要给AI积极的反馈。
顺便说一句,这是机器学习支持者的一个可怕秘密:借助手动编程的愚蠢启发法,几乎可以便宜地获得MO给出的所有东西,因为MO主要训练人们遵循愚蠢启发法的例子。 这里没有魔术。 如果您在MO的帮助下训练计算机以选择简历,他会建议您像面谈人力资源部门一样,面试白人男子。 如果您问一台计算机,一个人想要观看哪种视频,他会推荐某种宣传政治垃圾,因为在50%的情况下,有90%的人实际上观看了该视频,无法控制自己-这在成功中占了相当大的比例。
我注意到,有很多例子可以很好地说明MO的使用,以解决传统算法不能很好地解决的问题-图像处理或在战略游戏中获胜。 这很棒,但是您最喜欢的MO应用程序很有可能会成为笨拙的启发式方法的昂贵替代品。
一位从事网络搜索的人告诉我,他们已经有了一种算法,可以保证任何搜索的点击次数和观看次数的最大比例:您只需要给出一个包含色情链接的页面即可。 有人说,这种情况可以解决,并成为色情检测器:任何具有高可点击性的链接,无论请求如何,都极有可能导致色情内容。
问题是,看起来像样的企业无法始终为您提供与色情内容的链接,这“在工作中观看不安全”,因此,大多数现代推荐算法的工作都是返回尽可能接近色情内容的内容,但是这是“可以安全地在工作中查看”。 换句话说,是明星(理想情况下是美丽的,或者至少是有争议的),政客或两者兼而有之。 他们尽可能靠近这个边界,因为这是他们获利能力的局部最大值。 有时他们越过这条线,不得不道歉或象征性地罚款,然后一切都回到平方。
这让我不高兴,但无花果和他在一起,那只是数学。 也许是人性。 和资本主义。 是的,无花果和他在一起,我可能不喜欢它,但是我能理解。
我抱怨以上都不与我个人信息的收集有关。
最热门的建议与我无关
坦白说:定位最准确的广告将是我从搜索引擎中获得的广告,它可以准确地向我提供我想要的东西。 一切都包括在内:我找到了我想要的东西,卖方帮助我购买了商品,搜索引擎获得了调解的资金。 我不知道有人会抱怨这样的广告。 这是一个很好的广告。
而且她也与我的个人信息无关!
Google十多年来一直在提供基于搜索的上下文广告,甚至在他们开始要求我登录之前。 即使在今天,一个人也可以使用任何搜索引擎而无需登录其帐户。 而且他们仍然根据搜索查询发出广告。 很棒的生意。
就我而言,另一个广告效果很好。 我有时玩游戏,使用Steam,有时我在Steam上观看游戏并标记我打算购买的游戏。 当这些游戏开始销售时,Steam会向我发送通知电子邮件,有时我会购买它们。 一切都包括在内:我得到了想要的游戏(打折!),游戏制作人收到了钱,Steam收到了调解费。 而且,如果我愿意,我可以禁止向我发送这些信件-但我不想要,因为这是一个很好的广告。
但是没有人为此需要建立我的个人资料吗? Steam拥有我的帐户,我说过我想要什么游戏,然后该服务将它们卖给了我。 这不是建立配置文件,只是记住我自己提供的列表。
亚马逊向我显示了一条通知,提示我可能想再次购买过去购买的一些易损件。 这也很有用,并且除了记住它们已经在进行的事务外,不需要创建配置文件。 再一次,每个人都赢了。
亚马逊还推荐与我购买的产品或我研究过的产品类似的产品。 这大约是20%有用。 如果我只是为计算机购买了一台显示器,而您知道我这样做了,因为我是从您那里购买的,则可以停止尝试向我出售显示器。 但是,在购买电子产品几天后,他们还提议我购买USB电缆,这很可能是正确的。 因此,定位的20%收益要比0%的收益好。 创建我有用的个人资料必须受到亚马逊的称赞,尽管这只是我在网站上所做的个人资料,他们没有与任何人分享。 这似乎不是侵犯隐私。 亚马逊会记住我从他们那里购买的商品或所观看的商品,不会让人感到惊讶。
当卖家决定我可能想要一些东西时,结果变得更糟。 他们决定这样做是因为我去了他们的网站并看了一些东西。 然后他们的广告合作伙伴在网上追逐我,试图将其卖给我。 即使我已经买了,他们也会这样做。 具有讽刺意味的是,所有这些都是由于不确定的尝试来保护我的隐私。 卖方不会将有关我和我的交易的信息分发给他的广告合作伙伴(否则,从法律的角度来看,他们很有可能会遇到麻烦),因此广告合作伙伴不知道我购买了该产品。 他只知道(因为来自卖家网站上安装的合作伙伴的跟踪器)我在看这个商品,所以他们继续向我做广告,以防万一。
好,现在我们进入一个有趣的话题。 广告商有一个跟踪器,他将其放置在其他网站上以跟踪我。 他不知道我买了什么,但即使在很长时间和许多站点上,他也知道我在看什么。
利用这些信息,他经过严格训练的AI得出了关于基于...我可能还要看什么的结论。
并基于什么? 像我这样的人? 我的Facebook朋友正在看的东西? 人们无法理解的某种复杂矩阵公式,哪一种效果更好10%?
可能不是。 他可能只是猜测我的性别,年龄,收入水平和婚姻状况。 然后,如果我是一个男人,他会向我出售汽车和小玩意,如果她是一个女孩,则它们是时髦的东西。 不是因为所有人都喜欢汽车和电子产品,而是因为一个完全没有创造力的人进入了这个过程,并说“主要向男人出售我的汽车,向主要女性出售我的衣服”。 AI可能会根据不正确的受众特征得出结论(我知道Google在我的帐户上是错误的),但这没关系,因为通常事实证明它基本上是正确的,这比0%正确要好,并且广告客户可以对于大多数根据受众特征定位的广告而言,其效果要好于0%。
您了解一切都这样吗? 好吧,当然。 这可以根据广告的实际效果来确定。 每个人都可以在几秒钟内记住他们想购买的东西,但是算法无法提供给他们,而
Outbrain广告平台通过向没有汽车的人出售汽车保险的链接来赚钱。 也可能是90年代的电视广告,在深夜放映,您可以根据我尚未入睡的事实确定自己的人口统计资料。
您无处不在,跟随我,永远在日志中写下我的所有行动,代替他人窃取您的数据库,极度担心欧盟新法律可能会破坏您的业务……而所有这些都是出于此目的?
统计占星术
当然,实际上并不是所有事情都像描述的那么简单。 在我访问的每个站点上,都有多家公司跟踪我。 这些公司都有一辆马车,他们都会在访问的每个网站上跟踪我。 他们中的一些人甚至不参与广告,他们只是跟踪,然后将跟踪信息出售给似乎正在使用它来改善定位的广告客户。
很棒的生态系统。 让我们看看新闻站点。 他们为什么装得这么慢? 因为有追踪器。 不是因为广告-因为追踪器。 通常只有几个广告不需要很长时间就能加载。 但是有很多跟踪器,因为每个跟踪器都会向他们支付一些钱,以便允许他们跟踪每个页面的视图。 如果您是一个濒临破产边缘的巨型发布商,并且您的网站上已经有25个追踪器,而第26家追踪公司致电给您,并承诺每年支付5万美元以向其添加另一个追踪器,则您将拒绝它们? 您的页面已经几乎不折腾,因此将下载速度减慢另一1/25不会改变任何内容,但$ 50K可以。
(“广告拦截器”会删除烦人的广告,但它们也会通过删除跟踪器来加快网络的速度。该死的羞耻-跟踪器本身并不需要减慢下载速度,但会减慢下载速度,因为它们的开发人员肯定是白痴,每个开发者都必须下载数千行JavaScript代码可分两行完成,但这是另一回事了。
然后,广告和广告网络的卖方从跟踪器购买跟踪数据。 他们拥有的跟踪数据越多,就越能更好地管理广告,对吗? 好吧,大概吧。
最有趣的是,每个跟踪器都有一些有关您的数据,但不是全部数据,因为每个跟踪器都不在每个网站上。 另一方面,很难比较不同跟踪器之间的人员活动,因为它们都不希望向您提供其秘密成分。 因此,每个广告销售商都竭尽全力比较他们购买的所有跟踪器的所有数据,但基本上不起作用。 假设我们有25个跟踪器,每个跟踪器跟踪一百万个用户,并且那里可能有很多数据重叠。 在一个合理的世界中,人们可能会猜想该数据是由数百万个人用户描述的。 但是在无法证明重叠的疯狂世界中,可能会有2500万用户! 您的广告网络购买的数据跟踪器越多,您获得的信息就越多! 我猜! 这意味着定位正在改善! 也许吧! 因此,您应该从我们的网络购买广告,而不是从数据量较少的另一个网络购买广告! 好吧,显然!
但是这一切都不起作用。 他们仍在向我出售地铁的汽车保险。
这不只是广告
显然,与定向广告有关的许多事情都行不通-如果有人至少停下脚步,仔细检查所有这些内容,那么这些事情就不会起作用。 但是太多的人有动力去考虑其他问题。 但是,如果您关心自己的个人生活,那么可以归结为他们仍然继续收集您的个人信息,这种方法是否有效。
内容推荐算法呢? 他们工作吗?
显然不是。 您曾经尝试过吗? 不,真的。
好吧,这并不完全公平。 有些事情有效。 潘多拉(Pandora)服务的音乐推荐效果
出乎意料地很好 ,但是它们以一种完全不明显的方式做到了。 最明显的方法是获取用户正在听的歌曲列表,将其上传到莫斯科地区的训练集,然后使用结果根据...呃...的个人资料为新用户编制歌曲列表。 好吧,他们没有个人资料,他们只是加入了。 也许根据他们手动选择的首批歌曲中的一些? 也许可以,但是它们可能以一首非常流行的歌曲什么也没说开始,或者一首非常罕见的歌曲开始以检查您的数据库的庞大性,这甚至告诉您更少。
我确定
Mixcloud就是这样工作的。 每次混合之后,服务都会尝试找到“最相似”的混合,然后从中继续。 通常这是下载完全相同的混音的其他人。 最初的混合物与该混合物最相似,这就是它产生它的原因。 太棒了,机器学习,继续努力。
这使我们进入了每个人都使用的“随机曲,手指向上/手指向下”系统。 但是,除了潘多拉(Pandora)之外,每个人的表现都很差。 怎么了 显然,由于潘多拉盒型拼版游戏手动编码了一段具有音乐特征的汽车,并编写了“真实算法”(而非MO),试图根据这些特征的正确组合来生成歌曲列表。
从这个意义上说,潘多拉猫不能被称为纯莫。 当您遍历人们努力工作而建立的多维凝聚力歌曲网络时,通常不会产生大量列表,而不是通过从不懂音乐的普通人那里摘录的平均歌曲列表中的大量矩阵,就可以产生您喜欢的一首歌曲列表尝试生成这些歌曲列表。 潘多拉(Pandora)在很多方面都做不到(特别是在“加拿大进入”),但是他们的音乐推荐效果很好。
只有一个收获。 如果潘多拉(Pandora)服务能够根据第一和几个分级为您提供良好的歌曲列表,那么在我看来,它并不能建立您的个人资料。 而且他不需要您的个人信息。
奈飞
而且,为了避免起床两次,我将对Netflix进行一些讨论-这是一个奇怪的开发案例,始于一个非常好的推荐算法,然后特别恶化了。
曾几何时,
Netflix曾向最佳团队承诺提供100万美元的
奖金 ,该团队能够根据已经发布的收视率来预测某人放下的电影的收视率,并且其准确性要比Netflix本身更高。 事实证明,可以对发布的数据集进行匿名处理,这并不令人意外地导致了
隐私的
惨败 。 是的,这就是导致人们的个人信息长期存储在数据库中的原因。
Netflix认为他们的业务取决于良好的推荐算法。 它已经非常不错:我记得大约十年前使用Netflix,并收到了一些我从未发现过的电影推荐,但与此同时,我喜欢它们。 但这很长一段时间以来,我在Netflix上从未发生过。
故事是这样的:Netflix曾经是DVD邮件服务。 通过邮件邮寄DVD的速度很慢,因此,绝对有必要使每周一次的CD上至少有一部电影很有趣,足以在星期五晚上为您带来娱乐。
在连续星期五在坏电影上度过了很多之后,您肯定会退订。一个好的推荐系统是成功的关键。我认为在这件事上还使用了非常有趣的数学方法,这保证了该服务将能够租用仓库中最大比例的可用磁盘,因为不方便携带最后一个重磅炸弹的副本,这种情况将流行一个月,但不会在下个月流行。任何人都需要。但最终,Netflix转向了在线,错误推荐的成本急剧下降:只需停止观看并切换到新电影即可。而且,当很多人观看一部大片时,这是完全正常的。甚至更好,因为这样他们就可以从提供程序缓存它,并且当人们无聊和平均时,缓存可以更好地工作。更糟糕的是,Netflix注意到了一种模式:人们每周看电影的时间越多,他们拒绝服务的可能性就越小。这是有道理的:您在Netflix上花费的时间越长,您对它的“需求”就越多。当新用户以几乎固定的费用测试该服务时,较高的保留率将导致更快的增长。我在遇到满足感一词的同时就学会了这一点[满足(足够)和足够(足够)的英语单词的混合词/大约。翻译-]这是我们深入研究泥潭的时候,它不是最好的选择,而是足够好。如今,Netflix并不是在寻找最好的电影,只是找到了足够好的电影。如果他可以选择以下两种电影之间的选择:获胜最多的电影,有80%的可能性会喜欢它,或者有20%的可能性会令您讨厌,而主流电影则有0%的特殊性,但您不会吐口水的可能性是99%,然后他会每次推荐第二个。无关的价值观会损害业务。最重要的是,您无需构建会破坏用户隐私的危险个人资料即可推荐主流电影。此类电影经过特殊设计,几乎对所有人无害。我的Netflix推荐屏幕不再是“为您推荐”,而是“新发行”,然后是“现在流行”并“再次审阅”。Netflix如承诺的那样,为获奖的推荐算法支付了100万美元,该算法甚至比以前更好。但是他们没有使用它,而是把它扔了。一些亲爱的A / B测试专家确定,这就是让我每天最多小时都在观看盲目的电视节目的原因。他们的利润在增长。为此,他们甚至不需要入侵我的个人生活。我该说谁错呢?