现代Internet平台的悖论之一是,尽管它们基本上是自动化的,并且最终用户看到的内容在显示时没有任何人工干预,但是它们完全依赖于人类行为,因为实际上,他们只是观察,接收信息并根据亿万亿人口的行动得出结论。
此原则的起源是PageRank。 PageRank不会依赖于手动创建的规则来理解每个页面的含义,也不会依赖于原始文本,而是观察人们对该页面所做的或说了什么。 谁以任何方式与其相关联,他们使用了哪些文本,以及谁与与此页面相关联的人相关联? 同时,Google为每个用户提供了手动对每组搜索结果进行排名(索引,评分)的机会:系统会为您提供10个蓝色链接,您只需告诉Google哪个是合适的。 Facebook也是如此:Facebook并不真正知道您是谁,您对什么感兴趣,或者该内容或内容是关于什么的。 但是他知道您在关注谁,您喜欢什么,除了您喜欢什么其他人,他们喜欢什么以及他们订阅了什么。 Facebook是一个以人为本的PageRank。 一般而言,YouTube也是如此:他从不知道特定视频的内容,而只是知道人们在视频下写了什么,以及他们观看和喜欢的视频。
这些系统的核心是巨大的“机械土耳其人”。 毕竟,他们绝对不理解与他们一起工作的内容的内容,他们只是在尝试创建,捕捉和传达有关此内容的人文情感。 它们是巨大的分布式计算系统,其中人们充当处理器,而平台本身就是路由器和互连的组合。 (这让我想起了《银河漫游者指南》(Hitchhiker's Guide to Galaxy)一书中的想法,即整个地球实际上是一台执行某些功能的大型计算机,我们的日常活动是计算的一部分)。
这意味着系统的大部分设计都与在使用自动化系统时寻找人力资源的最佳应用点有关。 您是否正在捕获已经发生的事情? 因此,谷歌开始使用已经存在的链接。 您需要刺激活动以显示其价值吗? Facebook必须自己创建活动,然后才能从中受益。 也许您严重依赖人力资源? Apple Music使用了这种方法,将其手动选择的播放列表自动发布给数千万的用户。 还是您必须付钱去做所有事情?
最初,雅虎(Yahoo)的Internet资源目录(Internet Resource Directory)试图采用“付费人做所有事情”的方法-雅虎付费人对整个Internet进行分类。 最初,这似乎是可以实现的,但是随着Internet的发展太快,它很快被证明是一个巨大的挑战,当Yahoo投降时,其目录大小已经超过了300万页。 PageRank解决了这个问题。 相反,Google Maps使用了大量带有由人控制的摄像头的汽车(目前),并在世界上几乎所有街道上行驶,而且还有更多的人在看这些照片,这并不是一项繁重的任务-只是花费很多。 Google Maps就是这样一个私人的“机械土耳其人”。 现在,我们正在研究完全相同的问题,谈论的是人们对内容的审阅-您需要查看成千上万的人才能查看每个帖子,并且可以自动执行多少任务? 这个任务是压倒性的还是执行起来非常昂贵?
如果您将这些平台视为使用数十亿人来进行实际计算,那么这将引发两个有趣的问题:此类平台中存在哪些漏洞,机器学习如何改变这一领域?
过去,当我们考虑对计算机系统进行黑客攻击时,曾想到过各种技术漏洞-密码被盗或安全漏洞,系统中的开放漏洞,错误,缓冲区溢出,SQL注入。 我们代表“黑客”寻找软件漏洞。 但是,如果您认为YouTube或Facebook是分布式计算机系统,其中通常的软件充当路由器,但是人们扮演着处理器的角色,那么任何攻击者都将立即考虑不仅在软件中而且在人们中发现漏洞。 典型的认知偏见开始起与软件中的典型缺陷相同的作用。
也就是说,实际上,有两种抢劫银行的方法-您可以绕过警报系统并拿起万能钥匙以保管保险箱,或者可以贿赂银行员工。 在上述每个示例中,系统都发生了故障,但是现在您和我是其中一个系统。 因此,正如我在这篇文章中所写的,关于Facebook在隐私和用户安全方面的最新变化一样,人们在此类平台上对内容的审核本质上与防病毒软件相似,防病毒软件是为响应二十年前Windows在Windows上出现的恶意软件而迅速发展的。 。 计算机的一部分正在观察另一部分是否正在做它不应该做的事情。
即使我们不谈论故意的系统黑客攻击,当尝试在另一个人的帮助下分析一个人的活动时,也会出现其他问题。 因此,当您开始使用计算机来分析另一台计算机时,您会冒着创建反馈循环的风险。 这反映在“过滤器气泡”,“ YouTube激进主义”或搜索垃圾邮件等概念上。 同时,Facebook遇到的问题之一是,有时大量数据的可用性和生产将抵消这些数据的价值。 我们将其称为新闻供稿超载的问题:例如,您有50个或150个朋友,并且每天发布5个或10个条目,或者类似的内容,但是所有朋友的行为都完全相同,现在您的Feed中每天有1,500个条目。 邓巴数+扎克伯格定律=超载...这使我们进入了古德哈特定律。
“一旦施加压力以控制它,任何观察到的统计模式都容易遭到破坏。” - 查尔斯·古德哈特
然而,机器学习如何发挥作用呢? 之前,我已经说过主要的困难是如何以最佳的方式使用人力资源来处理软件,尽管还有另一种选择-只让计算机完成所有工作。 直到最近,这种系统存在的困难和原因主要由计算机无法解决的一大类任务组成,尽管人们可以立即解决它们。 我们称其为“对于一个人来说很容易,但是对计算机来说却很困难的任务”,但实际上,它们是对一个人来说很容易的任务,但是一个人实际上无法用计算机来描述这些任务。 机器学习的一个突破性特征是它允许计算机自己开发必要的描述。
下面的漫画(从2014年开始,就在机器学习和计算机视觉系统开始迅速发展之时)完美地说明了这些变化。 与第二个任务不同,第一个任务很容易完成,至少要等到机器学习出现之前。

解决此问题的旧方法是找到对图像进行分类的人员-诉诸某种众包。 换句话说,使用“机械特克”。 但是今天,我们可能不再需要任何人查看此图像,因为在机器学习的帮助下,我们经常可以使该特定问题的解决方案自动化。
因此:在对现在可以使用机器学习解决且通常无需与用户互动的数百万人的行为进行分析之前,您可以解决多少问题?
当然,这有一些矛盾,因为在机器学习中您总是需要大量的数据。 显然,在这种情况下,有人会说,如果您有一个大型平台,那么您会自动拥有很多数据,因此,机器学习过程也将变得更加容易。 至少从一开始就肯定是这样,但是我想问一问仅在现有用户的帮助下可以解决多少个任务并不合适。 过去,如果您拥有猫的照片,则只有当您有足够的用户时,它才能被标记为“猫”,并且其中一个人会查看该特定照片并为其添加标签。 如今,您根本不需要真正的用户来处理猫的这种特定图像-您只需要过去在世界上任何地方的任何其他用户,在过去的某个时候已经对其他图像进行了分类即可猫来生成必要的识别模型。
这只是充分利用人力资源的另一种方式:在任何情况下,您都需要人们对对象进行分类(并编写人们对其进行分类的规则)。 但是在这里,我们已经在改变杠杆,并且可能从根本上改变所需的人员,因此,由于“获胜者获得了一切”的作用,游戏规则在一定程度上也在发生变化。 最终,该平台的所有这些大型社交网络都只是大量的人工分类数据集合,因为最后证明它们的杯子是半满还是半空? 一方面,数据已用尽一半:他们拥有最大的手动分类数据集合(在其特定的活动领域)。 另一方面,玻璃杯是空的:此数据是手动选择和分类的。
即使数据可以构成这些平台之一(很可能不会发生-当然也不会发生- 正如我在这里所写 ),它们仍然会成为一个平台。 与AWS一样,它使初创企业不再需要数百万用户来拥有其基础架构的规模经济,创建此类工具将意味着您不再需要数百万或数十亿用户来识别一只猫。 您可以使过程自动化。
翻译:亚历山大·特雷古波夫(Alexander Tregubov)
编辑:阿列克谢·伊万诺夫(Alexey Ivanov)
社区: @ponchiknews