亚马逊Go如何实现公平购物

图片

如今,科技公司的新闻稿使我们感到惊讶。 创新的细节要么在几个月前就消失了,要么不是很令人印象深刻。 但是最近,我们遇到了一些真正的惊喜。 在Switch发行前几个月,任天堂决定将游戏机的未来作为过去,并宣布NES Classic 。 谷歌的AlphaGo战胜了冠军,这使专家们灰心丧气,他们认为这样的结果要在十年后才能获得。

可以将Amazon Go零售商店在12月发布的公告与从AlphaGo新闻中获得的震撼相比,在这里您可以从货架上直接拿取产品并退出。 一段时间的“领取和离开”方法被称为“零售业的未来”,距我们的时代只有“几年”。 我已经在加州理工学院,斯坦福大学和伯克利大学的机器人研究部门工作了十多年,现在我负责一家生产用于室外使用的安全摄像机的初创公司 。 计算机视觉是我工作的重要部分。 但是,在宣布该消息的几个月前,我自信地告诉某人,要“再接再厉”实施该系统还需要几年的时间。 而且我不是唯一一个这么认为的人-就在这之前的两个月, Planet Money对此话题做了一集。

因此,当亚马逊突然通过创建这样的东西使我们所有人都感到惊讶时,第一个问题显而易见:它将如何工作? 在宣传视频中,他们匆匆忙忙地说出诸如计算机视觉,深度学习和传感器合成之类的大字。 但是,这一切意味着什么,以及如何真正地将所有这些东西结合起来?

我将从揭露阴谋开始:实际上,我不知道这一点。 我没有参与该项目的开发,该公司也没有谈论其工作方式。 但是,鉴于我在计算机视觉领域的经验和工作,我可以做出一些以知识为依据的猜测。 从本质上讲,Amazon Go看起来像AI开发,计算机视觉和自动决策(如AlphaGo),以及机器人移动领域的突飞猛进。 过去五年中统计和并行计算的突破为机器智能领域创造了一个新的里程碑。

这就是为什么不断发展的尖端技术浪潮成千上万的原因,因此,允许自动驾驶汽车将您带到商店购买一包牛奶,您破坏人与人之间的互动的时间比任何人想象的要早得多。



购物车


为了更好地了解Amazon Go生态系统如何工作,您需要概述任务。 对于杂货店,亚马逊必须回答一个问题:访客离开商店时会带走什么? 换句话说,他的购物车中有什么?

实际上,只有两种方法可以回答这个问题。 亚马逊需要要么在用户离开时查看购物篮,要么跟踪确切落入该购物篮的内容。 我们将第一个方法称为结帐行,这就是大多数现代商店的工作方式(检查用户随身携带的所有物品)。 我称另一种方法为大客户帐户。 由于调酒师会监视所有客户订单,因此企业可以找出购物篮中的内容,跟踪到底是什么进入或离开了购物篮。 理想情况下,您将确切知道那里有什么,而不必强迫用户证明他们的购买。

当然,Amazon Go不是普通的杂货店。 他不仅必须找出每个特定篮子中的内容,而且还必须了解由谁来收取费用。 要在没有收银员的世界中收费,您需要识别用户。

亚马逊将如何处理? 公司将如何跟踪商店中的人员,以及他们从货架上取走的物品或无误地返回的物品? 这一切都始于相机。 它们既便宜又便宜,可以在任何地方安装。 亚马逊通过在视频中提及计算机视觉来谈论这一点。 但是,如何处理摄像机看到的东西并使用它来跟踪买家及其行为? 接下来是第二个重要术语,即深度学习。

神经元


在充电过程中使用相机的想法很久以前就诞生了,但是直到最近,它仍然只是一个想法。

到目前为止,视觉算法一直在通过寻找图像的显着特性并将其收集到对象中来进行工作。 可以从图像中提取线条,角度和面部。 特定组合的四条线和四个角会给您一个正方形(或矩形)。 可以使用相同的原理使用更复杂的属性和集合来识别和跟踪更复杂的对象。 视觉算法的复杂性取决于属性的复杂性和用于识别对象某些属性集的技术。

长期以来,计算机视觉和机器学习中最有趣的进展取决于研究人员日益复杂的属性的发明。 小波和高斯模糊以及具有深奥名称的属性(例如SIFT和SURF)代替了线条和角度。 一段时间以来,确定图像中人物的最佳属性称为HOG。 但是很快就很清楚,手工精心创建属性的能力很快就取决于功能的上限。

基于识别某些属性的算法在识别它们已经看到的内容时表现出奇的出色。 向算法显示六罐可乐的图像,它将成为识别六罐可乐的世界专家。 但是没有给出这些算法的概括。 对于他们而言,要识别一般的苏打水或更广阔的饮料世界要困难得多。

更糟的是,这些系统不可靠,很难对其进行改进。 纠正错误需要对工作逻辑进行认真的手动调整,只有能够理解算法工作原理的理学医生才能做到这一点。 以商店为例,您可能不在乎算法是否将一瓶可乐与一瓶百事可乐混合使用,但是您会担心算法是否接受一瓶价值20美元的葡萄酒和一瓶价值2美元的苏打水。

当今的深度学习机会是经过精心设计的,以摆脱手动搜索和图像特征的微调。 无需尝试手动查找特征属性,而是使用大量数据来训练神经网络。 通过应识别的例子,神经网络可以发现特征本身。 低级神经元学习识别简单的事物,例如线条,然后将其输出传递给神经元,这些神经元将这些原语组合成更复杂的事物(例如形式)到层次结构。

无需指出神经元应该识别哪些特征;在训练过程中,它们只是独立出现。 神经元确定对哪种模式发展敏感性更好。 如果尝试创建可识别苏打水的系统,则会向其显示成千上万张苏打水图像,它将从直线和曲线变为形状,再到盒子和瓶子。

我们的大脑几乎以相同的方式工作,因此,错误校正是根据人类计划进行的。 在例子上。 如果您的神经网络使酒和汽水混淆,则需要通过查找数千个或其他示例进行修复,然后对其进行训练。 她自己将弄清楚如何区分对象。

用于模拟神经元工作的软件已经存在了几十年,但是其在计算机视觉中的应用早已停留在理论领域中。 为了模拟动物的视力,需要数十至数百层神经元,每个神经元层包含数万个神经元。 并且,随着每个新层的出现,层之间的键数量呈指数增长。 对于这样的网络的操作,需要巨大的计算机能力,并且为了训练,需要大量的数据。

为了创建在合理的时间内工作的神经网络,有必要对其结构进行微调以最大程度地减少内部连接的数量。 但随后需要太多的马力。



计算合作


下一个突破是将GPU用作台式超级计算机。 神经网络的仿真需要为许多神经元收集输入数据并计算输出数据-此过程很容易并行化。 在GPU的平均水平上,最强大的CPU占用的时间开始数分钟。

最终,GPU上的并行计算使研究人员能够利用旧的发现-构建神经网络来模拟视觉。 回想一下,即使有数十万个神经元的简单网络也可以具有数十亿个连接。 除非有一些捷径可以使这些化合物起作用,否则都需要模拟它们。

幸运的是,您可以稍微作弊来创建可见网络-我们脑海中有惊人的神经网络示例,它们针对视觉进行了优化。 神经生物学几十年来一直在标记哺乳动物的视觉皮层,这为人们提供了灵感。 因此, 卷积神经网络 (SNS)诞生了。 在过去的几年中,它已成为计算机视觉领域最流行,功能最强大的工具之一。

卷积是一个了不起的数学概念,对此的简单解释超出了我的能力范围。 一种丰富多彩但从技术角度来看绝对错误的方法是,通过一种数学函数将其移到另一种数学函数上,然后观察结果,来进行想象。

在SNA中,就像在视觉皮层中一样,存在对某些属性(例如鼻子)敏感的神经元,并且它们分布在整个视场中。 这些神经元的输出是连接在一起的,就好像我们采用了唯一的神经敏感神经元并在整个视场中引导它们一样。 结果是在鼻子图像中包含位置信息的输出。 当然,这不仅限于鼻子-该效果用于创建某些特征在图像上的位置的空间标记。 这些空间关系被馈送到网络的更高层,并在其中进行组合以识别模式和对象。

SNA已成为计算机视觉领域的启示。 它们对于广义对象识别非常有用:您训练SNA来识别特定汽车或人,而不是特定汽车或人。 他们甚至使无关紧要的著名XKCD漫画之一。

图片

而且由于其结构的空间性质,它们非常适合在GPU上进行并行化。 可以完全独立地模拟观察图像不同部分的不同神经元。 突然之间,就可以快速而廉价地识别出人,地方和物体,并且准确性很高。

手机和网络的普及同时爆炸,这意味着数亿人上网,并将数十亿张图像上传到Facebook和Google等服务,无意间创建了庞大的训练算法集。

最近的前沿发展甚至更进一步。 研究人员已经创建了带有内置存储器的递归神经网络 (RNS)。 它使用内部连接来创建只读存储器,而不是简单地将连接转移到下一层。 如果您熟悉数字逻辑,则可以将触发器想象为一个类比。 这意味着您可以使用单个视觉层训练网络,该视觉层“查看”图像并将其看到的所有内容传输到内存,以便网络可以识别视频上的操作。

经过这些开发之后,您突然拥有了可以非常精确地识别人,物体和动作的算法。 换句话说,您可以训练识别人员的算法,了解移动产品时商店中产品在图像上的位置,并识别人员何时将其从货架上取下。 您只需要一点GPU。 随需应变可用的最大GPU集合之一属于亚马逊是多么方便-它是其功能强大且利润丰厚的AWS云服务。

我们是否已通过将廉价相机与大脑算法和大量计算机相结合来破解了Amazon Go的秘密? 并非如此,因为还需要解决另一个问题。 摄像头的视角是有限的-那么企业如何覆盖整个商店? 如果客户站在相机和架子之间怎么办?

为此,请确保在多台摄像机上都可以看到任何区域。 但这又提出了一个问题-如何将多台摄像机的输入数据组合成一幅连贯的画面以显示正在发生的事情?

食物合成


为此,我们将在1960年代回归。 然后,NASA的工程师面临一个大问题-他们拥有许多不同的导航工具,从陀螺仪到跟踪恒星,他们需要将所有测量结果减少到对航天器位置的最佳估计。

Amazon Go也有类似的问题。 为了使整个想法可行,有必要将来自多个不同摄像机在不同时间段的观察结果组合成一个有关购物车的一致信息。 问题是世界本质上是一个不确定的地方,因此决定接受这种不确定性。 成功的模型不是尝试以最大的准确性确定所有内容,而是使用概率方法。

在NASA,它有一种称为卡尔曼滤波器的算法,他们使用该算法考虑了每种仪器的误差以及测量结果的最佳组合。 卡尔曼滤波器基于贝叶斯公式

本质上,贝叶斯公式是一种数学关系,将事件的观察结果与事件发生的可能性联系在一起,并为您提供事件真正发生的可能性。 结果如下:我们相信一种可能的状态为真(后验概率)等于我们对观察前对该状态的信念的强度(先验概率)乘以对该状态的支持以及从传感器获得的数据。

回到葡萄酒和汽水的例子:例如,一个神经网络报告客户服用了葡萄酒。 贝叶斯公式告诉我们,他真正服用该葡萄酒的概率等于他服用该葡萄酒的概率,乘以相机正确报告该事实的概率。

使用基于贝叶斯的概率方案时,亚马逊有两个很大的优势。 首先,该公司可以考虑先验概率,因为它知道许多客户以前的购买历史。 这意味着,如果Amazon Go客户在每个星期二购买咖啡和纸杯蛋糕,那么甚至在他去适当的货架之前,商店就已经可以增加这些购买的可能性。 这是使用公司已拥有的大量用户数据的自然方法。

第二个主要优点是,将所有内容转换为概率语言,使您可以在多个时间段内从多个传感器累加多个测量值。 假设观测值的独立性,您可以简单地将概率相乘。 同样,一个事件的后验概率可以用作另一事件的先验概率。



例如,让多个摄像机看到一个架子。 有些人站得更近一些。 有几台相机认为客户从架子上拿走了便宜的苏打水,一台相机认为他拿了昂贵的产品,一台没看到任何东西,而后者则认为他只是在pick鼻。 现在呢?

在这种情况下,亚马逊可能会提出复杂的逻辑,从中可以得出可信任的摄像头。 相机的视线是否更近和更好?相机认为客户已服用了昂贵的苏打水? 买家是否被摄像机看到的鼻子挡住了东西? 但是您只需要信誉。 根据每个摄像机的错误数量,取决于其位置和概览,贝叶斯公式告诉我们如何组合所有输入数据,以了解用户服用便宜的苏打,昂贵的汽水或不采取任何措施的可能性。

实际上,由于您进入了奇妙的概率世界,所以贝叶斯公式使您可以将输入与完全不同类型的传感器结合起来。

因此,亚马逊已申请使用RFID传感器自动付款的专利申请。 无源RFID传感器放在货物上,然后由商店中的扫描仪读取。 这项技术非常便宜,并且如今已广泛使用,因此它是创建自动化商店的理想选择。 并且由于它允许远程扫描,因此可以代替收银员使用。 将扫描仪放在客户要去的地方,您便可以看到他们的购物篮中的东西,而不必取走货物并将其交给收银员。 在观看促销视频时,我注意到所有商品都是预先包装的-罐头食品,薯条小包和装有食品的塑料容器。 这些产品不仅有更多的利润,而且还使您可以在每个项目上打上标记。

但是单独使用RFID有其缺点。不可能将一个买家与另一个买家区分开。您会看到商店留下了一套苏打水,薯条和三明治,并且您知道这是一笔交易,但是是谁买的?此外,RFID可能会出错。如果有两个客户经过扫描仪,则您可以扫描两个人的购买物,并且不知道谁订购了什么。

基于贝叶斯公式的概率估计有助于解决此类问题。亚马逊可以根据地理位置和可能的购物组合为数百名买家提供概率。这种情况类似于对量子力学的多世界解释:每次客户采取某种行动后,商店都会通过这种行动创建一个新的“世界”并对其进行跟踪(根据贝叶斯方法更新这个世界的概率)。

让我们回到照相机和苏打水示例:基于RFID,亚马逊可以使用扫描来确认或驳斥照相机,而无需开发任何特殊逻辑。

还有蛋糕上的樱桃。与用于神经网络的机器学习一样,更多数据可以提高概率得分。与统计数据一样,您进行的测量越多,获得的效果就越好。每个新的数据集都可以提高系统的准确性及其对用户的感知。

亚马逊很荣幸为您呈现...您的晚餐


描述可能并不准确,并且可以肯定的是,直到亚马逊揭露了卡片,我们才能找到答案,但是贝叶斯的公式有助于对这种新型系统的工作原理做出较为真实的描述。

进入商店,您可以在扫描仪上滑动智能手机。相机驱动的算法具有图像识别和深入的培训,可在购物时跟踪您。每次您拿走或退回物品时,相机都会识别出此动作。使用贝叶斯公式将来自多个摄像机的观察结果合并在一起,并给出有关所拍摄内容的信息。系统会监控您所取物品的所有可能组合。每次穿过门或框架时,都会扫描RFID标签,从而使系统减少组合列表。当您离开商店时,系统会浏览其认为您拥有的商品的列表,选择最有可能的猜测,并从您的帐户中扣除必要的金额。

随着深度学习,云计算和概率评估的发展,所有这些成为可能。甚至在五年前都无法完成Amazon Go,但是今天所有组件都已经可用。目前,这种组合是机器人,人工智能,文本翻译系统以及其他许多技术开发的核心。今天,在计算机培训领域中工作非常有趣。尽管我很想知道还有什么要等我们,但我希望很快能造访这家商店,您可以在这里取货并离开。

Source: https://habr.com/ru/post/zh-CN403797/


All Articles