iBrain已经在这里-并且已经在您的手机中

苹果公司关于AI和机器学习的独家观点




2014年7月30日,叙利亚[Siri]移植了大脑。

三年前,苹果公司是在操作系统中部署AI助手的最大的科技公司之一。 Siri已成为公司收购的第三方应用程序的改编版。与2010年的申请同时,收购了开发公司。对该技术的最初评论很热情,但是在随后的几个月和几年中,用户开始讨厌它的缺陷。她经常错误地识别命令。

因此,Apple在上述7月的一天将Siri的语音识别系统转移到了使用美国用户的神经网络(在世界其他地方,这发生在2014年8月15日)。某些先前的技术仍然可操作-包括“隐马尔可夫模型”-但现在该系统基于机器学习技术,例如深度神经网络(DNN),卷积神经网络,长期短期记忆,带有网关的递归网络和n-gram。升级后,Siri看起来仍然一样,但是深度学习帮助了她。

而且,与隐藏更新一样,Apple并没有做广告。如果用户已经注意到,这可以减少错误数量。苹果声称提高准确性的结果令人震惊。


互联网软件和服务高级副总裁埃迪·邱(Eddie Kew)

“这是一次如此巨大的进步,以至于我们不得不仔细检查结果以确保没有人将小数点放在其他位置,”埃迪·邱说。互联网计划和服务高级副总裁。

本文首先介绍了Siri转型的故事,这可能会让AI专家感到惊讶。不是因为神经网络改进了系统,而是因为苹果默默地做了所有事情。直到最近,当该公司增加了对AI专家的招聘并收购了两家专业公司时,观察家认为苹果在我们这个时代最激动人心的竞争中处于落后地位:利用AI的强大功能的竞赛。由于Apple始终不愿分享有关秘密行动的信息,因此AI鉴赏家们并不怀疑该公司正在从事机器学习。斯坦福大学AI历史课程的杰里·卡普兰(Jerry Kaplan)说:“苹果不属于社区的一部分。” “苹果公司是AI世界中的国家安全局。”但是AI专家认为,如果Apple像Google或Facebook一样认真地进行AI,那将是众所周知的。

“ Google,Facebook和Microsoft上最好的人才是机器学习,”艾伦AI研究所的Oren Etzioni说。 -是的,Apple雇用了某人。但是,我叫苹果公司前五名AI专家吗?他们具有语音识别功能,但尚不清楚机器学习在哪些方面可以帮助他们。告诉我您的产品中使用了MO!”

“我本人与密苏里州在一起,”实际出生于以色列的埃齐奥尼说。 “给我看。”

最近,Apple展示了机器学习在其产品中使用的位置-但不是Etzoni,而是我。我一天中的大部分时间都在库比蒂诺(Cupertino)的一个无限循环会议室中,从苹果高管(Kew,国际营销高级副总裁Phil Schiller和软件开发高级副总裁Craig Federigi那里)接收有关公司与AI和MO合作的基本信息。还有两位科学家,他们的工作对叙利亚的发展至关重要。我们坐下来,他们给了我两页的内容,其中列出了使用机器技术的苹果产品和服务-那些已经为发布做准备的产品,或者已经离开-进行讨论的话题。

消息:我们已经在这里。我们不逊于任何人。但是我们以自己的方式做到这一点。

如果使用iPhone,则不仅会遇到来自Apple的AI,而且不仅存在于Siri的改进版本中。当电话识别出不在您的联系人列表中(但最近给您写过电子邮件的呼叫者)的电话时,您会遇到它。或者,当您在屏幕上滑动手指以显示应用程序列表时,很有可能在此之后要打开它们。或者,当您收到会议提醒时,您尚未添加到日历中。或者,当某个点出现在您已预订的旅馆的地图上,而您尚未开车进入其地址时。或者当电话将您指向停放的地点,但您没有问他。通过使用深度学习和神经网络,所有这些功能都已出现或得到了极大改善。


人脸识别可与神经网络一起使用

正如我的发言者所说,MO已用于公司的所有产品和服务。 Apple进行了深入的培训,以识别Apple商店中的欺诈者,以延长电池寿命,并筛选出Beta测试人员最有用的反馈。 MO可以帮助Apple为您选择新闻。确定Apple Watch用户是从事体育运动还是来回运动。它从照片中识别出面部和位置。它确定断开弱的Wi-Fi连接并切换到移动通信是否更好。她甚至知道如何制作电影,只需按一下按钮,就可以将照片和视频组合成小电影。该公司的竞争对手也在做同样的事情,但据其董事称,这些AI功能不能像在Apple一样在保护用户隐私的同时很好地发挥作用。当然,它们都没有像苹果公司那样生产产品。

人工智能对公司来说并不新鲜。在1990年代,他们已经在识别手写的程序中使用了一些MO技术(还记得Newton?)。这些尝试的残余可以在当今的程序中找到,这些程序将手写的汉字转换为文本或识别Apple Watch上的逐字母输入。这两个机会都是由国防部的同一专家小组开发的。当然,以前,机器学习的工作原理更为原始,很少有人知道深度学习。如今,这些技术已达到顶峰,而苹果公司则对其MO不太严重的指控感到不安。在这里,公司领导者将对此进行更详细的讨论。



“在过去的五年中,我们一直在观察公司在这方面的发展,” Phil Schiller说。 “我们的设备正在变得越来越智能,并且发展速度越来越快,尤其是在使用我们开发的A系列芯片的情况下。后端变得越来越智能,更快,并且我们所做的一切都相互关联。”这使我们可以使用越来越多的MO技术,因为需要学习很多知识,但是它已经可供我们使用。”

尽管苹果公司正在努力充分利用MO,但董事们强调,这一过程并不特殊。 Cupertin的老板在深度学习和MO中看到的只是一系列连续突破性技术中的另一项技术。是的,是的,它正在改变世界,但没有其他突破,例如触摸屏,纯平屏幕或OOP。从苹果公司的角度来看,尽管其他公司有这样的看法,但MO并不是最后一个领域。 “毕竟,不能说过去几年中没有其他技术对改变我们与设备交互的原理至关重要,” Kew说。而且,公司中没有人愿意接近谈论令人恐惧的话题,而这些话题在提到AI时总是会出现。而且,正如您所期望的,Apple不会确认它是在机器人车辆上还是在其Netflix版本上工作。但是该团队清楚地表明,苹果不在天网上工作。

席勒说:“我们将这些技术用于我们长期以来一直想做的事情,并且质量比以前更高。” -对于我们无法做到的新事物。随着技术在公司内部的发展以及我们生产产品的方式,这项技术将成为实现目标的苹果方法。”

但是在简报中,很明显,人工智能如何极大地改变了使用苹果生态系统的方法。人工智能专家认为,苹果的局限性在于它没有自己的搜索引擎(该引擎可以提供用于训练神经网络的数据),并且坚决认为需要保护用户信息(否则可能会使用这些数据)。但事实证明,苹果公司已经想出了如何克服这两个障碍的方法。

这个大脑在iPhone上提供MO的动态缓存有多大?我很惊讶被回答这个问题。它的大小约为200 MB,具体取决于存储的个人信息量(始终删除旧数据)。其中包括有关使用应用程序,与人互动,处理神经网络,语音生成以及“建模自然语言事件”的信息。它还包含用于神经网络的数据,这些神经网络可用于模式识别,面部和场景分类。

而且,根据Apple的说法,所有这些操作都是以这样的方式进行的,即您的设置,首选项和移动都将保持私密。

尽管他们并没有向我解释有关公司中使用AI的所有信息,但我仍能弄清楚公司如何在国防部员工中传播国防部的经验。莫斯科地区的人才在公司各处共享,鼓励所有使用此知识来解决问题和为特定产品创造新机会的开发人员。 “我们在Apple没有专门的组织MO Temple,” Craig Federigi说。 “我们正在努力使信息与团队保持更近距离,从而使用它们来创建正确的用户体验。”

公司中有多少人在从事MO工作? “很多。”费德里吉沉思后说道。 (如果您认为他会告诉我确切的金额,那么您不知道Apple)。有趣的是,那些在加入公司之前不是这个问题专家的人也在苹果公司发展。 Federigi说:“我们雇用了精通数学,统计学,编程,密码学的人员。” -事实证明,其中许多才华已完美地转变为MO。当然,尽管今天我们在莫斯科地区聘请了专家,但我们也聘请了具有必要的倾向和才能的人。”


软件开发高级副总裁Craig Federigi收听Siri高级总监Alex Acero

尽管Federigi并未这么说,但这种方法可能是必要的:与鼓励最佳程序员传播研究成果的竞争对手相比,该公司的保密倾向可能使其处于不利地位。 Federigi说:“我们的方法增加了自然选择的分散性-那些需要团队合作和发布优质产品的人,尤其是那些最需要发布的人。”如果研究人员在改进Apple产品的同时在该领域取得突破,那就太好了。邱说:“但是对我们而言,最终结果将是主要问题。”

收购后,一些有才华的人进入了公司。邱说:“最近,我们每年购买20至30家小型公司,我们从事雇用劳动力。” Federigi说,当苹果收购一家从事AI的公司时,它不会这么做,因为“这里有很多MO研究人员,让我们从中脱颖而出”。 “我们正在寻找有才华但专注于创造出色用户体验的人。”

最近的一笔收购是总部位于西雅图的Turi公司,苹果公司以2亿美元的价格收购了Turi公司。他们为MO建立了一个可与Google的TensorFlow媲美的工具包,这一收购导致谣传称Apple将为自己和开发人员将这项技术用于类似目的。董事不确认或否认此信息。邱说:“无论是在技术上还是在人员方面,他们的某些成果都与苹果公司结合得很好。”几年后,我们很可能会发现发生了什么事,就像Siri开始证明Cue(与Eddie无关)的预测能力一样,这是苹果在2013年收购的同名初创公司的产品。

无论人才来自何处,苹果的AI基础架构都可以使其开发出其他方式不可能实现的产品和功能。她正在更改公司的产品开发计划。席勒说:“苹果的好主意永无止境。” -MO使我们能够转向过去我们不会碰到的东西。它合并到了我们将来将要处理的产品的决策过程中。”

一个示例是Apple Pencil,它可以与Apple Pencil一起使用。为了使这种高科技手写笔起作用,该公司必须解决问题-当人们在屏幕上书写时,手掌的下部在触摸屏上运行,从而导致出现虚假的咔嗒声。该公司使用MO模型消除了这些敲击,从而能够教导屏幕区分手写笔的滚动,触摸,输入。 Federigi说:“如果这不能100%起作用,那么这种记录纸就不适合我,并且Pencil是不好的产品。”如果您喜欢Pencil,请谢谢MO。

衡量MO在公司中取得进展的最好方法可能是最重要的收购Siri。它起源于雄心勃勃的DARPA计划,用于开发智能助手,此后,一些科学家成立了该公司,以使用该技术创建应用程序。史蒂夫·乔布斯(Steve Jobs)亲自说服公司的创始人在2010年出售了苹果,并坚持将Siri集成到操作系统中。它的发布是2011年10月iPhone 4S演示的亮点之一。现在,它不仅可以在用户按住主屏幕按钮或嘟““ Hey Siri”时起作用(MO本身也使用此功能,从而使iPhone可以收听醚,不要放很多电池)。 Siri的智能功能内置于Apple Brain中,即使它什么也不说也能正常工作。

Kew描述了核心产品的四个组成部分:语音识别,自然语言理解,命令执行和召回。他说:“教育部已经非常强烈地影响了所有这些领域。”


高级工程主管Tom Gruber和Siri Guru,Alex Acero

Siri担任高级开发部门负责人汤姆·格鲁伯(Tom Grubber)的负责人,他与主要收购人一起来到了苹果公司(该公司的联合创始人于2011年离开苹果公司)。他说,甚至在将神经网络应用于Siri之前,它们就已经从用户群接收到大量数据。将来,这些数据将成为训练神经网络的关键。他说:“史蒂夫(Steve)说,我们将在一夜之内从试用应用程序迁移到数亿用户,而无需进行Beta测试。” -突然我们将有用户。我们被告知人们如何称呼与我们的应用程序相关的事物。这是第一次革命。然后神经网络出现了。”

Siri向处理语音识别的神经网络的过渡恰逢几位AI专家的到来,其中包括现在的语音技术团队负责人Alex Acero。 Acero于90年代初期在Apple的语音识别领域开始了他的职业生涯,然后在Microsoft Research工作了很多年。他说:“我真的很喜欢在那里工作,发表了很多作品。” “但是当Siri出现时,我说:'这是一个使深层神经网络成为现实的机会,可以使它们从数百人了解它们的状态转变为数百万人使用它们的状态。”换句话说,它完全属于Apple寻找的科学家类型-将产品置于出版物之上。

Acero三年前加入Acero时,苹果仍在从第三方制造商那里获得Siri大部分语音技术的许可证,这种情况应该很快会改变。费德里吉(Federigi)指出,苹果一直在致力于这一模式。 “很显然,技术领域对于我们随着时间的推移发布新产品的能力是必不可少的,那么我们将增强内部生产所需产品的能力。为了使产品出色,我们需要完全精通技术并在内部进行创新。演讲是一个很好的例子,说明了我们如何利用外部的机会来启动该项目。”

该团队开始训练神经网络来替代原始的Siri。 “我们有最酷的GPU农场,全天候工作,” Acero说。 “我们将大量数据带入其中。” 2014年7月的发行证明,所有这些处理器时间都没有浪费。

“所有语言的错误数量减少了一半,在某些情况下甚至更多。” Acero说。 “这主要归功于深度学习和我们的优化-不仅是算法本身,而且还要根据最终产品中的工作情况而定。”

提及最终产品并非偶然。苹果并不是第一个在语音识别中使用深度神经网络训练的人。但是苹果声称具有控制整个产品开发和交付系统的优势。自从Apple自己制造芯片以来,Acero就有机会与他们的开发团队和工程师合作,他们为设备编写固件以最大化神经网络的性能。 Siri开发团队的需求甚至影响了iPhone的设计。

Federigi补充说:“不仅仅是硅。” -设备上的麦克风数量(位于其中)。我们如何设置硬件和麦克风以及一组处理声音的软件。零件之间的相互作用很重要。与那些只编写软件并查看其功能的人相比,这是一个巨大的优势。”

另一个优势:当神经网络在一种产品中工作时,可以将其用作其他目的的技术基础。 MO帮助Siri理解了您,变成了听写录音引擎。通过Siri的工作,人们发现,如果拒绝屏幕键盘,单击麦克风图标并大声说出来,他们的电子邮件和消息将变得更有意义。

邱(Kew)提到的Siri的第二部分是对自然语言的理解。 Siri于2014年11月开始使用MO来了解用户的意图,并于一年后发布了深度学习版本。并且,与语音识别一样,MO改善了用户体验-特别是在更灵活地解释命令方面。例如,邱先生拿出iPhone并打了Siri。他说:“通过方形现金寄给简二十美元。”屏幕上会显示一条消息,其中描述了他的请求。然后,他尝试以另一种方式来设置任务:“扔给我妻子二十。”结果是一样的。

苹果公司声称,如果不对Siri进行这些改进,那么具有复杂语音控制功能的当前版本的苹果电视将不太可能实现。 Siri的早期版本使您说话清晰而分开,收费的MO版本不仅提供了大量电影和歌曲的目录中的特定选项,还了解概念。 “给我看汤姆·汉克斯的惊悚片。” (如果Siri真的很聪明,她将排除达芬奇密码)。 Federigi说:“在这项技术出现之前,不可能提供这样的机会。”

IOS 10计划于今年秋天发布,Siri的声音将成为MO转换的四个组件中的最后一个。深度神经网络已取代了之前在许可下进行的实现。实际上,Siri的副本是从语音中心收集的记录数据库中选择的,每个句子都是按部分收集的。根据格鲁伯(Grubber)的说法,机器学习可以消除角落,并使Siri看起来更像一个真实的人。

Acero进行了演示-首先是Siri熟悉的声音,我们习惯了类似机器人的音符。然后是一个新的,说着“你好,我能为您提供帮助吗?”,引人入胜。有什么区别? “深度学习,宝贝,”他说。

它看起来像是一个精细的细节,但是更自然的声音可以带来巨大的变化。 “人们更信任更好的声音,”格鲁伯说。 -最好的声音吸引用户并鼓励他更多地使用。回报效应正在增加。”

使用Siri的愿望以及由于MO而进行的所有改进变得越来越重要,因为Apple最终向第三方开发人员开放了Siri-公司批评者认为是时候了。许多人指出,苹果(其数十个Siri合作伙伴)落后于亚马逊的Alexa等系统,拥有第三方开发人员提供的上千个功能。苹果公司说,比较它们是不正确的,因为亚马逊用户必须用一种特殊的语言表达他们的愿望。 Siri更自然地包括SquareCash或Uber之类的东西。 (由Siri的其他共同创始人创建的另一个竞争对手Viv也承诺在发布日期尚未公布时与第三方服务集成)。

MO的发展可能面临的最大挑战是,在必要时要成功遵守用户隐私原则。该公司对他们的数据进行加密,因此,即使是苹果律师,也没有人可以读取它(即使是FBI,甚至有认股权证)。该公司以不出于广告目的收集用户数据而感到自豪。

尽管从用户的角度来看,这种紧缩是值得称赞的,但这并没有吸引到最好的AI人才进入公司。 “ MO的专家需要数据,”前苹果公司员工在一家专门从事AI的公司工作。 “但是在隐私保护的情况下,Apple迫使您用一只手来工作。”您可以争论这是对还是错,但是结果,苹果并没有以真正出色的AI专家而闻名。”

有两个问题。首先是在基于MO的系统中处理个人信息。当用户的个人数据经过神经网络处理的障碍时,该信息会发生什么?第二个问题涉及收集训练神经网络识别行为所需的信息。不收集用户个人信息怎么办?

苹果认为自己有解决方案。 Kew说:“有些人认为我们无法使用AI做到这一点,因为我们没有数据。” “但是我们找到了在保持隐私的同时获取所需数据的方法。”那样。”

苹果公司通过控制软件和硬件的能力解决了第一个问题。大多数个人信息仍保留在Apple Brain内部。 Federigi说:“我们将MO本地发生的最敏感的事情存储在设备上。”例如,他给出了要运行的应用程序的预测,即向右滑动屏幕时出现的图标。这些预测基于许多因素,其中一些仅取决于您的行为。而且他们奏效-Federigi说,人们有90%的时间在这些预测中找到了他们需要的东西。 Apple会直接在手机上进行所有计算。

另外,该设备可能存储公司收到的最个人信息:iPhone QuickType键盘上人们使用的单词。苹果使用一个神经网络训练系统来监视您的输入,苹果可以识别关键事件和时刻,例如有关航空旅行,联系方式和会议的信息-但这些信息本身仍保留在您的手机上。即使在存储在云中的备份中,它的稀释方式也使您无法仅从一个备份副本中获取它。 “我们不希望这些信息存储在我们的服务器上,” Federigi说。 “苹果不需要知道你的习惯,或者你去哪里和什么时候去。”

苹果公司正在努力减少存储的信息。 Federigi举了一个您可以进行对话的示例,其中有人会提到一个适合搜索的术语。其他公司可以在云中分析整个对话以找到这些术语,但是Apple设备可以识别它们,从而使数据不会离开用户-因为系统不断在电话中存储的知识库中寻找匹配项(它是200 MB的一部分) “脑”)。

“基地虽然紧凑,但却很全面,有成千上万个地点和物体。我们将其本地化,因为我们知道您的位置,” Federigi说。所有Apple应用程序都访问数据库,包括Spotlight,地图和Safari搜索引擎。它有助于自动更正错误。他说:“它在后台一直有效。”

从iOS 10开始,Apple将使用差异化隐私的新技术,该技术允许众包信息,从而无法识别个人。这可能是数据库中没有流行的单词,为查询提供更相关答案的链接或使用某些表情符号的方式。 Federigi说:“通常,在行业中,通常将您输入的所有单词和符号发送到公司的服务器上,以使它们以后深入研究它们并注意到一些有趣的事情。”邱说:“我们在来回之间加密信息,所以我们不这样做。”尽管差异性隐私起源于研究社区,但苹果仍在尝试将其引入大众。“我们正在将其从研究部门转移到十亿用户。”

尽管很明显MO改变了Apple产品,但还不清楚是否改变了苹果公司本身。从某种意义上说,使用MO的方法与公司精神冲突。 Apple会仔细监控用户体验,一直到测量屏幕电导率的传感器一直。一切都是预先计划好的,并经过精确编码。但是,在使用MO时,工程师必须退后一步,让软件有机会自行搜索解决方案。苹果公司可以适应现代现实吗?使用MO的系统本身可以参与产品设计吗?

Federigi说:“这是公司引起很多争议的原因。” -我们习惯于提供非常周到且可控的体验,在这种体验中,我们控制系统与用户通信的各个方面。当您开始基于大量有关人类行为的数据训练系统时,获得的结果可能与设计者的想法不一致。它们根据数据显示。”

席勒说,但苹果不会退缩。 “尽管这些技术当然会影响产品开发,但最终我们还是用它们来生产更好的产品。”

因此,Apple可能不会发布有关沉浸在MO中的标题,但它将使用尽可能多的MO来改进产品。手机中的大脑证明了这一点。

席勒说:“典型的用户每天都会经历深度学习,这说明了您对苹果产品的喜好。” “最酷的时刻是如此微妙,以至于您只在与他们第三次会面之后才想到它们,然后停下来大喊:'这怎么可能?”

天网将等待。

Source: https://habr.com/ru/post/zh-CN397331/


All Articles