AI研究的进展和炒作

人工智能的最大问题不是愚蠢,而是缺乏对智能的定义,因此缺乏对智能的衡量[1a] [1b]


图灵测试不是一个好办法,因为大猩猩科科虽然比许多残疾人都可以解决更多的问题,但她并没有通过[2]


未来的人们很有可能会怀疑为什么早在2019年的人们会认为训练有素的特工在模拟环境(例如Go)中玩固定游戏具有任何智能[3a] [3b] [3c] [3d] [3e ] ] [3f] [3g] [3h]


智力更多的是将旧知识应用/转移到新任务上(在熟练掌握《毁灭战士》之后无需任何培训即可发挥Quake Arena的能力),而不是将坐席的经验压缩为试探法以预测游戏得分并确定坐席在给定游戏状态下的动作以最大化最终得分(掌握《毁灭战士》之后,在玩了数百万场游戏之后就足够了。


人类智能是关于适应物理/社交世界的能力,玩Go是人类智能执行的一种特殊适应,开发一种学习玩Go的算法性能更高,开发Go的数学理论可能会更好更有表现力。


将AI与人类进行比较不是更有意义,不是通过适应最终产品的有效性和效率(在AI和人类之间的游戏中),而是通过适应过程的有效性和效率(在机器学习的代理与人之间进行的游戏中)进行比较。经过有限实践的人工编码代理商) [5]


Dota 2,《星际争霸2》,《文明5》甚至《侠盗猎车手5》可能会在不久的将来得到解决,但是在没有事先培训的情况下以人类水平玩任何新游戏的能力将更为重要。


人工智能的第二大问题是,在前所未有的情况(包括医疗保健中的关键事件[6a] ,无人驾驶汽车,财务状况)长期存在的情况下,其鲁棒性不足,而目前这些准确性甚至无法接近可接受的水平[6b] ] [6c] [6d] [6e] [6f]


复杂的模型利用了任何将输入与输出变量相关的模式,但是对于训练数据覆盖不足的情况,某些模式可能不成立[节] [ progress] [7a] [7b] [7c] 。 > 99%的医疗保健应用程序使用简单模型,例如逻辑回归(将领域知识转换为代码以将统计数据作为特征进行计算),以避免虚假相关性并在异常值上获得更大的鲁棒性[8a] [8b]


对于像Go或Quake这样的模拟环境中的代理,已知的或可用的是真实的环境模型,因此代理可以生成任意数量的训练数据,以学习如何在任何情况下均以最佳方式进行操作。 在数据中找出相关性不是智能的-对于在现实世界中发现真实模型的问题,关键是[9a] [9b] [9c] [9d] [9e]


对于一个有机体来说,现实世界不是具有已知环境和规则(例如Go或Quake)的固定游戏,而是具有很大程度上未知且始终在变化的环境和规则的游戏[10] 。 它必须适应环境和规则的意外更改,包括对手造成的更改。 它必须具有广泛的自治能力,而不仅仅是玩某些固定游戏所必需的自动化。


事实证明,要让自动驾驶汽车和类人机器人与人类并驾齐驱,而又不训练他们以获得对现实世界的人类适应性,这是不可能的。 事实证明,要让个人助理在生活的关键方面代替人类,而没有培训他们来获得人类对社会世界的适应性,这是不可能的[11a] [11b] [11c]


知识与智慧


知识是一些信息,例如来自观察或实验的数据,以某种可计算的形式压缩和表示,例如自然语言中的文本,半正式语言中的数学理论,形式语言中的程序,人工神经网络的权重或大脑突触。


知识是关于解决问题的工具(理论,程序,物理过程)。 智力是关于应用(转移)和创造(学习)知识[12] 。 有一个知识如何解决问题(一个用于计算机的程序,一个人的教科书),然后是一个应用知识的过程(由计算机执行程序,由人推断和执行指令),然后有一个过程创造知识(通过观察和实验进行归纳推理/学习,通过推理理论和学习模型(通过计算机或人工)进行演绎推理。


Alpha(Go)零距比如何应用和创建知识的智能代理更接近如何解决特定类别的问题的知识。 它是一种类似于IBM Deep Blue的搜索算法,其启发式算法不是硬编码的,而是在游戏会话期间进行调整的。 它不能将学到的知识应用于其他问题-即使是在较小的Go板上玩。 它无法创建对人类有用的抽象知识-即使是对Go战术的简单了解。 如果采用不寻常的战术,它可能会在人类中引起一些有用的见识。


1992年的TD-Gammon被许多人视为AI的最大突破[13a] [13b] 。 TD-Gammon使用TD(λ)算法进行在线策略更新。 TD-Gammon的作者使用它的变体来学习IBM Watson的下注策略[13c] 。 Alpha(零)也大致是TD(λ)的变化[13d] 。 TD-Gammon使用了通过时差学习训练的神经网络,其目标值是使用深度不超过3的树搜索来计算得出的,并将最终玩游戏的结果用作叶子值的估计值。 Alpha(Go)Zero使用了由时间差异学习训练的深度神经网络,其目标值是使用深度更大的蒙特卡洛树搜索方法计算得出的,并且使用叶值的估计值和网络计算出的策略动作而没有进行任何游戏。


步步高和围棋之间的问题以及TD-加蒙门与Alpha(围棋)之间的质量差异(神经网络的规模和玩游戏的数量是主要差异)都没有完美的信息游戏如围棋之间的质量差异大以及不完善的信息游戏,例如扑克(AlphaZero不适用于扑克,DeepStack不适用于Go和Chess)。


IBM Watson是2011年迄今为止最先进的问答系统,它不是智能代理。 它是一种知识,以数千行手动编码的逻辑表示,用于搜索和处理单词序列以及生成假设和收集证据,另外还有数百个通过线性回归调整的参数,用于权衡每种支持的问题类型的不同知识。回答[14a] [14b] [14c] 。 这与数据库引擎在概念上没有太大不同,数据库引擎使用数据统计信息和硬编码阈值来构建计划,该计划通过选择和流水线化已实施算法的一部分来处理给定数据,从而执行给定查询。


IBM Watson可以将其用于文本信息提取和集成(内部知识)的逻辑应用于新文本(外部知识)。 但是,除非经过人工编码,否则它无法将知识应用于有限的事实类问答之外的问题。 可以对它进行编码以搜索证据,以支持有关癌症论文的假设,但只能使用人类编码的逻辑来解释文本(提取和匹配相关的词),并且永远不要超出其自身解释文本的范围(世界和世界的学习模型)将文本映射到该模型上的模拟)。 前者解释文本的方法足以危及危险! [15]但是当没有一个简单的答案时,这还远远不够。 使用文本的统计属性做出结论与使用通过对现实现象的学习模型进行仿真估算的真实现象的统计属性之间存在巨大差异。


IBM Watson无法创建新知识-它可以使用人工编码算法从知识源(文本和知识库)中推论出简单的事实,但无法从源头中推论出理论并检验其真实性。 WatsonPaths通过搜索与案例[16a] [16b]有关的文本来假设因果图,但推理链作为推理的方法不够稳健-推理必须通过大脑进行的模拟或实验来检查。


什么是智力?


生物学家将智力定义为为非标准问题找到非标准解决方案的能力(换句话说,是与未知已知和已知未知事物相对的,处理未知未知问题的能力),并将此特征与定义为标准解决方案的反射/本能区分开来用于标准问题[17a] [17b] 。 在玩了数百万游戏之后,玩Go不能被视为AlphaGo的非标准问题。 到目前为止,没有人为解决方案,检测到新的恶意软件可被视为非标准问题。


大多数研究人员专注于通过模型的端到端培训对智能进行自顶向下的方法,即为高级问题定义目标(例如,最大化预期获胜的可能性),并期望模型能够学习找到解决方案,以解决问题。原始问题的低级子问题(例如,Go中的Ko战斗) [18a] 。 这种方法适用于相对简单的问题,例如模拟环境中的固定游戏,但需要大量的训练情节(比现实世界中的特工所能经历的数量大几个数量级),并导致无法推广的解决方案(AlphaGo模型)在19x19电路板上训练的代码,如果不进行完全重新培训,则对于9x9电路板实际上是无用的)。 人类可以解决的最困难的高级问题是开放式的-人类不像AlphaGo [18b]那样在固定空间中寻找可能的解决方案。 在现实世界中的观察和实验的指导下,人类提出了很好的子问题,例如狭义相对论和广义相对论。


一些研究人员(“可能的方向”一节)专注于自下而上的方法,即从一些低级目标开始(例如,最大化预测环境动态的能力,包括代理对环境的影响),然后再添加一些更高级别的方法。特工的内在动机目标(例如,最大化学习进度或最大化可用选项) [19a] [19b] ,然后才针对人类感兴趣的问题添加高级目标(例如,最大化游戏得分) [19c] 。 预期这种方法将为高层问题提供更通用和更可靠的解决方案,因为以这种低级目标进行学习可能会导致代理也学习自我指导和自我纠正行为,这对于零非标准或危险情况很有帮助高级别目标有效地提供了有关它们的信息。 适应/生存的必要性为生物体提供了优化目标,以指导其自我组织和学习/进化[20a] [20b] ,一些生物体经过训练/进化后可以为自己建立高水平的目标,以满足低水平的目标。 。 很有可能从控制能量和信息流的一些方程式中推导出一些通用的低层目标[21a] ,因此使用这些目标进行优化[节“可能的方向”]可能会导致计算机智能化。一种由物理学定律控制的宇宙演化如何导致有机体智能的类似方法[21b]


在解决诸如Go之类的模拟环境中的高级问题方面取得了成功,而解决诸如视觉和机器人技术之类的低级问题尚未取得成功。 如果没有先学会识别棋盘和放置石头的人,就不会学会玩围棋。 当人类从低级子问题中抽象出高级问题时,计算机可以解决某些高级问题,而无能力解决低级问题[22a] 。 它是低级的问题,虽然对于人和计算机来说,计算上都比较复杂,但不一定像数学或工程学上的问题一样复杂[22b] 。 低级问题是通向常识推理的道路,即从获得或想象的观察以及所有先前获得的知识中估计任意假设的合理性,这对于机器适应任意环境并解决任意问题是必不可少的该环境中的高级问题[22d]


障碍物


与模拟环境相反,在现实环境中应用的第一个最大障碍似乎是在学习环境模型时优化的目标不足[23a] 。 训练有足够有限的目标的足够复杂的模型将利用在训练数据中找到的将输入与目标变量相关联的任何模式,但虚假相关性不一定会推广到测试数据[节] [23b] [23c] [23d] 。 甚至十亿个示例也不能充分地约束优化,也不会导致图像识别的主要性能提升[24a] [24b] 。 代理发现了令人惊讶的方式来利用模拟环境来最大化目标,而这些目标并未受到足够的限制以防止利用[25a] [25b]


为了避免不可泛化和非鲁棒的解决方案,充分约束优化的一种方法是提供更具信息性的训练数据,例如,使用真实世界的物理学或社会世界的动态作为信号源,而不是模拟环境。人工行动者或没有对抗行动者的受限物理环境-后者并不代表行动者在不受约束的真实/社会世界中要面对的特殊情况[26a] 。 另一种方法是优化的更复杂目标,例如,学习不仅预测感兴趣的统计信息(例如,有条件的基于代理人的下一个动作的未来累积奖励),而且还预测动力学,即动态的,即有条件地基于某些任意的假设未来事件的环境的任意任意未来属性包括代理商的下一步行动[26b] [26c] [26d] [26e] 。 状态和奖励对应于代理人与环境交互的统计摘要,而动态对应于代理人关于环境如何工作的知识[27a] [27b] 。 代理在学习预测环境动态方面的进展[节“可能的方向”] [28a] [28b] [28c] ,以及在创建影响方案的选项方面的进展[节“可能的方向”] [28d] [28e] [ [28f]可能是最强大的代理的内在动机,并且可能是约束优化的最有效方法。


第二个最大的障碍似乎是当前计算机可用的模拟环境的复杂性与当前机器人可用的现实环境的复杂性之间存在巨大差距,因此在模拟环境中训练的代理无法转移到真实环境中的机器人上。具有可接受的性能和鲁棒性的世界环境[29] 。 波士顿动力团队从未使用过机器学习来控制他们的机器人-他们使用微分方程的实时求解器来计算动力学和最优控制,这些机器人和机器人模型不是从数据中学习到的,而是由人工指定的[30] 。 麻省理工学院的研究人员在2015年DARPA机器人挑战赛中没有使用机器学习来控制他们的机器人,他们的机器人是唯一不会摔倒或需要人类物理帮助的机器人[31a] 。 统计模型[31b]可能无法学习尾部事件,即通过形成该模型的分离超平面并将其用作可能动作的决策边界,并且可能需要某种形式的非统计推断,即通过诱导事件的逻辑模型/理论,从中得出假设并在实验中进行检验。 因此,不仅统计信息,还必须计算现象的动力学-可能必须对模型进行编程或训练以模拟现象的动力学[31c]


训练/发展具有足以解决现实世界(例如机器人技术)和社交世界(例如自然语言理解)难题的智能的代理的唯一方法很可能会变成:
(1)在与现实世界和社交世界一样多的优化约束条件下训练/发展代理人(即代理人可能必须是与人类一起在现实世界中操作的机器人);
(2)对代理商进行培训/发展,这些代理商所面临的问题对优化的约束与现实世界中有机体所解决的最困难的问题一样多(即代理商可能必须在没有人类任何直接帮助的情况下,学会作为机器人在现实世界中生存)并由社交世界中的人类解决(即,代理人可能必须学习使用与人类的交流作为唯一工具来达到现实世界中的目标)。


进展


可以说,在深度学习复兴时期,机器人和语言理解等现实问题并未像在模拟环境中运行的固定游戏那样重要。


一些最现实的研究人员对AI研究进展的看法:


迈克尔·乔丹 [32a] [32b] [32c]
罗德尼·布鲁克斯 [33a] [33b]
菲利普·皮涅克斯基 [34a] [34b]
弗朗索瓦·乔勒 Francois Chollet) [35a] [35b]
约翰·兰福德 [36a] [36b]
亚历克斯·艾尔潘 [37]


深度学习方法在图像理解任务中非常健壮[下面的有关一般化和对抗性示例的论文] [38a] [38b] [38c] [38d] [38e] [38f]
深度学习方法甚至还不能替代放射线医师[39a] [39b] [39c] [39d]
深度学习方法在文本理解任务中非常健壮[下面有关泛化和对抗性示例的论文] [40a] [40b]
深度学习方法无法通过最难的Atari游戏的第一阶段[41]


“ ObjectNet:用于推动对象识别模型极限的大规模偏差控制数据集”
“使用局部特征袋模型逼近CNN在ImageNet上效果很好”
“测量CNN学习表面统计规律的趋势”
“过度不变会导致对抗性漏洞”
“深层生成模型知道他们不知道的什么吗?”
“ ImageNet分类器可以推广到ImageNet吗?”
“ CIFAR-10分类器可以推广到CIFAR-10吗?”
“深度学习对脑肿瘤的分割:跨机构培训和测试的影响”
“混淆变量会降低放射深度学习模型的通用性能”
“自然对抗的例子”
“愚弄深度神经网络的一次像素攻击”
“旋转和平移就足够了:用简单的转换来欺骗CNN”
“语义对抗示例”
“为什么深度卷积网络对小图像转换的推广如此差?”
“房间里的大象”
“摆个姿势:神经网络容易被陌生物体的愚蠢姿势愚弄”
“用于攻击和分析NLP的通用对抗触发器”
“用于调试NLP模型的语义等效对抗规则”
“正确的错误原因:诊断自然语言推理中的句法启发式”
“探究自然语言参数的神经网络理解”


可能的方向


于尔根·施密德胡伯(Juergen schmidhuber)


“数据本身对于一些自我完善但在计算上有限的主观观察者来说变得暂时有趣,一旦他学会了以更好的方式预测或压缩数据,从而使其在主观上变得更简单,更美丽。好奇心是创建或发现的渴望更多的非随机,非任意,常规数据是新颖且令人惊讶的,这不是传统意义上的Boltzmann和Shannon,而是因为尚不知道其规则性而可以进行压缩。主观美感或可压缩性(即学习曲线的陡峭性)的派生形式。它激发探索婴儿,纯数学家,作曲家,艺术家,舞蹈演员,喜剧演员,自己和人造系统的探索。”

可以将智能视为一种压缩功效:越多的人可以压缩数据,则越多的人可以理解它。 增加压缩功效的示例:1.行星轨道的原始观测2.地心托勒密星轮3.日心椭圆4.牛顿力学5.广义相对论6.? 在这种观点下,数据压缩是理解,压缩器的改进是学习,改进的进度是内在的回报。 为了尽可能快地了解一条数据,应该尽可能快地减少压缩该数据所需的位数。 如果可以选择要观察或创建的数据,则应以某种方式与环境交互,以获取最大程度减少已知一切位数(压缩进度)的数据。


“创意,艺术,科学,音乐,幽默背后的简单算法原理”
“乐趣与创造力的形式理论”


“创造力与乐趣的形式理论和内在动机”
“积极探索,人为好奇心和有趣之处”


“由压缩进步驱动:一个简单的原理解释了主观美,新颖性,惊奇,兴趣,注意力,好奇心,创造力,艺术,科学,音乐,笑话的基本方面”
“创造力,乐趣和内在动机的形式理论”
“无监督的最小极大:对抗性好奇心,生成性对抗网络和可预测性最小化”
“对人形机器人进行运动计划的好奇心增强学习”
“有趣的是什么?”
“ PowerPlay:通过不断搜索最简单但仍无法解决的问题来训练越来越多的一般问题解决者”


亚历克斯·威斯纳·格罗斯


“智能系统需要优化未来的因果熵,或者用通俗易懂的语言表达,最大化可用的未来选择。这反过来意味着只需很少的选择就可以将所有不愉快的情况降到最低。这从进化的角度来看是有意义的,因为它是一致的具有生存能力,这与我们在人类中所看到的(收集财富和对不可预测事物的多种结果进行套期保值)相一致,并在几种简单的游戏情况下产生了合理的行为。”

“智力方程式”
“人工智能的物理”


“智慧是真实的”
“智能混淆了智能”


“因果熵力”


菲利普·皮涅涅夫斯基


“通过解决物理预测的一个更一般的问题(将其与统计预测区分开来),输入和标签完全平衡,人工选择的问题也完全消失了。在这种情况下,标签只是原始输入的时移版本信号。更多的数据意味着更多的信号,意味着对实际数据流形的更好近似,并且由于该流形起源于物理现实(不,它没有从一组独立且分布均匀的高斯样本中采样),这也就不足为奇了使用物理学作为训练范式可能有助于正确地阐明它。此外,应该通过添加更多约束(更多训练信号)来平衡添加参数。这样,​​我们应该能够构建具有数十亿个参数(内存)的非常复杂的系统),却以非常简单而强大的原理进行操作。真实信号的复杂性和大量高维训练数据可能会阻止它找到“便宜”的东西 大量的解决方案。 但是,我们必须付出的代价是,我们将需要解决更一般和更复杂的任务,而这可能不容易且直接地转化为具有实际重要性的任何事情,至少不是立即如此。”

“预测性视觉模型-进行深度学习的另一种方式”


“重新启动AI-假定”
“智能混淆了智能”
“智能是真实的”
“人工智能和荒谬的谬误”
“感知问题的特殊感知”
“统计与动力学”
“反应性与预测性AI”
“情报山”
“学习物理是要走的路”
“简而言之的预测性愿景”


“常识机器视觉”


“在可伸缩的预测循环网络中从连续视频进行无监督学习”
“皮层计算的基本原理:具有预测,压缩和反馈的无监督学习”


托德·希尔顿


“当今计算机的主要问题是计算机无法组织自身:数万亿个自由度一遍又一遍地执行相同的工作,狭窄的基本AI功能。我们对AI问题的机械方法不适用于复杂的现实世界问题:机器是它们的组成部分的总和,并且与世界无关,除非通过我们,否则世界不是机器。热力学驱动着一切的进化;热力学进化是计算系统中缺失的统一概念;热力学进化假设所有组织都是自发的热力学的演化是热力学的第二定律,除了它增加了为了使熵增加而必须使组织出现的思想,这使得热力学的演化成为热力学的第二定律。获得自由能。热力学的第一定律暗示着对能量的竞争。”

“热力学计算”
“热力学计算”
“关于热力学和计算的未来”
“宇宙是热力学演化的产物吗?”
热力学计算研讨会


“智能不是人造的”
“人与机器”


“热力学神经网络”


苏珊仍然


“所有系统都是通过响应其环境来执行计算的。特别是,生命系统根据其先前的经验在各种长度和时间尺度上计算未来的期望。大多数生物计算从根本上说是一个非平衡过程,因为生物机械在其自然运转中的优势远非热力学平衡所驱动,物理系统是通过一系列输入刺激而演化的,这些输入刺激使系统失去平衡,然后放松至热浴。”

“最佳信息处理”
“最佳信息处理:耗散和无关信息”
“信息处理的热力学极限”


“预测的热力学”
“好奇心驱动的强化学习的信息理论方法”
“交互式学习的信息理论方法”


卡尔·弗里斯顿


“自由能原理似乎是试图统一感知,认知,体内平衡和动作的尝试。自由能是一个数学概念,代表了某些事物无法与它们原本应该预测的其他事物相匹配。大脑试图将这些事物最小化。它相对于世界的自由能,即最小化其模型与现实之间的差异,有时通过更新其世界模型来实现,有时则通过改变世界以更好地匹配其模型来实现。两者都试图创建与世界相匹配的精确模型,从而最大程度地减少自由能;稳态和动作都是使现实与心理模型相匹配的尝试;动作试图使生物体的外部状态与心理模型相匹配;稳态试图使生物体的内部状态与人体模型相匹配。状态以匹配心理模型,因为即使细菌都在做类似稳态的事情,所以所有生命都拥有成为自由能量最小化者的原则,因此生命不是唯一的 四个方面-感知,思考,行动和维持体内平衡。 它实际上只是在做一件事-以四种不同的方式使自由能最小化-在任何给定情况下,它以哪种方式最方便地实现自由能量的特定方式。

“自由能源原则”
“自由能与主动推理”
“主动推理和人工好奇心”
“主动推理和人工好奇心”
“不确定性和主动推断”


最小化自由能简介
活动推理教程
自由能量和好奇心教程
实作


“自由能原理:统一的大脑理论?”
“探索,新颖,惊喜和自由能最小化”
“行动与行为:一种自由能的配方”
“好奇心和目标导向探索的计算机制”
“扩展主动推理领域:知觉-行动循环中的更多内在动机”


结束语


解决科学/工程中的许多问题可能不需要上述计算机智能-如果将像今天一样继续对计算机进行编程以解决人类的非标准问题。 但是,如果没有这种智能,一些非常重要(也是最被大肆宣传)的问题,例如机器人技术(真正不受约束的自动驾驶)和语言理解(真正的个人助手)可能仍然无法解决。


本文的先前版本

Source: https://habr.com/ru/post/zh-CN436458/


All Articles