
不,这与图像识别算法无关,与它们的使用限制有关,尤其是在创建AI时。
在我看来,人与计算机系统对视觉图像的识别是非常不同的,以至于几乎没有什么共同点。 当一个人说“我看见了”时,他实际上比他看到的思考更多,这对于配备了图像识别设备的计算机系统是无法说的。
我知道这个想法并不新鲜,但是我再次提出以声称拥有智能的机器人为例,以确保其有效性。 测试问题是:周围世界应该看到什么样的机器人才能完全像一个人?
当然,机器人必须识别物体。 哦,是的,根据我的理解,算法可以通过对原始样本进行训练来解决这一问题。 但这是灾难性的小!
我首先,周围世界的每个对象都由许多对象组成,而这些对象又是其他对象的子集。 我将此属性称为嵌套。 但是,如果一个对象根本没有名称,那么它就不会出现在用于学习算法的原始样本的基础上,在这种情况下,机器人应该怎么识别?
我目前在窗口中观察的云没有命名部分,尽管它显然由边缘和中间部分组成。 但是,对于云的边缘和中间没有特殊的术语,没有创造出来。 为了表示未命名的对象,我使用了语言措辞(“云”-对象类型,“云边缘”-言语措词),该词未包含在图像识别算法的功能中。
事实证明,没有逻辑块的算法几乎没有用。 如果算法检测到整个对象的一部分,它将始终无法找出-因此,机器人将无法分辨-它是什么。
二。其次,构成世界的对象列表没有关闭:它会不断更新。
一个人有能力构造现实的物体,为新发现的物体(例如动物群)分配名称。 他将把一个人头和躯干的马称为半人马,但是为此,他首先会意识到该生物具有一个人头和躯干,而其他所有东西都是马,从而将物体视为新物体。 这就是人脑所做的。 在没有输入数据的情况下,该算法将确定这种生物是人还是马:如果不使用类型特征进行操作,就无法建立它们的组合。
为了使机器人变得像人一样,他必须能够为他定义新的对象类型,并为这些类型分配名称。 在对新类型的描述中,应显示已知类型的特征。 如果机器人不知道怎么做,为什么我们需要这么漂亮的东西呢?
假设我们向火星发送了侦察机器人。 机器人看到的东西不寻常,但能够以已知的专有名词专门识别对象。 这将使人们听到机器人发出的口头信息有什么作用? 有时候,它当然会给出一些东西(如果在火星上发现了地球物体),而在其他情况下,则什么也没有(如果火星物体与地球物体不相似)。
形象是另一回事:一个人本人将能够看到一切,正确评估和命名。 不仅要通过预先训练的图像识别算法,而且要通过更狡猾的人脑。
三,第三,对象的个体化存在一些问题。
周围的世界由特定的对象组成。 实际上,您只能看到特定的对象。 但是在某些情况下,它们需要在语言上进行个性化设置,为此要么使用个人名称(“ Vasya Petrov”),要么简单地表示或暗示特定对象(“此表”)。 我所说的对象类型(“人”,“表”)只是具有某些共同特征的对象的统称。
如果对原始样本进行训练,图像识别算法将能够识别出个性化和非个性化的对象,这很好。 在拥挤的地方等所有的人脸识别。 不好的是,这种算法无法理解哪些对象应该被认为具有个性,哪些对象绝对不值得。
机器人作为AI的所有者,偶尔应该出现以下消息:
-哦,一个星期前我见到了这个老女人!但是,不应该滥用这些关于草叶的复制品,尤其是因为人们有充分的理由担心执行此任务所需的计算能力是否足够。
对我来说,尚不清楚在个人化的老妇人与无数的草叶之间划出一条细线,这些草叶由不少于老妇人进行了化身,但从个人化的角度来看,对人没有任何意义。 从这个意义上说,公认的形象是什么? 几乎一无所有-对周围现实的艰难而痛苦的认识的开始。
IV。第四,物体的动力学,取决于它们相互之间的空间排列。 我告诉你,这是什么!
我正坐在壁炉前的深扶手椅中,现在正试图起床。
“你看到了什么,机器人?”从我们的日常角度来看,机器人会看到我从椅子上站起来。 他应该回答什么? 可能的相关答案是:
“我看到你从椅子上站起来。”为此,机器人必须知道我是谁,椅子是什么,以及抬起头来意味着什么...
经过适当设置的图像识别算法将能够识别我和椅子,然后通过比较框架可以确定我从椅子上相互移开的事实,但是“抬起”是什么意思? 在物理现实中“提升”是如何发生的?
如果我已经起身走开了,一切都将非常简单。 当我离开椅子后,办公室中的所有对象都没有相对改变彼此的空间位置,唯一的例外是我本来是坐在椅子上,但一段时间后又离开了椅子。 可以得出结论,我离开了椅子。
如果我仍在从椅子上站起来的过程中,那么一切都会有些复杂。 我仍然坐在椅子旁边,但是,我身体各部分的相对空间位置已经改变:
- 最初,胫骨和躯干处于直立位置,大腿处于水平位置(我坐在那里),
- 第二分钟,身体的各个部位都直立(我站起来)。
观察我作为一个人的行为,他会立即得出结论,我正在从椅子上站起来。 对于一个人来说,这与其说是一种视觉上的感知,还不如说是一个逻辑上的结论:他实际上会看到我从我的椅子上站起来,尽管实际上他会看到我身体各部分相对位置的变化。 但是,实际上,这是一个逻辑结论,即有人必须向机器人解释,或者机器人必须自己做出这个逻辑结论。
两者同样困难:
- 输入最初的知识库信息,即站起来是身体某些部位相互空间位置的顺序变化,这在某种程度上没有启发作用;
- 希望机器人作为一种人工思考的生物本身会迅速猜测上述身体某些部位相互空间位置的变化称为站立是很愚蠢的。 在人类中,这个过程需要花费数年时间,而机器人将花费多少呢?
图像识别算法与它有什么关系? 他们将永远无法确定我正在从椅子上站起来。
V.“站起来”是一个抽象的概念,由物质对象的特性变化(在这种情况下,它们相互空间位置的变化)决定。 在一般情况下,对于任何抽象概念都是如此,因为抽象概念本身并不存在于物质世界中,而是完全依赖于物质对象。 尽管我们经常将它们视为个人观察。
在不张开嘴的情况下向右或向左移动下巴-此动作叫什么? 但是没办法。 毫无疑问,由于这种运动通常对于人而言是不典型的。 使用所讨论的算法,机器人会看到一些东西,但是有什么意义呢? 在初始样本的基础上,将缺少所需的名称,并且将很难命名已记录的机器人动作。 为了给未命名的动作以及其他抽象概念提供详细的语言表述,图像训练算法没有经过训练。
实际上,我们不仅在对象方面而且在抽象概念方面都有第一段的副本。 但是,其余的段落(上一段落和下一段落)也可以链接到抽象概念-我只是在处理抽象时注意提高复杂性。
VI。第六,因果关系。
想象一下,您正在观看一辆轻型卡车在路上飞奔,推倒篱笆。 围栏被拆除的原因是拾取动作,并且拾取动作又导致围栏的拆除。
-我亲眼看到了!这是您是否看到发生了什么或对此有想法的问题的答案。 您实际上看到了什么?
这种动态中的一些项目:
- 一辆卡车开了马路
- 皮卡车靠近栅栏,
- 围栏的形状和位置已更改。
根据视觉,机器人必须意识到,在通常情况下,围栏不会改变形状和位置:这里发生的原因是与拾音器接触。 主观原因和主观效果必须相互联系,否则它们之间的因果关系就不存在。
尽管这里我们陷入了逻辑陷阱,但因为其他对象可能会与主题后果联系,而不仅仅是主题原因。
假设在提货时撞到篱笆上的寒鸦。 皮卡车和寒鸦同时与围栏接触:如何确定拆下围栏的结果?
可能使用重复性:
- 如果在每种情况下都将寒鸦放在篱笆上,则篱笆被拆毁,则应归咎于寒鸦。
- 如果在每种情况下拾音器撞到围栏上,拾音器都应受到责备。
因此,关于围栏被皮卡拆除的结论并不完全是一个观察,而是基于对接触物体的观察的分析结果。
另一方面,可以在一定距离处执行该动作,例如,磁铁在铁物体上的动作。 机器人如何猜测将磁铁移近钉子会导致钉子冲向磁铁? 视觉图片不是这样的:
- 磁铁接近但未与钉子接触,
- 同时,钉子会自动冲向磁铁并与其接触。
如您所见,即使在目击者坚决宣布自己用肉眼看到的情况下,也很难追踪因果关系。 图像识别算法在这里是无能为力的。
七。第七,最后,这是视觉目标的选择。
周围的视觉图片可能由成千上万个彼此嵌套的对象组成,其中许多对象不断改变其空间位置和其他特征。 显然,机器人不需要感知田野中的每片草叶,但是,就像城市街道上的每张面孔一样,您只需要感知重要的物体即可,具体取决于执行的任务。
显然,将图像识别算法调整为某些对象的感知并忽略其他对象是行不通的,因为可能无法事先知道要注意什么和要忽略什么,特别是因为当前目标可能会随之改变。 当您首先需要感知彼此嵌套的成千上万个对象(实际上是每个对象)以进行分析,然后才做出结论,即哪些对象对于解决当前问题是必不可少的,而哪些对象不感兴趣时,则可能会出现这种情况。 这就是人们感知周围世界的方式:他只看到重要的事物,而没有注意无趣的背景事件。 他如何成功是一个秘密。
机器人甚至配备了最先进,最巧妙的图像识别算法?..如果在火星外星人发动的攻击中,他开始提供天气报告并继续描述在他面前散布的新地形,那么他可能没有时间报告攻击本身。
结论- 视觉图像的简单识别不会取代人眼。
- 图像识别算法是范围非常狭窄的辅助工具。
- 为了使机器人不仅可以开始思考,而且至少可以亲眼看到,它不仅需要算法来进行模式识别,还需要成熟而又无法实现的人类思维。