创建了广义神经网络理论的基础

神经网络的强大功能有时可比其不可预测性。 现在,数学家开始理解神经网络的形状如何影响其工作。





当我们设计摩天大楼时,我们希望最终它将满足所有规格:该塔将能够承受如此重的重量以及一定强度的地震。

但是,实际上,作为现代世界上最重要的技术之一,我们盲目地进行了设计。 我们使用不同的方案,不同的设置,但是直到我们开始对该系统进行试运行之前,我们真的不知道它可以做什么,或者它将在哪里拒绝工作。

关于神经网络技术是最先进的现代人工智能系统的基础。 神经网络正在逐步进入社会最基本的领域:它们确定了我们从社会网络上的新闻反馈中了解到的世界,它们帮助医生进行诊断,甚至影响罪犯是否被送进监狱。

得克萨斯大学的数学家鲍里斯·甘宁Boris Ganin)说:“对我们所知道的最好的描述就是说,我们几乎不了解神经网络的实际工作原理以及描述神经网络的理论。”和Facebook AI Research的客座专家研究神经网络。

他将这种情况与另一项革命性技术的发展进行了比较:蒸汽机。 最初,蒸汽机只能泵水。 然后它们充当了蒸汽机车的引擎,如今神经网络可能已经达到了相同的水平。 科学家和数学家开发了热力学理论,使他们能够了解任何发动机内部到底发生了什么。 最后,这种知识将我们带入了太空。

加宁说:“起初有伟大的工程成就,然后是伟大的火车,然后从理论上理解了从火箭发展到火箭的过程。”

在不断发展的神经网络开发人员社区中,有一小组具有数学偏见的研究人员试图创建一种神经网络理论,该理论可以解释它们的工作原理,并确保在创建具有特定配置的神经网络后,它可以执行某些任务。

尽管这项工作还处于初期阶段,但是在过去的一年中,研究人员已经发表了几篇科学论文,详细描述了神经网络的形式和功能之间的关系。 该工作完整地描述了神经网络,直至其基础。 她证明,在确认神经网络驱动汽车的能力很久之前,有必要证明其乘数的能力。

最好的大脑食谱


神经网络努力模仿人的大脑-描述他的工作的一种方法是说他将小抽象合并为大抽象。 从这个角度来看,思想的复杂性是通过作为其基础的小型抽象的数量以及将低级抽象组合成高级抽象的数量来衡量的,例如研究狗与鸟之间的差异的任务。

“如果一个人学会了识别一条狗,那么他就会学会识别一条四脚毛茸茸的东西,” 谷歌大脑团队的康奈尔大学计算机科学专业的研究生迈特拉·拉古说。 “理想情况下,我们希望我们的神经网络做类似的事情。”


迈特拉·拉古(Maitra Ragu)

抽象以自然的方式起源于人脑。 神经网络必须为此工作。 神经网络就像大脑一样,由称为“神经元”的构建块组成,这些构建块以各种方式相互连接。 同时,神经网络的神经元虽然是大脑神经元的图像,但并未尝试完全模仿它们。 每个神经元可以代表神经网络在每个抽象级别考虑的一个属性或属性组合。

工程师可以选择多种选择来组合这些神经元。 他们需要确定神经网络应具有多少层神经元(即确定其“深度”)。 例如,考虑一个识别图像的神经网络。 该图像包含在系统的第一层中。 在下一层,网络可能具有简单识别图像边缘的神经元。 下一层将合并线条并定义曲线。 下一个将曲线组合成形状和纹理,最后一个处理形状和纹理以决定他所看的东西:毛茸茸的猛mm象!

“想法是,每一层都结合了上一层的几个方面。 宾夕法尼亚大学的数学家戴维·罗尼克David Rolnik)说,在很多地方,圆形是曲线,在很多地方,曲线是直线。

工程师还必须根据网络在每个抽象级别考虑的不同功能的数量来选择每个层的“宽度”。 在图像识别的情况下,层的宽度将对应于神经网络将在每个级别考虑的线,曲线或形状的类型数量。

除了神经网络的深度和宽度之外,还可以选择连接层中以及层之间的神经元的方法,还可以选择每个连接的权重。

如果您打算完成一项特定任务,您如何知道哪种神经网络架构可以最佳方式执行它? 有相当普遍的示例规则。 对于图像识别方面的问题,程序员通常使用“卷积”神经网络,即层与层之间的链接系统,层与层之间是重复的。 为了处理自然语言(语音识别或语言生成),程序员发现循环神经网络最适合。 它们中的神经元不仅可以与相邻层相连,还可以与神经元相连。

但是,除了这些一般性原则之外,程序员大多不得不依靠实验证据:他们只需运行1000个不同的神经网络,然后看看哪个神经网络做得更好。

“在实践中,这些选择通常是通过反复试验来做出的,”加宁说。 “这是一种相当复杂的方式,因为有无数次选举,而且没人知道哪个会是最好的。”

最好的选择是减少对反复试验方法的依赖,而更多地依赖于对特定神经网络体系结构可以为您提供的服务的现有理解。 最近发表的几篇科学论文已经朝着这个方向推进了这一领域。

“这项工作旨在创建类似食谱的书,以设计合适的神经网络。 如果您知道要使用它实现什么,那么您可以选择正确的食谱,” Rolnik说。

套索红羊


神经网络架构的最早理论保证之一出现在三十年前。 1989年,一位计算机科学家证明,如果神经网络只有一个计算层,其中可以有无限数量的神经元,并且它们之间可以有无限数量的连接,则该神经网络将能够执行任何任务。

这或多或少是一般性的陈述,事实证明这是相当直观的,并不是特别有用。 这就像说如果您可以在图像中定义无限数量的线,那么您就可以仅用一层来区分所有对象一样。 原则上,这可以实现,但是请尝试将其付诸实践。

今天,研究人员称这种宽而扁平的网络为“表达性的”,因为从理论上讲,它们可以覆盖可能的输入数据(例如图像)和输出(例如图像描述)之间的更丰富的关系。 同时,训练这些网络非常困难,也就是说,实际上不可能使它们实际提供这些数据。 他们还需要比任何计算机都更多的计算能力。


鲍里斯·加宁(Boris Ganin)

最近,研究人员一直在尝试了解通过朝相反方向前进可以使神经网络达到多远-使它们更窄(每层更少的神经元)和更深(更多层)。 您可能只能识别100条不同的线,但是通过将这些线中的100条变为50条曲线(可以组合成10种不同的形状)所需的连接,您可以获得所有必要的构造块来识别大多数对象。

在去年完成的工作中 ,麻省理工学院的Rolnik和Max Tegmark证明,通过增加深度和减小宽度,可以用数量更少的神经元执行相同的任务。 他们表明,如果模拟的情况有100个输入变量,则可以通过在一层中使用2,100个神经元或在两层中使用2,10个神经元来获得相同的可靠性。 他们发现,采用较小的部分并在较高的抽象级别进行组合是有好处的,而不是尝试一次覆盖所有抽象级别。

Rolnik说:“神经网络深度的概念与通过执行许多简单步骤来表达复杂事物的可能性有关。” “看起来像一条装配线。”

Rolnik和Tegmark通过强迫神经网络执行简单的任务:乘法多项式函数,证明了深度的有用性。 (这些是具有升至自然度的变量的方程,例如y = x 3 +1)。 他们训练了网络,向他们展示了方程的例子以及它们相乘的结果。 然后他们告诉神经网络计算他们以前从未见过的方程式相乘的结果。 较深的神经网络学会了如何使用较少的神经元来实现此目的。

尽管乘法不可能使我们的世界倒过来,但罗尔尼克说,研究中描述了一个重要的想法:“如果浅层神经网络甚至不能乘法,那么您就不应再相信它。”


戴维·罗尼克

其他研究人员正在研究最小足够宽度的问题。 9月底, 杰西·约翰逊Jesse Johnson) ,以前是俄克拉荷马大学的数学家,现在是为赛诺菲(Sanofi)制药公司工作的研究员, 证明在某个时候没有深度可以弥补宽度的不足。

为了说明这一点,请想象一下田野上的这些小羊,但让它们成为朋克摇滚小羊:它们中的每一种都将被涂成几种颜色中的一种。 神经网络应该在所有相同颜色的绵羊周围画一个边界。 从本质上讲,此任务类似于图像的分类:神经网络具有一组图像(它表示为多维空间中的点),并且需要对相似的图像进行分组。

约翰逊(Johnson)证明,如果层的宽度小于或等于输入数据量,则神经网络将无法完成此任务。 我们的每只绵羊都可以通过两个输入数据来描述:其在野外的位置坐标x和y。 然后,神经网络用颜色标记每只绵羊,并在相同颜色的绵羊周围绘制边框。 在这种情况下,要解决该问题,每层至少需要三个神经元。

更具体地说,约翰逊(Johnson)表明,如果宽度与变量数量之比不足,则神经网络将无法绘制闭环-例如,如果所有红羊都聚集在牧场中部,则神经网络将不得不绘制这样的环。 约翰逊说:“如果没有一个层的厚度大于输入测量的数量,则该函数将无法创建某些形式,无论层的数量如何。”

这样的工作开始建立神经网络理论的核心。 到目前为止,研究人员只能做出关于体系结构和功能之间关系的最简单的陈述-与神经网络解决的任务数量相比,这些陈述很少。

因此,尽管神经网络的理论将无法在不久的将来改变其设计过程,但正在为如何训练计算机的新理论创建蓝图-其后果将比进入太空的人还要强大。

Source: https://habr.com/ru/post/zh-CN442574/


All Articles