机器学习面临尚未解决的数学问题

敬礼,哈布里沃派! 预期将在“数据科学数学” 高级基础课程上推出新的主题,我们希望与您分享一个相当有趣的翻译。 本文将没有实践,但是该材料对于一般的开发和讨论很有趣。





一组研究人员面临与一系列逻辑悖论有关的开放数学问题,这些悖论是由著名的奥地利数学家科特·哥德尔(KurtGödel)在1930年代发现的。

研究机器学习问题的数学家证明,“学习”的可能性(即算法是否可以从有限的数据中提取模式)与被称为连续统假设的悖论密切相关。 哥德尔说,利用数学语言的标准功能,既不能证实也不能反驳假设。 关于这一主题的最新研究成果于1月7日发表在《 自然机器智能》上

共同撰写了这项研究的以色列海夫技术学院Technion的阿米尔·耶胡达耶夫(Amir Yehudaev)说:“这对我们来说是一个惊喜。” 他说,尽管存在许多技术问题,这些问题也被称为“无法解决”,但他并不认为这种现象会在看似简单的机器学习任务中发生。

英国斯旺西大学的计算机科学专家约翰·塔克(John Tucker)表示,这项工作是“在我们知识边缘的切实成果”,对数学和机器学习都具有根本意义。

并非所有集合都相同。


研究人员通常根据算法是否可以概括其知识来确定可学习性。 例如,该算法对以下问题给出“是”或“否”的答案:“图像中是否有猫?”对于有限数量的对象,然后必须对以前未知的新对象做出预测。

Yehudaev和他的同事通过检查学习与“挤压”之间的关系获得了结果,其中包括寻找一种方法将大型数据集的特征映射到较小的数据集。 作者发现,有效地压缩信息的能力归结为集合论的问题-对象的数学集合,例如维恩图中的集合。 特别地,这适用于包含无限多个对象的各种大小的集合。

集合论的奠基人乔治·康托尔(Georg Cantor)在1870年代证明并非所有无限集合都是相等的:例如,整数集合“小于”所有实数集合(也称为连续体)。 (由于实数包括无理数,有理数和整数。)Cantor还建议不存在中间大小集,即,中间大小集大于整数集,但小于连续集。 但是他不能像许多数学家和逻辑学家一样,证明他的追随者这一连续性假设。

他们的努力是徒劳的。 1940年,戈德尔(Godel)进行了一项研究(该研究仅在1960年代由美国数学家保罗·科恩(Paul Cohen)完成),其中,他使用公理证明连续统一体的假设既不能成立,也不能成立。

哥德尔(Gödel)和科恩(Cohen)在关于连续统假设的研究中承认,可以存在符合标准数学定律的平行数学宇宙:其中一个连续统假设成为公认的公理,即被宣布为真,而第二个假设也被宣布为假。

学习肢


Yehudaev及其同事在最新工作中将学习定义为通过对少量数据点进行采样来对相对较大的数据集进行预测的能力。 与Cantor问题有关的是,有无数种方法来选择较小的集合,但是该无穷大的大小未知。

进一步,作者表明,如果连续假设是正确的,那么一个小的样本就足以外推。 但是,如果它是错误的,那么就不会有一个足够的有限样本。 因此,他们认为学习问题实际上等同于连续性假设。 结果,学习问题也处于不确定状态,这只能通过选择公理宇宙来解决。

Yehudaev说:“研究结果还有助于建立对学习的更广泛理解。” “压缩和泛化之间的这种联系对于理解学习过程而言确实是基础。”

伦敦大学学院的计算机科学专家Peter O'Hearn说:“研究人员发现了许多这样的“不可解决的”问题。” 特别是,根据戈德尔(Godel)工作的结果,算法理论的创始人之一艾伦·图灵(Alan Turing)发现了一类问题,即不能保证任何有限数量的步骤都不能保证计算机程序能够回答。

O'Hearn补充说:“但是,最近的研究发现,这种不溶性非常罕见,而且令人惊讶,这表明戈德尔发现了任何一种数学语言的内部不完整性。 获得的结果可能对机器学习理论很重要,但这不太可能产生很大的实际影响。

在评论中写下您对此材料的看法,我们邀请您参加免费的网络研讨会 ,我们将在其中讨论数据科学中的回归分析方法

Source: https://habr.com/ru/post/zh-CN484238/


All Articles