最新的AI算法可了解星系的演化,计算量子波的功能,发现新的化学化合物等。 科学家的工作中有什么不能自动化的吗?

没有人甚至一群人无法跟上大量物理和天文学实验产生的瀑布信息。 他们中的一些每天会保留数TB的数据,并且这种流量只是在增加。 他们计划在2020年代中期开启平方公里阵列天线阵列,这是一种射电望远镜,每年将产生可与整个互联网媲美的数据量。
大量的数据导致许多科学家转向人工智能(AI)寻求帮助。 在最少的人力参与下,诸如神经网络(模仿大脑功能的神经元的计算机模拟网络)之类的AI系统能够遍历大量数据,发现异常并识别人们永远不会注意到的序列。
当然,计算机在科学研究中的帮助已经使用了大约75年,并且数千年前就发明了手动排序数据以搜索有意义的序列的方法。 但是一些学者认为,机器学习和人工智能领域的最新技术从根本上代表了一种新的科学方法。 生成建模(GM)是其中一种方法,它仅根据这些数据即可帮助确定观测数据的竞争解释中最可能的理论,而无需任何预先编程的知识即可了解正在研究的系统中会发生什么物理过程。 通用汽车的支持者认为它具有创新性,足以被视为研究宇宙的潜在“第三种方式”。
通常我们通过观察获得自然知识。 约翰内斯·开普勒(Johannes Kepler)如何研究第谷·布拉赫(Tycho Brahe)行星的位置表,试图找到潜在的模式(他最终意识到,行星在椭圆轨道上运动)。 科学也通过模拟向前发展。 天文学家可以模拟银河系和邻近星系仙女座的运动,并预测它们将在数十亿年内发生碰撞。 观察和模拟可以帮助科学家创建可以用未来观察进行验证的假设。 GM与这两种方法都不相同。
“从本质上讲,这是在观察和模拟之间的第三种方法,”天体物理学家,最支持转基因的支持者之一
凯文·沙文斯基 (
Kevin Shavinsky)说,他直到最近才在瑞士联邦理工学院工作。 “这是攻击任务的另一种方式。”
一些科学家认为,转基因和其他技术只是实践传统科学的强大工具。 但是大多数人都认为,人工智能将极大地影响这一过程,并且它在科学中的作用只会越来越大。 费米国家加速器实验室的天体物理学家
布莱恩·诺德 (
Brian Nord )使用人工神经网络研究太空,他是其中一位担心人类科学家的活动不会逃脱自动化的人之一。 他说:“这种想法非常可怕。”
一代发现
甚至在该研究所,沙文斯基也开始根据数据在科学界树立声誉。 在攻读博士学位时,他完成了根据外观对数千个星系进行分类的任务。 为此任务没有现成的程序,因此他决定为此目的组织众包-这就是
Galactic Zoo项目诞生的原因。 自2007年以来,普通用户已经能够帮助天文学家做出关于哪个星系属于哪个类别的假设,并且通常大多数声音都正确地对该星系进行了分类。 但是,正如Shavinsky指出的那样,该项目是成功的,AI使其毫无意义:“如今,在莫斯科地区拥有丰富经验并能够访问云计算的有才华的科学家可以在半天之内完成这样的项目。”
Shavinsky在2016年转向通用汽车的新功能强大的工具。 实际上,GM提出了一个问题:在条件X下我们得到结果Y的可能性有多大? 实践证明,这种方法非常有效且通用。 例如,假设您向GM提供了一组人脸图像,并且每个人的年龄都固定了。 该程序会梳理这些训练数据,并开始发现旧面孔与出现皱纹的可能性增加之间的联系。 结果,她可以给出任何给定对象的年龄-即预测任何年龄的给定对象可能经历的身体变化。
这些人都不是真实的。 上排(A)和左排(B)由生成对抗网络(GSS)使用派生自真实人物元素的构造块创建。 然后,GSS将A系列的主要面部特征(包括性别,生长和面部形状)与B列的较小面部特征(例如,头发和眼睛的颜色)结合起来,并在表格的其余部分创建面部。在GM系统中,生成对抗网络(GSS)最著名。 处理完足够的训练数据后,GSS可以恢复像素缺失或损坏的图像或使模糊的照片清晰。 对GSS进行了培训,以根据竞争(因此称为“对抗性”)提取丢失的信息:网络的一部分(生成器)生成虚假数据,第二部分(鉴别器)尝试将虚假数据与真实数据区分开。 程序运行时,它的两个部分都逐渐运行良好。 您可能已经看到了GSS创建的一些超现实的“面孔”,即“在现实中不存在的极其现实的人”的图像,就像他们在标题中写道。
在更一般的情况下,GM会获取一个数据集(通常是图像,但不是必需的),并将其分解为基本抽象构建块的子集-科学家称它们为数据的“隐藏空间”。 该算法操纵隐藏空间的元素以查看其如何影响初始数据,这有助于揭示确保系统运行的物理过程。
隐藏空间的概念是抽象的,很难想象,但是作为一个粗略的类比,考虑一下当您尝试通过脸部确定一个人的性别时大脑可以做什么。 也许您会注意到发型,鼻子形状等,以及不容易用言语描述的样式。 计算机程序还可以在数据中查找隐藏的符号:尽管不知道胡须或性别是什么,但如果对它进行了数据集训练,其中某些图像标记为“男人”或“女人”,而有些图像则带有“胡子” ”,她会很快了解这种关系。
人工智能公司Modulos的天体物理学家Kevin ShavinskyShavinsky和他的同事Denis Tharp和Che Zhen在12月发表在《天文学与天体物理学》杂志上的论文中,使用GM研究了演化过程中星系的物理变化(他们使用的软件计算出的隐藏空间与GSS有所不同,因此从技术上讲这是不可能的)调用GSS,尽管其属性非常接近)。 他们的模型创建了人工数据集,以测试有关物理过程的假设。 例如,他们询问恒星形成的“衰减”(其形成速度的急剧下降)与银河密度的增加如何关联。
对于Shavinsky来说,关键问题是仅基于一个数据就可以提取多少有关恒星和银河过程的信息。 他说:“排除我们对天体物理学所知的一切。” “我们仅使用数据可以在多大程度上重新发现这些知识?”
首先,星系图像被缩小到隐藏空间; 那么Shavinsky可以校正该空间的一个元素,使其与银河环境中的某种变化相对应-例如,其环境的密度。 然后,他可以再生银河系,看看这次会出现什么差异。 他解释说:“现在我有了一个产生假设的机器。” “我可以选择一堆最初被低密度包围的星系,并使其密度看起来很高。” Shavinsky,Tarp和Zhen发现,从较低密度的环境移到较高密度的环境,它们会变红,并且它们的恒星会更加密集。 沙文斯基说,这与现有的星系观测结果是一致的。 唯一的问题是为什么。
Shavinsky说,下一步尚未实现自动化。 “我,男人,需要干预并说:嗯,什么样的物理学可以解释这种影响?” 此过程有两种可能的解释:星系在较稠密的环境中可能会变红,因为它们包含更多的尘埃,或者因为恒星的形成减少(换句话说,它们的恒星通常更老)。 使用生成模型,我们可以测试两个想法。 我们改变了与尘埃和恒星形成速度有关的隐藏空间元素,并观察了这如何影响星系的颜色。 “答案很明确,”沙文斯基说。 较红的星系是“恒星形成速度下降的星系,而不是尘埃较多的星系。 因此,我们倾向于第一种解释。”
第一排是低密度区域中的真实星系。
第二行-基于隐藏空间的重建。
接下来是网络所做的转换,下面是在高密度区域中生成的星系。该方法与传统模拟相关联,但存在根本差异。 Shavinsky说,实际上,该模拟“基于假设”。 “这与说的话一样:”我想我了解物理基本原理是我在系统中观察到的一切的基础。 我有形成恒星,暗物质行为等等的秘方。 我提出所有假设并开始模拟。然后我问:这看起来像现实吗?” 他说,对于生成建模,这看起来“在某种意义上与仿真完全相反”。 我们什么都不知道,我们不想承担任何事情。 我们希望数据能告诉我们会发生什么。”
在这样的研究中,生成模型显然取得了成功,但这并不意味着天文学家和研究生已经变得不必要了,但是,这似乎证明了AI可以学习有关天体物体和过程的任何东西的程度发生了变化,几乎只有大量数据。 “这不是一门完全自动化的科学,但它表明我们能够创建至少部分自动化科学进步的工具,” Shavinsky说。
生成建模显然具有很多功能-但无论它是否真的代表一种新的科学方法,这都是有争议的。 对于纽约大学和Flatiron研究所的宇宙学家
David Hogg来说,这项技术虽然令人印象深刻,但实际上是从数据中提取序列的一种非常复杂的方法-天文学家已经这样做了数百年。 换句话说,它是一种观察和分析的高级方法。 像Shavinsky一样,Hogg的作品高度依赖AI。 他使用神经网络按光谱
对恒星进行
分类 ,并使用数据驱动模型得出恒星
其他物理特性的结论。 但是他认为自己的工作以及Shavinsky的工作是一种古老的,善良的,行之有效的科学方法。 他最近说:“我不认为这是第三种方式。” “我只是认为我们作为一个社区,正在越来越多地使用我们的数据。 特别是,我们在比较数据方面要好得多。 但是从我的角度来看,我的工作完全符合观察制度的框架。”
热情助手
无论AI和神经网络在概念上是否是新工具,显而易见的是它们已开始在现代天文学和物理研究中发挥关键作用。 在海德堡理论研究所,物理学家
Kai Polsterer领导了一个
天文信息学小组-一个研究人员小组,他们基于数据处理研究天体物理学的新方法。 他们最近使用MO运算法则从星系数据集中
提取红移信息,这项任务过去常常使人衰弱。
Polsterer认为这些基于AI的新系统是“热情的助手”,能够在数小时内梳理数据,而不会感到无聊和抱怨工作条件。 他说,这些系统可以完成所有单调而艰苦的工作,这给我们留下了“凉爽有趣的科学”。
但是它们并不完美。 Polsterer特别警告说,算法只能完成经过训练的工作。 系统对输入无动于衷。 给她一个星系,她将能够欣赏她的红移和年龄。 但是给她拍照或烂鱼的照片,她会欣赏它们的年龄(自然是错误的)。 最后,他说,人们的监督仍然是必要的。 研究人员说,一切都关闭了我们。 我们负责解释。”
费米实验室(Fermilab)的诺德(Nord)则警告说,神经网络不仅要产生结果,而且还要产生工作错误,这一点很重要,这是任何学生都习惯的。 它在科学界已被广泛接受,因此,如果您进行测量但没有给出错误,则没人会认真对待您的结果。
与许多AI研究人员一样,Nord也担心神经网络的结果难以理解。 神经网络给出了答案,但没有提供明确的答案。
但是,并非所有人都认为缺乏透明度是一个问题。 法国理论物理研究所的研究员伦卡·兹德博罗娃(Lenka Zdeborova)指出,有时人们也无法理解人类的直觉。 她看着照片,发现上面画着猫-“但是你不知道怎么知道。”她说。 “在某种程度上,您的大脑也是黑匣子。”
利用AI和数据处理,不仅天文学家和宇宙学家迁移到科学领域。 周边理论物理研究所和滑铁卢大学的量子物理学专家Roger Melko使用神经网络解决了该领域中一些最复杂和重要的问题,例如,代表了描述许多粒子系统的波函数。 由于梅尔科称之为“维数的指数诅咒”,所以人工智能是必要的。 即,在所描述的系统中,波函数的可能形式的数量随着粒子数量的增加而指数增加。 困难类似于尝试在象棋或围棋之类的游戏中选择最佳棋步:尝试通过想象对手将如何棋并选择最佳答案来计算下一棋步,但是随着棋步的增加,机会就会增加。
当然,AI掌握了这两种游戏,几十年前学会了下棋,并击败了2016年最佳围棋玩家-这是由AlphaGo系统完成的。 她很好地说,它们也很好地适应了量子物理学的问题。
机器思维
沙文斯基在宣布自己找到了从事科学的“第三种方式”时是正确的,还是正如霍格所说的,这些仅仅是对“类固醇”的传统观察和数据分析,很明显,人工智能改变了科学发现的本质并明显地加速了这一发现。 AI革命将在科学领域走多远?
关于“机器人科学家”的成就,定期发表大声疾呼。 十年前,亚当机器人化学家检查了酵母基因组,确定了哪些基因与某些氨基酸的产生有关。 他通过观察缺乏某些基因的酵母菌株并将它们的行为结果相互比较来做到这一点。 《连线》杂志写道:“该
机器人是一个独立的科学发现 。”
不久之后,格拉茨科大学的化学家李·克罗宁(Lee Cronin)
用机器人随机混合了化学药品,看是否有新化合物出现。 通过使用质谱仪,核磁共振仪和红外光谱仪实时跟踪反应,该系统最终学会了预测最具反应性的组合。 克罗宁说,尽管这并没有导致发现,但机器人系统可以使化学家将其研究速度提高90%。
去年,来自苏黎世的另一个科学家团队
使用神经网络来基于数据集导出物理定律。 他们的系统是一种开普勒机器人,它根据对地球可见的天空中太阳和火星的位置记录,重新发现了太阳系的日心模型,并且还通过观察球的碰撞推导了动量守恒定律。 由于物理定律通常可以用几种方式表示,因此研究人员对这个系统是否可以提供使用已知定律的新的且可能更简单的方法感兴趣。
所有这些都是AI如何促进科学发现的示例,尽管在每种情况下都可以争论说新方法的革命性。
也许最具争议的问题将是仅从数据中可以获取多少信息的问题-这是海量,不断增长的海量数据时代的一个重要问题。在《为什么这样的书》(2018年)中,计算机科学专家贾迪·珀尔(Jadi Pearl)和流行科学作家达娜·麦肯齐(Dana Mackenzie)提出,数据是一件“非常愚蠢的事情”。他们写道,关于因果关系的问题“永远无法仅凭数据回答。” “每次看到作品或研究分析数据时都无需考虑模型,就可以确定该作品的输出是汇总的,并且可能会进行转换,但不会解释数据。” Shavinsky对Pearl的立场表示同情,但将仅处理数据的想法描述为“小人物”。他说,他从未说过有可能从数据中得出因果关系。“我只是说过,我们可以用数据做更多的事情,而不是通常的情况。”另一个普遍的论点是科学需要创造力,至少到目前为止,我们还不知道如何编程。像机器人化学家克罗宁(Cronin)所做的那样,对所有可能性的简单列举似乎并不特别有创意。 “我认为,为了提出一种理论,逻辑结构,创造力是必要的,”波斯特勒说。 “每当您需要创造力时,就需要一个人。”创造力从何而来? Polsterer怀疑这与无聊有关-据他说,这辆车没有经过测试。 “要有创造力,一定不能爱无聊。而且我认为计算机永远不会感到无聊。”另一方面,诸如“创造力”和“灵感”之类的词常用于描述诸如Deep Blue和AlphaGo之类的程序。徒劳地描述机器思维内部发生的事情与研究自己的思维过程时遇到的困难非常相似。沙文斯基最近离开学术界,转向商业领域。他现在经营着一家Modulos初创公司,瑞士技术学院的许多科学家都在那儿工作,并且,根据他们的网站,“在AI和机器学习领域的发展风暴中工作”。无论现代AI和成熟的人工智能之间存在什么障碍,他和其他专家都认为机器注定要从事越来越多的科学家工作。是否有限制,我们只需要找出答案即可。“在可预见的将来,是否有可能创造出一种机器,该机器可以发现物理学或数学上使用生物设备的最聪明的人所没有的能力? -谢文斯基想。 -机器将以我们无法达到的水平运行,未来的科学会发展吗?我不知道
这是一个很好的问题。”