你好! 我们正在共享一个出版物,该出版物的翻译是专门为
“ Python中的神经网络”课程的学生准备的。

今天,我们将讨论DeepMind发展历史上的第一个重要事件,以展示利用人工智能进行的研究如何刺激科学发现的出现。 由于我们工作的跨学科性质,DeepMind召集了结构生物学,物理学和机器学习领域的专家,他们使用先进的方法仅根据其遗传序列来预测蛋白质的三维结构。
我们过去两年一直在研究的AlphaFold系统基于多年的研究经验,使用大量的基因组数据来预测蛋白质结构。 AlphaFold生成的三维蛋白质模型比以前获得的模型更为精确。 这标志着生物学主要任务之一的重大进展。
蛋白质折叠的问题是什么?
蛋白质是维持生命所需的大而复杂的分子。 人体的几乎所有功能,无论是肌肉收缩,光线感知还是食物转化为能量,都可以追溯到一种或多种蛋白质以及它们如何运动和变化。 这些蛋白质的食谱(称为基因)在我们的DNA中编码。
蛋白质的特性取决于其独特的三维结构。 例如,构成我们免疫系统的抗体蛋白是“ Y形”的,看起来像是特殊的钩子。 依附于病毒和细菌,抗体蛋白能够检测并标记病原体,以进行后续破坏。 类似地,胶原蛋白蛋白呈绳索的形式,可在软骨,韧带,骨骼和皮肤之间传递张力。 其他类型的蛋白质包括Cas9,Cas9在CRISPR序列的引导下,充当剪切DNA并插入新位点的剪刀。 抗冻蛋白,其三维结构使它们能够与冰晶结合并防止生物冻结; 和核糖体,它们是参与蛋白质构建的程序化传送带。
仅从蛋白质的遗传序列确定蛋白质的三维结构是数十年来科学家一直在努力的艰巨任务。 问题在于,DNA仅包含有关形成长链的称为氨基酸残基的蛋白质结构单元序列的信息。 预测这些链将如何形成复杂的3D蛋白质结构的方法称为“蛋白质折叠问题”。
蛋白质越大,就越难建模,因为需要考虑的氨基酸之间会形成更多的键。 从
列文托悖论中得出以下
结论 ,列出普通蛋白质的所有可能构型,在获得正确的三维结构之前,它将花费比宇宙存在更多的时间。

为什么蛋白质折叠很重要?
预测蛋白质形状的能力非常有用,因为它对于了解蛋白质在体内的作用以及诊断和治疗诸如阿尔茨海默氏症,
帕金森氏症 ,
亨廷顿 氏病和
囊性纤维化等 疾病 至关重要 ,医生认为这是由于蛋白质折叠不当引起的。
我们特别高兴的是,预测蛋白质形状的能力可以增进对我们身体运作方式的了解,这将使我们能够有效地开发新药物。 随着我们获得有关蛋白质形式以及它们如何通过建模工作的更多信息,创造药物的新可能性开辟了新领域,实验成本也在降低。 最终,这些发现将改善全球数百万患者的生活质量。
了解蛋白质折叠的过程也可以帮助开发一种蛋白质,它将对周围的现实做出重大贡献。 例如,在可生物降解的酶领域中蛋白质开发所取得的进展可以帮助处理诸如塑料和油脂之类的污染物,有助于分解废物而不破坏环境。 实际上,研究人员已经开始
设计分泌蛋白质的
细菌,这些蛋白质可以使废物生物降解并使其易于处理。
为了刺激最新的预测准确性方法的研究并评估其进展,1994年
发起了一项为期两年的大规模竞赛,名为``CASP
蛋白质结构方法关键评估社区实验'' (CASP),该竞赛已成为评估方法的金标准。
人工智能将如何有所作为?
在过去的五十年中,科学家已经能够使用诸如
冷冻电子显微镜 ,
核磁共振或
X射线衍射之类的实验方法在实验室中识别蛋白质的形式,但是每种方法都经过许多试验和错误的推论,这些试验和错误花费了数年的时间并且花费数万美元。 这就是为什么生物学家现在将AI方法替代研究复杂蛋白质的漫长而费力的过程的原因。
幸运的是,由于基因测序成本的快速降低,基因组学领域拥有足够的数据。 结果,在过去的几年中,使用深度学习并基于基因组数据进行预测的方法变得越来越流行。 DeepMind在此问题上的工作导致AlphaFold的出现,我们今年将其引入CASP。 我们很荣幸能成为CASP专家所说的“计算方法预测蛋白质结构的能力的前所未有的进步”的一部分。 结果,我们在团队排名中排名
第一 (我们是A7D)。
我们的团队专注于从头开始为目标形式建模的任务,而无需使用先前解决的蛋白质作为模板。 我们在预测蛋白质结构的物理性质方面获得了很高的准确性,然后使用了两种不同的方法来预测完整的蛋白质结构。
使用神经网络预测物理性质
这两种方法都使用了经过训练的深层神经网络,可以通过其遗传序列预测蛋白质的特性。 该网络预测的特性是:(a)氨基酸对之间的距离和(b)连接这些氨基酸的化学键之间的角度。 第一个发展是使用流行方法的真正进步,该方法可确定氨基酸对是否彼此相邻。
我们训练了神经网络,以预测每对蛋白质残基之间距离的独立分布。 然后将这些概率合并为一个估计值,以显示蛋白质结构的设计水平。 我们还训练了另一个神经网络,该神经网络总共使用所有距离来评估所提出的结构与正确答案的接近程度。


预测蛋白质结构的新方法
使用这些估值函数,我们能够找到适合我们预测的结构。 我们的第一种方法是基于结构生物学中广泛使用的方法;它已经用新的片段反复替换了部分蛋白质结构。 我们训练了生成竞争性神经网络,以提出新的片段,这些片段用于不断改进对所提出的蛋白质结构的评估。

第二种方法使用梯度下降来优化等级,梯度下降是机器学习中常用的一种数学方法,用于进行小的增量改进。 该方法适用于整个蛋白质链,而不适用于在组装前必须单独堆叠的片段,从而降低了预测过程的复杂性。
接下来是什么?
我们的蛋白质凝结笔测试的成功表明,机器学习系统可以集成各种信息源,以帮助科学家快速开发出解决复杂问题的创新解决方案。 我们已经看到AI如何通过
AlphaGo和
AlphaZero等系统帮助人们掌握复杂的游戏,我们也希望AI的突破能够帮助人类解决基本的科学问题。
有趣的是,我们看到了蛋白质折叠的第一个进展,证明了AI在进行科学发现方面的有用性。 尽管我们还有很多工作要做,但我们清楚地了解到,我们将能够为寻找各种疾病的治疗,帮助环境以及更多方面做出贡献,因为实际上潜力巨大。 我们有一支专注于探索机器学习如何推动科学世界发展的团队,我们正在探索各种方法和方法来利用我们的技术影响我们周围的世界。