医学中的人工智能:生命科学和药物发现

哈Ha! 今天,我将向您展示我与亚历山大·扎沃龙科夫Alexander Zhavoronkov)的精彩访谈的译文 。 希望您的阅读和我的翻译一样有趣。

图片

人工智能向我们保证更好的健康,更快的药物开发和测试。 所有这些目的都是为了改善患者的预后。 今天,我们正在与一位在生命科学中使用人工智能的世界专家进行交流,该专家的目标是更快,更便宜地发现和开发药物。

Alexander Zhavoronkov是Insilico Medicine的创始人兼首席执行官。 该公司是下一代人工智能领域的领导者,其方法旨在发现新药,开发生物标志物和研究衰老。 在加入Insiliko之前,他曾在ATI Technologies,NeuroG Neuroinformatics,生物老年医学研究基金会和YLabs.AI担任管理职务。 自2012年以来,他发表了130余篇同行评审的科学文章和2本书。 六年来,他在巴塞尔的巴塞尔生活/ EMBO组织了年度论坛“药物发现的老化研究和医疗领域的人工智能研究”。 亚历山大是巴克衰老研究所的副教授。



Michael Kriegsman:简要介绍一下Insilico Medicine以及您正在从事的工作。

Alexander Zhavoronkov:我们主要致力于下一代人工智能方法在药物开发,生物标志物开发和衰老研究中的应用。 我们专门关注两种机器学习技术:生成对抗网络( GAN )和强化学习 。 这些是我们在本领域最有经验的方法。

我们将这些方法用于两个目的。 其中之一是从几种类型的数据中识别生物靶标并创建生物标记,以及创建新分子,具有特定属性的新分子结构。 我们是最早的公司之一,也许是第一个使用称为生成竞争网络的新技术创建新分子并通过实验测试这些分子的公司。

什么是药物开发管道?


Michael Kriegsman:给我们一些背景信息。 什么是药物开发管道? 为什么这么难? 让我们来谈谈。 然后,我们将继续探讨AI如何使其变得更好,更容易。

Alexander Zhavoronkov:药物的发现和开发是一个漫长的过程。 这也是失败多于成功的那些过程之一。 实际上,失败比成功多得多。

开发一种药物并将其投放市场来治疗特定疾病需要超过26亿美元。 这是在动物体内对该分子进行测试之后。 此外,在动物体内对该分子进行测试后,失败率是92%。 在人体中测试一种药物后,在92%的情况下它会失效。 因此,该过程不仅冗长,而且冒险。

通常,发现和开发分子所需的时间约为十年。 当分子入侵时,引发该过程的人并不总是存在。 该过程包括几个阶段。

首先是假设的产生。 您提出了一种假设,一种特定疾病的理论并确定了适当的目标。 您正在谈论哪些蛋白质与疾病有关,哪些蛋白质是原因。

之后,您可以为该目标蛋白开发抗体或小分子。 如果您正在开发一个小分子,通常首先要检查可以达到此特定目标的大型化合物文库,并进行各种实验以查看这些小分子与该目标结合的程度。

之后,选择几个选项。 您确定最适合该蛋白质靶标的分子,然后开始对这些分子进行各种实验,以确定它们在生物系统,疾病相关分析,在小鼠,狗或其他动物中是否运作良好,以及然后您需要向FDA申请IND( 新药研究 )以将该分子用于临床试验。

此过程完成后,我们开始开发药物并开始临床试验。 一切都从与安全有关的第一阶段开始。 在第二阶段,您需要测试药物的有效性。 在第三阶段中,您将在大量人群中的大型临床环境中测试两个阶段。 之后,您可以进入阶段IV或开始发布产品。

药物发现和上市后研究



Alexander Zhavoronkov:然后是上市后研究。 此过程通常需要十多年的时间,而在92%的情况下失败。

借助AI,您可以真正参与几乎所有领域的工作,从早期发现药物开始,那时AI可以帮助您建立假设模型,实际上可以通过目标识别器,小分子识别,虚拟筛选从大海捞针中脱颖而出,创造具有特殊性质的新分子,规划临床试验的设计并纳入临床试验。 然后,还可以预测临床试验的结果。

迈克尔·克里格斯曼(Michael Kriegsman):人工智能从哪里开始缩短流程,做得更好?

亚历山大·扎沃伦科夫(Alexander Zhavoronkov):如果您处于药物开发的早期阶段,就开始着手进行假设和确定目标的工作,通常您可以采用几种方法。 一种方法是搜索文献并找出科学家过去发现并发表的有前途的领域。

人工智能可以帮助您产生大量文献以及其他相关资源,以识别可能与疾病相关的信号和靶标。 我们Insilico通常从赠款数据开始。 在过去的25年中,我们正在寻找价值约1.7万亿美元的生物医学赠款。 然后,我们研究这些赠款如何变成出版物,临床试验专利,再变成市场上的产品。

我们从一个主意到一个主意,从金钱到金钱,也就是从市场中的金钱开始。 我们还将观察金钱如何成为数据。 因此,通常,当政府支持某项研究时,数据应存储在公共存储库中,以便其他人可以复制该数据,也可以出于公共利益。

我们试图跟踪数据中的钱。 如果没有数据,我们将尝试与科学家联系并从科学家那里获取数据和/或敦促科学家将数据存储在公共存储中。

我们从文本数据库开始,还将这些数据与omix数据相关联。 实际上,所有以“欧姆”结尾的东西(转录组学,基因组学,代谢组学,宏基因组学)都称为omix数据。

我们主要处理基因表达的数据,因此我们研究某些基因或整个网络的表达水平是如何从健康状态变为疾病的。 我们将这些变化,疾病的这些征兆转变为单独的靶标,并确定可以使用小分子靶向的蛋白质类型。

然后,我们回到本文的先有技术,看看是否有人发表过任何能够强化我们假设的东西。 如果文本中没有任何信号,这并不一定意味着我们的假设是错误的,因为有时人们根本无法使用较旧的方法将特定目标与疾病相关联,但这使我们更有信心看到某人已经之前已经谈到了这个问题和这个目标。

我们收集了大量的数据,而这些数据根本不可能借助人工智能来处理。 我们还将收集并组合这些数据类型。 有时,这些数据类型是完全不兼容的,并且不可能使用标准工具将它们简单地缝合在一起。 您确实需要同时在多个数据包中训练深度神经网络,以便可以对它们进行泛化,以便我们可以同时提取存在于多种数据类型中的相应函数。

我们使用的某些类型的数据是人类大脑完全无法理解的。 例如,基因表达数据或运动数据,或心血管活动的扫描数据,或超声数据。 我们设法使用AI组合这些数据类型,然后确定相应的目标。

生物学与人工智能


Michael Kriegsman:在Insilico,您的主要专业是生物学和医学或人工智能方法的发展? 是否可以将这两个方向分开?

Alex Zhavoronkov:就我们而言,这两个领域都很不错,而且我们在国际上都具有竞争力地雇用员工。 在比赛中,我们进行非常复杂的测试,人们必须迅速解决。 这些问题通常与AI方法的发展以及复杂的生物学或化学问题的解决有关。

但是,当您查看来自AI的真正伟大科学家时,他们通常在生物学或化学方面都不是很出色。 他们擅长数学。 这就是为什么我们公司中一定比例的人只是出色的数学家,他们开发新的方法,例如,使用深度学习将化学和生物学相结合。

该公司的一部分专门研究应用GAN等现有方法,并加强对化学和生物学中现有问题的培训。 这些人通常都在应用方面,他们既了解化学又了解生物学。 他们可以与数学家进行交流,还可以进行AI领域的一些基础研究。

当然,我们只有纯生物学家和化学家,他们也需要测试我们的AI的某些结果。 这就是我们拥有如此庞大,多元化和国际化团队的原因,因为我们确实需要涵盖以下三个领域:方法,应用程序和验证。

迈克尔·克里格斯曼(Michael Kriegsman):克里斯·彼得森(Chris Peterson)在Twitter上提出了一个有趣的问题:“基于网格的Fortran并行程序仍用于某些药代动力学和药效学研究。 您是否看到AI取代了老式的代码,对其进行了增强或并行发展?”

Alexander Zhavoronkov:我认为现在我们需要平行进行。 当然,某些较旧的方法仍被药物发现领域的真正领先专家所使用。 但是,高性能计算和人工智能大大加快了这些方法中的大多数,因此,这是一个已经存在很长时间的典型软件,例如Schrodinger。 该公司成立已有92年。

该公司在许多领域取得了重大突破,他们能够改进旧算法来解决非常复杂的问题。 我认为在Insilico,我们正在尝试重塑一切并编写我们自己的软件。 但是,当然,我们认识许多员工,他们只是想从我们正在开发的大萨拉米香肠中取出一小块,然后再玩。 也许他们使用的是我们现在无法解决的经典工具。

理想情况下,您必须有一台一体式输送机,用于识别目标,生成分子并通过一台无缝输送机中的大量模拟来传导这些分子。 这就是我们正在建设的,这就是我们的圣杯。 但是,当然,许多公司,许多团体都在尝试制作Lego游戏,并试图使用具有不同输出的几种工具来解决同一问题。

在公司内部开发AI工具



Michael Kriegsman:您为什么要开发自己的工具?

Alexander Zhavoronkov:是的,仅仅是因为我们使用的许多方法太新了,以致与旧工具不兼容。 有许多团体声称从事人工智能,但实际上,他们从事机械工作,使用现成的软件并试图使用这些工具来弥补药理学研究和开发中的一些空白。 我们不这样做。 我们从头开发,从目标识别器到小分子的开发,一应俱全。

Michael Kriegsman:现在我们讨论了使用您的方法来识别潜在候选人的方法。 下一步是评估。 首先,我们必须释放各种可能性,然后通过汇总所有这些数据,然后使用各种方法对其进行分析,来实现这一目标。 假设您做到了。 您如何评价最初显示的候选人?

Alexander Zhavoronkov:通常,当您具有特定疾病的目标蛋白列表并尝试确定优先级时, 便会尝试以尽可能高的点数注释这些蛋白。 您正在查看该目标蛋白是否曾经参与毒性。 这与其他一切有什么关系? 它在哪种面料中起着重要作用? 蛋白质如何与其他蛋白质相互作用? 这可以治愈吗? 是小分子药物还是抗体? 还有其他人用过吗? 分子周围的专利空间是什么? 有没有人试图用一种针对特定疾病的小分子或抗体将他送往诊所?

您应该考虑很多很多评估功能。 最后,当您基本上只拥有很少的目标时,您还可以在各种生物系统中对其进行测试,以确定哪种目标更适合您感兴趣的疾病。

我将通过实践给出一个例子。 例如,我们对纤维化非常感兴趣。 纤维化不是一个非常简单的描述过程,有几种类型的纤维化。 有IPF或肺纤维化。 在肺中,观察到吸烟引起的纤维化,此外,还观察到了老年纤维化。 我们已经比较了正常组织和与特定状况相关的纤维组织,确定了120多种纤维化类型。

我们最近刚刚进行了一个案例研究,其中我们研究了IPF,确定了针对这种情况的目标列表,并且我们的列表中有50个目标。 我们研究了这些目标在什么时候对疾病更活跃,更相关,以及在疾病的哪个阶段,因为我认为,如果您稍后理解或稍后解决这些问题,您将治疗症状,而不是原因。

在我们的案例中,我们正在定义大量目标,这些目标在疾病进展的早期阶段可能非常相关。 然后我们看看哪些目标是新的,哪些目标是人们没有注意的。 我们不想把重点放在老目标上。 然后,我们查看哪些目标适合药物,我们实际上可以从文库中找到一个小分子,也可以从头开始创建一个分子。 然后,我们研究可以在一组特定的纤维化测定中测试哪些靶标。

Michael Kriegsman:在此过程中使用的人工智能技术的影响在哪里?

亚历山大·扎沃龙科夫(Alexander Zhavoronkov):通常计算结果的分数。 您为目标分配多个点。 在我们的案例中,目标得分超过50分。 我们确定它之前是否已经以某种状态参与,是否以某种方式与其他蛋白质相互作用,以及这是否会导致毒性。 基本上可以为您提供这种评估以及该目标最相关的可能性的预测变量已由各个组织进行了深入研究和开发。 我们使用机器学习来开发预测器。

学院与行业



Michael Kriegsman:我们还有来自Shreya Amin的Twitter另一个有趣的问题。 她写道:“您描述的研究类型和过程在学术界和行业之间有何不同?”

亚历山大·扎沃龙科夫(Alexander Zhavoronkov):这是一个非常非常好的问题。 在工业上,在大型制药行业,人们的创业精神要弱一些。 他们正在尝试开发各种方法来真正解决问题并逐步进行改变。他们的方法并非旨在发表在科学杂志上。

在学术界,人们更具创造力和企业家精神。他们正在尝试发布结果。这是创新首先来自的地方。

在Insilico,我们处于科学与工业之间,因此我们每月发表大约两篇科学论文。对于某些学术团体来说,这甚至足以证明这一概念并解释我们的发展方向。

我认为,如今的学者们,无论是开发新方法还是显示新方向,生产力都更高。但是,正在开发可能与药物发现有关的新方法的真正优秀计算机科学家之间的差距通常与生物学和化学领域相去甚远。他们编写的机器学习方面的文章确实很棒,但是结果与实际应用相差甚远。很多时候,他们并不真正了解在某个地方重新装备了它们,或者,如果这是完全不相关的结果,则只有在有人尝试了生物学和化学方法后才能得到。

很多时候,而且目前这种情况实际上更常见,许多人在存档中发布文章标题醒目,从而使它们成为病毒,并被浏览器,Google或某些新闻社选择。他们获得了这项工作的认可和PR,但是您尝试重复他们所做的事情,甚至只是仔细阅读文章,并且您了解在现实世界中这是行不通的。我认为,此类文章和此类努力,早期成果,特别是在学术团体方面,未通过专家评估,也给大型药房带来了极大的怀疑。人们根本不认为许多方法相关,适用或无法改变其业务。

建立人工智能和生物技术团队


迈克尔·克里格斯曼(Michael Kriegsman):让我们谈谈团队建设的方面,因为您几次提到的一件事是机器学习功能和生物学功能的重要性。这些都是非常专业的技能,您如何创建团队,让双方共同努力并创建彼此无法独自完成的事情?

亚历山大·扎沃龙科夫(Alexander Zhavoronkov):这是另一个很好的问题。就我们而言,这就是我们如此缓慢增长的原因之一。我们已经工作了5年,但仍然有66人。这种缓慢的有机增长的原因之一是,将人工智能科学家与生物学家和化学家真正结合起来需要时间。很难同时找到这两种情况下的优秀人才。通常,您精通数学或化学,或者您确实需要具备良好的编程技能,才能创建API并将您的技术与他人的技术正确地结合在一起。

我们尝试以三到四人为一组,在特定的治疗项目中工作,其中一个人精通化学或生物学,一个人擅长人工智能,而另一个人只是基础IT。这些主要是三四个人组成的团队。除了它们,还有一个基础结构,一个组织基础结构,可以帮助管理这些团队。我们还将人工智能团队与其他所有人分开,这样他们就可以在不进入应用领域的情况下研究方法。

要获得真正想为方法开发和开发新算法做出贡献的这类人才非常非常困难。要找到擅长应用已开发方法的人员,这很简单。让两个人一起工作非常困难。为此,我们再次尝试实现有机增长,并在小型团队中开展项目。

硅业务模式


Michael Kriegsman:实际上,我们有一个关于您的商业模式的Twitter问题。克里斯·彼得森(Chris Peterson)提出了精彩的问题。非常感谢克里斯。他问:“您是否已达成协议寻求特定疗法,或者您是从头开始开发分子并希望通过分销获得许可以进行临床试验?”

Alexander Zhavoronkov:我们已经工作了五年,我们研究了几种商业模型。作为一家人工智能公司,您应该对其进行研究,因为否则很难在一种业务模型上进行扩展,而且风险很大。

我们从一家服务公司开始,然后开始与制药公司,生物技术公司以及风险基金合作,为它们提供服务或提供系统。我们研究了人们正在寻找的应用程序,并开始开发自己的小分子,发现它们,然后获得许可。

我们当前的业务模型实际上非常简单,可以扩展规模。我们与真正了解生物技术业务并参与药物开发的风险投资公司合作。他们将我们引向需要识别目标并产生小分子的地方。然后,他们围绕这些小分子及其靶子组成团队,让他们测试并发展这些靶分子的关联。

我们得到的是少量的预付款,然后随着分子经过各个验证步骤而获得临时付款。然后我们获得版税。通常,如果您正在考虑可以从分子中获得的BioBox或未来收入,则这些交易非常非常可观,但初始付款金额却很小。

这就是为什么我们拥有另一家从事软件许可业务的原因,我们在其中将我们的一些软件工具许可给其他人,以产生一定的收入,并确保可持续性,一致性以及对软件运行状况的反馈。如果我们需要添加更多功能。

另一种商业模式-我们有几个联合站点。例如,与一家名为Juvenessence的公司的合资企业。他们开发出我们提供给他们的分子。

Michael Kriegsman:嗯,您正在做很多事情并试图支持您的业务模型。

亚历山大·扎沃龙科夫:是的。但是,我们最感兴趣的不是直接收入。在大多数这些许可协议中,我们都获得了一些数据。在很大程度上,我们已从临床前实验中接收数据,已成为世界上最大的数据工厂之一。

迈克尔·克里格曼:这很有趣。我们还有来自@TrovatoChristian的Twitter问题。他是牛津大学计算机科学系的生物医学工程师和博士学位,是计算生物学的学生。顺便说一句,对我来说非常有趣的是,计算生物学属于计算机科学领域,而不是生物学领域。他的问题是:“是否有仅由AI开发的药物实例?”

亚历山大·扎沃龙科夫(Alexander Zhavoronkov):目前没有这样的例子。人工智能和医学之间总有一个人。我希望,在不久的将来,我们将能够证明,从识别目标到生成小分子,没有一个人参与的渠道可以打开其中的一些分子。但是目前,该实验是药物发现和开发方法中的王者。因此,如果您无法通过实验测试您的方法,那么它们将不会继续前进。我从未见过使用AI完全生成分子的示例。

Michael Kriegsman:是什么导致从头到尾使用AI的?

亚历山大·扎沃龙科夫(Alexander Zhavoronkov):好吧,由于药房的失败,一般来说。要学习的成功案例非常少。这些成功的故事非常非常多样。在某些方面,很容易检查算法是否给出了有意义的输出。但是在许多情况下,您确实需要检查所有步骤中的所有内容。这就是为什么在创建允许您从头到尾进行操作的萨拉米香肠时,必须确保检查每个萨拉米香肠并将其放入内部的方法,并与外部合作伙伴进行检查。这就是我们正在尝试做的。

迈克尔·克里格斯曼(Michael Kriegsman):可能已经有开发AI药物的方法,但是在现阶段,使用这种方法似乎为时过早。

亚历山大·扎沃龙科夫(Alexander Zhavoronkov):在此阶段,没有人试图完全使用AI虚拟化药物发现,并且无需人工干预即可完成。在许多领域,这几乎是不可能的,因为生物学和医学是如此多样化,以至于很难找到适合所有人的解决方案。在每个阶段都需要验证,目前,通过传送带进行的验证仅在某些治疗条件下有效。

迈克尔·克里格曼:我再问一个来自Twitter的问题。再次来自Shreya Amin,一个很好的问题,很有趣。她写道:“使用现有的人工智能方法,在药物类型,疾病,状况等方面,哪些领域最接近突破或取得了最大进展,在这一过程中最困难的是什么?”

Alexander Zhavoronkov:我会给你一个我非常非常熟悉的例子。我们有几种使用GAN和强化学习功能全面开发的JAK抑制剂。我认为这是从头开始进行分子设计的最有前途的方法之一。

目前,我们正处于小鼠的测试阶段,从酶分析到小鼠的研究已全面展开,并表明现在我们可以利用这些分子实现选择性,特异性,并且这些分子具有许多其他特性。这些是我们时代相当普遍的方法,无论是我们使用的GAN还是强化学习技术。这并不是什么超级新事物,因此我们确实将研究和开发转向了稍微不同的方向。

迈克尔·克里格斯曼(Michael Kriegsman):未来三,四年,两年或四年,这一切将如何发展?我们不要出去十几年了。在接下来的几年中,情况会如何?

亚历山大·扎沃龙科夫(Alexander Zhavoronkov):我认为像我们这样的公司将更加关注内部研发,而不是与大型制药公司合作,因为与大型制药公司合作通常是无路可走的,因为这要么是公司在最初阶段的死亡,要么就是他们只是借鉴您的经验并赶上来。但是,与此同时,它们是如此官僚主义,以至于很难改变,同时,在首席执行官的级别上,大型制药公司更专注于增加销售或购买其他公司以增加销售。内部研发并不是真正的头等大事,无论他们怎么想,这都是事实。在损益表中通常应为15-20%,因为否则,投资者将不会投资于公司。但是这些内部研发的性能通常很低。

我认为使用AI和药物发现虚拟化的小型生物技术公司将非常成功。在行业中,我很欣赏某些案例,例如Nimbus Therapeutics。他们能够虚拟化搜索和开发毒品的整个过程,将第二阶段的某些资产推向市场并获得许可。

我认为真正了解流程并可以对其进行虚拟化的人将是赢家。到目前为止,我知道有几家公司正在这样做,所以有些公司与我们合作。有些处于隐形模式。我认为他们将来会成为赢家。

当谈论两到三年的药物发现时,这实际上是一个非常非常短的时间。在人类发展的许多其他领域中,如果您要求我提前五年计划,那我就做不到,因为一切都会很快改变。在药房中并非如此。我们确实需要试验并正确地做。

长寿和吸烟研究


迈克尔·克里格斯曼(Michael Kriegsman):简要介绍一下您最近进行的关于长寿或吸烟的研究吗?我知道我们没有时间,但是很高兴知道。

亚历山大·扎沃龙科夫:当然。我们刚刚发表了一篇非常有趣的文章,显示吸烟会加速衰老。我们关注的领域之一是使用几种类型的数据进行年龄预测,例如图像,血液检测,转录组数据,蛋白质组学数据和微生物组数据。我们使用这些数据来准确预测一个人的年龄,然后我们将了解哪些干预措施或行为改变,什么样的生活方式使一个人看起来更年轻或更老。

我们已经在加拿大完成了这个项目。我们与莱斯布里奇大学和艾伯塔省政府合作,处理了大量不同年龄的吸烟者和非吸烟者的数据集,仅研究匿名的血液检测。首先,我们创建了吸烟状况的预测指标,因此,现在我可以通过抽血测试来充分确定您是否吸烟,但是我们还通过使用深度神经网络显示,吸烟的人看上去比不吸烟的人年龄更大。受过血液分析训练。

在我们发表文章之后,它变得非常流行,并且收到了非常积极的评论。例如,我的女儿考虑戒烟只是因为她不想看起来老。人们并不真的在乎自己的健康,但他们确实在乎自己的外表。如果您不想看起来老,那就戒烟吧。

迈克尔·克里格曼:很好。大提示。亚历山大,非常感谢您抽出宝贵时间与我们交谈。祝你有美好的一天。好好照顾自己 再见

原来的

Source: https://habr.com/ru/post/zh-CN440822/


All Articles