“这也是数据分析。” 与Mikhail Gelfand谈生物信息学

生物信息学是一门非常有趣的科学知识领域,因为它结合了生物学术语和算法,大数据处理和机器学习领域专家所熟悉的方法。 因此,生物信息学是IT可以探索现实世界的一个例子。


最近,我访问了信息传输问题研究所的Mikhail Sergeyevich Gelfand。 我们讨论了什么是生物信息学,其有趣的应用,有关生物信息学的IT专家如何发挥作用以及他们需要学习什么。


在本文的摘要下,您可以找到我们谈话的完整记录,并且可以在YouTube上观看该视频。




什么是生物信息学


Alexey Shagraev:生物信息学-这是一门什么样的科学,它是做什么的?


Mikhail Gelfand :生物信息学是一种使用计算机研究生物学的方法。 总的来说,这不是一门科学,而只是一套技术。 同样,例如,电子显微镜并不是一门科学。


生物信息学的第一部分是算法。 它描述了如何将数据从设备拖动到计算机。 为了确定形成基因组的核苷酸序列(对其进行测序),出于技术原因,需要将该基因组切成大量的小片段,然后再将其粘成一条大线。 在这种情况下,有必要考虑数据中的噪声,世界上所有事物的各种不规则性。 这是一个相当典型的任务;在质谱数据分析中还会出现其他算法问题。


生物信息学的第二部分是经典的,生物学的。 她离我的工作更近了。 更准确地说,它可以称为分子生物学。 这是蛋白质。 他在做什么? 或者你有一个基因。 什么时候打开,什么时候关闭? 或者,相反,您知道单元格中的某物具有特定功能。 它是哪种蛋白质? 这些是分子生物学经典问题的例子,事实证明,计算机是解决此类问题的相当有效的设备。 研究人员不再需要测试所有可能的蛋白质功能。 相反,他们可以验证蛋白质是否具有模型预测的功能。 如果真的满足-欢呼! 因此,计算机通过缩小搜索空间来节省实验者的时间。 这是经典的分子生物学,它是在试管之前在计算机上完成的。


最后,生物信息学最近出现的第三部分是大数据分析。 生物学家所做的实验方法非常有效,以至于已经产生了许多数据。 天文学与天体物理学的发展方式相同-巨大的望远镜现在每分钟产生千兆字节的数据。 高能物理学也发生了类似的事情。 出现的第一个任务就是简单地保存数据并从中提取有趣的生物学信息。 由于数量庞大,因此有可能描述整个细胞的工作-而不是一个基因的工作,而是该细胞所有基因的工作。


另外,我在一开始就告诉你一个谎言。 当然,有科学的生物信息学,只是被称为不同的东西-进化生物学。 许多计算机方法已经描述了进化模式-选择如何发生,发生了什么变化。 最自然,最基本的问题是谁与谁有关。 然后开始:不同动物的发育生物学如何?..一个人与小鼠不同,不是因为我们的基因不同,而是因为它们的作用不同。 此外,主要差异在于胚胎发生。


人们什么时候以及如何首先了解到,计算机可以在这些领域带来切实的利益?



弗朗西斯溪


最先了解一切的人是弗朗西斯·克里克(Francis Crick),他显然是一个非常聪明的人。 1958年,他意识到序列(然后我认为是关于蛋白质的)可以用于确定亲属关系。 序列本身不存在。 他首先在一篇专门针对完全不同的文章的文章中表达了这一想法,并插入了两个不同故事的句子。


弗朗西斯·克里克Francis Crick)是20世纪最伟大的生物学家之一,1962年获得诺贝尔生理学或医学奖。 他与詹姆斯·沃森(James Watson)一起提出了DNA双螺旋结构,并制定了所谓的分子生物学中心教条 ,提出了遗传信息在细胞中传递的单向性质:从DNA到RNA到蛋白质。 一部描述遗传密码结构的经典著作的作者之一。 - 阿列克谢·沙格拉耶夫(Alexey Shagraev)的笔记


然后,在60年代初,真正的第一个序列出现了,人们开始建造树木。 在这门科学中,它们被称为系统发生学,其含义是与谁相关。


系统发育树 -反映不同生物体之间进化关系的树。 现代思想包括以下事实:将所有活生物体划分为三个领域或超国家: 古细菌细菌真核生物 。 - 阿列克谢·沙格拉耶夫(Alexey Shagraev)的笔记


然后出现了分析方法,并且更多的序列变得可用。 一段时间后,很明显手不再可用,需要编写程序。


生物信息学作为一门科学在80年代初开始形成。 从这个意义上说,我很幸运-1985年当我来到这里的时候,它是如此的荒凉,是一个边境。 有可能提出并完成一项极有可能没人做到的任务。 无需学习任何东西-有必要做。 很少有人这么幸运。


起初,生物学家认为这是沙盒中的游戏。 但是有一些有用的东西。 一旦变得很清楚,就不可能仅仅通过期刊出版物来遵循这些顺序。 数据库开始出现在机器上放置这些序列的位置-在发表社论文章之前,他们要求将序列放入数据库。 因此,人们开始编写程序以在数据库中搜索相似的序列。 这已经是一门严肃的科学,因为这些基础正在快速增长,并且算法必须高效。


有一个众所周知的恐怖故事,即音序器(音序器)的性能以比摩尔定律更快的指数增长。 也就是说,它们远离计算机。 关于存储容量,还有一条指数规律。 忘记了它的名字。 一个单独的问题是它们是否不受任何物理限制。 但是音序器和指数数据增量的速率比计算机功能高,真是一场噩梦。


然后出现了快速测序的方法,并且生物信息学从一开始就已经起作用。 现在,在计划实验时,优秀的生物学家会理解(或咨询某人)他将如何处理结果。 实验本身的设计已经在很大程度上考虑了发生情况的处理。


现在人们已经开始将其全部推入深度神经网络。 我们有一个有关以下事实的项目:如果您使网络解决正确的问题,那么它将必须沿途学习所有生物学。 还有例子。


有两种问题。


在某些任务中,仅需要高质量的识别。 例如,癌症的鉴别诊断或某些预后。 您有两类患者:一种可以帮助这些药物,另一种则不能。 最好不要提前发现,而是要提前发现。 您可以研究此癌症中发生的那些突变的特征,观察肿瘤中的基因如何开始起作用。


或者您可以预测蛋白质的空间结构-这也是一项经典任务。 我们有一个序列,但是我们想找出分子如何在空间中折叠。 一个古老的任务,它可能始于70年代。 人们只是在追求预测的质量。 有很多不同的方法。 篮网赢了一个人,一个人却没有。 这样的科学。


神经网络和生物信息学 。 例如,请参阅有关AlphaFold神经网络蛋白质折叠算法的DeepMind博客文章和Mohammed AlQuraishi的演讲 。 - 阿列克谢·沙格拉耶夫(Alexey Shagraev)的笔记


我认为有些东西甚至更酷。 您设置的任务没有实际意义,但是要解决该问题,您需要了解一些有关生物学结构的知识。 然后网格似乎很紧张,非常糟糕,因为网格的识别质量很可能很差。 但是然后我们可以进入她的神经元,看看她学到了什么,试图解决这个问题。


生物学中网络架构的发展尚无先驱。 相反,有些人只是在尝试正确的方法来应用现成的体系结构。 这是近来如此大肆宣传,确实有精美的作品。


图片
DeepMind文章的插图


现代生物信息学


现在,哪些生物是该领域中最受欢迎的研究,为什么?


人,当然是因为我们想使所有人受益并学习所有药物。


有传统的模式生物。 人-因为药。 老鼠-因为它们是哺乳动物,但他们并不后悔。 果蝇-因为它通常是经典。 大肠杆菌-由于它是细菌,因此生长迅速,并且也是经典细菌(就像其他细菌一样)。 线虫C. Elegans-因为她在每种情况下都有固定数量的细胞,所以严格了解这些细胞的家谱,它们具有神经网络的标准方案,它们绝对相同,但是可以在遗传上有所不同。


由于存在高效的测序方法,因此我们不仅可以研究已经做了大量工作的模型生物,还可以研究其他一些很酷的模型生物。 我上次最喜欢的项目-我们对章鱼的进化没有完全了解的东西,没有人知道。 当学生问我时,我宁愿建议寻找一些很酷的小动物。


单细胞原生动物是指像我们一样具有细胞核的生物。 细菌没有核;它们很简单。 对于细菌,您可以做非常深的事情。 我们可以说很多有关细菌如何生活,如何吃,如何合成,需要从外部环境中获得什么的信息-根本无需做任何实验,只需看电影即可。 还有一些小动物,它们的细胞带有核,例如您和我,则更为复杂。 但是有奇妙的单细胞核,并且它们具有最多样化的生物学。 在纤毛虫,变形虫中。 最酷的动物园在那里。


病毒呢?


从医学的角度来看,病毒主要是令人感兴趣的。 我想知道病毒的进化是如何工作的,因为显然有许多蛋白质是由病毒发明的。


仍然存在巨大的病毒,其基因组已经大于小型细菌的基因组。 没有人知道这种废话的来源。 我只是更了解这种病毒科学。 存在良好的进化挑战。


现在有什么有趣的方向,与生物信息学和基因组研究有关的普通大众可能会注意到哪些结果?


从可以向公众解释的方面来看,最有趣的是古代基因组的故事。 它们是从考古发现中提取出来的,并且在我们关于人类历史的观念上发生了明显的变化-无论如何,都是丰富的。 关于人的起源的观点已被修改。 同样,有很多计算块,但是主要的研究员是实验者,他们只是学会了如何分离和确定该DNA序列。 实验非常困难。


我们每个人都有百分之几的尼安德特人碎片。 定期向公众公开我的工作很容易。


关于古代基因。 2006年,启动一个项目,以读取尼安德特人的完整基因组,其结果之一是得出结论,认为古代人与尼安德特人杂交。 埃琳娜·奈马克(Elena Naimark)对这个故事的完整描述可以在《元素》上找到。 - 阿列克谢·沙格拉耶夫(Alexey Shagraev)的笔记


纯粹的生物信息学...同样,由于这是生物学的一部分,因此对我们而言,消费者是一名生物学家。 在良好的生物学工作中,当我们甚至不治疗特定类型的抽象癌症,即特定患者的肿瘤时,这就是一种个性化药物。 有很好的例子,当这工作。 但是,目前尚不清楚它们的规模以及经济是否会受到拉动。 原则上,是的,有一些药物的例子,在任命这些药物之前,它们会分析特定肿瘤中的突变。 生物信息学位于所有这些“地下室”的下面。 如果没有生物信息学方法的发展,这将是不可能的。 但基本上,我们的消费者不是一个人,而是另一位生物学家。


想象一个开发人员:也许是经验丰富的开发人员; 可能是数据分析专家; 反之亦然,另一个学生。 现在有什么任务可以激发他进入该科学领域并有所帮助?


您可以去一些有大量数据的实验室,然后对其进行处理。 数据可能很棒。 它可以是空间结构-DNA如何堆积在细胞中以及如何影响其工作。 有很多异构实验,确实有很多数据。 并且存在一个广阔的领域:从聚合物的物理学到某种相关分析和统计。 您可以做非常漂亮的事情。 数据有很大的不同,可以用不同的方式进行比较。 总的来说,很多好处。


此外,还有带网格的独木舟。 同样,这里有必要坚持聘请好的生物学家,然后您才能用好的网格解决好的生物学问题。 要么赢得预测世界锦标赛本身就是一种荣誉,要么尝试消除一些生物学障碍。 我们讨论了一点。


或者,您真的可以加入一家公司,该公司正在尝试开发用于差异化诊断(主要是癌症诊断)的方法,并且做点好事。 这也是数据分析,但是有很多东西。


最典型的情况和典型任务是什么? 有一个悖论:我们所有细胞中的基因组相同,并且细胞的工作方式不同-顺便说一下,它们的排列方式也不同,因为它们中不同的基因工作方式不同。 在癌性肿瘤中,基因组已经不同;在那里发生了突变。 但是再一次,细胞重生,不是因为DNA发生了变化,而是因为基因开始以不同的方式起作用。 我们可以尝试根据细胞在不同类型的肿瘤中的工作情况来预测药物的作用,做出预测或只是进行差异诊断。


但是,进行此分析时,我们需要一块组织,并且有很多不同的细胞。 这些是肿瘤细胞,是健康细胞,某些淋巴细胞在其中蠕动-很多东西。 您需要分解基因的平均功,您可以在实验中测量这些基因在每种细胞中的工作方式。 您可以估计此类单元格的比例。 这是分解的任务。 在幼稚的环境中,每个人都认为可以简单地将其作为线性代数问题或大型线性方程组来求解。 事实证明,数据中的噪声和其他困难使数据非常旋转。 这不能简化为简单的线性代数。 我已经看过很多次了:一个学生来,说-我们在这里写下等式,就是这样。 但是无花果。 但这是对人类的直接好处-寻找癌症特征。


将会发生一门很好的科学-早期发展。 现在,我们正在确定在数百万个细胞的样本中,基因如何在细胞混合物中发挥作用。 但是您需要能够在单个单元中执行相同的操作,并且为此-赢得很大的声音。 然后,我们可以研究例如胚胎学,研究在细胞还很少的早期阶段的细胞发展轨迹。 您可以观察到细胞的早期分化是如何发生的,并且在不久的将来这些故事将使胚胎学变得完全不同,我们将完成出色的工作。 这是进化胚胎学。 不仅要研究灵长类动物和啮齿动物的解剖学差异(这是经典的XIX世纪),而且还要观察由于基因在何处起作用而在很早的阶段就建立了这些差异。 会的。


理想的专家看起来会是什么样子,现在谁能来到这个领域并带来很多好处? 他应该能做什么? 他在哪里做?


他必须了解生物学。 首先,Skoltech有一个生命科学硕士学位课程。 没有进行过生物教育的人也可以去那里。 对他来说很难,但是有这样的例子。


计算机科学学院的高等经济学院有一个程序用于分析生物学和医学数据。 相反,您可以在那里进行计算机教育。 生物学家也在那里,但是生物学将会更少,而生物信息学将会更多。 这是给大师的。 对于11年级的学生,莫斯科国立大学设有生物工程和生物信息学系。 这是我们谈论莫斯科的问题。


我认为,在圣彼得堡大学和ITMO都有生物信息学计划,但是我对它们知之甚少。


关于米哈伊尔·盖尔芬德



您是怎么来这门科学的?


无法做数学。 当mehmat完成时,我意识到我不擅长证明定理,更不用说发明定理了。 而且我很幸运,因为生物信息学才刚刚开始,那么您就可以来到那里,就是这样。


我一直热爱生物学:我捉到了蝴蝶,折磨的虫子,仅此而已。 对我来说,生物学是很自然的。 另外,我对语言学很感兴趣,曾在奥运会上转过圈子。 如果处理得当,从这个意义上讲,生物信息学是一门语言学。 因此,这是非常自然的选择,至少对我而言。


你现在在做什么


就我个人而言,我主要负责编辑章鱼的笔录,有关蝴蝶,甲虫,蚂蚁,蜜蜂和所有带有have的昆虫的the来自何处。 我有一定的理论。


蟑螂没有p。 它很小,呈黑色,看起来不像蟑螂,然后蜕皮几次,每次变得越来越像蟑螂。 但是有些昆虫处于have期,我们似乎已经弄清楚了它的来源。 如果我们设法仔细地展示它,那将会很酷。


我正在分析哪些细菌生活在蚜虫,珊瑚和石油矿井中。 它发生在历史上。 有了蚜虫,我们在白俄罗斯就有了很好的合作者,也有珊瑚。莫斯科的合作者可以挑选出这些珊瑚。 关于油井,我有一个疯狂活跃的研究生,他只是为石油公司撒谎,并让他们承担这项任务。 也就是说,实际上,这些都是机会性任务。


我研究细胞中DNA的折叠以及这种折叠如何影响基因的功能。


在细菌的进化方面,我正在做很多工作,或者说是研究生,因为这件事描述得很差,所以您可以从不同的角度看待它。 一般而言,了解细菌如何进化,细菌物种来自何处,如何将其分为物种。 不是说它做得好。 这不是一个非常时尚的区域,但是您也可以在那里做很多很酷的事情。


我研究如何主要在细菌中调节基因,以及这些调节网络如何进化。 您可以比较近距离的物种,了解它们之间的差异,了解(或不了解)这些变化是如何发生的。




Mikhail Gelfand是YaTalk会议的发言人之一,该会议将于11月30日在莫斯科的Paveletsky太空会议大厅举行。 注册是开放的, 可以在这里进行

Source: https://habr.com/ru/post/zh-CN476164/


All Articles