生物信息学讲座:数据分析,神经网络及其在生物学和医学中的应用

大约一年前,在2017年的夏天,来自MIBI的一所传统的生物信息学暑期学校在这里举行。 今年学校的主题是数据挖掘 。 怎么了 从生物学和医学获得的数据量正以惊人的速度增长。 同时,在物理上无法手动检测到如此大量的信息中的先前未知的事物(并且使用经典算法也很困难),因此您必须使用统计数据并以人工方式补充自然智能。

这是暑期学校的参与者正在积极做的事情。 这篇文章包含22堂讲座视频,其中有幻灯片和说明,适合所有对生物信息学中的数据分析主题感兴趣的人。 无需额外准备就可以观看的演讲标有星号“ *”(一半)。

图片

1 *。 生物信息学导论(亚历山大·普雷德伊斯,生物信息学研究所)

影片 | 滑梯

讲座讨论了科学和工业中生物信息学的主要领域,尤其是生物信息学及其在当今流行的原因。


图片

2 *。 机器学习入门(Grigory Sapunov,Intento)

影片 | 滑梯

数据量的不断增加有助于开发越来越复杂的处理,搜索和检索信息的过程。 解决此类问题的一种方法是使用人工智能。 本讲座专门介绍机器学习的基础知识。 Gregory讲了这方面的一般术语,还介绍了机器学习解决的任务类型。 此外,讲座还介绍了机器学习的主要阶段,模型类型和接收数据的质量指标。

3 *。 深度学习简介(Grigory Sapunov,Intento)

影片 | 滑梯

深度学习(或深度学习)由于不指定解决问题的特定算法,而是使用表示法中的训练的能力,因此日益受到欢迎。 处理器处理能力的提高也促进了这些方法的发展。 讲座专门介绍了神经网络的基础知识:它们的类型(完全连接的神经网络,自动编码器,卷积,递归)及其解决的任务。 另外,格雷戈里概述了当前的状态和趋势。


图片

4 *。 肿瘤基因组学概论和肿瘤混合数据分析(Mikhail Pyatnitsky,VN奥列霍维奇生物医学化学研究所)

影片 | 滑梯

对人类基因组进行测序,研究人类遗传变异,对人类基因组测序,对人体组织进行转录分析-在“大数据”应用中,所有这些生物学方法为科学家提供了许多有关使人类与其他动物不同的有价值的信息。 本讲座专门针对组学及其实际应用。 另外,迈克尔谈到了这些数据在肿瘤学中的使用。


图片

5.生物学中的多元组学:技术整合(Konstantin Okonechnikov,德国癌症研究中心)

影片 | 滑梯

分子生物学实验技术的飞速发展,例如测序,使得对在细胞,器官甚至整个人体中发生的各种功能过程的研究相结合成为可能。 讲座讨论了如何正确地结合从基因组学,转录组学和表观基因组学获得的大量实验数据,以建立正在进行的生物学过程的各个组成部分之间的关​​系。 从癌症研究的高度需求领域中选择了多组学的说明性例子,重点放在小儿肿瘤学上。


图片

6.定量遗传学:历史与前景(尤里·奥尔先科,理论和应用功能基因组学实验室,FEN NSU,遗传分析方法组,ICG SB RAS)

影片 | 滑梯

定量遗传学是一门精确的科学,它基于少量的关键观察结果和基本模型,可以对自然(微观)进化现象进行定量描述,并预测基因实验的结果。 她使用了强大的数学工具。 最初开发了许多现代统计方法来解决定量遗传学的问题。 在过去的十年中,分子生物学技术的突破性发展使得通过数百万个基因组参数和其他“ omix”参数表征成千上万的生物体成为可能。 已经积累的实验和数据的总数是巨大的。 现代定量遗传学的紧迫任务是开发描述多层次表型高维遗传的模型。 在演讲中,尤里简要概述了定量遗传学的历史以及该学科面临的问题。


图片

7 *。 测序技术(基里尔·格里戈里耶夫,波多黎各大学加勒比海基因组中心)

影片 | 滑梯

测序过程的发展和演变与技术能力的发展密不可分。 该讲座展示了从Sanger到今天的测序技术的历史和发展过程。 西里尔分别谈到了每种现有方法的优缺点,以及所获得数据的性质及其在各个领域的应用。



8.转录组学:实用方法和应用算法(亚历山大·普雷德伊斯,生物信息学研究所)

影片 | 滑梯

转录组学自信地在NGS生物信息学面临的最受欢迎的任务列表中占有一席之地。 基因表达的差异分析,表达数据的聚类以及就代谢和信号传导级联而言的数据解释可提供有关几乎所有系统的丰富信息。 讲座涵盖了最佳方法,实验和处理设计中的主要问题领域以及成功应用转录组方法的实际案例。


图片

9.医学遗传学中的NGS数据分析:遗传变异的定义,注释和解释(Yuri Barbitov,圣彼得堡国立大学,亚历山大·普雷德伊斯,生物信息学研究所)

影片 | 滑梯

新一代测序的使用早已超出了经典科学的范围,并已成功应用于包括医疗保健在内的许多其他领域。 该讲座致力于分析医学遗传学中新一代测序数据的关键方面。 尤里(Yuri)展示了从获取原始读物到做出诊断的整个过程,并提到了在确定,注释和解释遗传变异中遇到的困难。 他分别提到了在数据处理每个阶段所犯的常见错误。 总之,简要概述了有前途的研究领域,这些领域可以使用高性能测序方法提高诊断的准确性。


10. ChIP-Seq及其相关方法的实际应用(亚历山大·普雷德伊斯,生物信息学研究所)

影片 | 滑梯

ChIP-Seq方法以及“基因组足迹”(ATAC-Seq,FAIRE-Seq,DNase-Seq)被广泛用于寻找调控生物过程的机制,尤其是用于转录调控。 被研究因素的潜在空间是非常多维的,但是选择性方法允许仅通过几次实验就可以获得有关系统调节的丰富信息。 亚历山大以相互矛盾的现代理论为例,展示了解释监管信息的主要困难以及如何巩固结果。


图片

11 *。 我可以使用iScan数据做什么(Ta Verana Tatarinova,拉凡尔纳大学)

影片 | 滑梯

Illumina公司生产大量满足各种需求的设备。 芯片分析使您可以快速检测大量样品的单核苷酸多态性(SNP)。 该讲座专门讨论iScan芯片中的数据及其在临床诊断中的应用。


图片

12.计算生物学的深度学习(塔尔图大学的德米特里·菲什曼)

影片 | 滑梯

深度学习不仅被用于改善机器翻译或语音识别,而且还使您能够解决计算生物学领域的许多问题。 该讲座致力于将深度学习方法应用于特定的生物学实例。 德米特里(Dmitry)谈到了使用深度学习的生物学和医学新技术,并且可以说机器彻底改变了医学和生物学。


图片

13 *。 应用机器学习方法搜索人类基因组中潜在的致病突变(Anna Ershova,莫斯科国立大学物理与化学研究所,莫斯科物理技术学院,MV Lomonosov,联邦流行病学和微生物学研究中心以N.F. Gamalei命名)

影片 | 滑梯

与人类基因组测序有关,寻找致病性突变变得很重要。 但是,根本不可能手动解决此问题。 讲座是关于机器学习如何帮助您做到这一点的。


图片

14 *。 免疫信息学(Vadim Nazarov,HSE,IBCh RAS)

影片 | 滑梯

长期以来,机器学习一直积极地应用于生活的各个领域,但是在免疫学领域,机器学习最近得到了应用。 在本讲座中,Vadim讨论了在免疫学中使用机器学习和深度学习的几个示例,包括预测MHC-肽复合物结合的任务以及T细胞受体库的分析。


图片

15 *。 使用结构性生物信息学方法研究宿主对HIV和丙型肝炎病毒的适应性和耐药性的发展(Olga Kalinina,马克斯·普朗克信息学研究所)

影片 | 滑梯

人类免疫缺陷病毒(HIV)和丙型肝炎病毒会导致严重疾病,难以治疗。 像许多其他逆转录病毒和RNA病毒一样,这些病毒迅速发展,因此既可以适应特定抗病毒药物的作用,也可以适应宿主生物体的适应性免疫反应。 在本演讲中,Olga展示了如何通过对病毒蛋白序列的分析与对其空间结构的分析相结合,来预测耐药机制的发展以及病毒与宿主免疫系统的相互作用。


图片

16.突变影响的预测(Vasily Ramensky,MIPT)

影片 | 滑梯

现代测序方法提供了大量有关基因组多态性的信息,即各个基因组之间的差异。 这些差异(变异)是DNA复制过程中突变产生的结果,并在种群中部分固定。 基因组变体的流行,定位和功能作用差异很大-从完全死亡到对单个表型没有任何影响。 该讲座讨论了预测个性化医学,医学和人群遗传学中​​所用选项功能效果的现代方法。


图片

17.生物分子的多尺度建模和设计(Nikolai Dokholyan,北卡罗来纳大学教堂山分校)

录影带

生物分子的寿命涵盖与从原子到细胞的时间尺度和长度相对应的时间和长度尺度。 因此,分子建模的新方法本质上应该是多尺度的。 尼古拉在演讲中描述了他实验室中开发的几种方法:一种用于快速离散分子动力学建模,蛋白质设计和结构提纯工具的算法。 使用这些方法,可以描述几种应用,这些应用阐明了囊性纤维化的分子病因,并找到了抗击这种疾病的新药物策略,为三维RNA结构建模,并开发了控制活细胞和生物体中蛋白质的新方法。


图片

18.蛋白质的同源折叠(Pavel Yakovlev,BIOCAD)

录影带

在现代结构生物学中,有许多计算方法可以表征具有高可靠性的生物分子,它们的相似性和差异性,相互作用的方法和功能。 为了构建这样的计算,蛋白质的空间参数始终充当输入参数,但是,尽管在晶体学领域有半个世纪的进步,但蛋白质的制备仍然很困难。 该讲座致力于通过蛋白质结构的同源建模(从相似片段构建三维结构)来解决此问题。 例如,我们考虑抗体的可变域-具有可变环独特结构多样性的蛋白质。


图片

19.如何停止冥想并开始建模(莫斯科国立大学亚瑟·扎列夫斯基以MV罗蒙诺索夫命名)

影片 | 滑梯

通过NGS方法获得的大量数据不仅可以从中获得生物学结论,还可以将其用于建模。 构建的模型可以更好地理解生物学数据,并从实验中获得更多生物学意义。 该讲座致力于建模和该过程的初始阶段。


图片

20 *。 站在巨人的肩膀上,或者为什么我们需要一个财团(德文迪夫,巴塞罗那科学技术研究院基因组调控中心,庞培法布拉大学)

影片 | 滑梯

在过去的几十年中,生物学的发展与数据阵列的积累有关,其数量之巨大以至于各个研究小组无法再应对其生物信息学分析。 为了解决这个问题,协会开始由数十个实验室创建,例如人类基因组计划,1000GP,ENCODE等。 由于这种合作,使用各种技术获得的公共领域中有各种类型的数据。 结果,将新的实验数据与现有的实验数据进行比较已成为任何研究的标准部分。 联盟不仅产生数据,还产生生物信息流水线以进行处理,标准格式和质量评估程序。 本讲座讨论了联盟的工作方式,如何使用其工作结果以及如果您突然发现自己是该联盟的成员并且需要处理TB的数据,然后与所有其他参与者共享结果的方法。


图片

21 *。 俄罗斯和世界各地的生物信息学公司概述(Andrey Afanasyev,yRisk)

影片 | 滑梯

在现代世界中,科学与商业越来越交织在一起。 这种趋势和生物信息学领域尚未绕开。 安德烈谈到了市场的期望和现实,成功案例和失败案例,有关生物信息学的人和地方。




22.使用NGB基因组浏览器(Gennady Zakharov,EPAM,IP Pavlov生理研究所,RAS)对变异(SNV,InDel,SV)进行高级分析

影片 | 滑梯

讲座涵盖了在基因组浏览器中对简单(SNV,InDel)和结构变异进行视觉分析的过程。 使用NGB浏览器演示了所有示例,该浏览器满足结构变化分析的大多数要求和建议,包括各种类型的可视化以及从外部数据库中获取注释。 在有关真实示例的讲座中,展示了验证和分析简单结构变化的后果的方案。



后记


对于那些一无所知的人,他们想在生物信息学领域发展-直到5月27日,仍接受本2018 年暑期学校的申请。 学校本身将于7月23日至28日在圣彼得堡附近举行。 有机会跳进最后一辆车,并自豪地向所有人展示明年的演讲概述的帖子,说他们亲眼所见。

2017年,在我们的常规合作伙伴-JetBrainsBIOCADEPAM Systems的支持下举办了这所学校,对此非常感谢。

顺便说一句,有一个帖子,讲的是从上学年的前一年开始的演讲

所有生物信息学!

图片

Source: https://habr.com/ru/post/zh-CN412453/


All Articles