什么是全基因组,为什么需要

Atlas推出了一种新产品- 完整基因组 。 现在,我们不仅可以像在基因测试中那样研究基因组中的各个点,还可以读取基因组核苷酸的整个序列。 在本文中,我们讲述了它是什么以及为什么需要它。

注意! 我们会将完整基因组提供给我们的一名读者,他们将完成所有任务。 本文结尾处有更多详细信息。

全基因组


完整基因组是什么意思?


为了处理全基因组测序或全基因组测序(WGS),我们首先简要介绍一下常规基因测试的技术。

微芯片和常规基因测试


像许多类似的测试一样,Atlas基因测试也使用DNA微阵列(DNA微阵列,Beadchip)进行。 DNA微芯片的表面包含许多小凹陷(约70万个),每个凹陷都包含直径约3微米的硅球。 在这个球的表面上,有数十万条相同的短单链DNA序列与其缝合在一起,对应于人类基因组中被研究变异(SNP,SNV)旁边的部分。 每个球仅对应一个遗传变异,并且每个球的芯片上孔的坐标是已知的(图2D)。

教育区1
Snip或SNV(单核苷酸变异)是一种遗传变异,即仅一个核苷酸的DNA序列发生变化。 例如,A,G或T的三个核苷酸(等位基因)之一可以存在于X基因的某个位置,在其余序列中,不同人的核苷酸相同(图1)。 从这一封信,一个人的特定特征可能取决于。


图1 Rentonorama的图像

例如,rs4481887多态性位于嗅觉受体基因OR2M7的第一个染色体上,具有三个等位基因:A,G和T。一个或两个染色体上均存在A等位基因(基因型A / G,A / T和A / A)确定食用芦笋后尿液气味的敏感性。 在没有A等位基因的情况下,人们甚至不会意识到在尿液中摄入芦笋后会释放出具有特有气味的物质。

Indel或INDEL(插入/缺失)是另一种遗传变异,涉及一个或多个核苷酸的去除或插入。 剪接和插入缺失以及可能的结构变化:大的缺失,插入,易位,倒位是不同人基因组的实际差异。


通过Atlas遗传测试时,从唾液中分离出基因组和线粒体DNA,增加了拷贝数(扩增)和片段-切成小段(图2A)。 人类DNA的许多单链片段与它们在硅球上的相应序列连接(图2B),之后这些序列被1个人工荧光核苷酸扩展(图2C)。 不同的核苷酸以不同的颜色发光:红色和绿色。 通过每种颜色的发光强度之比(图2E),可以确定与球相对应的基因型。


图2

扫描整个芯片后,我们获得了约70万个变异基因型,并将其通过我们的解释系统。 用户通常会尝试比较不同测试的结果,但会发现两者之间存在很大差异。 发生这种情况有几个原因。 首先,不同的公司使用不同的芯片版本和SNV集。 结果,在某些芯片上存在独特的变化集,而在其他芯片上则找不到。 其次,总是存在基因分型错误,尽管它对结果差异的贡献最小,但由于各种原因可能会发生。 研究数据表明,Atlas使用的DNA微阵列基因分型的准确性高于99.5%。 但是,造成基因测试结果解释差异的主要原因是,即使对于相同的初始基因分型数据,不同的公司也将其做得不同。


什么是基因组测序?


基因组测序和微阵列基因分型之间的主要区别在于所获得数据的技术和处理。 通过全基因组测序,几乎可以确定整个DNA序列。 几乎-因为各种原因,基因组中的某些部分无法读取。 这些通常是端粒和着丝粒的位置-染色体的末端和中心。 为了确定基因组的此类区域的序列,使用了难以获得的高度专业化的技术。 这些研究主要是自然界的研究。

通过确定DNA序列,您可以了解基因组中任何地方的变异的基因型,包括在Atlas遗传测试中DNA芯片上研究的变异。 NGS(下一代测序)技术用于快速有效地确定基因组序列。 不同的公司创建了几种根本不同的方法。

Atlas方法的本质如下:提取和纯化的DNA被多次扩增并片段化为一定长度。 对于每个片段,都会缝制特殊的序列,以使您可以控制该片段。 读取的是这些已处理的片段(图3)。


图3 分步测序过程:每个后续核苷酸在其独特的颜色通道中发出荧光。

在每个步骤中,发生一个核苷酸的延伸,与荧光探针相关联。 四个核苷酸中的每一个都与特定颜色的探针相关。 因此,可以通过发光的颜色逐步确定所研究片段中核苷酸的顺序。 每个片段的最终序列称为读段,每个被研究的DNA样本产生约10亿个碱基。 读取和读取质量指标以FASTQ文本格式存储。

接下来,将读段与参考基因组比对(映射)。 使用特殊的软件,例如Burrows-Wheeler aligner,每次读取都会在与之对应的参考基因组上搜索一个位置。 读取以及有关基因组中位置的信息以SAM或BAM文件格式记录。 图4显示了使用IGV基因组浏览器在SAM(BAM)文件中映射到基因组的基因的可视化。


图4 IGV程序中的BAM文件的可视化(一个人的染色体位点)。 映射的读数由水平框指示,位置在上方轨道中指示。

该图还显示了当多个对齐的读数覆盖参考基因组中的任何位置时的覆盖深度。 该值是整个基因组的平均值,可作为研究质量的指标。 Atlas保证平均基因组覆盖深度超过30,从而确保了高质量的基因分型。 增加读取深度会显着增加测序成本,确定遗传变异的准确性,并且用于狭窄的肿瘤学研究中,例如,《肿瘤诊断图集》。

教育区2
参考基因组是生物物种的DNA的人工组装序列。 组装参考人类基因组的大多数序列均来自一个非洲欧洲人。 参考基因组会定期更新:最新版本GRCh38于2013年发布,包含33亿个核苷酸。 尽管有新版本可用,但许多基因测试和基因数据分析服务仍使用以前的版本-GRCh37。 Atlas使用GRCh38版本提供最准确的分析结果。


映射后获得的文件(SAM文件,序列比对图或二进制形式的BAM-二进制比对图)被过滤并用于搜索基因组中的变异,包括单核苷酸变异以及短插入和缺失。 图5显示了1号染色体上第248333561位的单核苷酸变异体的存在(上述示例rs4481887是确定食用芦笋后对尿味敏感度的变异体)。


图5 IGV程序中BAM文件的可视化。 1号染色体的图。在位置248333561处存在多态性rs4481887:该位置处的核苷酸不对应于参考基因组,并以彩色突出显示。 在覆盖基因组这一部分的所有读物中,都有一个核苷G,表明该基因型是纯合的。 具有这些测序结果的人在食用芦笋后将具有G / G基因型,并且对尿液的气味不敏感。

找到的遗传变异存储在VCF文件中(变异调用格式)。 它包含检测到的基因组每个位置的等位基因,以及基因分型质量的指标。 VCF文件将被过滤:关于存在/不存在与质量阈值不符且可能为假的变异的记录将从其中删除。 找到的每个变体都会从已知的dbSNP中分配数据,尤其是唯一标识符rsID。

您可以通过以下链接熟悉用于存储测序和基因分型数据的格式的细节:
FASTQ-maq.sourceforge.net
SAM-samtools.imtqy.com
VCF-samtools.imtqy.com

为了可视化读取(SAM或BAM文件)的映射,使用了各种软件。 最受欢迎的是IGV(来自Broad Institute的Integrative Genomics Viewer)。 下载IGV并通过链接熟悉它。


Atlas解释什么数据?


完整的基因组包含有关Atlas遗传测试中那些基因变异的数据,以及有关使用DNA微阵列的基因分型技术无法计算的特征的数据。 例如,这些症状包括患癌症的风险。

健康状况


383遗传病
所有Atlas测试的主要重点是健康部分,我们新的全基因组测试也不例外。 除了主要检查的症状外,我们还增加了65种遗传性疾病。

遗传性或单基因性疾病包括从父母传染给儿童的疾病,其发展不受人的生活方式影响。 对于这种疾病的发展,来自一个或两个父母的突变就足够了,这取决于该疾病的遗传类型。



21种多因素疾病
多因素疾病的发展受基因,生活方式和环境因素的影响。 这样的疾病包括例如糖尿病,肥胖症,帕金森氏症和阿尔茨海默氏病,特应性皮炎。 在您的个人帐户中,用户可以根据测试数据和生活方式问卷来计算患此病的相对风险。

其他6种与健康相关的症状
在这里,我们收集了影响一个人生活方式的迹象。 例如,睡眠时间,表型,慢性疲劳综合症,害怕疼痛。



临床遗传学


43癌症风险
由于正在全基因组中研究更多基因变异的事实,我们获得了更多数据并可以评估罹患癌症的风险。 根据测试结果,我们评估了遗传性癌症综合征的易感性。

遗传肿瘤综合症是可以在家庭中世代相传并增加某些类型癌症风险的遗传疾病。 大约10%的肿瘤病例是遗传性的。

遗传性癌症综合征的搜索主要对家庭中患有癌症病例的人有用。 疾病的发病年龄较早(最多50岁),在同一系中有多个亲属,且具有相同诊断,罕见形式的癌症可以表明其遗传性质。 根据测试结果,医生将确定其他研究的数量并制定个人癌症风险管理计划。 在我们的系列文章中了解有关恶性肿瘤如何发展的更多信息。



53对活性药物成分的敏感性指示
每个人对药物的反应不同:在某些情况下,药物效果很好,其他人则患有严重的副作用,而在另一些情况下,治疗无效。 在某些情况下,这是由于基因的作用会影响活性物质的代谢和不良反应的风险。

例如,药物奥美拉唑减少胃中盐酸的分泌。 用于治疗胃和十二指肠消化性溃疡,反流病。 CYP2C19基因编码负责奥美拉唑代谢的酶。 因此,根据基因的变异,有必要调整奥美拉唑的剂量或使用替代药物。

在测试中,我们检查了与53种药物代谢相关的基因变异。 其中包括抗抑郁药,激素避孕药,减少血液凝固的药物和其他一些药物。



遗传病专项报告
该报告是临床生物信息学实验室Fedor Konovalov实验室的结论。 生物信息学实验室正在寻找隐性疾病的载体。 这种运输通常不会影响一个人的健康,但会导致其未出生的孩子生病。 而且,实验室可以识别出一个先前没有描述过的独特突变,并对其是否有致病性做出结论。

专家将对每种情况下有关突变和疾病的相关科学信息进行全面分析。 结论包含遗传学家的所有必要信息。 使用此报告,您可以在需要时联系专家。

这样的遗传报告类似于具有大量复杂术语的法律文件,在我们的案例中,只有专家才能正确地评估遗传学家。 因此,我们在咨询之前不会显示临床遗传学。 会议期间,遗传学家会根据您的家族病史和症状,详细告诉您应注意的事项。 例如,这可以帮助阐明开始筛查某些疾病的年龄或计划生育的年龄。

营养学


28份报告
根据基因测试甚至整个基因组,不可能选择最佳营养并进行饮食控制。 产品,烹饪方法和菜肴种类繁多,研究人员很难找到与基因变异有关的任何信息。 但是,仍有一些数据。

从某些基因变体中,我们可以发现一个人是否对乳糖或麸质不耐受的易感性,是身体快速或缓慢地应对酒精或咖啡因,还可以评估该易感性是否达到一定水平的铁,钙,ω-3和6脂肪酸。 根据这些数据,一个人可以决定他应该删除哪些产品,反之亦然。

运动


16份报告
确定适合自己的运动项目与获取食物一样困难。 体育活动的类型很多,体育的概念每年都在扩展。 因此,滑板运动和冲浪运动成为奥林匹克运动计划的一部分。 有太多类型的体育活动无法通过遗传方法确定。 因此,不要相信遗传测试会为您找到最合适的运动。 选择您喜欢的运动。

基因科学界担心父母会对孩子进行基因测试,以找出哪种运动最适合他们。 在这种情况下,可以将孩子发送到他不喜欢的小组,但根据测试结果适合。 如果一个人想在运动中取得优异的成绩,那么成功很大程度上取决于他的野心,意志力和性格。 基因变体在这里的作用较小。

使用基因测试,您可以发现基因如何影响运动伤害的风险,游离胰岛素样生长因子-1的量,红细胞,促红细胞生成素的水平,以及氨基酸代谢的特征-缬氨酸,亮氨酸和左旋肉碱。 在全基因组的结果中,我们还增加了坐骨神经神经痛,IGFBP-3水平,呼气量等的风险。

其他症状


15份报告
在本节中,我们收集了与身体特征有关的体征:外观,光线感知,对草药和气味的敏感性。 在我们的测试中,您不会找到与情绪,行为或性格有关的迹象。 基本上,这些特征取决于教养,环境和习惯的特征,并且在较小程度上受基因变异的影响。 另外,成年后许多个人素质可以改变或发展。

原产地


3份报告
遗传学不使用种族或国籍的概念。 在更大程度上,它们是由于文化差异而不是不同的基因变异引起的。 取而代之的是,遗传学使用人口的概念-一群人在同一地区生活了很长时间。 今天,已有某些种群的基因组数据,科学家已经确定了每个种群的特征基因序列和变异。 起源的遗传研究是在基因组中寻找此类变异体,以及确定与已知种群的遗传相似性百分比。

除了遗传密码中的种群组成之外,您还可以找到您的单倍群。 单倍群是具有数千年前在一个共同祖先中发生的相同基因变异的一群人。 另外,可以从基因组中确定尼安德特人DNA的百分比。 在现代人类的基因组中发现了大约1-4%的尼安德特人DNA。 现在只有少数迹象取决于尼安德特人基因变体的可用性-头发的生长和低密度LDL脂蛋白(坏胆固醇)的水平。


完整基因组和Atlas基因测试的比较


为什么要全基因组?


全基因组的主要优点是您可以获得有关DNA的所有信息。 当出现新数据时,我们只需将它们添加到您的帐户中。 它不能检查通常的基因测试,因为它可以检查大约660,000个变体,占所有DNA的0.1%。为了解释新的迹象,它们可能还不够。

测试结果将有助于采取预防疾病,计划生育的措施,医生将能够在将来或现在明确诊断。该测试将被送到您的家中,而用户所需要做的只是收集唾液样本并致电快递人员将试管转移到实验室。

Atlas完整基因组的基础:高精度遗传分析(99.5%),获得数据的质量控制,获得专利的数据解释系统,访问源数据,遗传咨询以及可供每个用户使用的精选科学文章。用户以94,500的价格获得了所有这一切-俄罗斯此类服务的最低价格。该测试已经可以在Atlas网站上购买

如果您知道如何处理大数据,尤其是生物信息学,则整个基因组的原始数据可以是橡皮泥,您可以在其中闲暇时光玩耍,并进一步了解自己。例如,您可以清除其他公司正在研究的基因的变体,并将解释加载到他们的数据库中,找出与其他人的关系,获取黑猩猩或尼安德特人的参考DNA,比较您的相似程度。

还有


Atlas为Habr读者准备了一份很棒的礼物!在以下文章中,我们将提供3个任务,包括示例和输入数据,以及有关必要软件的信息。解决所有问题的第一个人-将获得全基因组礼物

Source: https://habr.com/ru/post/zh-CN479602/


All Articles