今天,我们发布了周期的最后一项任务,其中讲述了如何处理遗传数据。
第一项和
第二项任务已经发布:它们可以解决并向我们发送答案。 我们警告您,此任务比其他任务需要更长的时间。
主要奖项是
完整基因组 。

我们以前共享了有用的信息和链接,这些信息和链接可能对处理生物信息学数据有用。 如果您错过了以前的文章,我们建议您先阅读它们:
什么是全基因组,为什么需要任务编号1。 找出性别和关系程度。任务编号2。 确定人口结构免责声明由于某些命令和软件在Windows上不可用,因此在Unix系统(Linux,macOS)上进行遗传数据的工作。 因此,对于Windows用户,最简单的解决方案之一就是租用Linux虚拟机。
下述所有操作均在命令行-终端上执行。 在开始之前,请了解如何在运行操作系统的终端上工作并使用命令,因为其中一些命令可能会损害操作系统和数据。
必备软件
我们已经在Yandex.Cloud上使用所有必需的软件收集
了虚拟机 (VM)的映像。 有关设置虚拟机和安装软件的
说明 ,请参阅有关第一个任务的
文章 。 还有关于如何设置机器以免费使用的说明,直到2019年12月31日为止。
在此任务中,您需要将基因分型数据从VCF格式转换为23andMe格式,将接收到的文件上传到Promethease服务,并熟悉每个样本的报告内容。
23andMe格式是用于存储基因分型数据的文本格式,包含4个由制表符分隔的字段。 第一个字段包含变异标识符(例如,rsID),第二个字段包含染色体(此字段的有效值为1-22,X,Y和MT),第三个字段包含染色体上的位置,第四个字段包含基因型(在存在两个同源染色体的情况下为二倍体,在其他情况下为单倍体)。情况)。 许多解释服务都支持这种格式,因此在任务中我们将使用它。
要完成任务,您需要BCFtools软件包。 如果尚未安装,请阅读有关
第一个任务的
文章 。 它包含安装说明。 我们提醒您,要参加2019年新年竞赛,必须完成所有任务。
除了BCFtools,您还需要
create_23andme.sh
文件-一个bash脚本,用于生成23andMe格式的数据。 该文件位于Yandex.Cloud上的
/Technical
目录中,也位于要下载的存档中,可通过
本文中的链接获得。
注意事项
有许多服务可以分析基因分型数据:MyHeritage,Promethease,FamilyTreeDNA,DNA.LAND,GEDmatch。 它们提供了各种格式的基因分型数据下载,通常是特定基因分型提供者所特有的(祖先,23andMe,MyHeritage,FamilyTreeDNA,GenesForGood等)。 最忠实于数据格式的是Promethease:您可以将VCF和23andMe文件都加载到该服务中。
格式和服务之间存在几个兼容性问题:
- 不同的公司使用不同版本的基因组来绘制遗传变异图,当源数据中的遗传变异位置被另一个版本的基因组中的相应位置取代时,所谓的提升就解决了这个问题。 例如,Atlas提供了GRCh38基因组版本的基因分型数据,而GEDmatch接收了GRCh37基因组先前版本的数据。 从GRCh38到GRCh37的遗传变异坐标的转换称为升降机。
- 对rsID以外的遗传变异使用唯一的标识符。 通过从文件中排除此类条目或通过分配rsID对其进行注释,可以解决此类不兼容问题。 第二个并非总是可能的。
- 服务使用一组固定的遗传变异。 有时,至少部分正在下载的数据不匹配会导致加载错误。 例如,此问题与MyHeritage有关。 可以通过突出显示不会引起加载错误的遗传变异标识符集来解决。
使用数据
我们提醒您,本手册使用了
1000个基因组项目中特别选择的开放数据。 为了进行分析,我们选择了10个样本,这些样本的基因型信息约为8500万个变异,这是通过分析与GRCh37基因组版本匹配的NGS数据获得的。 这些样品的家庭关系和种群如图1所示。
图1 VCF中使用的样本的谱系(正方形对应于男性,圆圈对应于女性)。 虚线对应于不确定的二阶关系。
VCF转换
以下是有关转换VCF文件并将接收到的数据上传到Promethease服务(最近免费提供)的说明。 我们建议您熟悉在任何样品上收到的蛋白酶报告。 使用通过
任务1中获得的变体列表过滤的VCF文件。
使用
bcftools query
命令,可以从VCF文件中的
-f
标志之后以用户指定的格式提取任何可用信息。
-s
标志指示要为其提取数据的样本(
HG00731
)的标识符。 -e标志用于指示排除标准,在这种情况下为
'%ID=="."'
排除不具有rsID的条目。
bcftools query
的输出传递到
create_23andme.sh
脚本,该脚本将数据转换为具有4列(rsID,染色体,位置,基因型)的TSV格式,并将其写入文件。 您可以将
create_23andme.sh
脚本下载并保存
create_23andme.sh
自己
create_23andme.sh
以使用自己的全基因组测序数据。
create_23andme.sh
脚本使用从VCF文件中提取的
create_23andme.sh
来确定遗传变异的类型(SNV的单核苷酸变异,INS的插入或DEL的缺失),并根据特定的变异类型(A,G,T,和C是SNV类型的有效等位基因,I和D是INS和DEL类型的有效等位基因名称。
请记住,转换过程要花费很多时间:一个文件每个样本大约需要4个小时,变化量约为100万。 不支持并发BCFtools。
转到
promethease.com并注册。 单击Upload raw data按钮(图2),然后上传文件
HG00731.subset.23andme.txt
。 下载完成后,单击“创建免费报告”按钮,然后输入将根据您的数据生成的报告的所需名称。 草拟报告后,您将通过电子邮件收到通知,您可以熟悉报告的内容。 在每个样品的报告中,找到由AB0 / Rh系统中的Promethease解释系统确定的血型(Rh-Rh因子)。 检查结果是否符合表1。
表1 。 从演示数据集中的样品的蛋白酶分解分析获得的血型和Rh因子
该图集使用不同于Promethease的阈值,以按证据水平在解释中包括特定属性。 证据水平是指统计测试结果的总和,以及对于遗传变异与人体任何特征之间观察到的每种关系的重要性的标准。 在Promethease报告中可以找到的许多特征,其证据水平低和/或仅在有限的一组人口中具有高水平,例如,仅针对亚洲人口的代表。

注意事项根据经验,我们已经基于可上传到MyHeritage的
Infinium全球筛选阵列v2.0芯片安装了一系列遗传变异。 此列表(
external_interpretation_rsids.txt
)存储在
/Technical
目录中的单独文件中,可用于筛选VCF,并按照与上述说明类似的方式进行后续转换。 您也可以使用此文件过滤芯片上的基因分型数据,以便将其上载到MyHeritage。 如果您已经进行过Atlas基因测试,则可以从您的个人帐户中上传某种格式的基因分型数据,并根据建议的变体列表(从您的个人帐户中上传的数据的第一列)进行过滤。
请注意,本手册中使用的文件始终包含一个填充的ALT字段(替代等位基因),这使您可以了解每个变体所属的类型(INS,DEL,SNV)并正确创建23andMe格式的条目。 Atlas中的全基因组测序数据仅在检测到该等位基因的位置包含已填充的ALT等位基因,否则,在生成VCF文件时完全不存在用于填充ALT字段的信息。 必须在纯合参考位点(基因组中未找到参考等位基因的位置)输出数据,因为不仅核苷酸序列中检测到的变异具有临床效果,而且不存在临床效应。
在基因组的此类位置上没有ALT等位基因,这使我们无法确定仅发现参考(REF)等位基因的遗传变异类型。 由于需要使用有关此变异可能的等位基因的信息源,因此记录此类病例的基因型变得很复杂,本指南未涵盖。 如果您可能会使用本手册和
create_23andme.sh
脚本将全基因组测序后获得的VCF文件转换为Atlas,则转换后的文件将不包含参考纯合基因型,因为
create_23andme.sh
脚本会明确过滤此类记录以消除创建记录时的错误。用于插入和删除。
为了使
create_23andme.sh
脚本仍然产生参考纯合基因型,您需要替换其中的第25–28行的内容
... if [ "$ALT" == "." ] || [[ "$ALT" == *"*"* ]] then continue fi ...
在
... if [[ "$ALT" == *"*"* ]] then continue fi if [ "$ALT" == "." ] then echo -e "$RSID\t$CHR\t$POS\t$REF$REF" fi ...
该替换允许显示具有纯合参考基因型的
stdout
条目。 应当记住,此类插入和删除条目将是错误的,因为用于插入和删除的格式中的有效等位基因为I和D,并且脚本将使用A,G,T或C等位基因。对于插入和缺失,有必要事先知道在未检测到ALT等位基因的基因组给定位置中,哪种类型的变异是特征。 可以通过分析ALT等位基因(如果可用)(已在
create_23andme.sh
实现)或使用外部数据库(例如dbSNP(不在
create_23andme.sh
))获得此信息。
为了在Atlas中获得完整基因组测序的完整VCF文件的Promethease报告,您可以将VCF文件本身上传到Promethease,但是,请记住,压缩的Atlas VCF文件的大小约为8 GB,而Promethease允许您上传的文件不超过4 GB。 有关此问题的解决方案的描述,请参见
此处 。 另一个解决方案是将VCF文件拆分为几个部分(每个文件小于4 GB),并将每个文件作为附加文件加载到Promethease数据下载菜单中。
比赛的第三项任务
在Promethease中下载测试数据集的12个样本中的每个样本的转换数据,这些数据是根据第一个任务的变体列表进行过滤的,并为Promethease解释系统定义的样本标识符-血型AB0 / Rh(Rh-Rh因子)编写了一个对应表。 在Promethease报告中以概率方式识别并以前缀“ prob”记录的血型,不带前缀就写。 将未定义的值记录为未知(如果已定义,则仍需要写入未知血型的Rhesus因子)。 表1给出了一个示例。
将VCF转换为以上在建议的实现中使用的格式大大简化了,但是需要大量的时间。 为了进行优化,您可以编写一个带有循环的脚本,该循环将自动生成此数据,并遍历一组标识符。 可以制作多个这样的脚本,并且每个脚本都传递不同的样本标识符集以并行执行,但是,并行运行的脚本的数量不应超过计算机/虚拟机的CPU数量。
这里提供
了有关创建此类循环的详细说明。 在Yandex.Cloud上工作时,如有必要,您可以创建另一个具有大量虚拟CPU的虚拟机,这将成比例地减少完成任务所需的时间。
这是我们周期的最后任务。 答复
应发送至
wgs@atlas.ru邮件,直到12月26日至23:59。 我们将在12月28日发布正确答案和获奖者姓名。 获胜者将接受完整基因组测试,第二和第三名将接受Atlas基因测试。
Yandex.Cloud还将特别奖。 Atlas的前任和现任员工均不参加比赛;)