正确答案和获奖者公告

我们正在完成一系列有关如何使用基因测试数据的动手文章。 今天,我们发布了正确的答案和获奖者,他们比其他所有问题更快地解决了所有三个问题。



本系列中的所有文章:
什么是全基因组,为什么需要
任务编号1。 找出性别和关系程度。
任务编号2。 确定人口结构
任务编号3。 数据转换并上传到第三方服务

为了完成测试任务,我们使用了1000个基因组项目开放数据中的12个样本。 我们对样本进行了重命名,以使参与者无法将可用数据用于答案。


原始标识符和在任务中使用的标识符的对应表。


任务编号1.找出性别和关系程度


图1显示了所用样品的血统书。这些决策被认为是正确的,其中确定了3个家族和3个与遗传无关的样品-0030,0090和0066。 如果没有孩子的样本,则无法通过此分析确定他们与家庭的关系。 溶液中必须存在所有12个样品。 还考虑了家谱设计(图2)。 我们在第一个任务中写了有关设计规则的文章。



图1 根据1000个基因组的数据,测试数据集样本的家族关系。 家谱文件在这里




图2 右边是一个有一个孩子的家庭的不正确显示:描绘了两次婚姻,没有家庭关系。


任务编号2。 确定人口结构


在任务的数据集中,我们使用了两个超级种群的样本。 图3和4显示了12个样本沿三个主要成分的位置的可视化。在散点图中,可以看到四个聚类的形成。 但是,它们并不完全与最初的人口数据相对应:图5,两个人口。 我们在文章中解释了如此明显和矛盾的样品分离的原因。 此外,所有显示出意外簇分裂的样品均属于AMR超人群-Ad Mixed American。 混合性和异质性在广告混合人群中是固有的,并且可以在观察到的聚类中体现出来。


图3 前三个主要部分成对分布的测试数据集样本位置的散点图。



图4 测试数据集样本的三个主要成分的散点图。



图5 根据“ 1000个基因组”,在测试数据集中使用的样品的总体和血统。 家谱文件在这里

图6显示了从cluster3文件构建的集群树。 该树可以手动构建,也可以使用任何类型的自动化构建,但必须与使用Plink进行的聚类相对应。 不接受不符合结构且参与者使用其他PCA数据包的树。 它们没有反映出Plink找到的解决方案;因此,它们不适合确认获得的Plink簇。


图6 用于12个样本的测试数据集的二进制聚类树。


任务编号3。 数据转换并上传到第三方服务


在这项任务中,我们要求参与者准备基因测试数据以加载到Promethease解释系统中并分析结果。 要检查答案,有必要收集一张表格,其中包含测试数据集样本的标识符,其血型和Rh因子。



一个表格,其中包含测试数据集样本的标识符以及Promethease解释系统的检测到的血型和Rh因子。


优胜者


我们写道,我们将向那些比其他人更快解决问题的人赠送礼物。 因此,我们不仅考虑了答案的正确性,还考虑了从发布任务到收到答案的时间。 总结了完成这三个任务的时间,因此我们选择了三个最快的获胜者。


包含所有参与者结果的表格。

邮件域为ab12ab的成员,我们无法与您联系。 请在周一之前以私人讯息写信给文章作者。 否则,我们将把奖品赠送给名单上的下一位参与者。

优胜者已经收到了获奖信。 剩下的,我们还有一份小礼物。 直到新年, Atlas网站的折扣高达50%。

Source: https://habr.com/ru/post/zh-CN482246/


All Articles