程序员基因组学导论

关于作者。 Andy Thomason是一位领先的Genomics PLC程序员。 从70年代开始,他从事图形系统,游戏和编译器的开发。 专业化-代码性能。

基因:简介


人类基因组由大约30亿个碱基对的DNA的两个副本组成,字母A,C,G和T用于编码,每个碱基对大约两个位:

3,000,000,000×2×2/8 = 1,500,000,000或大约1.5 GB的数据。

实际上,这些副本非常相似,所有人的DNA几乎相同:从华尔街商人到澳大利亚原住民。

有许多“参考基因组”,例如Ensembl Fasta文件 。 参考基因组有助于构建具有人类DNA中存在的特定特征的图谱,但并非特定人群所独有。

例如,我们可以确定编码BRCA2蛋白的基因的“位置”,该基因负责乳腺癌DNA的恢复: 该基因

它位于13号染色体上,从位置32315474到32400266。



遗传变异


人们是如此相似,通常只要存储一小组代表人的“变体”就足够了。

随着时间的流逝,宇宙射线和复制错误会损坏我们的DNA,因此父母传递给孩子的DNA与自己的DNA略有不同。

重组使基因混合得更多,因此孩子的DNA从每一位父母那里继承了祖父母这一方面的DNA混合物。

因此,对于我们DNA的每一次变化,仅保存与参考基因组的差异就足够了。 通常,它们保存在VCF(变体呼叫格式)文件中。

就像生物信息学中的几乎所有文件一样,它是TSV文件类型(带制表符分隔的文本格式)。

您可以从23,MeAncestry.com等公司获得自己的VCF文件:支付相对较少的钱,然后发送在DNA微芯片上测序的样品。 它突出显示了DNA与预期序列匹配的片段。

VCF规范中的一个简短示例:

  ## fileDate = 20090805
 ##来源= myImputationProgramV3.1
 ##参考= 1000GenomesPilot-NCBI36
 ##阶段=部分
 #CHROM POS ID参考ALT质量过滤器信息格式NA00001 NA00002 NA00003
 20 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0.5; DB; H2 GT:GQ:DP:HQ 0 | 0:48:1:51.51 1 | 0:48:8:51.51 1/1:43:5:。,。 

在这里,我们有三个人,名字分别为NA00001,NA00002和NA00003(我们非常重视遗传学世界中个人数据的安全性),他们在20号染色体14370的位置,从G到0|00|0 1|01|1某些差异A.

每个人有两个数字,因为我们每个人都有两个20号染色体的副本(每个父母都有一个副本;只有性染色体例外)。 我没有一个X染色体很幸运,因此我从祖父那里继承了我的色盲)。

以下选项是可能的:

  0 | 0两个染色体均对应于参考样品
 1 | 0和0 | 1仅一条染色体与标准染色体不同
 1 | 1两个染色体均与标准不同 

如果您可以找到该变体位于哪个特定染色体上,或者至少相对于其邻居而言位于哪个特定染色体上,则认为VCF文件是“分阶段的”。 实际上,很难说出染色体DNA的来源,所以您必须猜测!

因此,我们具有位向量001011 ,足以在此变化中对三个人进行分类。 这些是单个染色体的单倍型或变异。

GWAS研究


使用该位载体,我们可以尝试找出基因组的哪些部分影响疾病或其他个体特性,例如染发或生长。 对于每个变体,我们为测得的性状构建一个单倍型( 表型 )。

GWAS(全基因组关联研究)是变体遗传分析的基础。 它将变化与观测数据进行比较。

例如:

 单体型身高人
 0 1.5m NA00001
 0 1.5m
 1个1.75m NA00002
 0 1.75m
 1 1.95m NA00003
 1 1.95m 

注意每个都有两个单倍型,因为我们有成对的染色体。

在这里,我们看到选项1与更高的增长相关,并且值对应于线性回归:

  beta随着变化的变化而增长的变化。
标准错误错误指示器。 

实际上,数据中确实存在很多噪声,并且误差通常大于beta ,但是通常我们有几种选择,其中beta远远高于误差。 该比率( Z分数和与之相关的p值)显示了最有可能影响增长的选项。

进行回归的最简单方法是应用Moore-Penrose反转

我们用两个向量的标量积组成一个2×2协方差矩阵,并通过最小二乘法解决该问题。

我们拥有数万亿个数据点,因此有效地做到这一点很重要。

非平衡耦合的诅咒


由于我们从父母那里继承了基因组的大片段,因此DNA的某些区域看起来非常相似:它们比案例所指示的要相似得多。

这对我们有好处,因为基因继续像祖先一样工作,但对基因组学研究人员却不利。 这意味着差异不足以确定导致表型发生变化的变化。

非平衡链接 (LD)确定两个向量与变异的相似程度。

计算得出的值介于-1和1之间,其中

  -1完全相反的变化。
  0变化不相似。
  1变化完全相同。 

为了确定变异的相似性,我们为基因组中的特定位置创建了大型方形LD矩阵。 实际上,此地方周围的许多变体与中间变体几乎相同。

矩阵看起来像这样,具有相似度大的正方形。

  v0 v2 v4 v6 v8 va vc ve vg
       v1 v3 v5 v7 v9 vb vd vf
 v0 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 
 v1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v2 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v3 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
 v4 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v5 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
 v6 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v7 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
 v8 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 v9 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 va 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 vb 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 vc 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 vd 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 ve 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
 vf 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 vg 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 

实际值不是0或1,而是非常相似。

在v7和v8之间,发生了重组。 因此,v0..v7与v8..vg不同。

相似性的问题是,我们知道该组中的一个选项引起了某些问题,但我们不知道哪个。

这限制了我们的基因组显微镜的分辨率,必须使用其他方法(例如功能基因组学)来解决该问题。

结论


最后,永远无法百分百确定基因组的哪一部分引起了特定的个体特征,这就是遗传学的本质。 生物学并不是具有理想工厂制造零件的精确机器。 这是大量的事故,以某种方式创造了我们所谓的生活。 这就是为什么统计学或“机器学习”如此重要的原因,因为它现在很流行。

Source: https://habr.com/ru/post/zh-CN452622/


All Articles