关于作者。 Andy Thomason是一位领先的Genomics PLC程序员。 从70年代开始,他从事图形系统,游戏和编译器的开发。 专业化-代码性能。基因:简介
人类基因组由大约30亿个碱基对的DNA的两个副本组成,字母A,C,G和T用于编码,每个碱基对大约两个位:
3,000,000,000×2×2/8 = 1,500,000,000或大约1.5 GB的数据。
实际上,这些副本非常相似,所有人的DNA几乎相同:从华尔街商人到澳大利亚原住民。
有许多“参考基因组”,例如
Ensembl Fasta文件 。 参考基因组有助于构建具有人类DNA中存在的特定特征的图谱,但并非特定人群所独有。
例如,我们可以确定编码BRCA2蛋白的基因的“位置”,该基因负责乳腺癌DNA的恢复:
该基因 。
它位于13号染色体上,从位置32315474到32400266。
遗传变异
人们是如此相似,通常只要存储一小组代表人的“变体”就足够了。
随着时间的流逝,宇宙射线和复制错误会损坏我们的DNA,因此父母传递给孩子的DNA与自己的DNA略有不同。
重组使基因混合得更多,因此孩子的DNA从每一位父母那里继承了祖父母这一方面的DNA混合物。
因此,对于我们DNA的每一次变化,仅保存与参考基因组的差异就足够了。 通常,它们保存在VCF(变体呼叫格式)文件中。
就像生物信息学中的几乎所有文件一样,它是TSV文件类型(带制表符分隔的文本格式)。
您可以从
23,Me和
Ancestry.com等公司获得自己的VCF文件:支付相对较少的钱,然后发送在DNA微芯片上测序的样品。 它突出显示了DNA与预期序列匹配的片段。
VCF规范中的一个简短示例:
## fileDate = 20090805
##来源= myImputationProgramV3.1
##参考= 1000GenomesPilot-NCBI36
##阶段=部分
#CHROM POS ID参考ALT质量过滤器信息格式NA00001 NA00002 NA00003
20 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0.5; DB; H2 GT:GQ:DP:HQ 0 | 0:48:1:51.51 1 | 0:48:8:51.51 1/1:43:5:。,。
在这里,我们有三个人,名字分别为NA00001,NA00002和NA00003(我们非常重视遗传学世界中个人数据的安全性),他们在20号染色体14370的位置,从G到
0|0
有
0|0
1|0
和
1|1
某些差异A.
每个人有两个数字,因为我们每个人都有两个20号染色体的副本(每个父母都有一个副本;只有性染色体例外)。 我没有一个X染色体很幸运,因此我从祖父那里继承了我的色盲)。
以下选项是可能的:
0 | 0两个染色体均对应于参考样品
1 | 0和0 | 1仅一条染色体与标准染色体不同
1 | 1两个染色体均与标准不同
如果您可以找到该变体位于哪个特定染色体上,或者至少相对于其邻居而言位于哪个特定染色体上,则认为VCF文件是“分阶段的”。 实际上,很难说出染色体DNA的来源,所以您必须猜测!
因此,我们具有位向量
001011
,足以在此变化中对三个人进行分类。 这些是单个染色体的
单倍型或变异。
GWAS研究
使用该位载体,我们可以尝试找出基因组的哪些部分影响疾病或其他个体特性,例如染发或生长。 对于每个变体,我们为测得的性状构建一个单倍型(
表型 )。
GWAS(全基因组关联研究)是变体遗传分析的基础。 它将变化与观测数据进行比较。
例如:
单体型身高人
0 1.5m NA00001
0 1.5m
1个1.75m NA00002
0 1.75m
1 1.95m NA00003
1 1.95m
注意每个都有两个单倍型,因为我们有成对的染色体。
在这里,我们看到选项1与更高的增长相关,并且值对应于线性回归:
beta随着变化的变化而增长的变化。
标准错误错误指示器。
实际上,数据中确实存在很多噪声,并且误差通常大于
beta
,但是通常我们有几种选择,其中
beta
远远高于误差。 该比率(
Z分数和与之相关的
p值)显示了最有可能影响增长的选项。
进行回归的最简单方法是应用
Moore-Penrose反转 。
我们用两个向量的标量积组成一个2×2协方差矩阵,并通过最小二乘法解决该问题。
我们拥有数万亿个数据点,因此有效地做到这一点很重要。
非平衡耦合的诅咒
由于我们从父母那里继承了基因组的大片段,因此DNA的某些区域看起来非常相似:它们比案例所指示的要相似得多。
这对我们有好处,因为基因继续像祖先一样工作,但对基因组学研究人员却不利。 这意味着差异不足以确定导致表型发生变化的变化。
非平衡链接 (LD)确定两个向量与变异的相似程度。
计算得出的值介于-1和1之间,其中
-1完全相反的变化。
0变化不相似。
1变化完全相同。
为了确定变异的相似性,我们为基因组中的特定位置创建了大型方形LD矩阵。 实际上,此地方周围的许多变体与中间变体几乎相同。
矩阵看起来像这样,具有相似度大的正方形。
v0 v2 v4 v6 v8 va vc ve vg
v1 v3 v5 v7 v9 vb vd vf
v0 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v2 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v3 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v4 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v5 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v6 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v7 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v8 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
v9 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
va 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vb 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vc 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vd 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
ve 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vf 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vg 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
实际值不是0或1,而是非常相似。
在v7和v8之间,发生了重组。 因此,v0..v7与v8..vg不同。
相似性的问题是,我们知道该组中的一个选项引起了某些问题,但我们不知道哪个。
这限制了我们的
基因组显微镜的分辨率,必须使用其他方法(例如功能基因组学)来解决该问题。
结论
最后,永远无法百分百确定基因组的哪一部分引起了特定的个体特征,这就是遗传学的本质。 生物学并不是具有理想工厂制造零件的精确机器。 这是大量的事故,以某种方式创造了我们所谓的生活。 这就是为什么统计学或“机器学习”如此重要的原因,因为它现在很流行。