Sobre el autor Andy Thomason es un programador l铆der de Genomics PLC . Desde los a帽os 70 se dedica a sistemas gr谩ficos, juegos y compiladores; especializaci贸n - rendimiento del c贸digo.Genes: una breve introducci贸n
El genoma humano consta de dos copias de aproximadamente 3 mil millones de pares de bases de ADN, las letras A, C, G y T se utilizan para la codificaci贸n. Estos son aproximadamente dos bits para cada par de bases:
3,000,000,000 脳 2 脳 2/8 = 1,500,000,000 o aproximadamente 1.5 GB de datos.
De hecho, estas copias son muy similares, y el ADN de todas las personas es casi el mismo: desde comerciantes de Wall Street hasta abor铆genes australianos.
Hay una serie de "genomas de referencia", como los
archivos Ensembl Fasta . Los genomas de referencia ayudan a construir un mapa con caracter铆sticas espec铆ficas que est谩n presentes en el ADN humano, pero que no son exclusivas de personas espec铆ficas.
Por ejemplo, podemos determinar la "ubicaci贸n" del gen que codifica la prote铆na BRCA2, que es responsable de la restauraci贸n del ADN en el c谩ncer de mama:
este gen .
Se encuentra en el cromosoma 13, comenzando desde la posici贸n 32315474 hasta 32400266.
Variaciones gen茅ticas
Las personas son tan similares que generalmente es suficiente almacenar un peque帽o conjunto de "variaciones" para representar a una persona.
Con el tiempo, nuestro ADN se da帽a por los rayos c贸smicos y los errores de copia, por lo que el ADN que los padres transmiten a sus hijos es ligeramente diferente del suyo.
La recombinaci贸n mezcla a煤n m谩s los genes, por lo que el ADN del ni帽o hereda de cada padre una mezcla del ADN de los abuelos de este lado.
Por lo tanto, por cada cambio en nuestro ADN, es suficiente para salvar solo las diferencias del genoma de referencia. Por lo general, se guardan en un archivo VCF (Formato de Llamada Variante).
Como casi todos los archivos en bioinform谩tica, este es un tipo de archivo TSV (formato de texto delimitado por tabulaciones).
Puede obtener su propio archivo VCF de compa帽铆as como
23 y Me and
Ancestry.com : pague relativamente poco dinero y env铆e una muestra secuenciada en un microchip de ADN. Destaca fragmentos donde el ADN coincide con las secuencias esperadas.
Un ejemplo abreviado de
las especificaciones VCF :
## fileDate = 20090805
## source = myImputationProgramV3.1
## reference = 1000GenomesPilot-NCBI36
## phasing = parcial
#CHROM POS ID REF ALT FILTRO CUAL FORMATO DE INFORMACI脫N NA00001 NA00002 NA00003
20 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0.5; DB; H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51.51 1 | 0: 48: 8: 51.51 1/1: 43: 5:.,.
Aqu铆 tenemos tres personas con los nombres NA00001, NA00002 y NA00003 (tomamos muy en serio la seguridad de los datos personales en el mundo de la gen茅tica), quienes, en la posici贸n 14370 del cromosoma 20, tienen ciertas diferencias
0|0
,
1|0
y
1|1
de G a A.
Hay dos n煤meros por persona, ya que todos tenemos dos copias del cromosoma 20 (uno de cada padre; la 煤nica excepci贸n son los cromosomas sexuales). No tengo suerte de tener solo un cromosoma X, as铆 que hered茅 el daltonismo de mi abuelo a trav茅s de mi madre).
Son posibles las siguientes opciones:
0 | 0 ambos cromosomas corresponden a la muestra de referencia
1 | 0 y 0 | 1 solo un cromosoma es diferente del est谩ndar
1 | 1 ambos cromosomas difieren del est谩ndar
Los archivos VCF se consideran "en fase" si puede averiguar en qu茅 cromosoma particular se encuentra la variante, o al menos d贸nde se encuentra en relaci贸n con sus vecinos. En la pr谩ctica, es dif铆cil decir de qu茅 ADN cromos贸mico proviene, 隆as铆 que tienes que adivinar!
Por lo tanto, tenemos el vector de bits
001011
, que es suficiente para clasificar a tres personas en esta variaci贸n. Estos son
haplotipos o variaciones de cromosomas individuales.
Investigaci贸n de GWAS
Usando este vector de bits, podemos tratar de descubrir qu茅 partes del genoma afectan enfermedades u otras propiedades individuales, como el color o el crecimiento del cabello. Para cada variante, construimos un haplotipo para los rasgos medidos (
fenotipo ).
GWAS (estudio de asociaci贸n amplia del genoma) es la base para el an谩lisis gen茅tico de variantes. Compara variaciones con datos observacionales.
Por ejemplo:
Haplotipo Altura Persona
0 1.5m NA00001
0 1.5m
1 1.75m NA00002
0 1.75m
1 1.95m NA00003
1 1.95m
Tenga en cuenta que cada uno tiene dos haplotipos, porque tenemos pares de cromosomas.
Aqu铆 vemos que las opciones 1 est谩n asociadas con un mayor crecimiento, y los valores corresponden a la regresi贸n lineal:
beta Cambio en el crecimiento con cambio en la variaci贸n.
error est谩ndar Indicador de error.
En la pr谩ctica, realmente hay mucho ruido en los datos, y el error suele ser mayor que
beta
, pero a menudo tenemos varias opciones donde
beta
mucho mayor que el error. Esta relaci贸n, el
puntaje Z y el
valor p asociado, muestra qu茅 opciones tienen m谩s probabilidades de afectar el crecimiento.
La forma m谩s f谩cil de realizar una regresi贸n es aplicar la
inversi贸n Moore - Penrose .
Compusimos una matriz de covarianza 2 脳 2 con el producto escalar de dos vectores, y resolvemos el problema por el m茅todo de m铆nimos cuadrados.
Tenemos billones de puntos de datos, por lo que es importante hacerlo de manera eficiente.
La maldici贸n del acoplamiento sin equilibrio
Dado que heredamos grandes fragmentos del genoma de nuestros padres, ciertas 谩reas del ADN se ven muy similares: son mucho m谩s similares de lo que dicta el caso.
Esto es bueno para nosotros, porque los genes contin煤an funcionando igual que sus antepasados, pero son malos para los investigadores de gen贸mica. Esto significa que las diferencias no son suficientes para determinar las variaciones que causaron el cambio del fenotipo.
El enlace de no equilibrio (LD) determina cu谩n similares son los dos vectores a las variaciones.
Calcula un valor entre -1 y 1, donde
-1 La variaci贸n opuesta exacta.
0 Las variaciones no son similares.
1 Las variaciones son exactamente las mismas.
Para determinar la similitud de las variaciones, creamos grandes matrices cuadradas de LD para lugares espec铆ficos en el genoma. En la pr谩ctica, muchas de las variaciones alrededor de este lugar son casi id茅nticas a la variante media.
La matriz se parece a esto, con grandes cuadrados de similitud.
v0 v2 v4 v6 v8 va vc ve vg
v1 v3 v5 v7 v9 vb vd vf
v0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v2 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v3 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v4 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v5 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v6 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v7 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v8 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
v9 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
va 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vb 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vc 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vd 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
ve 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vf 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vg 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
Los valores reales no son 0 o 1, pero son muy similares.
Entre v7 y v8, se produjo la recombinaci贸n. Debido a esto, v0..v7 es diferente de v8..vg.
El problema de la similitud es que sabemos que una de las opciones en el grupo caus贸 algo, pero no sabemos cu谩l.
Esto limita la resoluci贸n de nuestro
microscopio gen贸mico , y se necesitar谩n m茅todos adicionales, como la gen贸mica funcional, para resolver el problema.
Conclusi贸n
Al final, uno nunca puede estar 100% seguro de qu茅 parte particular del genoma caus贸 una caracter铆stica individual espec铆fica, esta es la esencia de la gen茅tica. La biolog铆a no es una m谩quina exacta con piezas ideales fabricadas en f谩brica. Esta es una masa hirviente de accidentes que de alguna manera crean lo que llamamos vida. Es por eso que las estad铆sticas, o "aprendizaje autom谩tico", como ahora est谩 de moda llamarlo, son tan importantes.