Sobre o autor Andy Thomason é um dos principais programadores de Genomics PLC . Desde os anos 70, ele se dedica a sistemas gráficos, jogos e compiladores; especialização - desempenho de código.Genes: Uma Breve Introdução
O genoma humano consiste em duas cópias de aproximadamente 3 bilhões de pares de bases de DNA, e as letras A, C, G e T. são usadas para codificação. São cerca de dois bits para cada par de bases:
3.000.000.000 × 2 × 2/8 = 1.500.000.000 ou cerca de 1,5 GB de dados.
De fato, essas cópias são muito parecidas e o DNA de todas as pessoas é quase o mesmo: dos comerciantes de Wall Street aos aborígines australianos.
Existem vários "genomas de referência", como os
arquivos do Ensembl Fasta . Os genomas de referência ajudam a construir um mapa com características específicas que estão presentes no DNA humano, mas não são exclusivas de pessoas específicas.
Por exemplo, podemos determinar a "localização" do gene que codifica a proteína BRCA2, responsável pela restauração do DNA no câncer de mama:
esse gene .
Ele está localizado no cromossomo 13, começando da posição 32315474 a 32400266.
Variações genéticas
As pessoas são tão parecidas que geralmente é suficiente armazenar um pequeno conjunto de "variações" para representar uma pessoa.
Com o tempo, nosso DNA é danificado por raios cósmicos e erros de cópia; portanto, o DNA que os pais transmitem aos filhos é um pouco diferente do deles.
A recombinação mistura os genes ainda mais, de modo que o DNA da criança herda de cada pai uma mistura de DNA dos avós desse lado.
Portanto, para cada mudança em nosso DNA, basta salvar apenas as diferenças do genoma de referência. Geralmente eles são salvos em um arquivo VCF (Variant Call Format).
Como quase todos os arquivos em bioinformática, é um tipo de arquivo TSV (formato de texto com separação de tabulação).
Você pode obter seu próprio arquivo VCF de empresas como
23 e Me e
Ancestry.com : pague relativamente pouco dinheiro e envie uma amostra que é sequenciada em um microchip de DNA. Ele destaca fragmentos onde o DNA corresponde às seqüências esperadas.
Um exemplo abreviado das
especificações do VCF :
## fileDate = 20090805
## source = myImputationProgramV3.1
## reference = 1000GenomesPilot-NCBI36
## phasing = parcial
#CHROM ID DA POSIÇÃO ALT QUAL FORMATO DE INFORMAÇÃO DO FILTRO NA00001 NA00002 NA00003
20 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0,5; DB; H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51,51 1 | 0: 48: 8: 51,51 1/1: 43: 5:.,.
Aqui temos três pessoas com os nomes NA00001, NA00002 e NA00003 (levamos muito a sério a segurança dos dados pessoais no mundo da genética), que, na posição 14370 do cromossomo 20, possuem certas diferenças de
0|0
,
1|0
e
1|1
de G para A.
Existem dois números por pessoa, já que todos temos duas cópias do cromossomo 20 (uma de cada progenitor; apenas os cromossomos sexuais são a exceção). Não tenho sorte de ter apenas um cromossomo X, então herdei o daltonismo do meu avô por meio da minha mãe).
As seguintes opções são possíveis:
0 | 0 ambos os cromossomos correspondem à amostra de referência
1 | 0 e 0 | 1 apenas um cromossomo é diferente do padrão
1 | 1, ambos os cromossomos diferem do padrão
Os arquivos VCF são considerados "faseados" se você descobrir em que cromossomo específico a variante está localizada ou, pelo menos, onde está localizada em relação aos seus vizinhos. Na prática, é difícil dizer de qual DNA cromossômico veio, então você precisa adivinhar!
Portanto, temos o vetor de bits
001011
, que é suficiente para classificar três pessoas nessa variação. Estes são
haplótipos ou variações de cromossomos individuais.
Pesquisa GWAS
Usando esse vetor de bits, podemos tentar descobrir quais partes do genoma afetam doenças ou outras propriedades individuais, como cor do cabelo ou crescimento. Para cada variante, construímos um haplótipo para as características medidas (
fenótipo ).
O GWAS (estudo de associação ampla do genoma) é a base para a análise genética de variantes. Ele compara variações com dados observacionais.
Por exemplo:
Pessoa de altura do haplótipo
0 1.5m NA00001
0 1.5m
1 1,75m NA00002
0 1.75m
1 1,95m NA00003
1 1,95m
Observe que cada um tem dois haplótipos, porque temos pares de cromossomos.
Aqui vemos que as opções 1 estão associadas a um crescimento maior e os valores correspondem à regressão linear:
beta Mudança no crescimento com mudança na variação.
erro padrão Indicador de erro.
Na prática, há realmente muito ruído nos dados, e o erro geralmente é maior que o
beta
, mas geralmente temos várias opções em que o
beta
muito maior que o erro. Essa proporção - o
escore Z e o
valor p associado a ele - mostra quais opções têm mais probabilidade de afetar o crescimento.
A maneira mais fácil de realizar uma regressão é aplicar a
inversão de Moore - Penrose .
Compomos uma matriz de covariância 2 × 2 com o produto escalar de dois vetores e resolvemos o problema pelo método dos mínimos quadrados.
Como temos trilhões de pontos de dados, é importante fazer isso com eficiência.
A maldição do acoplamento sem equilíbrio
Como herdamos grandes fragmentos do genoma de nossos pais, certas áreas do DNA parecem muito semelhantes: elas são muito mais parecidas com o que o caso exige.
Isso é bom para nós, porque os genes continuam funcionando exatamente como seus ancestrais, mas ruim para os pesquisadores de genômica. Isso significa que as diferenças não são suficientes para determinar as variações que causaram a alteração do fenótipo.
A ligação de não equilíbrio (LD) determina como dois vetores são semelhantes às variações.
Calcula um valor entre -1 e 1, em que
-1 A variação oposta exata.
0 Variações não são semelhantes.
1 As variações são exatamente iguais.
Para determinar a semelhança das variações, criamos matrizes LD quadradas grandes para locais específicos no genoma. Na prática, muitas das variações em torno deste local são quase idênticas à variante do meio.
A matriz se parece com isso, com grandes quadrados de semelhança.
v0 v2 v4 v6 v8 va vc ve vg
v1 v3 v5 v7 v9 vb vd vf
v0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v2 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v3 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v4 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v5 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v6 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v7 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v8 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
v9 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
va 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vb 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vc 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vd 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
ve 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vf 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vg 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
Os valores reais não são 0 ou 1, mas muito semelhantes.
Entre v7 e v8, ocorreu a recombinação. Por esse motivo, v0..v7 é diferente da v8..vg.
O problema da semelhança é que sabemos que uma das opções do grupo causou algo, mas não sabemos qual.
Isso limita a resolução do nosso
microscópio genômico , e métodos adicionais, como a genômica funcional, terão que ser usados para resolver o problema.
Conclusão
No final, nunca se pode ter 100% de certeza de que parte específica do genoma causou uma característica individual específica; essa é a essência da genética. A biologia não é uma máquina exata com peças ideais fabricadas na fábrica. Esta é uma massa fervente de acidentes que de alguma forma criam o que chamamos de vida. É por isso que a estatística, ou "aprendizado de máquina", como está na moda chamá-lo, é tão importante.