À propos de l'auteur. Andy Thomason est l'un des principaux programmeurs de PLC Genomics . Depuis les années 70, il s'est engagé dans les systèmes graphiques, les jeux et les compilateurs; spécialisation - performance du code.Les gènes: une brève introduction
Le génome humain se compose de deux copies d'environ 3 milliards de paires de bases d'ADN, les lettres A, C, G et T sont utilisées pour le codage, soit environ deux bits pour chaque paire de bases:
3 000 000 000 × 2 × 2/8 = 1 500 000 000 ou environ 1,5 Go de données.
En fait, ces copies sont très similaires et l'ADN de toutes les personnes est presque le même: des commerçants de Wall Street aux aborigènes d'Australie.
Il existe un certain nombre de «génomes de référence», tels que les
fichiers Ensembl Fasta . Les génomes de référence aident à construire une carte avec des caractéristiques spécifiques qui sont présentes dans l'ADN humain, mais ne sont pas uniques à des personnes spécifiques.
Par exemple, nous pouvons déterminer la «localisation» du gène qui code pour la protéine BRCA2, qui est responsable de la restauration de l'ADN dans le cancer du sein:
ce gène .
Il est situé sur le chromosome 13, à partir de la position 32315474 jusqu'à 32400266.
Variations génétiques
Les gens sont tellement semblables qu'il suffit généralement de stocker un petit ensemble de «variations» pour représenter une personne.
Au fil du temps, notre ADN est endommagé par les rayons cosmiques et les erreurs de copie, de sorte que l'ADN que les parents transmettent à leurs enfants est légèrement différent du leur.
La recombinaison mélange encore plus les gènes, de sorte que l'ADN de l'enfant hérite de chaque parent un mélange d'ADN des grands-parents de ce côté.
Par conséquent, pour chaque modification de notre ADN, il suffit de ne conserver que les différences par rapport au génome de référence. Ils sont généralement enregistrés dans un fichier VCF (Variant Call Format).
Comme presque tous les fichiers en bioinformatique, il s'agit d'un type de fichier TSV (format texte avec séparation des tabulations).
Vous pouvez obtenir votre propre fichier VCF auprès d'entreprises comme
23 and Me et
Ancestry.com : payez relativement peu d'argent et envoyez un échantillon qui est séquencé sur une puce à ADN. Il met en évidence des fragments où l'ADN correspond aux séquences attendues.
Un exemple abrégé des
spécifications VCF :
## fileDate = 20090805
## source = myImputationProgramV3.1
## reference = 1000GenomesPilot-NCBI36
## phasing = partiel
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
20 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0,5; DB; H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51,51 1 | 0: 48: 8: 51,51 1/1: 43: 5:.,.
Ici, nous avons trois personnes avec les noms NA00001, NA00002 et NA00003 (nous sommes très sérieux au sujet de la sécurité des données personnelles dans le monde génétique), qui, à la position 14370 du chromosome 20, ont certaines différences
0|0
,
1|0
et
1|1
de G à A.
Il y a deux nombres par personne, car nous avons tous deux copies du chromosome 20 (une de chaque parent; seuls les chromosomes sexuels sont l'exception). Je n'ai pas de chance de n'avoir qu'un seul chromosome X, j'ai donc hérité du daltonisme de mon grand-père par le biais de ma mère).
Les options suivantes sont possibles:
0 | 0 les deux chromosomes correspondent à l'échantillon de référence
1 | 0 et 0 | 1 un seul chromosome est différent du standard
1 | 1 les deux chromosomes diffèrent de la norme
Les fichiers VCF sont considérés comme «phasés» si vous pouvez découvrir sur quel chromosome particulier la variante est située, ou au moins où elle se trouve par rapport à ses voisins. En pratique, il est difficile de dire de quel ADN chromosomique provient, vous devez donc deviner!
Ainsi, nous avons le vecteur de bits
001011
, qui suffit pour classer trois personnes dans cette variation. Ce sont des
haplotypes ou des variations de chromosomes individuels.
Recherche GWAS
En utilisant ce vecteur de bits, nous pouvons essayer de découvrir quelles parties du génome affectent les maladies ou d'autres propriétés individuelles, telles que la couleur ou la croissance des cheveux. Pour chaque variante, nous construisons un haplotype pour les traits mesurés (
phénotype ).
GWAS (Genome Wide Association Study) est la base de l'analyse génétique des variantes. Il compare les variations avec les données d'observation.
Par exemple:
Haplotype Hauteur Personne
0 1,5 m NA00001
0 1,5 m
1 1,75 m NA00002
0 1,75 m
1 1,95 m NA00003
1 1,95 m
Notez que chacun a deux haplotypes, car nous avons des paires de chromosomes.
Ici, nous voyons que les options 1 sont associées à une croissance plus élevée, et les valeurs correspondent à une régression linéaire:
beta Changement de croissance avec changement de variation.
erreur standard Indicateur d'erreur.
En pratique, il y a vraiment beaucoup de bruit dans les données, et l'erreur est généralement supérieure à la
beta
, mais nous avons souvent plusieurs options où la
beta
beaucoup plus élevée que l'erreur. Ce rapport - le
score Z et la
valeur p qui lui est associée - montre quelles options sont les plus susceptibles d'affecter la croissance.
La manière la plus simple d'effectuer une régression consiste à appliquer l'
inversion de Moore - Penrose .
Nous composons une matrice de covariance 2 × 2 avec le produit scalaire de deux vecteurs, et nous résolvons le problème par la méthode des moindres carrés.
Nous avons des milliards de points de données, il est donc important de le faire efficacement.
La malédiction du couplage hors équilibre
Puisque nous héritons de grands fragments du génome de nos parents, certaines zones de l'ADN sont très similaires: elles sont beaucoup plus similaires que ce que le cas dicte.
C'est bon pour nous, car les gènes continuent de fonctionner comme leurs ancêtres, mais mauvais pour les chercheurs en génomique. Cela signifie que les différences ne sont pas suffisantes pour déterminer les variations qui ont provoqué la modification du phénotype.
La liaison hors équilibre (LD) détermine la similitude de deux vecteurs avec les variations.
Il calcule une valeur entre -1 et 1, où
-1 La variation opposée exacte.
0 Les variations ne sont pas similaires.
1 Les variations sont exactement les mêmes.
Pour déterminer la similitude des variations, nous créons de grandes matrices LD carrées pour des endroits spécifiques dans le génome. En pratique, de nombreuses variations autour de cet endroit sont presque identiques à la variante du milieu.
La matrice ressemble à ceci, avec de grands carrés de similitude.
v0 v2 v4 v6 v8 va vc ve vg
v1 v3 v5 v7 v9 vb vd vf
v0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v2 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v3 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v4 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v5 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v6 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v7 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v8 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
v9 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
va 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vb 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vc 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vd 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
ve 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vf 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vg 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
Les valeurs réelles ne sont ni 0 ni 1, mais très similaires.
Entre v7 et v8, une recombinaison s'est produite. Pour cette raison, v0..v7 est différent de v8..vg.
Le problème de la similitude est que nous savons que l'une des options du groupe a causé quelque chose, mais nous ne savons pas laquelle.
Cela limite la résolution de notre
microscope génomique et des méthodes supplémentaires, telles que la génomique fonctionnelle, devront être utilisées pour résoudre le problème.
Conclusion
En fin de compte, on ne peut jamais être sûr à 100% quelle partie particulière du génome a causé une caractéristique individuelle spécifique, c'est l'essence de la génétique. La biologie n'est pas une machine exacte avec des pièces préfabriquées idéales. Il s'agit d'une masse bouillonnante d'accidents qui créent en quelque sorte ce que nous appelons la vie. C'est pourquoi les statistiques, ou «machine learning», comme il est désormais à la mode de l'appeler, sont si importantes.