Über den Autor. Andy Thomason ist ein führender Genomics PLC- Programmierer. Seit den 70er Jahren beschäftigt er sich mit Grafiksystemen, Spielen und Compilern. Spezialisierung - Codeleistung.Gene: Eine kurze Einführung
Das menschliche Genom besteht aus zwei Kopien von ungefähr 3 Milliarden Basenpaaren DNA. Die Buchstaben A, C, G und T werden zur Codierung verwendet. Dies sind ungefähr zwei Bits für jedes Basenpaar:
3.000.000.000 × 2 × 2/8 = 1.500.000.000 oder etwa 1,5 GB Daten.
Tatsächlich sind diese Kopien sehr ähnlich und die DNA aller Menschen ist fast dieselbe: von Wall Street-Händlern bis zu australischen Aborigines.
Es gibt eine Reihe von „Referenzgenomen“, z. B.
Ensembl Fasta-Dateien . Referenzgenome helfen beim Erstellen einer Karte mit spezifischen Merkmalen, die in der menschlichen DNA vorhanden sind, aber nicht nur für bestimmte Personen gelten.
Zum Beispiel können wir den "Ort" des Gens bestimmen, das das BRCA2-Protein codiert, das für die Wiederherstellung der DNA bei Brustkrebs verantwortlich ist:
dieses Gen.Es befindet sich auf Chromosom 13, beginnend von Position 32315474 bis 32400266.
Genetische Variationen
Die Menschen sind sich so ähnlich, dass es normalerweise ausreicht, eine kleine Reihe von „Variationen“ zu speichern, um eine Person darzustellen.
Im Laufe der Zeit wird unsere DNA durch kosmische Strahlung und Kopierfehler beschädigt, sodass sich die DNA, die Eltern an ihre Kinder weitergeben, geringfügig von ihrer eigenen unterscheidet.
Durch die Rekombination werden die Gene noch mehr
gemischt , sodass die DNA des Kindes von jedem Elternteil eine DNA-Mischung von Großeltern auf dieser Seite erbt.
Daher reicht es für jede Änderung unserer DNA aus, nur die Unterschiede zum Referenzgenom zu speichern. Normalerweise werden sie in einer VCF-Datei (Variant Call Format) gespeichert.
Wie fast alle Dateien in der Bioinformatik handelt es sich um einen TSV-Dateityp (Textformat mit Tabulatortrennung).
Sie können Ihre eigene VCF-Datei von Unternehmen wie
23 und Me and
Ancestry.com erhalten : Zahlen Sie relativ wenig Geld und senden Sie eine Probe, die auf einem DNA-Mikrochip sequenziert ist. Es hebt Fragmente hervor, bei denen die DNA mit den erwarteten Sequenzen übereinstimmt.
Ein verkürztes Beispiel aus
den VCF-Spezifikationen :
## fileDate = 20090805
## source = myImputationProgramV3.1
## reference = 1000GenomesPilot-NCBI36
## phasing = teilweise
# CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
20 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0,5; DB; H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51,51 1 | 0: 48: 8: 51,51 1/1: 43: 5:.,.
Hier haben wir drei Personen mit den Namen NA00001, NA00002 und NA00003 (wir nehmen die Sicherheit personenbezogener Daten in der Genetik sehr ernst), die an Position 14370 von Chromosom 20 bestimmte Unterschiede
0|0
,
1|0
und
1|1
von G bis aufweisen A. A.
Es gibt zwei Zahlen pro Person, da wir alle zwei Kopien von Chromosom 20 haben (eine von jedem Elternteil; nur Geschlechtschromosomen sind die Ausnahme). Ich habe kein Glück, dass ich nur ein X-Chromosom habe, also habe ich Farbenblindheit von meinem Großvater durch meine Mutter geerbt.
Folgende Optionen sind möglich:
0 | 0 beide Chromosomen entsprechen der Referenzprobe
1 | 0 und 0 | 1 unterscheidet sich nur ein Chromosom vom Standard
1 | 1 beide Chromosomen unterscheiden sich vom Standard
VCF-Dateien gelten als "phasengesteuert", wenn Sie herausfinden können, auf welchem bestimmten Chromosom sich die Variante befindet oder zumindest wo sie sich relativ zu ihren Nachbarn befindet. In der Praxis ist es schwer zu sagen, von welcher Chromosomen-DNA sie stammt. Sie müssen also raten!
Wir haben also den Bitvektor
001011
, der ausreicht, um drei Personen in dieser Variation zu klassifizieren. Dies sind
Haplotypen oder Variationen einzelner Chromosomen.
GWAS-Forschung
Mit diesem Bitvektor können wir versuchen herauszufinden, welche Teile des Genoms Krankheiten oder andere individuelle Eigenschaften wie Haarfarbe oder Wachstum beeinflussen. Für jede Variante konstruieren wir einen Haplotyp für die gemessenen Merkmale (
Phänotyp ).
GWAS (Genomweite Assoziationsstudie) ist die Grundlage für die genetische Analyse von Varianten. Es vergleicht Variationen mit Beobachtungsdaten.
Zum Beispiel:
Haplotype Größe Person
0 1,5 m NA00001
0 1,5 m
1 1,75 m NA00002
0 1,75 m
1 1,95 m NA00003
1 1,95 m
Beachten Sie, dass jeder zwei Haplotypen hat, da wir Chromosomenpaare haben.
Hier sehen wir, dass Optionen 1 mit einem höheren Wachstum verbunden sind und die Werte einer linearen Regression entsprechen:
Beta Veränderung des Wachstums mit Veränderung der Variation.
Standardfehler Fehleranzeige.
In der Praxis gibt es wirklich viel Rauschen in den Daten, und der Fehler ist normalerweise größer als
beta
, aber oft haben wir mehrere Optionen, bei denen
beta
viel höher als der Fehler ist. Dieses Verhältnis - der
Z-Score und der damit verbundene
p-Wert - zeigt, welche Optionen das Wachstum am wahrscheinlichsten beeinflussen.
Der einfachste Weg, eine Regression durchzuführen, ist die Anwendung der
Moore-Penrose-Inversion .
Wir setzen eine 2 × 2-Kovarianzmatrix mit dem Skalarprodukt zweier Vektoren zusammen und lösen das Problem mit der Methode der kleinsten Quadrate.
Wir haben Billionen von Datenpunkten, daher ist es wichtig, dies effizient zu tun.
Der Fluch der Nichtgleichgewichtskopplung
Da wir große Fragmente des Genoms von unseren Eltern erben, sehen bestimmte Bereiche der DNA sehr ähnlich aus: Sie sind viel ähnlicher als es der Fall vorschreibt.
Das ist gut für uns, weil Gene weiterhin genauso funktionieren wie ihre Vorfahren, aber schlecht für Genomforscher. Dies bedeutet, dass die Unterschiede nicht ausreichen, um die Variationen zu bestimmen, die zu einer Änderung des Phänotyps geführt haben.
Die Nichtgleichgewichtsverknüpfung (LD) bestimmt, wie ähnlich zwei Vektoren Variationen sind.
Es berechnet einen Wert zwischen -1 und 1, wobei
-1 Die genau entgegengesetzte Variation.
0 Variationen sind nicht ähnlich.
1 Variationen sind genau gleich.
Um die Ähnlichkeit von Variationen zu bestimmen, erstellen wir große quadratische LD-Matrizen für bestimmte Stellen im Genom. In der Praxis sind viele der Variationen um diesen Ort fast identisch mit der mittleren Variante.
Die Matrix sieht ungefähr so aus, mit großen Ähnlichkeitsquadraten.
v0 v2 v4 v6 v8 va vc ve vg
v1 v3 v5 v7 v9 vb vd vf
v0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v2 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v3 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v4 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v5 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v6 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0
v7 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
v8 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
v9 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
va 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vb 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vc 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vd 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
ve 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vf 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
vg 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
Die tatsächlichen Werte sind nicht 0 oder 1, aber sehr ähnlich.
Zwischen v7 und v8 trat eine Rekombination auf. Aus diesem Grund unterscheidet sich v0..v7 von v8..vg.
Das Problem der Ähnlichkeit besteht darin, dass wir wissen, dass eine der Optionen in der Gruppe etwas verursacht hat, aber wir wissen nicht, welche.
Dies schränkt die Auflösung unseres
Genommikroskops ein , und zusätzliche Methoden wie die funktionelle Genomik müssen verwendet werden, um das Problem zu lösen.
Fazit
Am Ende kann man nie 100% sicher sein, welcher bestimmte Teil des Genoms ein bestimmtes individuelles Merkmal verursacht hat, dies ist die Essenz der Genetik. Die Biologie ist keine exakte Maschine mit idealen Werksteilen. Dies ist eine kochende Masse von Unfällen, die irgendwie das schaffen, was wir Leben nennen. Deshalb ist Statistik oder „maschinelles Lernen“, wie es heute in Mode ist, so wichtig.