Pengantar Genomik untuk Programer

Tentang penulis. Andy Thomason adalah seorang programmer Genomics PLC terkemuka. Sejak tahun 70-an ia telah terlibat dalam sistem grafis, game, dan kompiler; spesialisasi - kinerja kode.

Gen: Pendahuluan Singkat


Genom manusia terdiri dari dua salinan sekitar 3 miliar pasangan basa DNA, huruf A, C, G dan T digunakan untuk pengkodean. Ini adalah sekitar dua bit untuk setiap pasangan basa:

3.000.000.000 × 2 × 2/8 = 1.500.000.000 atau sekitar 1,5 GB data.

Bahkan, salinan-salinan ini sangat mirip, dan DNA semua orang hampir sama: dari para pedagang Wall Street hingga Aborigin Australia.

Ada sejumlah "genom referensi," seperti file Ensembl Fasta . Genom referensi membantu membangun peta dengan karakteristik spesifik yang ada dalam DNA manusia, tetapi tidak unik untuk orang-orang tertentu.

Sebagai contoh, kita dapat menentukan "lokasi" gen yang mengkode protein BRCA2, yang bertanggung jawab untuk pemulihan DNA pada kanker payudara: gen ini .

Itu terletak pada kromosom 13, mulai dari posisi 32315474 hingga 32400266.



Variasi genetik


Orang-orang sangat mirip sehingga biasanya cukup untuk menyimpan satu set kecil "variasi" untuk mewakili seseorang.

Seiring waktu, DNA kita dirusak oleh sinar kosmik dan kesalahan penyalinan, sehingga DNA yang ditularkan orang tua kepada anak-anak mereka sedikit berbeda dari mereka.

Rekombinasi mencampurkan gen lebih banyak lagi, sehingga DNA anak mewarisi dari setiap orangtua campuran DNA dari kakek-nenek di sisi ini.

Oleh karena itu, untuk setiap perubahan dalam DNA kami, cukup hanya menyimpan perbedaan dari genom referensi. Biasanya mereka disimpan dalam file VCF (Format Panggilan Variant).

Seperti hampir semua file dalam bioinformatika, ini adalah tipe file TSV (format teks dibatasi-tab).

Anda bisa mendapatkan file VCF Anda sendiri dari perusahaan seperti 23 dan Me and Ancestry.com : membayar uang yang relatif sedikit dan mengirim sampel yang diurutkan pada microchip DNA. Ini menyoroti fragmen di mana DNA cocok dengan urutan yang diharapkan.

Contoh singkat dari spesifikasi VCF :

  ## fileDate = 20090805
 ## source = myImputationProgramV3.1
 Referensi ## = 1000GenomesPilot-NCBI36
 ## pentahapan = parsial
 #CHROM POS ID REF ALT INFO KUALITAS FILTER FORMAT NA00001 NA00002 NA00003
 20 14370 rs6054257 GA 29 LULUS NS = 3; DP = 14; AF = 0,5; DB; H2 GT: GQ: DP: HQ 0 | 0: 0: 48: 1: 51.51 1 | 0: 48: 8: 51.51 1/1: 43: 5:.,. 

Di sini kita memiliki tiga orang dengan nama NA00001, NA00002 dan NA00003 (kami sangat serius tentang keamanan data pribadi di dunia genetika), yang, pada posisi 14370 dari kromosom 20, memiliki perbedaan tertentu 0|0 , 1|0 dan 1|1 dari G ke A.

Ada dua angka per orang, karena kita semua memiliki dua salinan kromosom 20 (satu dari setiap orang tua; hanya kromosom seks yang menjadi pengecualian). Saya tidak beruntung bahwa saya hanya memiliki satu kromosom X, jadi saya mewarisi kebutaan warna dari kakek saya melalui ibu saya).

Opsi berikut dimungkinkan:

  0 | 0 kedua kromosom sesuai dengan sampel referensi
 1 | 0 dan 0 | 1 hanya satu kromosom yang berbeda dari standar
 1 | 1 kedua kromosom berbeda dari standar 

File VCF dianggap "bertahap" jika Anda dapat menemukan kromosom tertentu yang merupakan varian, atau setidaknya di mana ia berada relatif terhadap tetangganya. Dalam praktiknya, sulit untuk mengatakan dari mana DNA kromosom berasal, jadi Anda harus menebak!

Jadi, kami memiliki bit vector 001011 , yang cukup untuk mengklasifikasikan tiga orang dalam variasi ini. Ini adalah haplotip atau variasi kromosom individu.

Penelitian GWAS


Dengan menggunakan bit vektor ini, kita dapat mencoba mencari tahu bagian genom mana yang mempengaruhi penyakit atau sifat individu lainnya, seperti warna rambut atau pertumbuhan. Untuk setiap varian, kami membuat haplotype untuk sifat yang diukur ( fenotip ).

GWAS (studi asosiasi luas Genome) adalah dasar untuk analisis genetik varian. Ini membandingkan variasi dengan data pengamatan.

Sebagai contoh:

  Orang Tinggi Haplotype
 0 1,5 m NA00001
 0 1,5 m
 1 1,75 m NA00002
 0 1,75 m
 1 1,95 m NA00003
 1 1,95 m 

Perhatikan bahwa masing-masing memiliki dua haplotipe, karena kita memiliki pasangan kromosom.

Di sini kita melihat bahwa opsi 1 dikaitkan dengan pertumbuhan yang lebih tinggi, dan nilainya sesuai dengan regresi linier:

  beta Perubahan pertumbuhan dengan perubahan variasi.
 standard error Indikator kesalahan. 

Dalam praktiknya, sebenarnya ada banyak noise dalam data, dan kesalahan biasanya lebih besar dari beta , tetapi seringkali kami memiliki beberapa opsi di mana beta jauh lebih tinggi daripada kesalahan. Rasio ini - skor-Z dan nilai -p yang terkait dengannya - menunjukkan opsi mana yang paling mungkin mempengaruhi pertumbuhan.

Cara termudah untuk melakukan regresi adalah dengan menerapkan inversi Moore - Penrose .

Kami menyusun matriks kovarian 2 × 2 dengan produk skalar dari dua vektor, dan kami memecahkan masalah dengan metode kuadrat terkecil.

Kami memiliki triliunan poin data, jadi penting untuk melakukan ini secara efisien.

Kutukan Coupling Nonequilibrium


Karena kita mewarisi fragmen besar genom dari orang tua kita, area DNA tertentu terlihat sangat mirip: mereka jauh lebih mirip daripada yang didikte oleh kasus ini.

Ini bagus untuk kita, karena gen terus bekerja seperti leluhur mereka, tetapi buruk bagi para peneliti genomik. Ini berarti bahwa perbedaan tidak cukup untuk menentukan variasi yang menyebabkan fenotipe berubah.

Non-equilibrium linkage (LD) menentukan seberapa mirip dua vektor dengan variasi.

Ini menghitung nilai antara -1 dan 1, di mana

  -1 Variasi sebaliknya yang tepat.
  0 Variasi tidak sama.
  1 Variasi sama persis. 

Untuk menentukan kesamaan variasi, kami membuat matriks LD persegi besar untuk tempat-tempat tertentu dalam genom. Dalam praktiknya, banyak variasi di sekitar tempat ini hampir identik dengan varian menengah.

Matriksnya terlihat seperti ini, dengan kotak besar kesamaan.

  v0 v2 v4 v6 v8 va vc ve vg
       v1 v3 v5 v7 v9 vb vd vf
 v0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 
 v1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v2 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v3 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v4 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v5 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v6 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v7 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v8 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
 v9 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
 va 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
 vb 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
 vc 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
 vd 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
 ve 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
 vf 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
 vg 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 

Nilai aktual bukan 0 atau 1, tetapi sangat mirip.

Antara v7 dan v8, rekombinasi terjadi. Karena itu, v0..v7 berbeda dari v8..vg.

Masalah kesamaannya adalah kita tahu bahwa salah satu opsi dalam grup menyebabkan sesuatu, tetapi kita tidak tahu yang mana.

Ini membatasi resolusi mikroskop genom kita, dan metode tambahan, seperti genomik fungsional, harus digunakan untuk menyelesaikan masalah.

Kesimpulan


Pada akhirnya, seseorang tidak akan pernah dapat 100% yakin bagian genom mana yang menyebabkan fitur individu tertentu, ini adalah inti dari genetika. Biologi bukanlah mesin yang tepat dengan suku cadang buatan pabrik yang ideal. Ini adalah massa kecelakaan yang mendidih yang entah bagaimana menciptakan apa yang kita sebut kehidupan. Itulah mengapa statistik, atau "pembelajaran mesin," seperti yang sekarang fashionable menyebutnya, sangat penting.

Source: https://habr.com/ru/post/id452622/


All Articles