लेखक के बारे में। एंडी थॉमसन एक प्रमुख जीनोमिक्स पीएलसी प्रोग्रामर है। 70 के दशक से वह ग्राफिक सिस्टम, गेम और कंपाइलर में लगे हुए हैं; विशेषज्ञता - कोड प्रदर्शन।जीन: एक संक्षिप्त परिचय
मानव जीनोम में डीएनए की लगभग 3 बिलियन बेस जोड़े की दो प्रतियां होती हैं, अक्षर A, C, G और T कोडिंग के लिए हैं। ये प्रत्येक बेस जोड़ी के लिए लगभग दो बिट्स हैं:
3,000,000,000 × 2 × 2/8 = 1,500,000,000 या लगभग 1.5 GB डेटा।
वास्तव में, ये प्रतियां बहुत समान हैं, और सभी लोगों का डीएनए लगभग समान है: वॉल स्ट्रीट व्यापारियों से लेकर ऑस्ट्रेलियाई आदिवासियों तक।
"रेफ़रल जीनोम" की कई
संख्याएँ हैं, जैसे कि
एसेम्बल फास्टा फाइलें । संदर्भ जीनोम विशिष्ट विशेषताओं के साथ एक मानचित्र बनाने में मदद करते हैं जो मानव डीएनए में मौजूद हैं, लेकिन विशिष्ट लोगों के लिए अद्वितीय नहीं हैं।
उदाहरण के लिए, हम उस जीन के "स्थान" को निर्धारित कर सकते हैं जो BRCA2 प्रोटीन को एन्कोड करता है, जो स्तन कैंसर में डीएनए की बहाली के लिए जिम्मेदार है:
यह जीन ।
यह गुणसूत्र 13 पर स्थित है, 32315474 से शुरू होकर 32400266 तक है।
आनुवंशिक भिन्नता
लोग इतने मिलते-जुलते हैं कि किसी व्यक्ति का प्रतिनिधित्व करने के लिए आमतौर पर "विविधताओं" के एक छोटे से सेट को स्टोर करना पर्याप्त होता है।
समय के साथ, हमारा डीएनए कॉस्मिक किरणों से क्षतिग्रस्त हो जाता है और त्रुटियों को कॉपी करता है, इसलिए माता-पिता अपने बच्चों को जिस डीएनए से गुजरते हैं, वह अपने आप से थोड़ा अलग होता है।
पुनर्संयोजन जीन को और भी अधिक मिलाता है, इसलिए बच्चे का डीएनए प्रत्येक माता-पिता से इस तरफ के दादा-दादी के डीएनए का मिश्रण होता है।
इसलिए, हमारे डीएनए में हर बदलाव के लिए, केवल संदर्भ जीनोम से अंतर को बचाने के लिए पर्याप्त है। वे आमतौर पर एक वीसीएफ (वेरिएंट कॉल फॉर्मेट) फ़ाइल में सहेजे जाते हैं।
जैव सूचना विज्ञान की लगभग सभी फ़ाइलों की तरह, यह एक TSV फ़ाइल प्रकार (टैब पृथक्करण के साथ पाठ प्रारूप) है।
आप
23 और Me और
Ancestry.com जैसी कंपनियों से अपनी VCF फ़ाइल प्राप्त कर सकते हैं: अपेक्षाकृत कम पैसे का भुगतान करें और एक नमूना भेजें जो डीएनए माइक्रोचिप पर अनुक्रमित हो। यह उन अंशों पर प्रकाश डालता है जहां डीएनए अपेक्षित दृश्यों से मेल खाता है।
VCF विनिर्देशों से एक छोटा उदाहरण:
## फ़ाइलडेट = 20090805
## स्रोत = myImputationProgramV3.1
## संदर्भ = 1000GenomesPilot-NCBI36
## चरणबद्ध = आंशिक
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
20 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0.5; DB; H2 GT: GQ: DP: HQ 0 | 48: 1: 51.51 1 | 0: 48: 8: 51.51 1/1: 43: 5:।,।
यहां हमारे पास NA00001, NA00002 और NA00003 (हम आनुवांशिकी जगत में व्यक्तिगत डेटा की सुरक्षा के बारे में बहुत गंभीर हैं) नाम के तीन लोग हैं, जो गुणसूत्र 20 के 14370 की स्थिति में, कुछ अंतर
0|0
,
0|0
,
1|0
,
1|0
और
1|1
। G से G तक। ए
प्रति व्यक्ति दो संख्याएँ हैं, क्योंकि हम सभी की गुणसूत्र 20 की दो प्रतियां हैं (प्रत्येक माता-पिता में से एक; केवल सेक्स क्रोमोसोम अपवाद हैं)। मैं भाग्यशाली नहीं हूं कि मेरे पास केवल एक एक्स गुणसूत्र है, इसलिए मुझे मेरी मां के माध्यम से मेरे दादा से रंग का अंधापन विरासत में मिला)।
निम्नलिखित विकल्प संभव हैं:
0 | 0 दोनों गुणसूत्र संदर्भ नमूने के अनुरूप हैं
1 | 0 और 0 | 1 केवल एक गुणसूत्र मानक से अलग है
1 | 1 दोनों गुणसूत्र मानक से भिन्न होते हैं
VCF फ़ाइलों को "चरणबद्ध" माना जाता है यदि आप यह पता लगा सकते हैं कि किस गुणसूत्र में वैरिएंट स्थित है, या कम से कम जहां वह अपने पड़ोसियों के सापेक्ष स्थित है। व्यवहार में, यह कहना मुश्किल है कि कौन सा गुणसूत्र डीएनए से आया है, इसलिए आपको अनुमान लगाना होगा!
इस प्रकार, हमारे पास बिट वेक्टर
001011
, जो इस भिन्नता में तीन लोगों को वर्गीकृत करने के लिए पर्याप्त है। ये व्यक्तिगत गुणसूत्रों के
हाइपोटाइप या भिन्नरूप हैं।
जीडब्ल्यूएएस अनुसंधान
इस बिट वेक्टर का उपयोग करके, हम यह पता लगाने की कोशिश कर सकते हैं कि जीनोम के कौन से हिस्से बीमारियों या अन्य व्यक्तिगत गुणों को प्रभावित करते हैं, जैसे कि बालों का रंग या विकास। प्रत्येक संस्करण के लिए, हम मापा लक्षणों (
फेनोटाइप ) के लिए एक हाइपोटाइप का निर्माण करते हैं।
GWAS (जीनोम वाइड एसोसिएशन स्टडी) वेरिएंट के आनुवंशिक विश्लेषण के लिए आधार है। यह अवलोकन डेटा के साथ भिन्नताओं की तुलना करता है।
उदाहरण के लिए:
हाप्लोटाइप हाइट पर्सन
0 1.5 मीटर NA00001
0 1.5 मी
1 1.75 मीटर NA00002
0 1.75 मी
1 1.95 मीटर NA00003
1 1.95 मी
ध्यान दें कि प्रत्येक में दो हैप्लोटाइप हैं, क्योंकि हमारे पास गुणसूत्रों के जोड़े हैं।
यहाँ हम देखते हैं कि विकल्प 1 उच्च वृद्धि के साथ जुड़ा हुआ है, और मान रेखीय प्रतिगमन के अनुरूप हैं:
बीटा परिवर्तन में परिवर्तन के साथ विकास में परिवर्तन।
मानक त्रुटि त्रुटि सूचक।
व्यवहार में, डेटा में वास्तव में बहुत अधिक शोर होता है, और त्रुटि आमतौर पर
beta
से अधिक होती है, लेकिन अक्सर हमारे पास कई विकल्प होते हैं जहां
beta
त्रुटि की तुलना में बहुत अधिक होता है। यह अनुपात -
जेड-स्कोर और इसके साथ जुड़ा
पी-मूल्य - दिखाता है कि कौन से विकल्प विकास को प्रभावित करने की सबसे अधिक संभावना है।
प्रतिगमन करने का सबसे आसान तरीका
मूर - पेनरोज़ उलटा लागू करना
है ।
हम दो वैक्टर के स्केलर उत्पाद के साथ एक 2 × 2 सहसंयोजक मैट्रिक्स की रचना करते हैं, और हम कम से कम स्क्वीवर विधि द्वारा समस्या का समाधान करते हैं।
हमारे पास खरबों डेटा पॉइंट्स हैं, इसलिए इसे कुशलतापूर्वक करना महत्वपूर्ण है।
कोई नहींququilibrium युग्मन का अभिशाप
चूंकि हम अपने माता-पिता से जीनोम के बड़े टुकड़े को विरासत में लेते हैं, डीएनए के कुछ क्षेत्र बहुत समान दिखते हैं: वे मामले को निर्धारित करने की तुलना में बहुत अधिक समान हैं।
यह हमारे लिए अच्छा है, क्योंकि जीन अपने पूर्वजों की तरह ही काम करना जारी रखते हैं, लेकिन जीनोमिक्स शोधकर्ताओं के लिए बुरा है। इसका अर्थ है कि भिन्नताएं निर्धारित करने के लिए अंतर पर्याप्त नहीं हैं जिनके कारण फेनोटाइप बदल गया है।
गैर-संतुलन लिंकेज (एलडी) यह निर्धारित करता है कि दो वैक्टर समान रूपांतरों के लिए कैसे हैं।
यह -1 और 1 के बीच एक मूल्य की गणना करता है, जहां
-1 सटीक विपरीत भिन्नता।
0 विविधताएं समान नहीं हैं।
1 भिन्नताएं समान हैं।
विविधताओं की समानता को निर्धारित करने के लिए, हम जीनोम में विशिष्ट स्थानों के लिए बड़े वर्ग एलडी मैट्रीक बनाते हैं। व्यवहार में, इस स्थान के आस-पास के कई रूप लगभग मध्य संस्करण के समान हैं।
मैट्रिक्स कुछ इस तरह दिखता है, जिसमें समानता के बड़े वर्ग हैं।
v0 v2 v4 v6 v8 va vc ve vg
v1 v3 v5 v7 v9 vb vd vf
v0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v2 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v3 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v4 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v5 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v6 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v7 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
v8 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
v9 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
va 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vb 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vc 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vd 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
ve 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vf 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
vg 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
वास्तविक मूल्य 0 या 1 नहीं हैं, लेकिन बहुत समान हैं।
V7 और v8 के बीच, पुनर्संयोजन हुआ। इस वजह से, v0..v7 v8..vg से अलग है।
समानता की समस्या यह है कि हम जानते हैं कि समूह में किसी एक विकल्प के कारण कुछ होता है, लेकिन हम यह नहीं जानते हैं कि कौन सा है।
यह हमारे
जीनोमिक माइक्रोस्कोप के संकल्प को सीमित करता है, और अतिरिक्त तरीके, जैसे कि कार्यात्मक जीनोमिक्स, को समस्या को हल करने के लिए उपयोग करना होगा।
निष्कर्ष
अंत में, कोई भी कभी भी 100% निश्चित नहीं हो सकता है कि जीनोम का कौन सा हिस्सा एक विशिष्ट व्यक्तिगत विशेषता का कारण है, यह आनुवंशिकी का सार है। आदर्श कारखाना निर्मित भागों के साथ जीव विज्ञान एक सटीक मशीन नहीं है। यह दुर्घटनाओं का एक उबलता हुआ द्रव्यमान है जो किसी भी तरह हम जीवन को जन्म देते हैं। यही कारण है कि आँकड़े, या "मशीन लर्निंग", क्योंकि अब इसे कॉल करने के लिए फैशनेबल है, इसलिए यह बहुत महत्वपूर्ण है।