प्रोग्रामर्स के लिए जीनोमिक्स का परिचय

लेखक के बारे में। एंडी थॉमसन एक प्रमुख जीनोमिक्स पीएलसी प्रोग्रामर है। 70 के दशक से वह ग्राफिक सिस्टम, गेम और कंपाइलर में लगे हुए हैं; विशेषज्ञता - कोड प्रदर्शन।

जीन: एक संक्षिप्त परिचय


मानव जीनोम में डीएनए की लगभग 3 बिलियन बेस जोड़े की दो प्रतियां होती हैं, अक्षर A, C, G और T कोडिंग के लिए हैं। ये प्रत्येक बेस जोड़ी के लिए लगभग दो बिट्स हैं:

3,000,000,000 × 2 × 2/8 = 1,500,000,000 या लगभग 1.5 GB डेटा।

वास्तव में, ये प्रतियां बहुत समान हैं, और सभी लोगों का डीएनए लगभग समान है: वॉल स्ट्रीट व्यापारियों से लेकर ऑस्ट्रेलियाई आदिवासियों तक।

"रेफ़रल जीनोम" की कई संख्याएँ हैं, जैसे कि एसेम्बल फास्टा फाइलें । संदर्भ जीनोम विशिष्ट विशेषताओं के साथ एक मानचित्र बनाने में मदद करते हैं जो मानव डीएनए में मौजूद हैं, लेकिन विशिष्ट लोगों के लिए अद्वितीय नहीं हैं।

उदाहरण के लिए, हम उस जीन के "स्थान" को निर्धारित कर सकते हैं जो BRCA2 प्रोटीन को एन्कोड करता है, जो स्तन कैंसर में डीएनए की बहाली के लिए जिम्मेदार है: यह जीन

यह गुणसूत्र 13 पर स्थित है, 32315474 से शुरू होकर 32400266 तक है।



आनुवंशिक भिन्नता


लोग इतने मिलते-जुलते हैं कि किसी व्यक्ति का प्रतिनिधित्व करने के लिए आमतौर पर "विविधताओं" के एक छोटे से सेट को स्टोर करना पर्याप्त होता है।

समय के साथ, हमारा डीएनए कॉस्मिक किरणों से क्षतिग्रस्त हो जाता है और त्रुटियों को कॉपी करता है, इसलिए माता-पिता अपने बच्चों को जिस डीएनए से गुजरते हैं, वह अपने आप से थोड़ा अलग होता है।

पुनर्संयोजन जीन को और भी अधिक मिलाता है, इसलिए बच्चे का डीएनए प्रत्येक माता-पिता से इस तरफ के दादा-दादी के डीएनए का मिश्रण होता है।

इसलिए, हमारे डीएनए में हर बदलाव के लिए, केवल संदर्भ जीनोम से अंतर को बचाने के लिए पर्याप्त है। वे आमतौर पर एक वीसीएफ (वेरिएंट कॉल फॉर्मेट) फ़ाइल में सहेजे जाते हैं।

जैव सूचना विज्ञान की लगभग सभी फ़ाइलों की तरह, यह एक TSV फ़ाइल प्रकार (टैब पृथक्करण के साथ पाठ प्रारूप) है।

आप 23 और Me और Ancestry.com जैसी कंपनियों से अपनी VCF फ़ाइल प्राप्त कर सकते हैं: अपेक्षाकृत कम पैसे का भुगतान करें और एक नमूना भेजें जो डीएनए माइक्रोचिप पर अनुक्रमित हो। यह उन अंशों पर प्रकाश डालता है जहां डीएनए अपेक्षित दृश्यों से मेल खाता है।

VCF विनिर्देशों से एक छोटा उदाहरण:

  ## फ़ाइलडेट = 20090805
 ## स्रोत = myImputationProgramV3.1
 ## संदर्भ = 1000GenomesPilot-NCBI36
 ## चरणबद्ध = आंशिक
 #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
 20 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0.5; DB; H2 GT: GQ: DP: HQ 0 | 48: 1: 51.51 1 | 0: 48: 8: 51.51 1/1: 43: 5:।,। 

यहां हमारे पास NA00001, NA00002 और NA00003 (हम आनुवांशिकी जगत में व्यक्तिगत डेटा की सुरक्षा के बारे में बहुत गंभीर हैं) नाम के तीन लोग हैं, जो गुणसूत्र 20 के 14370 की स्थिति में, कुछ अंतर 0|0 , 0|0 , 1|0 , 1|0 और 1|1 । G से G तक। ए

प्रति व्यक्ति दो संख्याएँ हैं, क्योंकि हम सभी की गुणसूत्र 20 की दो प्रतियां हैं (प्रत्येक माता-पिता में से एक; केवल सेक्स क्रोमोसोम अपवाद हैं)। मैं भाग्यशाली नहीं हूं कि मेरे पास केवल एक एक्स गुणसूत्र है, इसलिए मुझे मेरी मां के माध्यम से मेरे दादा से रंग का अंधापन विरासत में मिला)।

निम्नलिखित विकल्प संभव हैं:

  0 | 0 दोनों गुणसूत्र संदर्भ नमूने के अनुरूप हैं
 1 | 0 और 0 | 1 केवल एक गुणसूत्र मानक से अलग है
 1 | 1 दोनों गुणसूत्र मानक से भिन्न होते हैं 

VCF फ़ाइलों को "चरणबद्ध" माना जाता है यदि आप यह पता लगा सकते हैं कि किस गुणसूत्र में वैरिएंट स्थित है, या कम से कम जहां वह अपने पड़ोसियों के सापेक्ष स्थित है। व्यवहार में, यह कहना मुश्किल है कि कौन सा गुणसूत्र डीएनए से आया है, इसलिए आपको अनुमान लगाना होगा!

इस प्रकार, हमारे पास बिट वेक्टर 001011 , जो इस भिन्नता में तीन लोगों को वर्गीकृत करने के लिए पर्याप्त है। ये व्यक्तिगत गुणसूत्रों के हाइपोटाइप या भिन्नरूप हैं।

जीडब्ल्यूएएस अनुसंधान


इस बिट वेक्टर का उपयोग करके, हम यह पता लगाने की कोशिश कर सकते हैं कि जीनोम के कौन से हिस्से बीमारियों या अन्य व्यक्तिगत गुणों को प्रभावित करते हैं, जैसे कि बालों का रंग या विकास। प्रत्येक संस्करण के लिए, हम मापा लक्षणों ( फेनोटाइप ) के लिए एक हाइपोटाइप का निर्माण करते हैं।

GWAS (जीनोम वाइड एसोसिएशन स्टडी) वेरिएंट के आनुवंशिक विश्लेषण के लिए आधार है। यह अवलोकन डेटा के साथ भिन्नताओं की तुलना करता है।

उदाहरण के लिए:

  हाप्लोटाइप हाइट पर्सन
 0 1.5 मीटर NA00001
 0 1.5 मी
 1 1.75 मीटर NA00002
 0 1.75 मी
 1 1.95 मीटर NA00003
 1 1.95 मी 

ध्यान दें कि प्रत्येक में दो हैप्लोटाइप हैं, क्योंकि हमारे पास गुणसूत्रों के जोड़े हैं।

यहाँ हम देखते हैं कि विकल्प 1 उच्च वृद्धि के साथ जुड़ा हुआ है, और मान रेखीय प्रतिगमन के अनुरूप हैं:

  बीटा परिवर्तन में परिवर्तन के साथ विकास में परिवर्तन।
 मानक त्रुटि त्रुटि सूचक। 

व्यवहार में, डेटा में वास्तव में बहुत अधिक शोर होता है, और त्रुटि आमतौर पर beta से अधिक होती है, लेकिन अक्सर हमारे पास कई विकल्प होते हैं जहां beta त्रुटि की तुलना में बहुत अधिक होता है। यह अनुपात - जेड-स्कोर और इसके साथ जुड़ा पी-मूल्य - दिखाता है कि कौन से विकल्प विकास को प्रभावित करने की सबसे अधिक संभावना है।

प्रतिगमन करने का सबसे आसान तरीका मूर - पेनरोज़ उलटा लागू करना है

हम दो वैक्टर के स्केलर उत्पाद के साथ एक 2 × 2 सहसंयोजक मैट्रिक्स की रचना करते हैं, और हम कम से कम स्क्वीवर विधि द्वारा समस्या का समाधान करते हैं।

हमारे पास खरबों डेटा पॉइंट्स हैं, इसलिए इसे कुशलतापूर्वक करना महत्वपूर्ण है।

कोई नहींququilibrium युग्मन का अभिशाप


चूंकि हम अपने माता-पिता से जीनोम के बड़े टुकड़े को विरासत में लेते हैं, डीएनए के कुछ क्षेत्र बहुत समान दिखते हैं: वे मामले को निर्धारित करने की तुलना में बहुत अधिक समान हैं।

यह हमारे लिए अच्छा है, क्योंकि जीन अपने पूर्वजों की तरह ही काम करना जारी रखते हैं, लेकिन जीनोमिक्स शोधकर्ताओं के लिए बुरा है। इसका अर्थ है कि भिन्नताएं निर्धारित करने के लिए अंतर पर्याप्त नहीं हैं जिनके कारण फेनोटाइप बदल गया है।

गैर-संतुलन लिंकेज (एलडी) यह निर्धारित करता है कि दो वैक्टर समान रूपांतरों के लिए कैसे हैं।

यह -1 और 1 के बीच एक मूल्य की गणना करता है, जहां

  -1 सटीक विपरीत भिन्नता।
  0 विविधताएं समान नहीं हैं।
  1 भिन्नताएं समान हैं। 

विविधताओं की समानता को निर्धारित करने के लिए, हम जीनोम में विशिष्ट स्थानों के लिए बड़े वर्ग एलडी मैट्रीक बनाते हैं। व्यवहार में, इस स्थान के आस-पास के कई रूप लगभग मध्य संस्करण के समान हैं।

मैट्रिक्स कुछ इस तरह दिखता है, जिसमें समानता के बड़े वर्ग हैं।

  v0 v2 v4 v6 v8 va vc ve vg
       v1 v3 v5 v7 v9 vb vd vf
 v0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 
 v1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v2 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v3 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v4 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v5 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v6 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v7 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
 v8 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 v9 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 va 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 vb 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 vc 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 vd 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 ve 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 vf 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 vg 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 

वास्तविक मूल्य 0 या 1 नहीं हैं, लेकिन बहुत समान हैं।

V7 और v8 के बीच, पुनर्संयोजन हुआ। इस वजह से, v0..v7 v8..vg से अलग है।

समानता की समस्या यह है कि हम जानते हैं कि समूह में किसी एक विकल्प के कारण कुछ होता है, लेकिन हम यह नहीं जानते हैं कि कौन सा है।

यह हमारे जीनोमिक माइक्रोस्कोप के संकल्प को सीमित करता है, और अतिरिक्त तरीके, जैसे कि कार्यात्मक जीनोमिक्स, को समस्या को हल करने के लिए उपयोग करना होगा।

निष्कर्ष


अंत में, कोई भी कभी भी 100% निश्चित नहीं हो सकता है कि जीनोम का कौन सा हिस्सा एक विशिष्ट व्यक्तिगत विशेषता का कारण है, यह आनुवंशिकी का सार है। आदर्श कारखाना निर्मित भागों के साथ जीव विज्ञान एक सटीक मशीन नहीं है। यह दुर्घटनाओं का एक उबलता हुआ द्रव्यमान है जो किसी भी तरह हम जीवन को जन्म देते हैं। यही कारण है कि आँकड़े, या "मशीन लर्निंग", क्योंकि अब इसे कॉल करने के लिए फैशनेबल है, इसलिए यह बहुत महत्वपूर्ण है।

Source: https://habr.com/ru/post/hi452622/


All Articles