مقدمة في علم الجينوم للمبرمجين

عن المؤلف. آندي توماسون هو مبرمج رائد في علم الجينوميات . منذ سبعينيات القرن الماضي ، كان يعمل في مجال أنظمة الرسوم والألعاب ومجمعيها. التخصص - أداء الكود.

الجينات: مقدمة موجزة


يتكون الجينوم البشري من نسختين من حوالي 3 مليارات زوج من الحمض النووي ، وتستخدم الحروف A و C و G و T في الترميز ، وهي عبارة عن بتتين لكل زوج أساسي:

3،000،000،000 × 2 × 2/8 = 1،500،000،000 أو حوالي 1.5 جيجابايت من البيانات.

في الواقع ، هذه النسخ متشابهة للغاية ، والحمض النووي لجميع الناس هو نفسه تقريبًا: من تجار وول ستريت إلى السكان الأصليين الأستراليين.

هناك عدد من "الجينومات المرجعية" ، مثل ملفات Ensembl Fasta . تساعد الجينومات المرجعية على بناء خريطة ذات خصائص محددة موجودة في الحمض النووي البشري ، ولكنها ليست فريدة من نوعها لأشخاص محددين.

على سبيل المثال ، يمكننا تحديد "موقع" الجين الذي يشفر بروتين BRCA2 ، وهو المسؤول عن استعادة الحمض النووي في سرطان الثدي: هذا الجين .

تقع في الصبغي 13 ، بدءًا من الموقع 32315474 إلى 32400266.



الاختلافات الوراثية


الأشخاص متشابهان إلى درجة أنه يكفي عادة تخزين مجموعة صغيرة من "الأشكال" لتمثيل شخص ما.

بمرور الوقت ، يتلف الحمض النووي لدينا بسبب الأشعة الكونية وأخطاء النسخ ، وبالتالي فإن الحمض النووي الذي ينقله الوالدان لأطفالهما يختلف قليلاً عن الحمض النووي.

يمزج إعادة الجمع بين الجينات أكثر ، لذلك يرث DNA الطفل من كل والد مزيجًا من الحمض النووي من الأجداد في هذا الجانب.

لذلك ، لكل تغيير في الحمض النووي لدينا ، يكفي أن ننقذ فقط الاختلافات من الجينوم المرجعي. عادة ما يتم حفظها في ملف VCF (تنسيق استدعاء متغير).

مثل جميع الملفات في المعلوماتية الحيوية تقريبًا ، فهو نوع ملف TSV (تنسيق نصي بفصل علامة تبويب).

يمكنك الحصول على ملف VCF الخاص بك من شركات مثل 23 و Me و Ancestry.com : ادفع القليل من المال نسبيًا وارسل عينة متسلسلة على رقاقة micro DNA. ويسلط الضوء على شظايا حيث يتطابق الحمض النووي مع تسلسل المتوقع.

مثال مختصرة من مواصفات VCF :

  ## fileDate = 20090805
 ## المصدر = myImputationProgramV3.1
 ## المرجع = 1000GenomesPilot-NCBI36
 ## مراحل = جزئي
 # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
 20 14370 rs6054257 GA 29 PASS NS = 3 ؛ DP = 14 ؛ AF = 0.5 ؛ DB ؛ H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51.51 1 | 0: 48: 8: 51.51 1/1: 43: 5:. ،. 

هنا لدينا ثلاثة أشخاص يحملون أسماء NA00001 و NA00002 و NA00003 (نحن جادون جدًا في أمان البيانات الشخصية في عالم الوراثة) ، والذين لديهم في الموضع 14370 من كروموسوم 20 ، اختلافات معينة 0|0 و 1|0 و 1|1 من G إلى A.

هناك رقمان للشخص الواحد ، حيث أن لدينا جميعًا نسختين من كروموسوم 20 (واحد من كل والد ؛ الكروموسومات الجنسية فقط هي الاستثناء). لست محظوظًا لأن لدي كروموسوم X واحدًا ، لذا فقد ورثت عمى الألوان من جدي عبر والدتي).

الخيارات التالية ممكنة:

  0 | 0 كلا الكروموسومات يتوافق مع العينة المرجعية
 1 | 0 و 0 | 1 كروموسوم واحد فقط يختلف عن المعيار
 1 | 1 كلا الكروموسومات تختلف عن المعيار 

تعتبر ملفات VCF "مرحلية" إذا كان يمكنك معرفة أي كروموسوم معين يقع المتغير ، أو على الأقل مكان تواجده بالنسبة لجيرانه. في الممارسة العملية ، من الصعب تحديد أي من كروموسوم الحمض النووي جاء ، لذلك عليك أن تخمن!

وبالتالي ، لدينا ناقلات بت 001011 ، وهو ما يكفي لتصنيف ثلاثة أشخاص في هذا الاختلاف. هذه هي أنماط الفرد أو أشكال الكروموسومات الفردية.

البحوث GWAS


باستخدام هذا المتجه ، يمكننا محاولة معرفة أي أجزاء من الجينوم تؤثر على الأمراض أو غيرها من الخصائص الفردية ، مثل لون الشعر أو نموه. لكل متغير ، نقوم ببناء نموذج فردي للسمات المقاسة ( النمط الظاهري ).

GWAS (دراسة رابطة الجينوم الواسعة) هي أساس التحليل الجيني للمتغيرات. يقارن الاختلافات مع بيانات الرصد.

على سبيل المثال:

  شخص من نوع Haplotype
 0 1.5m NA00001
 0 1.5 م
 1 1.75m NA00002
 0 1.75 م
 1 1.95m NA00003
 1 1.95 م 

لاحظ أن لكلٍ منهما نوعان مختلفان ، لأن لدينا أزواج من الكروموسومات.

نرى هنا أن الخيارات 1 مرتبطة بزيادة النمو ، والقيم تتوافق مع الانحدار الخطي:

  بيتا تغير في النمو مع تغير في التباين.
 خطأ قياسي مؤشر خطأ. 

في الممارسة العملية ، هناك كثيرًا من الضوضاء في البيانات ، وعادة ما يكون الخطأ أكبر من الإصدار beta ، ولكن غالبًا ما يكون لدينا العديد من الخيارات حيث beta الإصدار beta أعلى بكثير من الخطأ. توضح هذه النسبة - درجة Z والقيمة p المرتبطة بها - الخيارات التي من المرجح أن تؤثر على النمو.

أسهل طريقة لأداء الانحدار هي تطبيق انقلاب مور - بينروز .

نحن نؤلف مصفوفة التغاير 2 × 2 مع الناتج العددية لاثنين من المتجهات ، ونحن نحل المشكلة عن طريق طريقة المربعات الصغرى.

لدينا تريليونات من نقاط البيانات ، لذلك من المهم القيام بذلك بكفاءة.

لعنة اقتران Nonequilibrium


نظرًا لأننا ورثنا أجزاء كبيرة من الجينوم من آبائنا ، فإن بعض مناطق الحمض النووي تبدو متشابهة جدًا: فهي تشبه إلى حد كبير ما تمليه الحالة.

هذا أمر جيد بالنسبة لنا ، لأن الجينات تستمر في العمل تمامًا مثل أسلافها ، ولكنها سيئة للباحثين في علم الجينوم. هذا يعني أن الاختلافات ليست كافية لتحديد الأشكال التي تسببت في تغيير النمط الظاهري.

تحدد العلاقة غير المتوازنة (LD) مدى تشابه متجهين مع الاختلافات.

وتحسب قيمة بين -1 و 1 ، حيث

  -1 الاختلاف المعاكس بالضبط.
  0 الاختلافات ليست مماثلة.
  1 الاختلافات هي نفسها بالضبط. 

لتحديد تشابه الاختلافات ، نقوم بإنشاء مصفوفات LD مربعة كبيرة لأماكن محددة في الجينوم. في الممارسة العملية ، العديد من الاختلافات حول هذا المكان مطابقة تقريبًا للمتغير الأوسط.

تبدو المصفوفة مثل هذا ، مع مربعات كبيرة من التشابه.

  v0 v2 v4 v6 v8 va vc ve vg
       v1 v3 v5 v7 v9 vb vd vf
 v0 1 1 1 1 1 1 1 1 - - 0 - 0 - 0 - 0 
 v1 1 1 1 1 1 1 1 1 - - 0 - 0 - 0 - 0
 v2 1 1 1 1 1 1 1 1 - - 0 - 0 - 0 - 0
 v3 1 1 1 1 1 1 1 1 - - 0 - 0 - 0 - 0
 v4 1 1 1 1 1 1 1 1 - - 0 - 0 - 0 - 0
 v5 1 1 1 1 1 1 1 1 - - 0 - 0 - 0 - 0
 v6 1 1 1 1 1 1 1 1 - - 0 - 0 - 0 - 0
 v7 1 1 1 1 1 1 1 1 - - 0 - 0 - 0 - 0
 v8 0 - 0 - - 0 - - 1 1 1 1 1 1 1 1 1 1
 v9 0 - - 0 - - - - 1 1 1 1 1 1 1 1 1 1
 va 0 - - 0 - - - - 1 1 1 1 1 1 1 1 1 1
 vb 0 - - 0 - - - - 1 1 1 1 1 1 1 1 1 1
 vc 0 - - 0 - - - - 1 1 1 1 1 1 1 1 1 1
 vd 0 - - 0 - - - - 1 1 1 1 1 1 1 1 1 1
 هاء 0 - 0 - - 0 - - 1 1 1 1 1 1 1 1 1 1
 vf 0 - - 0 - - - - 1 1 1 1 1 1 1 1 1 1
 vg 0 - - 0 - - - - 1 1 1 1 1 1 1 1 1 1 

القيم الفعلية ليست 0 أو 1 ، ولكنها متشابهة جدًا.

بين v7 و v8 ، حدثت إعادة التركيب. لهذا السبب ، يختلف v0..v7 عن v8..vg.

مشكلة التشابه هي أننا نعرف أن أحد الخيارات في المجموعة تسبب في شيء ما ، لكننا لا نعرف أي خيار.

هذا يحد من دقة المجهر الجيني الخاص بنا ، ويجب استخدام طرق إضافية ، مثل الجينوم الوظيفي ، لحل المشكلة.

استنتاج


في النهاية ، لا يمكن لأحد أن يكون متأكداً بنسبة 100٪ من أي جزء معين من الجينوم تسبب في ميزة فردية محددة ، وهذا هو جوهر علم الوراثة. علم الأحياء ليس آلة دقيقة مع أجزاء من المصنع المثالي. هذه كتلة غليان من الحوادث التي تخلق بطريقة ما ما نسميه الحياة. هذا هو السبب في أن الإحصاءات ، أو "التعلم الآلي" ، كما هو الآن من المألوف أن نسميها ، هي في غاية الأهمية.

Source: https://habr.com/ru/post/ar452622/


All Articles