Richtige Antworten und Bekanntgabe der Gewinner

Wir führen eine Reihe von praktischen Artikeln zur Verwendung genetischer Testdaten durch. Heute veröffentlichen wir die richtigen Antworten und Gewinner, die alle drei Probleme schneller als der Rest gelöst haben.



Alle Artikel unserer Serie:
Was ist das vollständige Genom und warum wird es benötigt?
Aufgabennummer 1. Finden Sie Geschlecht und Verwandtschaftsgrad heraus.
Aufgabennummer 2. Bestimmung der Bevölkerungsstruktur
Aufgabennummer 3. Datenkonvertierung und Upload zu Diensten Dritter

Um die Testaufgaben abzuschließen, verwendeten wir 12 Proben aus den offenen Daten des 1000 Genomes-Projekts. Wir haben die Stichproben umbenannt, damit die Teilnehmer die verfügbaren Daten nicht für Antworten verwenden konnten.


Entsprechungstabelle der Bezeichner, die ursprünglich für Aufgaben verwendet wurden.


Aufgabennummer 1. Finden Sie Geschlecht und Verwandtschaftsgrad heraus


Der Stammbaum der verwendeten Proben ist in Abbildung 1 dargestellt. Die Entscheidungen wurden als richtig erachtet, wobei 3 Familien und 3 genetisch nicht verwandte Proben identifiziert wurden - 0030, 0090 und 0066. Ihre Beziehung zur Familie kann durch diese Analyse nicht festgestellt werden, wenn keine Stichproben von Kindern vorliegen. Alle 12 Proben müssen in der Lösung vorhanden sein. Das Pedigree-Design wurde ebenfalls berücksichtigt (Abbildung 2). Wir haben in der ersten Aufgabe über die Entwurfsregeln geschrieben.



Abbildung 1 Familienverhältnisse von Stichproben des Testdatensatzes nach den Daten von 1000 Genomen. Die Pedigree-Datei finden Sie hier .




Abbildung 2 Rechts ist die falsche Darstellung einer Familie mit einem Kind zu sehen: Es sind zwei Ehen dargestellt, es bestehen keine familiären Bindungen.


Aufgabennummer 2. Bestimmung der Bevölkerungsstruktur


Im Datensatz für die Aufgabe haben wir Stichproben von zwei Superpopulationen verwendet. Eine Visualisierung der Position von 12 Proben entlang der drei Hauptkomponenten ist in den 3 und 4 gezeigt. Auf den Streudiagrammen ist die Bildung von vier Clustern zu sehen. Sie entsprechen jedoch nicht vollständig den ursprünglichen Daten zur Population: Abbildung 5, zwei Populationen. Die Gründe für eine so ausgeprägte und widersprüchliche Probentrennung haben wir im Artikel erläutert. Darüber hinaus gehören alle Proben, die eine unerwartete Cluster-Spaltung zeigen, zur AMR-Superpopulation - Ad Mixed American. Mischheit und Heterogenität sind in ad-mixed-Populationen inhärent und können sich in der beobachteten Häufung manifestieren.


Abbildung 3 Streudiagramme der Position der Testdatensatzproben in Paaren der ersten drei Hauptkomponenten.



Abbildung 4 Streudiagramm der Testdatensatzproben für die drei Hauptkomponenten.



Abbildung 5 Grundgesamtheit und Abstammung der im Testdatensatz verwendeten Proben gemäß „1000 Genome“. Die Pedigree-Datei finden Sie hier .

Abbildung 6 zeigt den Clusterbaum, der aus der cluster3 Datei erstellt wurde. Der Baum konnte manuell oder mithilfe einer beliebigen Automatisierung erstellt werden, er musste jedoch dem mit Plink ausgeführten Clustering entsprechen. Bäume, die nicht der Struktur entsprechen und für die Teilnehmer andere PCA-Pakete verwendeten, wurden nicht akzeptiert. Sie spiegelten nicht die von Plink gefundene Lösung wider und waren daher nicht zur Bestätigung der erhaltenen Plink-Cluster geeignet.


Abbildung 6 Binärer Clusterbaum für einen Testdatensatz von 12 Stichproben.


Aufgabennummer 3. Datenkonvertierung und Upload zu Diensten Dritter


In dieser Aufgabe haben wir die Teilnehmer gebeten, genetische Testdaten für das Laden in das Promethease-Interpretationssystem vorzubereiten und die Ergebnisse zu analysieren. Um die Antworten zu überprüfen, musste eine Tabelle mit den Kennungen der Testdatensatzproben, ihrer Blutgruppe und ihres Rh-Faktors erstellt werden.



Eine Tabelle mit den Kennungen der Testdatensatzproben und der nachgewiesenen Blutgruppe und dem Rh-Faktor des Promethease-Interpretationssystems.


Gewinner


Wir haben geschrieben, dass wir diejenigen beschenken werden, die Probleme schneller lösen als andere. Daher haben wir nicht nur die Richtigkeit der Antworten berücksichtigt, sondern auch den Zeitpunkt von der Veröffentlichung der Aufgabe bis zum Eingang der Antwort. Die Zeit für die drei Aufgaben wurde zusammengefasst und so haben wir die drei schnellsten Gewinner ausgewählt.


Eine Tabelle mit den Ergebnissen aller Teilnehmer.

Als Mitglied der Mail-Domain ab12ab können wir Sie nicht kontaktieren. Schreiben Sie bitte bis Montag in privaten Nachrichten an den Autor des Artikels. Ansonsten überreichen wir den Preis dem nächsten Teilnehmer auf der Liste.

Die Gewinner haben bereits Gewinnschreiben erhalten. Für den Rest haben wir auch ein kleines Geschenk. Bis zum neuen Jahr gibt es auf der Atlas-Website Rabatte von bis zu 50%.

Source: https://habr.com/ru/post/de482246/


All Articles