Anmerkung
Also, meine Kollegen, fragen Sie nicht, was Sie für die Reproduzierbarkeit tun können - fragen Sie, was die Reproduzierbarkeit für Sie tun kann!
Hier werde ich fünf Gründe auflisten, warum sich die Möglichkeit der Datenreproduzierbarkeit langfristig auszahlt und für jeden ehrgeizigen, karriereorientierten Wissenschaftler von persönlichem Interesse ist.
Eine komplexe Gleichung in der linken Hälfte der Tafel, eine noch komplexere Gleichung in der rechten. Ein kurzer Satz verbindet die beiden Gleichungen: "Hier geschieht ein Wunder." Zwei Mathematiker in tiefen Gedanken. "Ich denke, Sie sollten im zweiten Schritt genauer sein", sagt einer dem anderen.

So sieht die Situation aus, wenn Sie versuchen zu verstehen, wie der Autor von einem großen und komplexen Datensatz zu einem dichten Artikel mit vielen komplexen Diagrammen übergegangen ist. Ohne Zugriff auf Daten und analytischen Code kann ein solcher Übergang nur durch ein Wunder erklärt werden. Und in der Wissenschaft sollte es keine Wunder geben.
Die Fähigkeit, transparent und reproduzierbar zu arbeiten, hängt stark von Empathie ab. Setzen Sie sich an die Stelle eines Ihrer Kollegen und fragen Sie: „Kann diese Person auf meine Daten zugreifen und die Bedeutung meiner Analyse verstehen?“ Das Beherrschen solcher „Werkzeuge“ (Kasten 1) erfordert die Einbeziehung und den enormen Aufwand Ihrer Zeit und Energie. A priori ist nicht klar, warum die Vorteile dieses Arbeitsformats die Kosten übersteigen.
Hier sind einige Argumente, die normalerweise in solchen Fällen führen: "Weil die Reproduzierbarkeit richtig ist", "Weil sie die Grundlage der Wissenschaft ist!", "Weil die Welt ein besserer Ort wäre, wenn alle transparent und reproduzierbar arbeiten würden!" Wissen Sie, wie sich diese Argumentation für mich anhört? Wie "bla bla bla" ...
Nicht, dass ich diese Argumente für unhaltbar halten würde. Ich bin einfach nicht sehr idealistisch: Es ist mir egal, was Wissenschaft sein soll. Ich bin ein Realist: Ich versuche mein Bestes zu geben, basierend darauf, wie Wissenschaft wirklich funktioniert. Und ob es uns gefällt oder nicht, in der Wissenschaft geht es um Karrierewachstum, eine Erhöhung des Einflussfaktors, die Anzahl der Veröffentlichungen und den Geldbetrag. Mehr, mehr, mehr ... Wie hilft mir die Reproduzierbarkeit als Wissenschaftler, mehr zu erreichen?
Reproduzierbarkeit: Warum brauche ich es?
In diesem Artikel stelle ich fünf Gründe vor, warum sich dieser Ansatz zur Reproduzierbarkeit langfristig auszahlt und im Interesse jedes ehrgeizigen, karriereorientierten Wissenschaftlers liegt.
Grund Nr. 1: Reproduzierbarkeit hilft, Katastrophen zu vermeiden
"Wie ein großes Versprechen bei Krebstests ist es abgestürzt", lautet der Titel eines Artikels in der New York Times, der im Sommer 2011 veröffentlicht wurde [1] und der die Arbeit von Keith Baggerly und Kevin Coombs, zwei Biostatisten am Cancer Center, hervorhebt. M. D. Anderson. Sie identifizierten Probleme bei der Analyse von Todesdaten in einer Reihe von Artikeln von Wissenschaftlern der Duke University, die einen großen Einfluss auf die Brustkrebsforschung hatten [2].
Die von Baggerly und Coombs entdeckten Probleme konnten von jedem Mitautor des Artikels vor seiner Einreichung leicht bemerkt werden. Die Datensätze dort sind nicht so groß, sie können einfach auf einem Standard-Laptop überprüft werden. Sie müssen kein Statistik-Genie sein, um zu verstehen, dass die Anzahl der Patienten dort variiert, Etiketten die Plätze wechseln oder Proben mehrmals mit widersprüchlichen Anmerkungen im selben Datensatz dargestellt werden. Warum hat niemand diese Probleme bemerkt, bevor es zu spät war? Weil die Daten und Analysen nicht transparent waren und Kenntnisse der kriminellen Bioinformatik erforderten, um sie zu verstehen [2].
Dieses Beispiel motiviert mich, in meiner eigenen Arbeit transparenter und reproduzierbarer zu sein. Selbst kleinere Vorfälle können Sie in eine unangenehme Lage bringen.
Hier ist ein Beispiel aus meiner Forschung. Unsere experimentellen Partner haben das von uns erstellte Streckenmodell getestet. Beim Schreiben des Artikels stießen wir jedoch auf ein ernstes Hindernis: Egal wie sehr wir uns bemühten, wir konnten unser ursprüngliches Reisemodell nicht reproduzieren. Vielleicht haben sich die Daten geändert, vielleicht war der Code anders, oder vielleicht konnten wir uns die Parametereinstellungen unserer Methode einfach nicht richtig merken. Wenn wir dieses Ergebnis veröffentlichen würden, könnten wir nicht nachweisen, wie wir aus den Quelldaten zu der genehmigten Hypothese gekommen sind. Wir würden ein Wunder veröffentlichen.
Diese Erfahrung hat mir zwei Dinge gezeigt. Zuallererst ist ein Projekt mehr als ein schönes Ergebnis. Sie müssen detailliert beschreiben, wie dieses Ergebnis erzielt wurde.
Wenn Sie frühzeitig über die Reproduzierbarkeit nachdenken, sparen Sie außerdem in Zukunft Zeit. Wir haben die Jahre unserer Zeit und die unserer Partner verbracht und konnten unsere eigenen Ergebnisse nicht reproduzieren. All dies hätte vermieden werden können, wenn wir besser verfolgt hätten, wie sich Daten und Analysen im Laufe der Zeit verändert haben.
Grund Nr. 2: Die Reproduzierbarkeit erleichtert das Schreiben von Artikeln
Transparenz in Ihrer Analyse erleichtert das Schreiben von Artikeln erheblich. In einem dynamischen Dokument (Kasten 1) werden beispielsweise alle Ergebnisse automatisch aktualisiert, wenn sich Daten ändern. Sie können sicher sein, dass Ihre Zahlen, Grafiken und Tabellen relevant bleiben. Darüber hinaus ist eine solche Analysetransparenz attraktiver, mehr Menschen können sich damit vertraut machen und es wird viel einfacher, Fehler zu erkennen.
Hier ist ein weiteres Beispiel aus meiner Arbeit. In einem anderen Projekt [3] diskutierten wir mit dem Arzt, warum einige der Überlebensergebnisse in der multizentrischen Studie nicht unseren Erwartungen entsprachen. Da uns alle Daten und der analytische Code in einer leicht lesbaren Datei zur Verfügung standen, konnten wir dieses Problem selbst untersuchen.
Nur durch die Erstellung einer Tabelle mit einer Variablen, die das Stadium des Tumors beschreibt, konnten wir das Problem identifizieren: Wir erwarteten, die Stadiennummern von 1 bis 4 zu sehen und sahen so etwas wie „XXX“, „Fred“ und „999“. Die Leute, die uns die Daten zur Verfügung gestellt haben, scheinen sie schlecht gelesen zu haben. Es stellte sich heraus, dass es viel schneller und einfacher war, die Daten selbst zu studieren, als zum Post-Doc zu gehen, der an dem Projekt arbeitet, und zu sagen: „Erklären Sie uns dies.“ Mein Co-Autor und ich sind zu beschäftigt, um Zeit mit der Datenbereinigung auf niedriger Ebene zu verbringen, und ohne eine gut dokumentierte Analyse könnten wir keinen Beitrag leisten. Da wir jedoch sehr transparente Daten und Code hatten, brauchten wir nur fünf Minuten, um den Fehler zu erkennen.
Grund Nr. 3: Die Reproduzierbarkeit hilft den Prüfern, Ihre Daten zu sehen
Viele von uns beschweren sich gerne über Peer Review. Am häufigsten höre ich: "Rezensenten haben den Artikel noch nicht einmal gelesen und wissen nicht, was wir tatsächlich recherchiert haben."
Dies steht in starkem Gegensatz zu meiner Erfahrung mit der Überprüfung eines kürzlich erschienenen Artikels [4], für den wir die Daten und den dokumentierten Code für Prüfer leicht zugänglich gemacht haben. Einer von ihnen schlug vor, einige Analysen geringfügig zu ändern, und da er Zugriff auf alle Daten hatte, konnte er seine Ideen direkt testen und sehen, wie sich die Ergebnisse änderten. Der Prüfer war voll involviert, und es blieb nur noch zu diskutieren, welche Methode der Datenanalyse die beste wäre. Daher sollte eine konstruktive Überprüfung arrangiert werden. Und dies wäre ohne eine transparente und reproduzierbare Darstellung unserer Analyse nicht möglich gewesen.
Grund Nummer 4: Die Reproduzierbarkeit gewährleistet die Kontinuität Ihrer Arbeit
Es würde mich wundern, wenn Sie die folgenden Bemerkungen noch nicht gehört hätten (und sie vielleicht sogar selbst geäußert hätten): "Ich bin so beschäftigt, dass ich mich nicht genau an die Details aller meiner Projekte erinnern kann" oder "Ich habe diese Analyse vor 6 Monaten durchgeführt. Natürlich kann ich mich nach so langer Zeit nicht mehr an alle Details erinnern. "Oder" Mein Research Supervisor (PI) sagte, ich sollte das Projekt des vorherigen Postdocs fortsetzen, aber dieser Postdoc war lange weg und hat keine Skripte oder Daten gespeichert. "
Denken Sie darüber nach: All diese Probleme können gelöst werden, indem Daten und Code dokumentiert und verfügbar gemacht werden. Dies ist besonders wichtig für führende Forscher, die an komplexen Langzeitprojekten arbeiten. Wie können Sie die Kontinuität der Arbeit in Ihrem Labor sicherstellen, wenn der Fortschritt nicht in reproduzierbarer Form dokumentiert ist? In meiner Gruppe diskutiere ich die Ergebnisse nicht einmal mit den Schülern, wenn sie schlecht dokumentiert sind. Kein Nachweis der Reproduzierbarkeit - kein Ergebnis!
Grund Nummer 5: Reproduzierbarkeit hilft dem Ruf
In mehreren Artikeln haben wir unsere Daten, Codes und Analysen als Paket für Bioconductor zur Verfügung gestellt [5]. Als ich an einem Vertrag arbeitete, stellte ich alle diese Pakete als Ergebnis meiner Laborforschung zur Verfügung.
In der Regel hilft eine auf diese Weise präsentierte Analyse dabei, einen Ruf als ehrlicher und gründlicher Forscher aufzubauen. Wenn Sie jemals ein Problem mit einem Ihrer Artikel haben, ist es für Sie sehr einfach, Ihren Namen zu schützen und zu zeigen, dass Sie alles ehrlich kommuniziert haben.
Ein kürzlich in der Zeitschrift Science veröffentlichter Artikel ist Scientific Standards. Förderung einer offenen Forschungskultur “[6], fasst acht Standards und drei Empfehlungsebenen für die Reproduzierbarkeit zusammen. Mit Werkzeugen wie R und stricken (Kasten 1) können Sie problemlos die höchsten Standards einhalten, was wiederum gut für Ihren Ruf ist.
Was hält dich zurück?
Habe ich dich überzeugt Wahrscheinlich nicht. Hier ist eine Auswahl von Reaktionen, die ich oft bekomme, wenn ich auf Reproduzierbarkeit bestehe (und wie ich darauf reagiere):
- "Nur das Ergebnis ist wichtig!" Sie irren sich.
- "Ich würde lieber echte Wissenschaft betreiben, als meine Daten aufzuräumen." Wenn Ihre Ergebnisse nicht reproduzierbar sind, betreiben Sie überhaupt keine Wissenschaft [7].
- „Geh deinem Geschäft nach! Ich dokumentiere meine Daten wie ich will! “ Ja, bitte! Es gibt viele Möglichkeiten, reproduzierbar zu arbeiten [8] - Sie können eine beliebige auswählen, die Ihnen gefällt.
- „Excel funktioniert hervorragend. Ich brauche kein neues R, Python oder sonst etwas. “ Das von Ihnen erwähnte Tool funktioniert möglicherweise gut, wenn Sie viele manuelle Änderungen vornehmen müssen. Wenn Sie jedoch eine Datenanalyse durchführen, sind weniger Klicks und mehr Skripte die beste Lösung. Stellen Sie sich vor, Sie müssen eine einfache Analyse durchführen - beispielsweise ein Regressionsdiagramm erstellen - 5 (10, 20) Mal. Vergleichen Sie die manuelle Verarbeitung mit dem Schreiben einer einfachen Schleife, die dies für Sie erledigt. Stellen Sie sich nun vor, Sie müssen dies nach 3 Wochen erneut tun, da sich die Daten etwas geändert haben. In diesem Fall sollten Sie auf jeden Fall R und Python verwenden.
- "Die Spielbarkeit klingt gut, aber mein Code und meine Daten sind auf so viele Festplatten und Verzeichnisse verteilt, dass es zu aufwendig ist, alles an einem Ort zu platzieren." Denken Sie nur daran, was Sie gerade gesagt haben. Mangelnde Organisation bringt Sie und Ihr Projekt in Lebensgefahr.
- "Wir können den Code und die Daten jederzeit sortieren, nachdem wir einen Antrag zur Überprüfung eingereicht haben." Oben zeigt mein Streckenmodellbeispiel die Gefahren einer solchen Strategie. Darüber hinaus kann die Erstellung eines Manuskripts viel Zeit in Anspruch nehmen, sodass Sie sich möglicherweise nicht einmal an alle Details Ihrer Analyse erinnern, wenn es darum geht, die Ergebnisse zu präsentieren.
- "In meinem Forschungsbereich herrscht viel Wettbewerb, und Zeitverschwendung ist zu riskant." Und deshalb sollten Sie frühzeitig mit der Reproduzierbarkeit beginnen, damit Sie diese Zeit auf lange Sicht nicht verschwenden.
Wann sollte man sich um die Reproduzierbarkeit sorgen?
Angenommen, ich habe Sie davon überzeugt, dass Reproduzierbarkeit und Transparenz vorhanden sind
in Ihrem eigenen Interesse. Wann sollte man sich Sorgen machen?
Lange Antwort:
- bevor Sie ein Projekt starten - weil Sie möglicherweise Tools wie R oder Git lernen müssen;
- Während Sie die Analyse durchführen - denn wenn Sie zu lange warten, können Sie viel Zeit verlieren, wenn Sie versuchen, sich daran zu erinnern, was Sie vor zwei Monaten getan haben.
- wenn Sie einen Artikel schreiben - weil Sie möchten, dass Ihre Zahlen, Tabellen und Abbildungen relevant sind;
- wenn Sie Mitautor eines Artikels sind - weil Sie sicher sein möchten, dass die in einem Dokument mit Ihrem Namen dargestellte Analyse korrekt ist;
- Wenn Sie sich ein Dokument ansehen - weil Sie die Ergebnisse nur beurteilen können, wenn Sie wissen, wie die Autoren zu ihnen gekommen sind.
Kurze Antwort: immer!
Eine Kultur der Reproduzierbarkeit erreichen
Für wen ist Reproduzierbarkeit und Transparenz wichtig? Offensichtlich spielen Studenten und Post-Docs eine wichtige Rolle bei der reproduzierbaren Arbeit, da sie meistens die Menschen sind, die diese Arbeit wirklich machen. Mein Rat ist, Reproduzierbarkeitstools so schnell wie möglich zu studieren (Kasten 1) und sie in jedem Projekt zu verwenden.
Wenn Sie sich Mühe geben, erhalten Sie viele Vorteile:
- Sie machen weniger Fehler und können vorhandene Fehler leichter korrigieren.
- Sie werden effektiver sein und auf lange Sicht viel schneller wachsen.
- Wenn Sie der Meinung sind, dass Ihr akademischer Berater wenig involviert ist, können Sie Ihrem Mentor helfen, die Analyse verständlicher zu machen, indem Sie die Analyse verständlicher machen.
Führende Forscher, Leiter von Gruppen und Teams, Professoren - es liegt an Ihnen, eine „Kultur der Reproduzierbarkeit“ auf der technischen Basis zu schaffen, die Ihre Studenten und Post-Docs repräsentieren. In meinem Labor habe ich die Reproduzierbarkeit zu einem Schlüsselelement in den Dokumenten gemacht, die ich Anfängern gebe [9]. Wenn Sie Ihre Kollegen unterstützen möchten, fordern Sie jedes Mal eine Analysedokumentation an, wenn ein Teammitglied Ihnen die Ergebnisse der Arbeit zeigt. Sie müssen nicht auf Details eingehen - ein flüchtiger Blick zeigt, wie gut es gemacht wird. Was die Reproduzierbarkeit in meinem eigenen Labor wirklich verbessert hat, ist die Anforderung, dass sein Kollege, der nicht an dem Projekt beteiligt ist, vor Einreichung eines Antrags durch ein Teammitglied versuchen sollte, unsere Ergebnisse unabhängig zu analysieren und zu reproduzieren.
Wenn Sie in Ihrem Labor keine Reproduzierbarkeitskultur schaffen, werden Sie die enormen wissenschaftlichen Vorteile, die es auf lange Sicht hat, verpassen.
Die Wissenschaft wird von Tag zu Tag transparenter und reproduzierbarer. Sie können in diesem Prozess führend werden! Fortgeschrittene Trendsetter! Komm schon, ich weiß - das willst du auch.
Kasten 1
Auf der untersten Ebene bedeutet reproduzierbares Arbeiten, einfach die Fehler von Anfängern zu vermeiden. Halten Sie Ihr Projekt organisiert, weisen Sie Dateien und Verzeichnissen informative Namen zu, speichern Sie Daten und Code mit Sicherung an einem Ort. Verteilen Sie keine Daten auf verschiedene Server, Laptops und Festplatten.
Um die folgenden Reproduzierbarkeitsstufen zu erreichen, müssen Sie einige Werkzeuge zur rechnerischen Reproduzierbarkeit studieren [8]. Im Allgemeinen verbessert sich die Reproduzierbarkeit mit weniger Klicks und Einfügungen sowie mehr Skripten und Codierungen. Führen Sie Ihre Analyse beispielsweise in R oder Python durch und dokumentieren Sie sie mit knitR oder IPython .
Mit diesen Tools können Sie beschreibenden Text mit analytischem Code zu dynamischen Dokumenten kombinieren, die bei jeder Änderung von Daten oder Code automatisch aktualisiert werden können.
Als Nächstes erfahren Sie, wie Sie ein Versionskontrollsystem wie git auf einer gemeinsam genutzten Plattform wie GitHub verwenden . Wenn Sie ein Profi werden möchten, lernen Sie schließlich, Docker zu verwenden, die Ihre Analyse nahtlos und einfach auf verschiedene Systeme portierbar machen.
Danksagung
Ich entwickelte einen egoistischen Reproduzierbarkeitsansatz für den „Postdoctoral Reproducibility Workshop“, der am Gourdon Institute in Cambridge mit Gordon Brown (CRUK Cambridge Institute) und Stephen J. Eglen (DAMTP Cambridge) unterrichtet wurde. Ich danke ihnen für ihren Beitrag.
Alle Materialien sind auf GitHub über den Link verfügbar und mein Bericht wird in meinem Blog aufgezeichnet.
Liste der Quellen- Kolata G. Wie vielversprechend das Versprechen bei Krebstests war. Die New York Times. 2011. http://www.nytimes.com/2011/07/08/health/research/08genes.html?_r=0 .
- Baggerly KA, Coombes KR. Ableitung der Chemosensitivität aus Zelllinien: Forensische Bioinformatik und reproduzierbare Forschung in der Hochdurchsatzbiologie. Ann Appl Stat. 2009; 3: 1309–34.
https://projecteuclid.org/euclid.aoas/1267453942 . - Martins FC, Santiago I., Trinh A., Xian J., Guo A., Sayal K. et al. Die kombinierte Bild- und Genomanalyse von hochgradigem serösem Ovarialkarzinom zeigt den PTEN-Verlust als häufiges Treiberereignis und prognostischen Klassifikator. Genome Biol. 2014; 15: 526.
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0526-8 . - Schwarz RF, Ng CKY, Cooke SL, Newman S., Temple J., Piskorz AM, et al. Räumliche und zeitliche Heterogenität bei hochgradigem serösem Ovarialkarzinom: eine phylogenetische Analyse. PLoS Med. 2015; 12: 1001789.
http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001789 . - Castro MAA, Fletcher M., Markowetz F., Meyer K. Genexpressionsdaten von Brustkrebszellen unter FGFR2-Signalstörung. BioConductor Experimental Package. http://bioconductor.org/packages/release/data/experiment/html/Fletcher2013a.html . Zugriff am 27. November 2015.
- Nosek BA, Alter G., Banks GC, Borsboom D., Bowman SD, Breckler SJ, et al. Wissenschaftliche Standards. Förderung einer offenen Forschungskultur. Wissenschaft. 2015; 348: 1422–5.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4550299 . - Watson M. Wann wird "offene Wissenschaft" einfach Wissenschaft? Genome Biol. 2015; 16: 101.
- Piccolo SR, Lee AB, Frampton MB. Werkzeuge und Techniken zur rechnerischen Reproduzierbarkeit. 2015. http://biorxiv.org/content/early/2015/07/17/022707 . Zugriff am 27. November 2015.
- Markowetz F. Sie arbeiten nicht für mich; Ich arbeite mit dir. PLoS Comput Biol. 2015; 11: 1004387.
http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004387 .
Twitter und Blog
Florian auf Twitter @markowetzlab und in seinem Blog: http://scientificbsides.wordpress.com/ .