Annotation
Alors, mes collègues scientifiques, ne demandez pas ce que vous pouvez faire pour la reproductibilité - demandez ce que la reproductibilité peut faire pour vous!
Ici, je vais énumérer cinq raisons pour lesquelles la possibilité de reproductibilité des données est rentable à long terme et présente un intérêt personnel pour tout scientifique ambitieux et axé sur la carrière.
Une équation complexe dans la moitié gauche du tableau noir, une équation encore plus complexe dans la droite. Une courte phrase relie les deux équations: "Un miracle se produit ici." Deux mathématiciens, dans une profonde réflexion. «Je pense que vous devriez être plus précis dans la deuxième étape», dit l'un à l'autre.

Voici à quoi ressemble la situation lorsque vous essayez de comprendre comment l'auteur est passé d'un ensemble de données volumineux et complexe à un article dense avec de nombreux graphiques complexes. Sans accès aux données et au code analytique, une telle transition ne peut s'expliquer que par un miracle. Et en science, il ne devrait pas y avoir de miracles.
La capacité à travailler de manière transparente et reproductible dépend fortement de l'empathie - mettez-vous à la place d'un de vos collègues et demandez: "Cette personne pourra-t-elle accéder à mes données et comprendre le sens de mon analyse?" La maîtrise de ces «outils» (encadré 1) nécessite l'implication et un investissement énorme de votre temps et de votre énergie. A priori, il n'est pas évident de savoir pourquoi les avantages de ce format de travail dépassent les coûts.
Voici quelques arguments qui mènent généralement dans de tels cas: «Parce que la reproductibilité est juste», «Parce que c'est la base de la science!», «Parce que le monde serait un meilleur endroit si tout le monde travaillait de manière transparente et reproductible!» Savez-vous comment ce raisonnement me semble? Comme "bla bla bla" ...
Non pas que je considère ces arguments comme intenables. Je ne suis tout simplement pas très idéaliste: je me fiche de ce que devrait être la science. Je suis réaliste: j'essaie de faire de mon mieux, en fonction du fonctionnement réel de la science. Et que cela nous plaise ou non, la science concerne la croissance de carrière, l'augmentation du facteur d'impact, le nombre de publications et le montant d'argent. Plus, plus, plus ... Alors, comment la reproductibilité m'aide-t-elle à en faire plus en tant que scientifique?
Reproductibilité: pourquoi en ai-je besoin?
Dans cet article, je présente cinq raisons pour lesquelles cette approche de la reproductibilité est rentable à long terme et est dans l'intérêt de tout scientifique ambitieux et orienté vers la carrière.
Raison n ° 1: la reproductibilité permet d'éviter une catastrophe
"Comme une grande promesse dans le dépistage du cancer, il s'est écrasé", tel est le titre d'un article du New York Times publié à l'été 2011 [1], qui met en lumière le travail de Keith Baggerly et Kevin Coombs, deux biostatistes du Cancer Center. M. D. Anderson. Ils ont identifié des problèmes dans l'analyse des données de décès dans une série d'articles de scientifiques de l'Université Duke, qui ont eu une grande influence sur la recherche sur le cancer du sein [2].
Les problèmes découverts par Baggerly et Coombs pourraient facilement être remarqués par tout co-auteur de l'article avant sa soumission. Les ensembles de données ne sont pas si volumineux, ils peuvent être facilement vérifiés sur un ordinateur portable standard. Vous n'avez pas besoin d'être un génie statistique pour comprendre que le nombre de patients varie, que les étiquettes changent de place ou que les échantillons sont présentés plusieurs fois avec des annotations contradictoires dans le même ensemble de données. Pourquoi personne n'a-t-il remarqué ces problèmes avant qu'il ne soit trop tard? Parce que les données et l'analyse n'étaient pas transparentes et nécessitaient une connaissance de la bioinformatique criminelle pour les comprendre [2].
Cet exemple me motive à être plus transparent et reproductible dans mon propre travail. Des incidents encore plus petits peuvent vous mettre dans une position délicate.
Voici un exemple de mes recherches. Nos partenaires expérimentaux ont testé le modèle de voie que nous avons créé. Cependant, lors de la rédaction de l'article, nous avons rencontré un sérieux obstacle: peu importe nos efforts, nous n'avons pas pu reproduire notre modèle de voyage d'origine. Peut-être que les données ont changé, peut-être que le code était différent, ou peut-être que nous ne pouvions tout simplement pas nous souvenir correctement des réglages des paramètres de notre méthode. Si nous publions ce résultat, nous ne serions pas en mesure de démontrer comment nous sommes arrivés à l'hypothèse approuvée à partir des données sources. Nous publierions un miracle.
Cette expérience m'a montré deux choses. Tout d'abord, un projet est plus qu'un beau résultat. Vous devez décrire en détail comment ce résultat a été obtenu.
Et en plus, en pensant à la reproductibilité dans les premiers stades, vous gagnerez du temps à l'avenir. Nous avons passé des années de notre temps et du temps de nos partenaires, incapables de reproduire nos propres résultats. Tout cela aurait pu être évité si nous avions mieux suivi l'évolution des données et des analyses au fil du temps.
Raison n ° 2: la reproductibilité facilite la rédaction d'articles
La transparence de votre analyse facilite la rédaction d'articles. Par exemple, dans un document dynamique (encadré 1), tous les résultats sont automatiquement mis à jour lorsque les données changent. Vous pouvez être sûr que vos chiffres, graphiques et tableaux resteront pertinents. De plus, une telle transparence d'analyse est plus attrayante, plus de gens pourront se familiariser avec elle et il deviendra beaucoup plus facile de détecter les erreurs.
Voici un autre exemple de mon travail. Dans un autre projet [3], nous avons discuté avec le médecin des raisons pour lesquelles certains résultats de survie dans l'étude multicentrique ne répondaient pas à nos attentes. Étant donné que toutes les données et le code analytique étaient à notre disposition dans un fichier facilement lisible, nous avons pu étudier ce problème nous-mêmes.
Juste en créant un tableau avec une variable décrivant le stade de la tumeur, nous avons pu identifier le problème: nous nous attendions à voir les numéros de stade de 1 à 4, et avons vu quelque chose comme "XXX", "Fred" et "999". Les personnes qui nous ont fourni les données semblent les avoir mal lues. Il s'est avéré beaucoup plus rapide et plus facile d'étudier les données par vous-même que d'aller au post-doc travaillant sur le projet et de dire: "Expliquez-nous cela." Mon co-auteur et moi sommes trop occupés pour passer du temps sur le nettoyage des données de bas niveau, et sans une analyse bien documentée, nous ne serions pas en mesure de contribuer. Mais comme nous avions des données et un code très transparents, il nous a fallu seulement cinq minutes pour détecter l'erreur.
Raison n ° 3: la reproductibilité aide les réviseurs à voir vos données
Beaucoup d'entre nous aiment se plaindre de l'examen par les pairs. Le plus souvent, j'entends: "Les critiques n'ont même pas lu l'article et n'ont aucune idée de ce que nous avons réellement recherché."
Cela contraste fortement avec mon expérience en passant en revue un article récent [4], pour lequel nous avons rendu les données et le code documenté facilement accessibles aux examinateurs. L'un d'eux a suggéré d'apporter un petit changement à certaines analyses, et comme il avait accès à toutes les données, il a pu tester directement ses idées et voir comment les résultats ont changé. L'examinateur était pleinement impliqué et il ne restait plus qu'à discuter de la méthode d'analyse des données qui serait la meilleure. Un examen constructif doit donc être organisé. Et cela n'aurait pas été possible sans une représentation transparente et reproductible de notre analyse.
Raison numéro 4: la reproductibilité assure la continuité de votre travail
Je serais surpris si vous n'aviez pas entendu les remarques suivantes auparavant (et peut-être même les avez exprimées vous-même): "Je suis tellement occupé que je ne peux pas me souvenir en détail de tous mes projets" ou "J'ai fait cette analyse il y a 6 mois. Bien sûr, je ne me souviens pas de tous les détails après une si longue période "ou" Mon directeur de recherche (PI) a dit que je devais continuer le projet du post-doc précédent, mais ce post-doc était parti depuis longtemps et n'a enregistré aucun script ou donnée. "
Pensez-y: tous ces problèmes peuvent être résolus en documentant et en mettant à disposition des données et du code. Cela est particulièrement important pour les principaux chercheurs qui travaillent sur des projets complexes à long terme. Comment assurer la continuité du travail dans votre laboratoire si la manière dont il progresse n'est pas documentée sous une forme reproductible? Dans mon groupe, je ne discute même pas des résultats avec les élèves s'ils sont mal documentés. Aucune preuve de reproductibilité - aucun résultat!
Raison numéro 5: la reproductibilité contribue à la réputation
Dans plusieurs articles, nous avons rendu nos données, notre code et nos analyses disponibles sous forme de package pour Bioconductor [5]. Quand je suis venu travailler sur un contrat, j'ai fourni tous ces packages comme résultats de mes recherches en laboratoire.
En règle générale, une analyse présentée de cette manière permet de se forger une réputation de chercheur honnête et approfondi. Si jamais vous avez un problème avec l'un de vos articles, il vous sera très facile de protéger votre nom et de montrer que vous avez tout honnêtement communiqué.
Un article récent publié dans la revue Science is Scientific Standards. Promouvoir une culture de recherche ouverte »[6], résume huit normes et trois niveaux de recommandations pour la reproductibilité. L'utilisation d'outils tels que R et knitR (encadré 1) vous permettra de suivre facilement les normes les plus élevées, ce qui, encore une fois, est bon pour votre réputation.
Qu'est-ce qui vous retient?
Je t'ai convaincu? Probablement pas. Voici une sélection de réactions que j'obtiens souvent lorsque j'insiste sur la reproductibilité (et comment j'y réponds):
- "Seul le résultat compte!" Vous vous trompez.
- "Je préfère faire de la vraie science, plutôt que de ranger mes données." Si vos résultats ne sont pas reproductibles, vous ne faites pas du tout de science [7].
- «Allez-y pour vos affaires! Je documente mes données comme je le souhaite! » Oui, s'il te plait! Il existe de nombreuses façons de travailler de manière reproductible [8] - vous pouvez choisir celle que vous aimez.
- «Excel fonctionne très bien. Je n'ai pas besoin de R, Python ou quoi que ce soit d'autre. " L'outil que vous avez mentionné peut bien fonctionner si vous devez effectuer de nombreuses modifications manuelles. Mais si vous effectuez une analyse des données, moins de clics et plus de scripts sont la meilleure solution. Imaginez que vous devez effectuer une analyse simple - par exemple, créer un graphique de régression - 5 (10, 20) fois. Comparez le traitement manuel de ceci avec l'écriture d'une boucle simple qui le fera pour vous. Imaginez maintenant que vous devez recommencer après 3 semaines, car les données ont un peu changé. Dans ce cas, vous devez absolument utiliser R et Python.
- "La jouabilité semble bonne, mais mon code et mes données sont dispersés sur tellement de disques durs et de répertoires qu'il faut trop d'efforts pour tout mettre en un seul endroit." Pensez juste à ce que vous venez de dire. Le manque d'organisation vous met, vous et votre projet, en danger de mort.
- "Nous pouvons toujours trier le code et les données après avoir soumis une demande d'examen." Ci-dessus, mon exemple de modèle de piste montre les dangers d'une telle stratégie. De plus, la préparation d'un manuscrit peut prendre beaucoup de temps, il se peut donc que vous ne vous souveniez même pas de tous les détails de votre analyse au moment de présenter les résultats.
- «Il y a beaucoup de concurrence dans mon domaine de recherche, et perdre du temps est trop risqué.» Et c'est pourquoi vous devriez commencer à travailler avec la reproductibilité à un stade précoce afin de ne pas perdre ce temps à long terme.
Quand se soucier de la reproductibilité?
Supposons que je vous ai convaincu que la reproductibilité et la transparence sont
dans votre propre intérêt. Quand commencer à s'inquiéter?
Réponse longue:
- avant de démarrer un projet - car vous devrez peut-être apprendre des outils comme R ou git.;
- pendant que vous faites l'analyse - parce que si vous attendez trop longtemps, vous pouvez perdre beaucoup de temps à essayer de vous souvenir de ce que vous avez fait il y a deux mois;
- lorsque vous écrivez un article - parce que vous voulez que vos chiffres, tableaux et figures soient pertinents;
- lorsque vous êtes co-auteur d'un article - parce que vous voulez être sûr que l'analyse présentée dans un document à votre nom est correcte;
- lorsque vous regardez un document - parce que vous ne pouvez pas juger les résultats à moins de savoir comment les auteurs y sont arrivés.
Réponse courte: toujours!
Instaurer une culture de reproductibilité
Pour qui la reproductibilité et la transparence sont-elles importantes? De toute évidence, les étudiants et les post-doctorants jouent un rôle important dans le travail reproductible, car le plus souvent, ce sont eux qui font vraiment ce travail. Mon conseil est d'étudier les outils de reproductibilité le plus rapidement possible (encadré 1) et de les utiliser dans chaque projet.
Après avoir fait des efforts, vous obtiendrez de nombreux avantages:
- Vous ferez moins d'erreurs et plus facile de corriger les erreurs existantes;
- vous serez plus efficace et vous vous développerez beaucoup plus rapidement à long terme;
- si vous pensez que votre conseiller pédagogique est peu impliqué, alors en rendant l'analyse plus compréhensible, vous pouvez aider votre mentor à s'impliquer davantage.
Chercheurs éminents, chefs de groupes et d'équipes, professeurs - il vous appartient de créer une «culture de reproductibilité» en plus de la base technique que représentent vos étudiants et post-doctorants. Dans mon laboratoire, j'ai fait de la reproductibilité un élément clé des documents que je distribue aux débutants [9]. Si vous souhaitez soutenir vos collègues, demandez une documentation d'analyse chaque fois qu'un membre de l'équipe vous montre les résultats du travail. Vous n'avez pas besoin d'entrer dans les détails - un coup d'œil rapide montrera à quel point cela se fait. Ce qui a vraiment amélioré la reproductibilité dans mon propre laboratoire, c'est l'exigence qu'avant de déposer une demande auprès d'un membre de l'équipe, son collègue qui n'est pas impliqué dans le projet, essaie d'analyser et de reproduire nos résultats de manière indépendante.
Si vous ne créez pas de culture de reproductibilité dans votre laboratoire, vous passerez à côté des énormes avantages scientifiques qu'elle présente à long terme.
La science devient chaque jour plus transparente et reproductible. Vous pouvez devenir des leaders dans ce processus! Des créateurs de tendances avancés! Allez, je sais - tu le veux aussi.
Encadré 1
Au niveau le plus bas, travailler de manière reproductible signifie simplement éviter les erreurs des débutants. Gardez votre projet organisé, attribuez des noms informatifs aux fichiers et répertoires, enregistrez les données et le code en un seul endroit avec sauvegarde. Ne dispersez pas les données sur différents serveurs, ordinateurs portables et disques durs.
Afin d'atteindre les niveaux de reproductibilité suivants, vous devez étudier certains outils de reproductibilité informatique [8]. En général, la reproductibilité s'améliore avec moins de clics et d'inserts et plus de scripts et de codage. Par exemple, faites votre analyse en R ou Python et documentez-la en utilisant knitR ou IPython .
Ces outils vous aident à combiner du texte descriptif avec du code analytique dans des documents dynamiques qui peuvent être automatiquement mis à jour chaque fois que vous modifiez des données ou du code.
Ensuite, découvrez comment utiliser un système de contrôle de version tel que git sur une plateforme partagée telle que GitHub . Enfin, si vous souhaitez devenir un professionnel, apprenez à utiliser des dockers qui rendent votre analyse transparente et facilement portable sur différents systèmes.
Remerciements
J'ai développé une approche de reproductibilité égoïste pour le «Postdoctoral Reproductibility Workshop» enseigné au Gourdon Institute de Cambridge avec le Gordon Brown (CRUK Cambridge Institute) et Stephen J. Eglen (DAMTP Cambridge). Je les remercie de leur contribution.
Tous les documents sont disponibles sur GitHub via le lien , et mon rapport est enregistré sur mon blog .
Liste des sources- Kolata G. Quelle promesse brillante dans le dépistage du cancer s'est effondrée. Le New York Times. 2011. http://www.nytimes.com/2011/07/08/health/research/08genes.html?_r=0 .
- Baggerly KA, Coombes KR. Dériver la chimiosensibilité des lignées cellulaires: bioinformatique judiciaire et recherche reproductible en biologie à haut débit. Ann Appl Stat. 2009; 3: 1309–34.
https://projecteuclid.org/euclid.aoas/1267453942 . - Martins FC, Santiago I, Trinh A, Xian J, Guo A, Sayal K, et al. L'image combinée et l'analyse génomique du cancer de l'ovaire séreux de haut grade révèlent la perte de PTEN en tant qu'événement pilote commun et classificateur pronostique. Genome Biol. 2014; 15: 526.
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0526-8 . - Schwarz RF, Ng CKY, Cooke SL, Newman S, Temple J, Piskorz AM, et al. Hétérogénéité spatiale et temporelle dans le cancer de l'ovaire séreux de haut grade: une analyse phylogénétique. PLoS Med. 2015; 12: 1001789.
http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001789 . - Castro MAA, Fletcher M, Markowetz F, Meyer K. Données d'expression génique de cellules cancéreuses du sein sous FGFR2 signalant une perturbation. Pack expérimental BioConductor. http://bioconductor.org/packages/release/data/experiment/html/Fletcher2013a.html . Consulté le 27 novembre 2015.
- Nosek BA, Alter G, Banks GC, Borsboom D, Bowman SD, Breckler SJ, et al. Normes scientifiques. Promouvoir une culture de recherche ouverte. Science. 2015; 348: 1422–5.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4550299 . - Watson M. Quand la «science ouverte» deviendra-t-elle simplement «science»? Genome Biol. 2015; 16: 101.
- Piccolo SR, Lee AB, Frampton MB. Outils et techniques de reproductibilité informatique. 2015. http://biorxiv.org/content/early/2015/07/17/022707 . Consulté le 27 novembre 2015.
- Markowetz F. Vous ne travaillez pas pour moi; Je travaille avec vous. PLoS Comput Biol. 2015; 11: 1004387.
http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004387 .
Twitter et blog
Florian sur Twitter @markowetzlab et sur son blog: http://scientificbsides.wordpress.com/ .