Cinco razones egoístas para trabajar de forma reproducible

Anotación


Entonces, mis colegas científicos, no pregunten qué pueden hacer para la reproducibilidad, ¡pregunten qué puede hacer la reproducibilidad por ustedes!


Aquí enumeraré cinco razones por las cuales la posibilidad de reproducibilidad de datos vale la pena a largo plazo y es de interés personal para todos los científicos ambiciosos y orientados a la carrera.




Una ecuación compleja en la mitad izquierda de la pizarra, una ecuación aún más compleja en la derecha. Una oración corta conecta las dos ecuaciones: "Aquí ocurre un milagro". Dos matemáticos, en profunda reflexión. "Creo que deberías ser más específico en el segundo paso", le dice uno al otro.
imagen


Así es como se ve la situación cuando intenta comprender cómo el autor pasó de un conjunto de datos grande y complejo a un artículo denso con muchos gráficos complejos. Sin acceso a datos y código analítico, tal transición solo puede explicarse por un milagro. Y en ciencia no debería haber milagros.


La capacidad de trabajar de forma transparente y reproducible depende en gran medida de la empatía: póngase en el lugar de uno de sus colegas y pregunte: "¿Podrá esta persona acceder a mis datos y comprender el significado de mi análisis?" Dominar tales "herramientas" (Cuadro 1) requiere la participación y una gran inversión de su tiempo y energía. A priori, no es obvio por qué las ventajas de este formato de trabajo exceden los costos.


Aquí hay algunos argumentos que generalmente conducen en tales casos: "¡Porque la reproducibilidad es correcta", "¡Porque es la base de la ciencia!", "¡Porque el mundo sería un lugar mejor si todos trabajaran de manera transparente y reproducible!" ¿Sabes cómo me suena este razonamiento? Como "bla, bla, bla" ...


No es que considere estos argumentos insostenibles. No soy muy idealista: no me importa lo que la ciencia debería ser. Soy realista: trato de hacer lo mejor que puedo, en función de cómo funciona realmente la ciencia. Y nos guste o no, la ciencia trata sobre el crecimiento profesional, un aumento en el factor de impacto, la cantidad de publicaciones y la cantidad de dinero. Más, más, más ... Entonces, ¿cómo me ayuda la reproducibilidad a lograr más como científico?


Reproducibilidad: ¿Por qué lo necesito?


En este artículo, presento cinco razones por las cuales este enfoque de la reproducibilidad vale la pena a largo plazo y beneficia a todos los científicos ambiciosos y orientados a la carrera.


Razón # 1: la reproducibilidad ayuda a evitar desastres


"Como una gran promesa en las pruebas de cáncer, se estrelló", es el título de un artículo publicado en el New York Times en el verano de 2011 [1], que destaca el trabajo de Keith Baggerly y Kevin Coombs, dos bioestadistas del Centro de Cáncer. M. D. Anderson. Identificaron problemas en el análisis de datos de muerte en una serie de artículos de científicos de la Universidad de Duke, que tuvieron una gran influencia en la investigación del cáncer de mama [2].


Los problemas descubiertos por Baggerly y Coombs podrían ser notados fácilmente por cualquier coautor del artículo antes de su presentación. Los conjuntos de datos no son tan grandes, se pueden verificar fácilmente en una computadora portátil estándar. No necesita ser un genio de las estadísticas para comprender que la cantidad de pacientes allí varía, las etiquetas cambian de lugar o las muestras se presentan varias veces con anotaciones contradictorias en el mismo conjunto de datos. ¿Por qué nadie notó estos problemas antes de que fuera demasiado tarde? Porque los datos y el análisis no eran transparentes y requerían conocimiento de la bioinformática criminal para comprenderlos [2].


Este ejemplo me motiva a ser más transparente y reproducible en mi propio trabajo. Incluso incidentes más pequeños pueden ponerlo en una posición incómoda.


Aquí hay un ejemplo de mi investigación. Nuestros socios experimentales probaron el modelo de pista que creamos. Sin embargo, al escribir el artículo, encontramos un serio obstáculo: no importaba cuánto lo intentáramos, no podíamos reproducir nuestro modelo de viaje original. Tal vez los datos han cambiado, tal vez el código fue diferente, o tal vez simplemente no pudimos recordar correctamente la configuración de parámetros de nuestro método. Si publicamos este resultado, no podríamos demostrar cómo llegamos a la hipótesis aprobada a partir de los datos de origen. Publicaríamos un milagro.


Esta experiencia me mostró dos cosas. En primer lugar, un proyecto es más que un resultado hermoso. Debe describir en detalle cómo se obtuvo este resultado.


Y además, pensando en la reproducibilidad en las primeras etapas, ahorrará tiempo en el futuro. Pasamos los años de nuestro tiempo y el tiempo de nuestros socios, incapaces de reproducir nuestros propios resultados. Todo esto podría haberse evitado si hubiéramos seguido mejor la forma en que los datos y los análisis cambiaron con el tiempo.


Razón # 2: la reproducibilidad hace que sea más fácil escribir artículos


La transparencia en su análisis hace que escribir artículos sea mucho más fácil. Por ejemplo, en un documento dinámico (Cuadro 1), todos los resultados se actualizan automáticamente cuando cambian los datos. Puede estar seguro de que sus números, gráficos y tablas seguirán siendo relevantes. Además, dicha transparencia de análisis es más atractiva, más personas podrán familiarizarse con ella y será mucho más fácil detectar errores.


Aquí hay otro ejemplo de mi trabajo. En otro proyecto [3], discutimos con el médico por qué algunos de los resultados de supervivencia en el estudio multicéntrico no cumplieron con nuestras expectativas. Dado que todos los datos y el código analítico estaban disponibles para nosotros en un archivo fácil de leer, pudimos estudiar este problema nosotros mismos.


Con solo crear una tabla con una variable que describa el estadio del tumor, pudimos identificar el problema: esperábamos ver los números del estadio del 1 al 4 y vimos algo como "XXX", "Fred" y "999". Las personas que nos proporcionaron los datos parecen haberlos leído mal. Resultó ser mucho más rápido y fácil estudiar los datos por su cuenta que ir al post-doc trabajando en el proyecto y decir: "Explícanos esto". Mi coautor y yo estamos demasiado ocupados para pasar tiempo en la limpieza de datos de bajo nivel, y sin un análisis bien documentado, no podríamos contribuir. Pero como teníamos datos y códigos muy transparentes, nos tomó solo cinco minutos detectar el error.


Razón n. ° 3: la reproducibilidad ayuda a los revisores a ver sus datos


A muchos de nosotros nos gusta quejarnos de la revisión por pares. A menudo escucho: "Los revisores ni siquiera han leído el artículo y no tienen idea de lo que realmente investigamos".


Esto contrasta notablemente con mi experiencia en la revisión de un artículo reciente [4], para el cual hicimos que los datos y el código documentado fueran fácilmente accesibles para los revisores. Uno de ellos sugirió hacer un pequeño cambio en algunos análisis, y dado que tenía acceso a todos los datos, pudo probar directamente sus ideas y ver cómo cambiaron los resultados. El revisor estuvo completamente involucrado, y lo único que quedaba por discutir era qué método de análisis de datos sería el mejor. Por lo tanto, se debe organizar una revisión constructiva. Y esto no hubiera sido posible sin una representación transparente y reproducible de nuestro análisis.


Razón número 4: la reproducibilidad garantiza la continuidad de su trabajo.


Me sorprendería que no haya escuchado los siguientes comentarios antes (y tal vez incluso los haya expresado usted mismo): "Estoy tan ocupado que no puedo recordar los detalles de todos mis proyectos a fondo" o "Hice este análisis hace 6 meses. Por supuesto, no puedo recordar todos los detalles después de un período tan largo "o" Mi supervisor de investigación (PI) dijo que debería continuar el proyecto del postdoc anterior, pero ese postdoc desapareció hace mucho tiempo y no guardó ningún script o dato ".


Piénselo: todos estos problemas se pueden resolver documentando y haciendo que los datos y el código estén disponibles. Esto es especialmente importante para los principales investigadores que trabajan en proyectos complejos a largo plazo. ¿Cómo puede garantizar la continuidad del trabajo en su laboratorio si la forma en que avanza no está documentada en forma reproducible? En mi grupo, ni siquiera discuto los resultados con los estudiantes si están mal documentados. Sin evidencia de reproducibilidad - ¡sin resultado!


Razón número 5: la reproducibilidad ayuda a la reputación


En varios artículos, pusimos a disposición nuestros datos, código y análisis como un paquete para Bioconductor [5]. Cuando llegué a trabajar en un contrato, proporcioné todos estos paquetes como resultado de mi investigación de laboratorio.


Por lo general, un análisis presentado de esta manera ayuda a construir una reputación como investigador honesto y minucioso. Si alguna vez tiene un problema con uno de sus artículos, será muy fácil proteger su nombre y demostrar que ha comunicado honestamente todo.


Un artículo reciente publicado en la revista Science is Scientific Standards. Promoviendo una cultura de investigación abierta ”[6], resume ocho estándares y tres niveles de recomendaciones para la reproducibilidad. El uso de herramientas como R y knitR (recuadro 1) le permitirá seguir fácilmente los estándares de más alto nivel, lo cual, nuevamente, es bueno para su reputación.


¿Qué te detiene?


¿Te convencí? Probablemente no. Aquí hay una selección de reacciones que a menudo obtengo cuando insisto en la reproducibilidad (y cómo respondo a ella):


  • "¡Solo el resultado importa!" Te equivocas
  • "Prefiero hacer ciencia real, en lugar de ordenar mis datos". Si sus resultados no son reproducibles, no está haciendo ciencia en absoluto [7].
  • ¡Ve por tus asuntos! ¡Estoy documentando mis datos como quiero! " Si por favor! Hay muchas maneras de trabajar de forma reproducible [8]: puede elegir la que más le guste.
  • “Excel funciona muy bien. No necesito ninguna nueva R, Python o cualquier otra cosa ". La herramienta que mencionó puede funcionar bien si necesita hacer muchas ediciones manuales. Pero si realiza un análisis de datos, entonces la mejor solución son menos clics y más secuencias de comandos. Imagine que necesita hacer un análisis simple, por ejemplo, construir un gráfico de regresión 5 (10, 20) veces. Compare el procesamiento manual de esto con escribir un bucle simple que lo hará por usted. Ahora imagine que necesita hacer esto nuevamente después de 3 semanas, porque los datos han cambiado un poco. En este caso, definitivamente deberías usar R y Python.
  • "La capacidad de reproducción suena bien, pero mi código y mis datos están dispersos en tantos discos duros y directorios que se requiere demasiado esfuerzo para poner todo en un solo lugar". Solo piensa en lo que acabas de decir. La falta de organización te pone a ti y a tu proyecto en peligro mortal.
  • "Siempre podemos ordenar el código y los datos después de enviar una solicitud para su revisión". Arriba, mi ejemplo de modelo de pista demuestra los peligros de tal estrategia. Además, preparar un manuscrito puede llevar mucho tiempo, por lo que es posible que ni siquiera recuerde todos los detalles de su análisis cuando llegue el momento de presentar los resultados.
  • "Hay mucha competencia en mi área de investigación, y perder el tiempo es demasiado riesgo". Y es por eso que debe comenzar a trabajar con la reproducibilidad en una etapa temprana para que no pierda este tiempo a largo plazo.

¿Cuándo preocuparse por la reproducibilidad?


Supongamos que te convencí de que la reproducibilidad y la transparencia son
en su propio interés ¿Cuándo comenzar a preocuparse?
Respuesta larga:


  • antes de comenzar un proyecto, porque puede que tenga que aprender herramientas como R o git.
  • mientras hace el análisis, porque si espera demasiado, puede perder mucho tiempo tratando de recordar lo que hizo hace dos meses;
  • cuando escribe un artículo, porque quiere que sus números, tablas y figuras sean relevantes;
  • cuando es coautor de un artículo, porque desea asegurarse de que el análisis presentado en un documento con su nombre sea correcto;
  • cuando mira un documento, porque no puede juzgar los resultados a menos que sepa cómo los autores llegaron a ellos.

Respuesta corta: ¡siempre!


Lograr una cultura de reproducibilidad


¿Para quién es importante la reproducibilidad y la transparencia? Obviamente, los estudiantes y los postdoctorales juegan un papel importante en el trabajo reproducible, porque la mayoría de las veces son las personas que realmente hacen este trabajo. Mi consejo es estudiar las herramientas de reproducibilidad lo más rápido posible (Cuadro 1) y usarlas en cada proyecto.


Después de esforzarse, obtendrá muchas ventajas:


  • Cometerá menos errores y será más fácil corregir los existentes;
  • serás más efectivo y crecerás mucho más rápido a largo plazo;
  • Si cree que su asesor académico está poco involucrado, al hacer que el análisis sea más comprensible, puede ayudar a su mentor a involucrarse más.

Investigadores líderes, líderes de grupos y equipos, profesores: es suyo crear una "cultura de reproducibilidad" además de la base técnica que representan sus estudiantes y posdoctorados. En mi laboratorio, hice de la reproducibilidad un elemento clave en los documentos que entrego a los principiantes [9]. Si desea apoyar a sus colegas, solicite documentación de análisis cada vez que un miembro del equipo le muestre los resultados del trabajo. No es necesario que entre en detalles: una mirada rápida mostrará qué tan bien se hace. Lo que realmente mejoró la reproducibilidad en mi propio laboratorio es el requisito de que antes de presentar una solicitud con un miembro del equipo, su colega que no está involucrado en el proyecto, debe intentar analizar y reproducir nuestros resultados de forma independiente.


Si no crea una cultura de reproducibilidad en su laboratorio, se perderá los enormes beneficios científicos que tiene a la larga.


La ciencia se está volviendo más transparente y reproducible cada día. ¡Puedes convertirte en líder en este proceso! ¡Marcadores de tendencias avanzados! Vamos, lo sé, tú también quieres esto.




Recuadro 1


En el nivel más bajo, trabajar de manera reproducible significa simplemente evitar los errores de los principiantes. Mantenga su proyecto organizado, asigne nombres informativos a archivos y directorios, guarde datos y código en un solo lugar con copia de seguridad. No dispersar datos en diferentes servidores, computadoras portátiles y discos duros.


Para lograr los siguientes niveles de reproducibilidad, debe estudiar algunas herramientas de reproducibilidad computacional [8]. En general, la reproducibilidad mejora con menos clics e inserciones y más secuencias de comandos y codificación. Por ejemplo, haga su análisis en R o Python y documente usando knitR o IPython .
Estas herramientas lo ayudan a combinar texto descriptivo con código analítico en documentos dinámicos que pueden actualizarse automáticamente cada vez que cambia datos o código.


A continuación, aprenda a usar un sistema de control de versiones como git en una plataforma compartida como GitHub . Finalmente, si desea convertirse en un profesional, aprenda a usar los dockers que hacen que su análisis sea fluido y fácil de transportar a diferentes sistemas.




Agradecimientos


Desarrollé un enfoque de reproducibilidad egoísta para el "Taller de reproducibilidad posdoctoral" impartido en el Instituto Gourdon de Cambridge con Gordon Brown (CRUK Cambridge Institute) y Stephen J. Eglen (DAMTP Cambridge). Les agradezco su contribución.


Todos los materiales están disponibles en GitHub a través del enlace , y mi informe está registrado en mi blog .


Lista de fuentes
  1. Kolata G. Qué brillante promesa en pruebas de cáncer se vino abajo. El New York Times. 2011. http://www.nytimes.com/2011/07/08/health/research/08genes.html?_r=0 .
  2. Baggerly KA, Coombes KR. Derivando la quimiosensibilidad de las líneas celulares: bioinformática forense e investigación reproducible en biología de alto rendimiento. Ann Appl Stat. 2009; 3: 1309–34.
    https://projecteuclid.org/euclid.aoas/1267453942 .
  3. Martins FC, Santiago I, Trinh A, Xian J, Guo A, Sayal K, et al. La imagen combinada y el análisis genómico del cáncer de ovario seroso de alto grado revela la pérdida de PTEN como un evento conductor común y un clasificador pronóstico. Genome Biol. 2014; 15: 526.
    https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0526-8 .
  4. Schwarz RF, Ng CKY, Cooke SL, Newman S, Temple J, Piskorz AM, et al. Heterogeneidad espacial y temporal en el cáncer de ovario seroso de alto grado: un análisis filogenético. PLoS Med. 2015; 12: 1001789.
    http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001789 .
  5. Castro MAA, Fletcher M, Markowetz F, Meyer K. Datos de expresión génica de células de cáncer de mama bajo perturbación de señalización de FGFR2. Paquete Experimental BioConductor. http://bioconductor.org/packages/release/data/experiment/html/Fletcher2013a.html . Consultado el 27 de noviembre de 2015.
  6. Nosek BA, Alter G, Banks GC, Borsboom D, Bowman SD, Breckler SJ, et al. Estándares científicos Promoción de una cultura de investigación abierta. Ciencia. 2015; 348: 1422–5.
    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4550299 .
  7. Watson M. ¿Cuándo la 'ciencia abierta' se convertirá simplemente en ciencia '? Genome Biol. 2015; 16: 101.
  8. Piccolo SR, Lee AB, Frampton MB. Herramientas y técnicas para la reproducibilidad computacional. 2015. http://biorxiv.org/content/early/2015/07/17/022707 . Consultado el 27 de noviembre de 2015.
  9. Markowetz F. No estás trabajando para mí; Estoy trabajando contigo PLoS Comput Biol. 2015; 11: 1004387.
    http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004387 .


    Twitter y blog
    Florian en Twitter @markowetzlab y en su blog: http://scientificbsides.wordpress.com/ .

Source: https://habr.com/ru/post/es417469/


All Articles