Anotação
Portanto, meus colegas cientistas, não pergunte o que você pode fazer por reprodutibilidade - pergunte o que a reprodutibilidade pode fazer por você!
Aqui, listarei cinco razões pelas quais a possibilidade de reprodutibilidade dos dados compensa a longo prazo e é de interesse pessoal para todo cientista ambicioso e orientado para a carreira.
Uma equação complexa na metade esquerda do quadro-negro, uma equação ainda mais complexa na direita. Uma frase curta conecta as duas equações: "Um milagre acontece aqui". Dois matemáticos, em profunda reflexão. "Acho que você deveria ser mais específico na segunda etapa", diz um ao outro.

É assim que fica a situação quando você está tentando entender como o autor mudou de um conjunto de dados grande e complexo para um artigo denso com muitos gráficos complexos. Sem acesso a dados e código analítico, essa transição só pode ser explicada por um milagre. E na ciência não deve haver milagres.
A capacidade de trabalhar de forma transparente e reproduzível depende fortemente da empatia - coloque-se no lugar de um de seus colegas e pergunte: "Essa pessoa poderá acessar meus dados e entender o significado de minha análise?" O domínio dessas “ferramentas” (Quadro 1) requer o envolvimento e um enorme investimento de seu tempo e energia. A priori, não é óbvio por que as vantagens desse formato de trabalho excedem os custos.
Aqui estão alguns argumentos que geralmente levam a esses casos: “Porque a reprodutibilidade é correta”, “Porque é a base da ciência!”, “Porque o mundo seria um lugar melhor se todos trabalhassem de forma transparente e reproduzível!” Você sabe como esse raciocínio me soa? Como "blá blá blá" ...
Não que eu considerasse esses argumentos insustentáveis. Não sou muito idealista: não me importo com o que a ciência deveria ser. Sou realista: tento fazer o melhor que posso, com base em como a ciência realmente funciona. E gostemos ou não, a ciência diz respeito ao crescimento na carreira, um aumento no fator de impacto, no número de publicações e na quantidade de dinheiro. Mais, mais, mais ... Então, como a reprodutibilidade me ajuda a conseguir mais como cientista?
Reprodutibilidade: Por que eu preciso?
Neste artigo, apresento cinco razões pelas quais essa abordagem da reprodutibilidade compensa a longo prazo e é do interesse de todo cientista ambicioso e orientado para a carreira.
Razão # 1: a reprodutibilidade ajuda a evitar desastres
"Como uma grande promessa no teste de câncer, ele caiu", é o título de um artigo do The New York Times publicado no verão de 2011 [1], que destaca o trabalho de Keith Baggerly e Kevin Coombs, dois bioestatistas do Cancer Center. M. D. Anderson. Eles identificaram problemas na análise dos dados de mortes em uma série de artigos de cientistas da Universidade Duke, que tiveram grande influência na pesquisa do câncer de mama [2].
Os problemas descobertos por Baggerly e Coombs podiam ser facilmente percebidos por qualquer co-autor do artigo antes de sua submissão. Os conjuntos de dados não são tão grandes que podem ser verificados facilmente em um laptop padrão. Você não precisa ser um gênio da estatística para entender que o número de pacientes varia, os rótulos mudam de lugar ou as amostras são apresentadas várias vezes com anotações conflitantes no mesmo conjunto de dados. Por que ninguém percebeu esses problemas antes que fosse tarde demais? Porque os dados e a análise não eram transparentes e exigiam conhecimento de bioinformática criminal para entendê-los [2].
Este exemplo me motiva a ser mais transparente e reproduzível em meu próprio trabalho. Incidentes ainda menores podem colocá-lo em uma posição desconfortável.
Aqui está um exemplo da minha pesquisa. Nossos parceiros experimentais testaram o modelo de pista que criamos. No entanto, ao escrever o artigo, encontramos um sério obstáculo: por mais que tentássemos, não podíamos reproduzir nosso modelo de viagem original. Talvez os dados tenham mudado, talvez o código seja diferente ou talvez não possamos lembrar corretamente as configurações de parâmetros do nosso método. Se publicarmos esse resultado, não poderemos demonstrar como chegamos à hipótese aprovada a partir dos dados de origem. Nós publicaríamos um milagre.
Essa experiência me mostrou duas coisas. Primeiro de tudo, um projeto é mais do que um resultado bonito. Você precisa descrever em detalhes como esse resultado foi obtido.
Além disso, pensando em reprodutibilidade nos estágios iniciais, você economizará tempo no futuro. Passamos os anos do nosso tempo e o tempo de nossos parceiros, incapazes de reproduzir nossos próprios resultados. Tudo isso poderia ter sido evitado se tivéssemos rastreado melhor como os dados e análises mudaram ao longo do tempo.
Razão # 2: a reprodutibilidade facilita a redação de artigos
A transparência em sua análise facilita a escrita de artigos. Por exemplo, em um documento dinâmico (Caixa 1), todos os resultados são atualizados automaticamente quando os dados são alterados. Você pode ter certeza de que seus números, gráficos e tabelas permanecerão relevantes. Além disso, essa transparência de análise é mais atraente, mais pessoas poderão se familiarizar com ela e fica muito mais fácil detectar erros.
Aqui está outro exemplo do meu trabalho. Em outro projeto [3], discutimos com o médico por que alguns dos resultados de sobrevivência no estudo multicêntrico não atendem às nossas expectativas. Como todos os dados e código analítico estavam disponíveis para nós em um arquivo de fácil leitura, pudemos estudar esse problema.
Ao criar uma tabela com uma variável que descreve o estágio do tumor, conseguimos identificar o problema: esperávamos ver os números dos estágios de 1 a 4 e vimos algo como "XXX", "Fred" e "999". As pessoas que nos forneceram os dados parecem tê-los lido mal. Acabou sendo muito mais rápido e fácil estudar os dados por conta própria do que ir para o pós-doutorado que trabalha no projeto e dizer: "Explique isso para nós". Meu co-autor e eu estamos muito ocupados para dedicar tempo à limpeza de dados de baixo nível e, sem uma análise bem documentada, não poderíamos contribuir. Mas como tínhamos dados e códigos muito transparentes, levamos apenas cinco minutos para detectar o erro.
Razão # 3: a reprodutibilidade ajuda os revisores a ver seus dados
Muitos de nós gostam de reclamar sobre a revisão por pares. Na maioria das vezes, ouço: "Os revisores nem sequer leram o artigo e não têm idéia do que realmente pesquisamos".
Isso contrasta fortemente com a minha experiência na revisão de um artigo recente [4], para o qual tornamos os dados e o código documentado facilmente acessíveis aos revisores. Um deles sugeriu fazer uma pequena alteração em algumas análises e, como ele tinha acesso a todos os dados, ele pôde testar diretamente suas idéias e ver como os resultados foram alterados. O revisor estava totalmente envolvido, e a única coisa a ser discutida era qual método de análise de dados seria o melhor. Portanto, uma revisão construtiva deve ser organizada. E isso não teria sido possível sem uma representação transparente e reproduzível de nossa análise.
Razão número 4: a reprodutibilidade garante a continuidade do seu trabalho
Eu ficaria surpreso se você nunca tivesse ouvido as seguintes observações (e talvez até mesmo as tenha pronunciado): "Estou tão ocupado que não consigo me lembrar dos detalhes de todos os meus projetos" ou "fiz essa análise há seis meses. Obviamente, não consigo me lembrar de todos os detalhes após um período tão longo "ou" Meu supervisor de pesquisa (PI) disse que eu deveria continuar o projeto do pós-doc anterior, mas esse pós-doc já se foi há muito tempo e não salvou nenhum script ou dado ".
Pense nisso: todos esses problemas podem ser resolvidos documentando e disponibilizando dados e códigos. Isso é especialmente importante para os principais pesquisadores que trabalham em projetos complexos de longo prazo. Como você pode garantir a continuidade do trabalho em seu laboratório se a maneira como está progredindo não está documentada de forma reproduzível? No meu grupo, nem discuto os resultados com os alunos se eles estiverem mal documentados. Nenhuma evidência de reprodutibilidade - nenhum resultado!
Razão número 5: reprodutibilidade ajuda a reputação
Em vários artigos, disponibilizamos nossos dados, código e análises como um pacote para o Biocondutor [5]. Quando cheguei a trabalhar em um contrato, forneci todos esses pacotes como resultados de minha pesquisa de laboratório.
Normalmente, uma análise apresentada dessa maneira ajuda a construir uma reputação de pesquisador honesto e completo. Se você tiver algum problema com um de seus artigos, será muito fácil proteger seu nome e mostrar que você comunicou tudo honestamente.
Um artigo recente publicado na revista Science is Scientific Standards. Promovendo uma cultura de pesquisa aberta ”[6], resume oito padrões e três níveis de recomendações para reprodutibilidade. O uso de ferramentas como R e knitR (Caixa 1) permitirá que você siga com facilidade os mais altos padrões de nível, o que, novamente, é bom para sua reputação.
O que está te segurando?
Eu te convenci? Provavelmente não. Aqui está uma seleção de reações que geralmente recebo quando insisto na reprodutibilidade (e como eu respondo a ela):
- "Apenas o resultado importa!" Você está enganado.
- "Prefiro fazer ciência de verdade do que arrumar meus dados." Se seus resultados não são reproduzíveis, você não está fazendo ciência [7].
- “Vá ao seu negócio! Estou documentando meus dados como eu quero! ” Sim por favor! Existem várias maneiras de trabalhar de maneira reproduzível [8] - você pode escolher qualquer uma que desejar.
- “O Excel funciona muito bem. Não preciso de R, Python ou qualquer outra coisa nova. A ferramenta mencionada pode funcionar bem se você precisar fazer muitas edições manuais. Mas se você executar a análise de dados, menos cliques e mais scripts são a melhor solução. Imagine que você precisa fazer uma análise simples - por exemplo, criar um gráfico de regressão - 5 (10, 20) vezes. Compare o processamento manual disso com a criação de um loop simples que fará isso por você. Agora imagine que você precisa fazer isso novamente após três semanas, porque os dados mudaram um pouco. Nesse caso, você definitivamente deve usar R e Python.
- “A capacidade de reprodução parece boa, mas meu código e dados estão espalhados por tantos discos rígidos e diretórios que é preciso muito esforço para colocar tudo em um só lugar.” Apenas pense no que você acabou de dizer. A falta de organização coloca você e seu projeto em perigo mortal.
- "Sempre podemos classificar o código e os dados após o envio de um pedido para revisão." Acima, meu exemplo de modelo de pista demonstra os perigos de tal estratégia. Além disso, a preparação de um manuscrito pode levar muito tempo, portanto você pode nem se lembrar de todos os detalhes de sua análise quando chegar a hora de apresentar os resultados.
- "Existe muita concorrência na minha área de pesquisa e perder tempo é muito arriscado." E é por isso que você deve começar a trabalhar com a reprodutibilidade em um estágio inicial para não perder esse tempo a longo prazo.
Quando se preocupar com a reprodutibilidade?
Suponha que eu tenha convencido você de que reprodutibilidade e transparência são
em seus próprios interesses. Quando começar a se preocupar?
Resposta longa:
- antes de iniciar um projeto - porque você pode ter que aprender ferramentas como R ou git.
- enquanto você faz a análise - porque, se você esperar demais, pode perder muito tempo tentando se lembrar do que fez dois meses atrás;
- quando você escreve um artigo - porque deseja que seus números, tabelas e figuras sejam relevantes;
- quando você é coautor de um artigo - porque deseja ter certeza de que a análise apresentada em um documento com seu nome está correta;
- quando você olha para um documento - porque você não pode julgar os resultados, a menos que saiba como os autores chegaram a eles.
Resposta curta: sempre!
Atingir uma cultura de reprodutibilidade
Para quem é importante a reprodutibilidade e a transparência? Obviamente, estudantes e pós-docs desempenham um papel importante no trabalho reproduzível, porque na maioria das vezes eles são as pessoas que realmente fazem esse trabalho. Meu conselho é estudar as ferramentas de reprodutibilidade o mais rápido possível (Quadro 1) e usá-las em todos os projetos.
Depois de se esforçar, você terá muitas vantagens:
- Você cometerá menos erros e mais fácil de corrigir os existentes;
- você será mais eficaz e crescerá muito mais rápido a longo prazo;
- se você acha que seu orientador acadêmico está pouco envolvido, tornando a análise mais compreensível, você pode ajudar seu mentor a se envolver mais.
Pesquisadores líderes, líderes de grupos e equipes, professores - é seu o objetivo de criar uma "cultura de reprodutibilidade" sobre a base técnica que seus alunos e pós-docs representam. No meu laboratório, tornei a reprodutibilidade um elemento-chave nos documentos que dou a iniciantes [9]. Se você deseja apoiar seus colegas, solicite documentação de análise sempre que um membro da equipe mostrar os resultados do trabalho. Você não precisa entrar em detalhes - um olhar superficial mostrará o quão bem é feito. O que realmente melhorou a reprodutibilidade em meu próprio laboratório é o requisito de que, antes de enviar uma inscrição com um membro da equipe, seu colega que não está envolvido no projeto, tente analisar e reproduzir independentemente nossos resultados.
Se você não criar uma cultura de reprodutibilidade em seu laboratório, perderá os enormes benefícios científicos que ela possui a longo prazo.
A ciência está se tornando mais transparente e reproduzível a cada dia. Você pode se tornar líder nesse processo! Formadores de opinião avançados! Vamos lá, eu sei - você também quer isso.
Caixa 1
No nível mais baixo, trabalhar de forma reproduzível significa simplesmente evitar os erros dos iniciantes. Mantenha seu projeto organizado, atribua nomes informativos a arquivos e diretórios, salve dados e códigos em um único local com backup. Não espalhe dados entre diferentes servidores, laptops e discos rígidos.
Para alcançar os seguintes níveis de reprodutibilidade, você precisa estudar algumas ferramentas de reprodutibilidade computacional [8]. Em geral, a reprodutibilidade melhora com menos cliques e inserções e mais scripts e codificação. Por exemplo, faça sua análise em R ou Python e documente-a usando knitR ou IPython .
Essas ferramentas ajudam a combinar texto descritivo com código analítico em documentos dinâmicos que podem ser atualizados automaticamente toda vez que você altera dados ou códigos.
Em seguida, aprenda como usar um sistema de controle de versão como o git em uma plataforma compartilhada como o GitHub . Por fim, se você quiser se tornar um profissional, aprenda a usar janelas de encaixe que tornam sua análise fácil e fácil de transportar para diferentes sistemas.
Agradecimentos
Desenvolvi uma abordagem egoísta de reprodutibilidade para o “Workshop de Pós-Doutorado em Reprodutibilidade” ministrado no Gourdon Institute em Cambridge com o Gordon Brown (CRUK Cambridge Institute) e Stephen J. Eglen (DAMTP Cambridge). Agradeço a eles por sua contribuição.
Todos os materiais estão disponíveis no GitHub através do link , e meu relatório está registrado no meu blog .
Lista de fontes- Kolata G. Quão brilhante foi a promessa nos testes de câncer. The New York Times. 2011. http://www.nytimes.com/2011/07/08/health/research/08genes.html?_r=0 .
- Baggerly KA, Coombes KR. Derivação quimiossensível a partir de linhas celulares: bioinformática forense e pesquisa reproduzível em biologia de alto rendimento. Ann Appl Stat. 2009; 3: 1309–34.
https://projecteuclid.org/euclid.aoas/1267453942 . - Martins FC, Santiago I, Trinh A, Xian J, Guo A, Sayal K, et al. A imagem combinada e a análise genômica do câncer de ovário seroso de alto grau revelam a perda de PTEN como um evento comum de driver e classificador prognóstico. Genoma Biol. 2014; 15: 526.
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0526-8 . - Schwarz RF, Ng CKY, Cooke SL, Newman S, Temple J, Piskorz AM, et al. Heterogeneidade espacial e temporal no câncer de ovário seroso de alto grau: uma análise filogenética. PLoS Med. 2015; 12: 1001789.
http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001789 . - Castro MAA, Fletcher M, Markowetz F, Meyer K. Dados de expressão gênica de células de câncer de mama sob perturbação de sinalização de FGFR2. Pacote Experimental BioConductor. http://bioconductor.org/packages/release/data/experiment/html/Fletcher2013a.html . Acessado em 27 de novembro de 2015.
- Nosek BA, Alter G, Bancos GC, Borsboom D, Bowman SD, Breckler SJ, et al. Padrões científicos. Promover uma cultura de pesquisa aberta. Ciência. 2015; 348: 1422–5.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4550299 . - Watson M. Quando a "ciência aberta" se tornará simplesmente a ciência? Genoma Biol. 2015; 16: 101.
- Piccolo SR, Lee AB, Frampton MB. Ferramentas e técnicas para reprodutibilidade computacional. 2015. http://biorxiv.org/content/early/2015/07/17/022707 . Acessado em 27 de novembro de 2015.
- Markowetz F. Você não está trabalhando para mim; Estou trabalhando com voce PLoS Comput Biol. 2015; 11: 1004387.
http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004387 .
Twitter e blog
Florian no Twitter @markowetzlab e em seu blog: http://scientificbsides.wordpress.com/ .