可重复工作的五个自私理由

注解


因此,我的同行科学家们,不要问您可以为可重复性做些什么-问问可重复性可以为您做些什么!


在这里,我将列出五个原因,说明数据可重复性的可能性从长远来看会得到回报,并且对于每位雄心勃勃且以职业为导向的科学家都具有个人利益。




黑板左半部分的复数方程式,右侧更复杂的方程式。 简短的句子将两个等式联系起来:“这里发生了奇迹。” 两位数学家,思想深刻。 “我认为您应该在第二步中更加具体,”一个告诉另一个。
图片


当您试图了解作者如何从庞大而复杂的数据集转移到具有许多复杂图形的密集文章时,情况就是这样。 如果无法访问数据和分析代码,那么这种转变只能用奇迹来解释。 在科学中,不应有任何奇迹。


透明且可重复地工作的能力在很大程度上取决于同理心-将自己置于您的一位同事的位置,并问:“此人将能够访问我的数据并理解我的分析的含义吗?” 掌握此类“工具”(专栏1)需要您投入大量的时间和精力。 先验地,这种工作形式的优势为何超出成本尚不清楚。


以下是在这种情况下通常会引起的一些争论:“因为可重复性是正确的”,“因为它是科学的基础!”,“因为如果每个人都透明且可重复地工作,世界将会变得更好!” 您知道这种推理对我的影响吗? 就像“等等等等” ...


我并不是说这些论点站不住脚。 我不是很理想主义:我不在乎什么科学。 我是一个现实主义者:我会根据科学的实际运作,力求做到最好。 不管我们是否喜欢,科学都是关于职业发展,影响因子,出版物数量和金额的增加。 更多,更多,更多...那么,可再现性如何帮助我成为一名科学家呢?


重现性:为什么我需要它?


在本文中,我提出了五个原因,说明这种可重复性方法从长远来看会取得成功,并且符合每个雄心勃勃,以职业为导向的科学家的利益。


原因1:可重现性有助于避免灾难


“就像在癌症测试中的巨大希望一样,它崩溃了,”这是2011年夏天《纽约时报》上发表的一篇文章的标题[1],其中着重介绍了癌症中心的两位生物统计学家Keith Baggerly和Kevin Coombs的工作。 M. D. Anderson。 他们在杜克大学科学家的一系列文章中确定了死亡数据分析中的问题,这些问题对乳腺癌研究产生了重大影响[2]。


由Baggerly和Coombs发现的问题很容易被文章的任何共同作者在提交之前注意到。 那里的数据集不是很大,可以在标准笔记本电脑上轻松检查。 您无需成为统计天才,就可以了解那里的患者数量各不相同,标签更换位置或样本在同一数据集中多次出现带有相互矛盾的注释的情况。 为什么没有人在为时已晚之前注意到这些问题? 因为数据和分析不透明,并且需要了解犯罪生物信息学知识才能理解它们[2]。


这个例子激励我在自己的作品中变得更加透明和可复制。 较小的事件也会使您处于尴尬的境地。


这是我研究的一个例子。 我们的实验合作伙伴测试了我们创建的轨道模型。 但是,在撰写本文时,我们遇到了严重的障碍:无论我们多么努力,我们都无法重现原始的旅行模型。 可能数据已更改,代码可能不同,或者我们只是无法正确记住方法的参数设置。 如果我们发布此结果,我们将无法证明我们如何从源数据得出已批准的假设。 我们将发布一个奇迹。


这次经历向我展示了两件事。 首先,一个项目不仅仅是一个美丽的结果。 您需要详细描述如何获得此结果。


此外,在早期阶段考虑可重复性,您将来会节省时间。 我们花费了多年的时间和合作伙伴的时间,无法复制自己的结果。 如果我们能够更好地跟踪数据和分析随时间的变化,所有这些本来可以避免的。


原因2:可重复性使撰写文章更容易


分析的透明性使撰写文章变得更加容易。 例如,在动态文档中(方框1),当数据更改时,所有结果都会自动更新。 您可以确定您的数字,图表和表格将保持相关性。 此外,这种分析透明性更具吸引力,更多的人将能够熟悉它,并且检测错误变得更加容易。


这是我工作中的另一个例子。 在另一个项目[3]中,我们与医生讨论了为什么多中心研究中的某些生存结果未达到我们的预期。 由于所有数据和分析代码都以易于阅读的文件形式提供给我们,因此我们能够自己研究此问题。


仅通过创建一个带有描述肿瘤分期的变量的表格,我们就可以确定问题所在:我们期望看到分期号从1到4,并看到类似“ XXX”,“ Fred”和“ 999”的字样。 向我们提供数据的人似乎对它们的阅读不佳。 事实证明,比起去研究该项目的博士后说:“向我们解释这一点”,自己研究数据要容易得多。 我和我的合著者都忙于将时间花在低级数据清理上,而且如果没有详细记录的分析,我们将无能为力。 但是由于我们拥有非常透明的数据和代码,因此仅花了五分钟即可检测到错误。


原因3:可重复性可帮助审阅者查看您的数据


我们许多人喜欢抱怨同行评议。 我经常听到:“评论者甚至没有读过这篇文章,也不知道我们实际研究了什么。”


这与我审阅最近的一篇文章[4]的经验形成了鲜明的对比,在这篇文章中,我们使数据和文档代码易于审阅。 其中一位建议对某些分析进行一些小的更改,并且由于他可以访问所有数据,因此他能够直接测试他的想法并查看结果如何变化。 审阅者完全参与其中,唯一需要讨论的是哪种数据分析方法是最好的。 因此,应该安排建设性的审查。 没有我们的分析的透明和可再现的表示,这将是不可能的。


原因4:可重复性确保您的工作连续性


如果您之前没有听过以下话(或者甚至自己说过话),我会感到惊讶:“我很忙,以至于我记不清所有项目的详细信息”或“我六个月前进行了分析。 当然,经过这么长的时间后,我还是不记得所有的细节。“或者”我的研究主管(PI)说我应该继续上一个博士后的项目,但是该博士后早已消失,并且没有保存任何脚本或数据。”


仔细想想:所有这些问题都可以通过记录文档以及使数据和代码可用来解决。 对于从事复杂的长期项目的顶尖研究人员而言,这一点尤其重要。 如果进展方式未以可复制的形式记录下来,您如何确保实验室工作的连续性? 在我的小组中,我什至没有与学生讨论结果,如果他们没有很好的记录。 没有可重复性的证据-没有结果!


原因5:再现性有助于声誉


在几篇文章中,我们将数据,代码和分析作为Bioconductor的软件包提供[5]。 当我开始从事合同工作时,我提供了所有这些软件包,作为我实验室研究的结果。


通常,以这种方式提供的分析有助于建立诚实和透彻的研究人员的声誉。 如果您对其中一篇文章有​​疑问,可以很容易地保护自己的名字并表明您已诚实地传达了所有信息。


最近发表在《科学》杂志上的文章是《科学标准》。 促进开放的研究文化” [6],总结了八个标准和三个级别的可重复性建议。 使用R和knitR之类的工具(方框1),您可以轻松遵循最高级别的标准,这再次对您的声誉有利。


是什么让你退缩?


我说服了你吗? 可能不是。 当我坚持可重复性(以及对它的反应方式)时,经常会遇到以下几种反应:


  • “只有结果很重要!” 你错了
  • “我宁愿做真正的科学,也不愿整理我的数据。” 如果您的结果不可重现,那么您根本就不会做科学[7]。
  • “去做你的生意! 我正在根据需要记录数据!” 是的,拜托! 有许多工作方式可重现[8]-您可以选择自己喜欢的任何一种。
  • “ Excel很棒。 我不需要任何新的R,Python或其他任何东西。” 如果您需要进行许多手动编辑,则您提到的工具可能会很好用。 但是,如果执行数据分析,则较少的点击次数和更多的脚本是最佳解决方案。 假设您需要做一个简单的分析-例如,构建一个回归图-5(10,20)次。 将手动处理与编写一个简单的循环进行比较,该循环将为您完成。 现在,假设您需要在3周后再次执行此操作,因为数据有所更改。 在这种情况下,您绝对应该使用R和Python。
  • “可播放性听起来不错,但是我的代码和数据分散在如此众多的硬盘和目录中,以至于将所有内容都放在一个地方需要花费太多的精力。” 只是想想你刚才说的话。 组织的缺乏使您和您的项目处于致命的危险中。
  • “我们始终可以在提交审查申请后对代码和数据进行排序。” 上面,我的跟踪模型示例演示了这种策略的危险。 此外,准备手稿可能要花费大量时间,因此,当您需要展示结果时,您甚至可能都不记得分析的所有细节。
  • “我的研究领域存在很多竞争,浪费时间太多了。” 这就是为什么您应该尽早开始进行可重复性的工作,以便从长远来看不会浪费时间。

什么时候要担心重复性?


假设我说服了您,再现性和透明度是
为了您自己的利益。 什么时候开始担心?
长答案:


  • 在开始一个项目之前-因为您可能必须学习R或git之类的工具。
  • 在进行分析时-因为如果等待时间太长,可能会浪费大量时间试图记住两个月前的工作;
  • 当您写文章时-因为您希望数字,表格和数字具有相关性;
  • 当您是文章的合著者时-因为您要确保以您的名字在文档中显示的分析是正确的;
  • 当您查看文档时-因为您无法判断结果,除非您知道作者是怎么来的。

简短的答案:总是!


建立可复制的文化


可重复性和透明性对谁重要? 显然,学生和博士后在可复制的工作中扮演着重要的角色,因为他们往往是真正从事这项工作的人。 我的建议是尽快研究可重复性工具(方框1),并在每个项目中使用它们。


经过努力,您将获得很多好处:


  • 您将减少错误,更容易纠正现有错误;
  • 从长远来看,您将更加有效,并且增长更快;
  • 如果您认为您的学术顾问很少参与其中,那么通过使分析更容易理解,您可以帮助您的导师更多地参与其中。

领先的研究人员,小组和团队的负责人,教授-在您的学生和博士后代表的技术基础之上创建“可重复性文化”由您自己负责。 在我的实验室中,我将可复制性作为发给初学者的文件的关键要素[9]。 如果要支持同事,则每当团队成员向您显示工作结果时,都要求提供分析文档。 您无需详细介绍-粗略浏览一下即可了解它的完成情况。 在我自己的实验室中,真正提高了可重复性的是要求在不向项目团队中的一名成员提交申请之前,他的未参与该项目的同事应尝试独立分析和复制我们的结果。


如果您不在实验室中创建可重复性文化,那么从长远来看,您将错过其巨大的科学利益。


科学每天都变得越来越透明和可复制。 您可以在此过程中成为领导者! 先进的潮流引领者! 来吧,我知道-您也想要这个。




方框1


在最低级别上,可重复地工作意味着仅避免初学者的错误。 使您的项目井井有条,为文件和目录分配有用的名称,将数据和代码保存在一个备份位置。 不要将数据分散在不同的服务器,便携式计算机和硬盘驱动器上。


为了达到以下水平的可再现性,您需要研究一些计算可再现性的工具[8]。 通常,通过减少单击和插入以及增加脚本和编码,可重复性得到改善。 例如,在RPython中进行分析并使用knitRIPython对其进行记录
这些工具可帮助您将描述性文本和分析代码组合成动态文档,每次更改数据或代码时,这些文档都会自动更新。


接下来,学习如何在共享平台(例如GitHub)上使用版本控制系统(例如git) 。 最后,如果您想成为专业人士,请学习使用泊坞窗 ,使您的分析变得无缝且易于移植到不同的系统。




致谢


我为戈登·布朗(CRUK Cambridge Institute)和斯蒂芬·J·埃格伦(Stephen J. Eglen)(剑桥DAMTP Cambridge)在剑桥的古登学院(Gourdon Institute)教授的“博士后可复制性研讨会”开发了一种自私的可复制方法。 我感谢他们的贡献。


通过链接 ,所有资料都可以在GitHub上获得,我的报告记录在我的博客中


来源清单
  1. Kolata G.癌症测试的光明前景破灭了。 纽约时报。 2011。http : //www.nytimes.com/2011/07/08/health/research/08genes.html ? _r =0
  2. Baggerly KA,Coombes KR。 从细胞系衍生出化学敏感性:法医生物信息学和高通量生物学的可再现研究。 Ann Appl统计。 2009; 3:1309–34。
    https://projecteuclid.org/euclid.aoas/1267453942
  3. Martins FC,圣地亚哥一世,Trinh A,西安J,Guo A,Sayal K等。 高级别浆液性卵巢癌的图像和基因组分析相结合,揭示了PTEN丢失是常见的驱动因素和预后分类。 基因组生物学。 2014; 15:526。
    https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0526-8
  4. Schwarz RF,Ng CKY,Cooke SL,Newman S,Temple J,Piskorz AM等。 高度浆液性卵巢癌的时空异质性:系统发育分析。 公共科学图书馆 2015; 12:1001789。
    http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001789
  5. Castro MAA,Fletcher M,Markowetz F,Meyer K.FGFR2信号扰动下来自乳腺癌细胞的基因表达数据。 BioConductor实验套件。 http://bioconductor.org/packages/release/data/experiment/html/Fletcher2013a.html 。 2015年11月27日访问。
  6. Nosek BA,Alter G,Banks GC,Borsboom D,Bowman SD,Breckler SJ等。 科学标准。 促进开放的研究文化。 科学。 2015; 348:1422-5。
    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4550299
  7. 沃森(Watson M.)什么时候“开放科学”会简单地变成“科学”? 基因组生物学。 2015; 16:101。
  8. Piccolo SR,Lee AB,Frampton MB。 计算重现性的工具和技术。 2015年。http://biorxiv.org/content/early/2015/07/17/022707 。 2015年11月27日访问。
  9. MarkowetzF。您不是在为我工作。 我正在和你一起工作。 PLoS计算生物学。 2015; 11:1004387。
    http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004387


    Twitter和博客
    弗洛里安(Florian)在Twitter @markowetzlab和他的博客: http ://scientificbsides.wordpress.com/上。

Source: https://habr.com/ru/post/zh-CN417469/


All Articles