Excel破坏了遗传学研究论文中20%的电子表格


来自科学工作“ 小鼠中性二态性的组织特异性表达和基因调控 ”的数据表的一部分(doi:10.1101 / gr.5217506)

在Microsoft Excel电子表格中,已设置“常规”单元格的默认格式。许多人遇到这样一个事实,Excel无缘无故将输入的值转换为日期。这是最常见的自动转换错误。为了避免这种情况,您应该将数据类型从“常规”更改为“数字”(对于数字)或“文本”(对于文本)。在后一种情况下,输入的数据将完全不会转换。

没有经验的Excel用户会遭受自动转换的困扰。令人惊讶的是,在这些没有经验的用户中,有大量的科学家。使用以下命令自动扫描PubMed中的出版物一组bash脚本显示,大约20%的遗传学科学数据表中包含将Excel数据转换为基因名称的错误

首先,研究的作者检查了所有基本的人类遗传特征 -发现具有默认设置的Excel会自动将35个人类遗传特征转换为日期:这些基因是FEB1,FEB2,FEB5,FEB6,FEB7,FEB9,FEB10,MARCH1,MARC1 ,MARCH2,MARC2,MARCH3,MARCH4,MARCH5,MARCH6,MARCH7,MARCH8,MARCH9,MARCH10,MARCH11,SEPT1,SEPT2,SEPT3,SEPT4,SEPT5,SEPT6,SEPT7,SEPT8,SEPT9,SEPT10,SEPT10,SEPT10,SEPT10,SEPT10,SEPT10, DEC1。

遗传符号名称的选择程序由规则确定其最大长度限制为六个字符,并且名称应为缩写的基因名称或缩写,以便所有septins均以SEPT编码,并且所有重组蛋白(与膜相关的无名指)均以MAR开头。

考虑到同义词,情况变得越来越糟。例如,遗传符号CRNN基因标识符49860)具有SEP53的同义词,Excel变成1953年9月。

具有批准的KPTN符号的卡普汀蛋白的别名为2E4(基因标识符11133),其数字变为20,000。

干扰素诱导的跨膜IFITM1蛋白的别名为9-27(基因标识符8519)在9月27日截止

Excel程序是遗传学家真正的雷区,因为在遗传命名法中有201E9、9130022E09、3e46,NA,NaN等标识符。因此,Excel不仅将遗传字符转换为日期,而且还将其转换为浮点数。例如2310009E13变成2.31E + 13。

汇总了可能的错误列表后,科学著作的作者从2005年至2015年从18种科学期刊上发表的所有科学论文中下载了随附的电子表格。对于跨学科期刊,只限于标题为“基因”一词的科学作品。这些表被转换为.tsv格式,并通过regex搜索指定的行通过。他们拍摄了2004年的剧本并添加了其他一些日期格式(DD / MM / YY和MM-DD-YY)。在具有GNU bash shell版本4.3.11的Ubuntu v14.04 LTS上启动了脚本。


2004年的脚本中,对科学论文中遗传符号的自动转换进行了类似的研究,科学论文中的

错误包含在电子表格中,这些电子表格已作为科学论文的辅助材料出版。该表的第一栏中列出了近千篇有错误的科学论文

总共分析了35,175张随附的电子表格。在3597篇科学论文中发现了7467个基因列表。在704个科学文章的987个伴随文件中发现Excel转换错误。也就是说,对于此样本,随附的Excel表中包含转换错误的科学著作的百分比为19.6%。



由于某种原因,在期刊影响因子(JIF)与附带文件中有错误的科学论文的百分比之间发现正相关(Spearman rho = 0.52,双面p值= 0.03)。



分析还显示,在过去的五年中,有错误的科学论文的数量每年以大约15%的速度增长,超过科学出版物总数的整体增长(3.8%)。

作者建议与Microsoft开发人员联系。每个人都可以通过Excel的“建议框”或通过Twitter 向他们发送消息(Excel开发人员在Twitter上拥有一个帐户)。

在Excel电子表格中自动转换科学字符的问题反复出现。早在2004年,科学论文的作者就被警告称,基因标识符在Excel中会自动变形。不幸的是,在过去的十年中,这个问题尚未得到解决。相反,关于错误的生物信息学的更多科学论文开始发表。

在某种程度上,错误的原因应归咎于科学论文的作者,他们对Excel程序的界面不够了解,不知道如何更改单元格格式的数据类型,不仔细检查表格及其附带的数据。接受此类工作发表的审稿人也应受到指责,也无需检查表格。错误表的编制者特别指出了几种情况,在所附表的第一行中已经发现了转换错误,这表明对科学论文的作者和审稿人的关注不足。

通常,在科学论文中,甚至还有更多荒谬的错误。例如,1991年在核物理杂志上发表了一篇科学论文,标题中错字。代替了“强子对撞机”一词,而使用了具有完全不同含义的“哈顿对撞机”一词。

计算机界面开发人员非常清楚,绝大多数用户不会更改程序中的默认设置。如果将“常规”数据类型默认设置为Excel,则将使用该数据类型,因此在有关生物信息学和遗传学的科学论文中通过自动转换出现的错误是可以预见的。

该研究的作者指出,无法永久关闭Excel和其他LibreOffice Calc和OpenOffice Calc电子表格中的自动数据转换。每次需要手动设置数据类型时。Google表格表是一个例外,其中没有数据损坏。此外,当您在Excel,LibreOffice Calc或OpenOffice Calc中重新打开Goog​​le表格时,可以防止SEPT1和MARCH1等遗传字符转换为日期。

Source: https://habr.com/ru/post/zh-CN396941/


All Articles