Excel estraga 20% das planilhas em trabalhos de pesquisa em genética


Um fragmento da tabela de dados do trabalho científico “ Expressão e regulação específicas de tecidos de genes de dimorfismo sexual em ratos ” (doi: 10.1101 / gr.5217506)

Nas planilhas do Microsoft Excel, o formato padrão da célula Geral é definido. Muitos já se depararam com o fato de que o Excel, sem motivo, converte o valor inserido em uma data. Este é o erro de conversão automática mais comum. Para evitá-lo, você deve alterar o tipo de dados de “Geral” para “Numérico” (para números) ou “Texto” (para texto). Neste último caso, os dados inseridos não serão convertidos.

Usuários inexperientes do Excel sofrem com a conversão automática. É surpreendente que entre esses usuários inexperientes haja um grande número de cientistas. Digitalize automaticamente publicações no PubMed usandoum conjunto de scripts bash mostrou que cerca de 20% das tabelas com dados em trabalhos científicos sobre genética contêm erros ao converter dados do Excel em nomes de genes!

Primeiro, os autores do estudo verificaram todos os caracteres genéticos humanos básicos - e descobriram que o Excel com configurações padrão converte automaticamente 35 caracteres genéticos humanos, transformando-os em datas: estes são os genes FEB1, FEB2, FEB5, FEB6, FEB7, FEB9, FEB10, MARB1, MARC1 , MARCH2, MARC2, MARCH3, MARCH4 , MARCH5, MARCH6, march7, MARCH8, MARCH9, march10, MARCH11, SEPT1, SEPT2, SEPT3, SEpt4, SEPT5, SEPT6, SEPT7, SEPT8, SEPT9, Set10, SEPT11, SEPT12, SEPT14, SEP15 , DEC1.

O procedimento para escolher os nomes dos símbolos genéticos é estabelecido pelas regraspara o qual o comprimento máximo é limitado a seis caracteres, e o nome deve ser um nome ou abreviação abreviada de gene, para que todas as septinas sejam codificadas no SEPT e todas as proteínas recombinantes (dedo anelar associado à membrana) iniciem com MAR.

A situação está piorando, dados os sinônimos. Por exemplo, o símbolo genético CRNN ( identificador de gene 49860 ) tem o sinônimo SEP53, que o Excel transforma em setembro de 1953.

A proteína captina com o símbolo KPTN aprovado tem o sinônimo 2E4 ( identificador genético 11133 ), que passa a ser o número 20.000.

A proteína IFITM1 transmembranar induzida por interferon, com o pseudônimo 9-27 ( identificador genético 8519 ), é 27 de setembro.

O programa Excel é um verdadeiro campo minado para geneticistas, porque na nomenclatura genética existem identificadores como 201E9, 9130022E09, 3e46, NA, NaN etc. Assim, o Excel converte caracteres genéticos não apenas em datas, mas também em números de ponto flutuante. Por exemplo, 2310009E13 se transforma em 2,31E + 13.

Depois de compilar uma lista de possíveis erros, os autores do trabalho científico baixaram as planilhas em anexo de todos os trabalhos científicos publicados em 18 revistas científicas de 2005 a 2015. Para periódicos interdisciplinares, a seleção foi limitada a trabalhos científicos com a palavra “gene” no título. As tabelas foram convertidas para o formato .tsv e transmitidas regexcom a pesquisa das linhas especificadas. Eles pegaram o roteiro de 2004e adicionou mais alguns formatos de data (DD / MM / AA e MM-DD-AA). Os scripts foram lançados no Ubuntu v14.04 LTS com o GNU bash shell versão 4.3.11.


O roteiro de 2004 , quando um estudo semelhante foi realizado sobre a conversão automática de símbolos genéticos em artigos científicos Os

erros nos artigos científicos estão contidos em planilhas, que são publicadas como material de apoio para artigos científicos. Quase mil artigos científicos com erros estão listados na primeira coluna desta tabela .

Foram analisadas 35.175 planilhas de acompanhamento. 7467 listas de genes foram encontradas em 3597 artigos científicos. Foram encontrados erros de conversão do Excel em 987 arquivos acompanhantes de 704 artigos científicos publicados. Ou seja, para esta amostra, a porcentagem de trabalhos científicos nos quais as tabelas do Excel que acompanham contêm erros de conversão é de 19,6%.



Por alguma razão, foi encontrada uma correlação positiva entre o fator de impacto do periódico (JIF) e a porcentagem de artigos científicos com erros nos arquivos anexos (Spearman rho = 0,52, valor de p bilateral = 0,03).



A análise também mostrou que o número de artigos científicos com erros aumentou cerca de 15% ao ano nos últimos cinco anos, superando o aumento geral no número de publicações científicas (3,8%).

Os autores sugerem entrar em contato com os desenvolvedores da Microsoft. Todos podem enviar uma mensagem para eles através da Caixa de sugestões do Excel ou via twitter (os desenvolvedores do Excel têm uma conta no Twitter ).

O problema com a conversão automática de caracteres científicos nas planilhas do Excel foi levantado repetidamente . Em 2004, autores de artigos científicos foram avisados ​​de que os identificadores de genes são distorcidos automaticamente no Excel. Infelizmente, na última década, o problema não foi resolvido. Pelo contrário, mais artigos científicos sobre bioinformática com erros começaram a ser publicados.

Até certo ponto, os próprios autores dos trabalhos científicos são os culpados pelos erros, que não conhecem a interface do programa Excel o suficiente, não sabem como alterar o tipo de dados no formato da célula, não verificam cuidadosamente as tabelas com os dados que os acompanham. Os revisores que aceitam esse trabalho para publicação também são os responsáveis, também sem verificar as tabelas. Os compiladores da tabela de erros observaram especificamente vários casos em que erros de conversão já são encontrados nas primeiras linhas da tabela a seguir, o que indica atenção insuficiente aos autores de artigos científicos e revisores.

Em geral, em trabalhos científicos, existem erros ainda mais ridículos. Por exemplo, em uma revista de física nuclear em 1991, um artigo científico foi publicado com um erro de digitação no título. Em vez da frase "colisor de hádrons", foi impressa a frase "colisor de pedras", que tem um significado completamente diferente.

Os desenvolvedores de interfaces de computador sabem que a grande maioria dos usuários não altera as configurações padrão nos programas. Se o tipo de dados “Geral” for definido por padrão no Excel, ele será usado, portanto, o aparecimento de erros com conversão automática em artigos científicos em bioinformática e genética é bastante previsível.

Os autores do estudo observam que não há como desativar permanentemente a conversão automática de dados no Excel e em outras planilhas do LibreOffice Calc e OpenOffice Calc. Cada vez que você precisa definir o tipo de dados manualmente. A exceção são as tabelas do Planilhas Google, nas quais não há corrupção de dados. Além disso, quando você reabre o Google Sheets no Excel, no LibreOffice Calc ou no OpenOffice Calc, caracteres genéticos como SEPT1 e MARCH1 ficam protegidos contra conversão para datas.

Source: https://habr.com/ru/post/pt396941/


All Articles