Excel arruina el 20% de las hojas de cálculo en trabajos de investigación genética


Un fragmento de una tabla de datos del trabajo científico " Expresión y regulación de tejidos específicos de genes de dimorfismo sexual en ratones " (doi: 10.1101 / gr.5217506)

En las hojas de cálculo de Microsoft Excel, se establece el formato predeterminado de la celda General. Muchos se han encontrado con el hecho de que Excel sin ninguna razón convierte el valor ingresado en una fecha. Este es el error de conversión automática más común. Para evitarlo, debe cambiar el tipo de datos de "General" a "Numérico" (para números) o "Texto" (para texto). En el último caso, los datos ingresados ​​no se convertirán en absoluto.

Los usuarios inexpertos de Excel sufren de conversión automática. Es sorprendente que entre estos usuarios inexpertos haya una gran cantidad de científicos. Escanee automáticamente publicaciones en PubMed usando¡Un conjunto de scripts de bash mostró que alrededor del 20% de las tablas con datos en trabajos científicos sobre genética contienen errores al convertir datos de Excel en nombres de genes!

Primero, los autores del estudio verificaron todos los símbolos genéticos humanos básicos y descubrieron que Excel con la configuración predeterminada convierte automáticamente 35 símbolos genéticos humanos, convirtiéndolos en fechas: estos son los genes FEB1, FEB2, FEB5, FEB6, FEB7, FEB9, FEB10, MARCH1, MARC1 , 2 de marzo, 2 de marzo, 3 de marzo, 4 de marzo, 5 de marzo, 6 de marzo, 7 de marzo, 8 de marzo, 9 de marzo, 10 de marzo, 11 de marzo, 11 de septiembre, 1 de septiembre, 2 de septiembre, 3 de septiembre, 4 de septiembre, 5 de septiembre, 6 de septiembre, 7 de septiembre, 8 de septiembre, 9 de septiembre, 10 de septiembre, 10 de septiembre, 10 de septiembre, 10 de septiembre, 10 de septiembre, 10 de septiembre, 10 de septiembre, 10 de septiembre, 10 de septiembre , DEC1.

El procedimiento para elegir los nombres de los símbolos genéticos está establecido por las reglaspara los cuales la longitud máxima está limitada a seis caracteres, y el nombre debe ser un nombre o abreviatura abreviada del gen, de modo que todas las septinas estén codificadas en SEPT, y todas las proteínas recombinantes (dedo anular asociado a la membrana) comiencen con MAR.

La situación está empeorando, dados los sinónimos. Por ejemplo, el símbolo genético CRNN ( identificador de gen 49860 ) tiene el sinónimo SEP53, que Excel convierte en septiembre de 1953.

La proteína captin con el símbolo KPTN aprobado tiene el sinónimo 2E4 ( identificador del gen 11133 ), que se convierte en el número 20,000.

La proteína IFITM1 transmembrana inducida por interferón con alias 9-27 ( identificador del gen 8519 ) se activa el 27 de septiembre.

El programa Excel es un verdadero campo de minas para genetistas, porque en la nomenclatura genética hay identificadores como 201E9, 9130022E09, 3e46, NA, NaN, etc. Por lo tanto, Excel convierte los caracteres genéticos no solo en fechas, sino también en números de coma flotante. Por ejemplo, 2310009E13 se convierte en 2.31E + 13.

Tras compilar una lista de posibles errores, los autores del trabajo científico descargaron las hojas de cálculo adjuntas de todos los artículos científicos publicados en 18 revistas científicas de 2005 a 2015. Para las revistas interdisciplinarias, la selección se limitó a trabajos científicos con la palabra "gen" en el título. Las tablas se convirtieron al formato .tsv y se pasaron regexcon la búsqueda de las filas especificadas. Tomaron el guión de 2004y agregó algunos formatos de fecha más (DD / MM / AA y MM-DD-AA). Los scripts se lanzaron en Ubuntu v14.04 LTS con GNU bash shell versión 4.3.11.


El guión de 2004 , cuando se realizó un estudio similar sobre la conversión automática de símbolos genéticos en documentos científicos. Los

errores en documentos científicos están contenidos en hojas de cálculo, que se publican como materiales de apoyo para documentos científicos. Casi un millar de artículos científicos con errores se enumeran en la primera columna de esta tabla .

Se analizaron un total de 35,175 hojas de cálculo adjuntas. Se encontraron 7467 listas de genes en 3597 artículos científicos. Se encontraron errores de conversión de Excel en 987 archivos que acompañan a 704 artículos científicos publicados. Es decir, para esta muestra, el porcentaje de trabajos científicos en los que las tablas de Excel adjuntas contienen errores de conversión es del 19,6%.



Por alguna razón, se encontró una correlación positiva entre el factor de impacto de la revista (JIF) y el porcentaje de artículos científicos con errores en los archivos adjuntos (Spearman rho = 0.52, valor p de dos lados = 0.03).



El análisis también mostró que el número de artículos científicos con errores aumentó en aproximadamente un 15% por año durante los últimos cinco años, superando el aumento general en el número de publicaciones científicas (3.8%).

Los autores sugieren contactar a los desarrolladores de Microsoft. Todos pueden enviarles un mensaje a través del Buzón de sugerencias de Excel o por Twitter (los desarrolladores de Excel tienen una cuenta en Twitter ).

El problema con la conversión automática de caracteres científicos en hojas de cálculo de Excel se ha planteado repetidamente . En 2004, se advirtió a los autores de artículos científicos que los identificadores de genes se distorsionan automáticamente en Excel. Desafortunadamente, durante la última década el problema no se ha resuelto. Por el contrario, se comenzaron a publicar aún más artículos científicos sobre bioinformática con errores.

Hasta cierto punto, los autores de los artículos científicos tienen la culpa de los errores, que no conocen la interfaz del programa Excel lo suficientemente bien, no saben cómo cambiar el tipo de datos en el formato de celda, no revisan cuidadosamente las tablas con los datos que se acompañan. Los revisores que aceptan dicho trabajo para su publicación también tienen la culpa, también sin consultar las tablas. Los compiladores de la tabla de errores señalaron específicamente varios casos en los que los errores de conversión ya se encuentran en las primeras líneas de la tabla adjunta, lo que indica una atención insuficiente a los autores de artículos científicos y revisores.

En general, en los artículos científicos hay errores aún más ridículos. Por ejemplo, en una revista de física nuclear en 1991, se publicó un artículo científico con un error tipográfico en el título. En lugar de la frase "colisionador de hadrones", se imprimió la frase "colisionador de hardon", que tiene un significado completamente diferente.

Los desarrolladores de interfaces informáticas son conscientes de que la gran mayoría de los usuarios no cambian la configuración predeterminada en los programas. Si el tipo de datos "General" está configurado de forma predeterminada en Excel, se utilizará, por lo que la aparición de errores con la conversión automática en documentos científicos sobre bioinformática y genética es bastante predecible.

Los autores del estudio señalan que no hay forma de deshabilitar permanentemente la conversión automática de datos en Excel y otras hojas de cálculo de LibreOffice Calc y OpenOffice Calc. Cada vez que necesite establecer el tipo de datos manualmente. La excepción son las tablas de Hojas de cálculo de Google, donde no hay corrupción de datos. Además, cuando vuelve a abrir Hojas de cálculo de Google en Excel, LibreOffice Calc u OpenOffice Calc, los caracteres genéticos como SEPT1 y MARCH1 están protegidos para que no se conviertan en fechas.

Source: https://habr.com/ru/post/es396941/


All Articles