Excel gâche 20% des feuilles de calcul dans les documents de recherche en génétique
Un fragment du tableau de données de l'ouvrage scientifique « Expression spécifique aux tissus et régulation des gènes de dimorphisme sexuel chez la souris » (doi: 10.1101 / gr.5217506)Dans les feuilles de calcul Microsoft Excel, le format par défaut de la cellule générale est défini. Beaucoup sont tombés sur le fait qu'Excel convertit sans raison la valeur entrée en une date. Il s'agit de l'erreur de conversion automatique la plus courante. Pour l'éviter, vous devez changer le type de données de «Général» à «Numérique» (pour les nombres) ou «Texte» (pour le texte). Dans ce dernier cas, les données saisies ne seront pas du tout converties.Les utilisateurs Excel inexpérimentés souffrent de la conversion automatique. Il est surprenant que parmi ces utilisateurs inexpérimentés, il existe un grand nombre de scientifiques. Numérisez automatiquement les publications dans PubMed à l'aide deun ensemble de scripts bash a montré qu'environ 20% des tableaux contenant des données dans des travaux scientifiques sur la génétique contiennent des erreurs de conversion de données Excel en noms de gènes!Premièrement, les auteurs de l'étude ont vérifié tous les caractères génétiques humains de base - et ont constaté qu'Excel avec les paramètres par défaut convertit automatiquement 35 caractères génétiques humains, en les transformant en dates: ce sont les gènes FEB1, FEB2, FEB5, FEB6, FEB7, FEB9, FEB10, MARS1, MARC1 , 2 MARS, MARC 2, 3 MARS, 4 MARS, 5 MARS, 6 MARS, 7 MARS, 8 MARS, 9 MARS, 10 MARS, 11 MARS, 1 SEPT. , DEC1.La procédure de choix des noms des symboles génétiques est établie par les règlesdont la longueur maximale est limitée à six caractères et dont le nom doit être un nom ou une abréviation de gène abrégé, de sorte que toutes les septines soient codées dans SEPT et que toutes les protéines recombinantes (Membrane-Associated Ring Finger) commencent par MAR.La situation empire, compte tenu des synonymes. Par exemple, le symbole génétique CRNN ( identifiant du gène 49860 ) a le synonyme SEP53, qu'Excel transforme en septembre 1953.La protéine captine avec le symbole KPTN approuvé a le synonyme 2E4 ( identifiant du gène 11133 ), qui devient le nombre 20000. La protéine IFITM1 transmembranaire induite par l'interféron avec l'alias 9-27 ( identifiant du gène 8519 ) tourne le 27 septembre.Le programme Excel est un véritable champ de mines pour les généticiens, car dans la nomenclature génétique, il existe des identifiants tels que 201E9, 9130022E09, 3e46, NA, NaN, etc. Ainsi, Excel convertit les caractères génétiques non seulement en dates, mais également en nombres à virgule flottante. Par exemple, 2310009E13 devient 2,31E + 13.Après avoir compilé une liste d'erreurs possibles, les auteurs des travaux scientifiques ont téléchargé les feuilles de calcul jointes de tous les articles scientifiques publiés dans 18 revues scientifiques de 2005 à 2015. Pour les revues interdisciplinaires, la sélection s'est limitée aux travaux scientifiques avec le mot «gène» dans le titre. Les tableaux ont été convertis au format .tsv et transmis regex
avec la recherche des lignes spécifiées. Ils ont pris le script 2004et ajouté quelques autres formats de date (JJ / MM / AA et MM-JJ-AA). Les scripts ont été lancés sur Ubuntu v14.04 LTS avec la version 4.3.11 du shell GNU bash.
Le script de 2004 , lorsqu'une étude similaire a été menée sur la conversion automatique des symboles génétiques dans les articles scientifiques. Leserreurs dans les articles scientifiques sont contenues dans des feuilles de calcul, qui sont publiées comme supports pour les articles scientifiques. Près d'un millier d'articles scientifiques contenant des erreurs sont répertoriés dans la première colonne de ce tableau .Un total de 35 175 feuilles de calcul d'accompagnement ont été analysées. 7467 listes de gènes ont été trouvées dans 3597 articles scientifiques. Erreurs de conversion Excel trouvées dans 987 fichiers d'accompagnement pour 704 articles scientifiques publiés. Autrement dit, pour cet échantillon, le pourcentage d'ouvrages scientifiques dans lesquels les tableaux Excel joints contiennent des erreurs de conversion est de 19,6%.
Pour une raison quelconque, une corrélation positive a été trouvée entre le facteur d'impact de la revue (JIF) et le pourcentage d'articles scientifiques avec des erreurs dans les fichiers d'accompagnement (Spearman rho = 0,52, valeur p bilatérale = 0,03).
L'analyse a également montré que le nombre d'articles scientifiques contenant des erreurs a augmenté d'environ 15% par an au cours des cinq dernières années, dépassant l'augmentation globale du nombre de publications scientifiques (3,8%).Les auteurs suggèrent de contacter les développeurs Microsoft. Tout le monde peut leur envoyer un message via la boîte à suggestions d'Excel ou via Twitter (les développeurs d'Excel ont un compte sur Twitter ).Le problème de la conversion automatique des caractères scientifiques dans les feuilles de calcul Excel a été soulevé à plusieurs reprises . En 2004, les auteurs d'articles scientifiques ont été avertis que les identifiants génétiques étaient automatiquement déformés dans Excel. Malheureusement, au cours de la dernière décennie, le problème n'a pas été résolu. Au contraire, encore plus d'articles scientifiques sur la bioinformatique avec des erreurs ont commencé à être publiés.Dans une certaine mesure, les auteurs des articles scientifiques eux-mêmes sont à blâmer pour les erreurs, qui ne connaissent pas suffisamment l'interface du programme Excel, ne savent pas comment changer le type de données dans le format de cellule, ne vérifient pas soigneusement les tableaux avec les données d'accompagnement. Les examinateurs qui acceptent un tel travail pour publication sont également à blâmer, également sans vérifier les tableaux. Les compilateurs du tableau des erreurs ont spécifiquement noté plusieurs cas où des erreurs de conversion sont déjà trouvées dans les premières lignes du tableau ci-joint, ce qui indique une attention insuffisante aux auteurs des articles scientifiques et des examinateurs.En général, dans les articles scientifiques, il y a des erreurs encore plus ridicules. Par exemple, dans une revue de physique nucléaire en 1991, un article scientifique a été publié avec une faute de frappe dans le titre. Au lieu de l'expression «collisionneur de hadrons», l'expression «collisionneur de hardons», qui a une signification complètement différente, a été imprimée.Les développeurs d'interfaces informatiques savent très bien que la grande majorité des utilisateurs ne modifient pas les paramètres par défaut des programmes. Si le type de données «Général» est défini par défaut dans Excel, il sera utilisé, de sorte que l'apparition d'erreurs avec conversion automatique dans les articles scientifiques sur la bioinformatique et la génétique est tout à fait prévisible.Les auteurs de l'étude notent qu'il n'y a aucun moyen de désactiver définitivement la conversion automatique des données dans Excel et d'autres feuilles de calcul LibreOffice Calc et OpenOffice Calc. Chaque fois que vous devez définir le type de données manuellement. L'exception est les tableaux Google Sheets, où il n'y a pas de corruption de données. De plus, lorsque vous rouvrez Google Sheets dans Excel, LibreOffice Calc ou OpenOffice Calc, les caractères génétiques comme SEPT1 et MARCH1 sont protégés contre la conversion en dates.Source: https://habr.com/ru/post/fr396941/
All Articles