Excel verdirbt 20% der Tabellen in genetischen Forschungsarbeiten
Ein Fragment der Datentabelle aus der wissenschaftlichen Arbeit „ Gewebespezifische Expression und Regulation von Genen des sexuellen Dimorphismus bei Mäusen “ (doi: 10.1101 / gr.5217506)In Microsoft Excel-Tabellen wird das Standardformat der allgemeinen Zelle festgelegt. Viele sind auf die Tatsache gestoßen, dass Excel den eingegebenen Wert ohne Grund in ein Datum konvertiert. Dies ist der häufigste automatische Konvertierungsfehler. Um dies zu vermeiden, sollten Sie den Datentyp von "Allgemein" in "Numerisch" (für Zahlen) oder "Text" (für Text) ändern. Im letzteren Fall werden die eingegebenen Daten überhaupt nicht konvertiert.Unerfahrene Excel-Benutzer leiden unter einer automatischen Konvertierung. Es ist überraschend, dass sich unter diesen unerfahrenen Benutzern eine große Anzahl von Wissenschaftlern befindet. Scannen Sie Veröffentlichungen in PubMed automatisch mitEine Reihe von Bash-Skripten zeigte, dass etwa 20% der Tabellen mit Daten in wissenschaftlichen Arbeiten zur Genetik Fehler beim Konvertieren von Excel-Daten in Gennamen enthalten!Zunächst überprüften die Autoren der Studie alle grundlegenden humangenetischen Symbole - und stellten fest, dass Excel mit Standardeinstellungen automatisch 35 humangenetische Symbole in Daten umwandelt: Dies sind die Gene FEB1, FEB2, FEB5, FEB6, FEB7, FEB9, FEB10, MÄRZ1, MARC1 , MÄRZ2, MÄRZ2, MÄRZ3, MÄRZ4, MÄRZ5, MÄRZ6, MÄRZ7, MÄRZ8, MÄRZ9, MÄRZ10, MÄRZ11, SEPT1, SEPT2, SEPT6, SEPT7, SEPT8, SEPT10, SEPT10, SEPT8 , DEC1.Das Verfahren zur Auswahl der Namen genetischer Symbole wird durch die Regeln festgelegtfür die die maximale Länge auf sechs Zeichen begrenzt ist und der Name ein abgekürzter Genname oder eine abgekürzte Abkürzung sein sollte, damit alle Septine in SEPT codiert werden und alle rekombinanten Proteine (membranassoziierter Ringfinger) mit MAR beginnen.Angesichts der Synonyme verschlechtert sich die Situation. Beispielsweise hat das genetische Symbol CRNN ( Genidentifikator 49860 ) das Synonym SEP53, aus dem Excel September 1953 wird.Das Captin-Protein mit dem zugelassenen KPTN-Symbol hat das Synonym 2E4 ( Genidentifikator 11133 ), das sich in die Zahl 20.000 verwandelt. DasInterferon-induzierte Transmembran-IFITM1-Protein mit dem Alias 9-27 ( Genidentifikator 8519 ) wird am 27. September aktiviert .Das Excel-Programm ist ein echtes Minenfeld für Genetiker, da es in der genetischen Nomenklatur Identifikatoren wie 201E9, 9130022E09, 3e46, NA, NaN usw. gibt. Daher konvertiert Excel genetische Zeichen nicht nur in Datumsangaben, sondern auch in Gleitkommazahlen. Zum Beispiel wird 2310009E13 zu 2.31E + 13.Nachdem die Autoren der wissenschaftlichen Arbeit eine Liste möglicher Fehler zusammengestellt hatten, luden sie die zugehörigen Tabellen aus allen wissenschaftlichen Arbeiten herunter, die von 2005 bis 2015 in 18 wissenschaftlichen Fachzeitschriften veröffentlicht wurden. Für interdisziplinäre Zeitschriften beschränkte sich die Auswahl auf wissenschaftliche Arbeiten mit dem Wort „Gen“ im Titel. Die Tabellen wurden in das TSV-Format konvertiert und regex
bei der Suche nach den angegebenen Zeilen durchlaufen . Sie nahmen das Drehbuch von 2004und fügte einige weitere Datumsformate hinzu (TT / MM / JJ und MM-TT-JJ). Skripte wurden unter Ubuntu v14.04 LTS mit der GNU Bash Shell Version 4.3.11 gestartet.
Das Skript von 2004 , als eine ähnliche Studie über die automatische Umwandlung genetischer Symbole in wissenschaftliche Arbeiten durchgeführt wurde.Fehler in wissenschaftlichen Arbeiten sind in Tabellen enthalten, die als unterstützende Materialien für wissenschaftliche Arbeiten veröffentlicht werden. In der ersten Spalte dieser Tabelle sind fast tausend fehlerhafte wissenschaftliche Arbeiten aufgeführt .Insgesamt wurden 35.175 begleitende Tabellen analysiert. 7467 Genlisten wurden in 3597 wissenschaftlichen Arbeiten gefunden. In 987 Begleitdateien für 704 veröffentlichte wissenschaftliche Artikel wurden Excel-Konvertierungsfehler gefunden. Das heißt, für diese Stichprobe beträgt der Prozentsatz der wissenschaftlichen Arbeiten, in denen die zugehörigen Excel-Tabellen Konvertierungsfehler enthalten, 19,6%.
Aus irgendeinem Grund wurde eine positive Korrelation zwischen dem Journal Impact Factor (JIF) und dem Prozentsatz der wissenschaftlichen Arbeiten mit Fehlern in den zugehörigen Dateien gefunden (Spearman Rho = 0,52, zweiseitiger p-Wert = 0,03).
Die Analyse ergab auch, dass die Anzahl der fehlerhaften wissenschaftlichen Arbeiten in den letzten fünf Jahren um etwa 15% pro Jahr gestiegen ist und damit die Gesamtzahl der wissenschaftlichen Veröffentlichungen (3,8%) insgesamt überholt hat.Die Autoren schlagen vor, sich an die Microsoft-Entwickler zu wenden. Jeder kann ihnen eine Nachricht über die Vorschlagsbox von Excel oder über Twitter senden (Excel-Entwickler haben ein Konto bei Twitter ).Das Problem mit der automatischen Konvertierung wissenschaftlicher Zeichen in Excel-Tabellen wurde wiederholt angesprochen . Bereits im Jahr 2004 wurden Autoren wissenschaftlicher Arbeiten gewarnt, dass Genidentifikatoren in Excel automatisch verzerrt werden. Leider wurde das Problem in den letzten zehn Jahren nicht gelöst. Im Gegenteil, es wurden noch mehr wissenschaftliche Arbeiten zur Bioinformatik mit Fehlern veröffentlicht.Bis zu einem gewissen Grad sind die Autoren wissenschaftlicher Arbeiten selbst für die Fehler verantwortlich, die die Excel-Programmoberfläche nicht gut genug kennen, nicht wissen, wie der Datentyp im Zellenformat geändert werden soll, und die Tabellen mit den zugehörigen Daten nicht sorgfältig prüfen. Schuld daran sind auch die Gutachter, die solche Arbeiten zur Veröffentlichung annehmen, auch ohne die Tabellen zu überprüfen. Die Ersteller der Fehlertabelle haben insbesondere mehrere Fälle festgestellt, in denen Konvertierungsfehler bereits in den ersten Zeilen der beigefügten Tabelle gefunden wurden, was darauf hinweist, dass die Autoren wissenschaftlicher Arbeiten und Gutachter nicht ausreichend berücksichtigt werden.Im Allgemeinen gibt es in wissenschaftlichen Arbeiten noch lächerlichere Fehler. Zum Beispiel wurde 1991 in einer Zeitschrift für Kernphysik eine wissenschaftliche Arbeit mit einem Tippfehler rechts im Titel veröffentlicht. Anstelle des Ausdrucks "Hadron Collider" wurde der Ausdruck "Hardon Collider" gedruckt, der eine völlig andere Bedeutung hat.Entwickler von Computerschnittstellen sind sich bewusst, dass die überwiegende Mehrheit der Benutzer die Standardeinstellungen in Programmen nicht ändert. Wenn der Datentyp "Allgemein" in Excel standardmäßig festgelegt ist, wird er verwendet, sodass das Auftreten von Fehlern bei der automatischen Konvertierung in wissenschaftlichen Arbeiten zur Bioinformatik und Genetik ziemlich vorhersehbar ist.Die Autoren der Studie stellen fest, dass es keine Möglichkeit gibt, die automatische Datenkonvertierung in Excel und anderen Tabellenkalkulationen von LibreOffice Calc und OpenOffice Calc dauerhaft zu deaktivieren. Jedes Mal, wenn Sie den Datentyp manuell einstellen müssen. Die Ausnahme bilden Google Sheets-Tabellen, in denen keine Datenbeschädigung vorliegt. Wenn Sie Google Sheets in Excel, LibreOffice Calc oder OpenOffice Calc erneut öffnen, werden genetische Zeichen wie SEPT1 und MARCH1 vor der Konvertierung in Datumsangaben geschützt.Source: https://habr.com/ru/post/de396941/
All Articles