एक्सेल आनुवंशिकी अनुसंधान पत्रों में स्प्रेडशीट के 20% को खराब कर देता है


वैज्ञानिक कार्यों से डेटा तालिका का एक टुकड़ा " चूहे में विशिष्ट यौन अभिव्यक्ति और यौन उत्पीड़न के जीनों का विनियमन " (Doi: 10.1101 / gr.5217506)

Microsoft Excel स्प्रेडशीट में, सामान्य सेल का डिफ़ॉल्ट प्रारूप सेट किया गया है। कई लोग इस तथ्य के बारे में जानते हैं कि एक्सेल बिना किसी कारण के प्रवेश किए गए मूल्य को एक तिथि में परिवर्तित करता है। यह सबसे आम स्वचालित रूपांतरण त्रुटि है। इससे बचने के लिए, आपको डेटा प्रकार को "सामान्य" से "न्यूमेरिक" (संख्याओं के लिए) या "टेक्स्ट" (पाठ के लिए) में बदलना चाहिए। बाद के मामले में, दर्ज किए गए डेटा को बिल्कुल भी परिवर्तित नहीं किया जाएगा।

अनुभवहीन एक्सेल उपयोगकर्ता स्वचालित रूपांतरण से पीड़ित हैं। यह आश्चर्य की बात है कि इन अनुभवहीन उपयोगकर्ताओं में बड़ी संख्या में वैज्ञानिक हैं। PubMed का उपयोग करके स्वचालित रूप से प्रकाशनों को स्कैन करेंबैश स्क्रिप्ट के एक सेट से पता चला कि आनुवांशिकी पर वैज्ञानिक कार्यों में डेटा के साथ लगभग 20% टेबल में जीन नामों में एक्सेल डेटा को परिवर्तित करने में त्रुटियां हैं !

सबसे पहले, अध्ययन के लेखकों ने सभी बुनियादी मानव आनुवंशिक पात्रों की जाँच की - और पाया कि डिफ़ॉल्ट सेटिंग्स के साथ एक्सेल स्वचालित रूप से 35 मानव आनुवंशिक वर्णों को परिवर्तित करता है, उन्हें तारीखों में बदल देता है: ये जीन FEB1, FEB2, FEB5, FEB6, FEB7, FEB9, FEB10, MARCH1, MARC1 हैं। , MARCH2, MARC2, MARCH3, MARCH4, MARCH5, MARCH6, MARCH7, MARCH8, MARCH9, MARCH9, MARCH10, MARCH11, SEPT1, SEPT2, SEPT3, SEPT5, SEPT6, SEPT6, SEPT7, SEPT8, SEPT8, SEPT9, SEPT9, SEPT9, SEPT10, SEPT9 , DEC1।

आनुवंशिक प्रतीकों के नाम चुनने की प्रक्रिया नियमों द्वारा स्थापित की गई हैजिसके लिए अधिकतम लंबाई छह वर्णों तक सीमित है, और नाम संक्षिप्त जीन नाम या संक्षिप्त नाम होना चाहिए, ताकि सभी सेप्टिन SEPT में एन्कोड किए जा सकें, और सभी पुनः संयोजक प्रोटीन (झिल्ली-संबद्ध रिंग फिंगर) MAR से शुरू होते हैं।

स्थिति और खराब होती जा रही है, जिसे पर्यायवाची कहा जाता है। उदाहरण के लिए, आनुवंशिक प्रतीक CRNN ( जीन पहचानकर्ता 49860 ) का पर्याय SEP53 है, जो एक्सेल सितंबर 1953 में बदल जाता है।

अनुमोदित केपीटीएन प्रतीक के साथ कैप्टिन प्रोटीन का पर्यायवाची 2E4 ( जीन पहचानकर्ता 11133 ) है, जो कि संख्या 20,000 में बदल जाता है।

इंटरफेरॉन-प्रेरित ट्रांसमीटर IFITM1 प्रोटीन उर्फ ​​9-27 (जीनफायर 8519 ) 27 सितंबर को बदल जाता है।

एक्सेल प्रोग्राम जेनेटिक्स के लिए एक वास्तविक माइनफ़ील्ड है, क्योंकि जेनेटिक नामकरण में ऐसे पहचानकर्ता हैं जैसे कि 201E9, 9130022E09, 3e46, NA, NaN, आदि। इस प्रकार, एक्सेल आनुवंशिक वर्णों को न केवल तिथियों में परिवर्तित करता है, बल्कि फ्लोटिंग पॉइंट नंबरों के लिए भी होता है। उदाहरण के लिए, 2310009E13 2.31E + 13 में बदल जाता है।

संभावित त्रुटियों की सूची संकलित करने के बाद, वैज्ञानिक कार्यों के लेखकों ने 2005 से 2015 तक 18 वैज्ञानिक पत्रिकाओं में प्रकाशित सभी वैज्ञानिक पत्रों के साथ स्प्रेडशीट को डाउनलोड किया। अंतःविषय पत्रिकाओं के लिए, चयन शीर्षक में "जीन" शब्द के साथ वैज्ञानिक कार्यों तक सीमित था। तालिकाओं को .tsv प्रारूप में परिवर्तित किया गया था और regexनिर्दिष्ट पंक्तियों की खोज से गुजारा गया । उन्होंने 2004 की स्क्रिप्ट लीऔर कुछ और दिनांक प्रारूप (डीडी / एमएम / वाईवाई और एमएम-डीडी-वाई वाई) जोड़े। लिपियों को Ubuntu v14.04 LTS पर GNU बैश शेल संस्करण 4.3.11 के साथ लॉन्च किया गया था।


2004 की स्क्रिप्ट , जब वैज्ञानिक पत्रों में आनुवंशिक प्रतीकों के स्वत: रूपांतरण पर एक समान अध्ययन किया गया था, वैज्ञानिक पत्रों में

त्रुटियां स्प्रेडशीट में निहित हैं, जो वैज्ञानिक पत्रों के लिए सहायक सामग्री के रूप में प्रकाशित होती हैं। त्रुटियों के साथ लगभग एक हजार वैज्ञानिक कागजात इस तालिका के पहले कॉलम में सूचीबद्ध हैं

कुल 35,175 स्प्रेडशीट के साथ विश्लेषण किया गया। 3597 वैज्ञानिक पत्रों में 7467 जीन सूची पाई गई। एक्सेल रूपांतरण त्रुटियां 987 में 704 प्रकाशित वैज्ञानिक लेखों के लिए फाइलों के साथ मिलीं। यही है, इस नमूने के लिए, वैज्ञानिक कार्यों का प्रतिशत जिसमें एक्सेल तालिकाओं में रूपांतरण त्रुटियां हैं, 19.6% हैं।



किसी कारण के लिए, जर्नल प्रभाव कारक (JIF) और साथ की फाइलों में त्रुटियों के साथ वैज्ञानिक पत्रों के प्रतिशत के बीच एक सकारात्मक सहसंबंध पाया गया (स्पीयरमैन आरएच = 0.52, दो तरफा पी मूल्य = 0.03)।



विश्लेषण से यह भी पता चला है कि त्रुटियों के साथ वैज्ञानिक कागजात की संख्या में पिछले पांच वर्षों में लगभग 15% प्रति वर्ष की वृद्धि हुई, वैज्ञानिक प्रकाशनों की संख्या में समग्र वृद्धि (3.8%) से आगे निकल गई।

लेखक Microsoft डेवलपर्स से संपर्क करने का सुझाव देते हैं। हर कोई उन्हें एक्सेल के सुझाव बॉक्स के माध्यम से या ट्विटर के माध्यम से एक संदेश भेज सकता है (एक्सेल डेवलपर्स ट्विटर पर एक खाता है )।

एक्सेल स्प्रेडशीट में वैज्ञानिक पात्रों के स्वचालित रूपांतरण के साथ समस्या को बार-बार उठाया गया है । 2004 में वापस, वैज्ञानिक पत्रों के लेखकों को चेतावनी दी गई थी कि एक्सेल में जीन पहचानकर्ता स्वचालित रूप से विकृत होते हैं। दुर्भाग्य से, पिछले एक दशक में समस्या का समाधान नहीं हुआ है। इसके विपरीत, त्रुटियों के साथ जैव सूचना विज्ञान पर और भी अधिक वैज्ञानिक शोधपत्र प्रकाशित होने लगे।

कुछ हद तक, वैज्ञानिक पत्रों के लेखक स्वयं त्रुटियों के लिए दोषी हैं, जो एक्सेल प्रोग्राम इंटरफ़ेस को अच्छी तरह से नहीं जानते हैं, पता नहीं है कि सेल प्रारूप में डेटा प्रकार को कैसे बदलना है, साथ में डेटा के साथ तालिकाओं की सावधानीपूर्वक जांच न करें। प्रकाशन के लिए इस तरह के काम को स्वीकार करने वाले समीक्षकों को भी दोष देना है, टेबल की जांच के बिना भी। त्रुटि तालिका के संकलक ने विशेष रूप से कई मामलों को नोट किया जहां रूपांतरण त्रुटियां पहले से ही साथ की तालिका की पहली पंक्तियों में पाई जाती हैं, जो वैज्ञानिक पत्रों और समीक्षकों के लेखकों के लिए अपर्याप्त ध्यान इंगित करती हैं।

सामान्य तौर पर, वैज्ञानिक पत्रों में और भी अधिक हास्यास्पद गलतियाँ होती हैं। उदाहरण के लिए, 1991 में परमाणु भौतिकी में एक पत्रिका में टाइटल राइट के साथ एक वैज्ञानिक पत्र प्रकाशित किया गया था। वाक्यांश "हैड्रोन कोलाइडर" के बजाय, वाक्यांश "हार्डन कोलाइडर", जिसका एक बिल्कुल अलग अर्थ है, प्रिंट करने के लिए चला गया।

कंप्यूटर इंटरफ़ेस डेवलपर्स अच्छी तरह से जानते हैं कि अधिकांश उपयोगकर्ता प्रोग्राम्स में डिफ़ॉल्ट सेटिंग्स को नहीं बदलते हैं। यदि एक्सेल में डिफ़ॉल्ट डेटा प्रकार "सामान्य" है, तो इसका उपयोग किया जाएगा, इसलिए जैव सूचना विज्ञान और आनुवंशिकी पर वैज्ञानिक पत्रों में स्वत: रूपांतरण के साथ त्रुटियों की उपस्थिति काफी अनुमानित है।

अध्ययन के लेखक ध्यान दें कि एक्सेल और अन्य लिब्रे ऑफिस कैल और ओपनऑफिस कैल्क स्प्रेडशीट में स्वचालित डेटा रूपांतरण को स्थायी रूप से अक्षम करने का कोई तरीका नहीं है। हर बार आपको डेटा प्रकार मैन्युअल रूप से सेट करने की आवश्यकता होती है। अपवाद Google पत्रक तालिकाएँ हैं, जहाँ कोई डेटा दूषण नहीं है। इसके अलावा, जब आप Excel, LibreOffice Calc, या OpenOffice Calc में Google शीट्स को फिर से खोलते हैं, तो SEPT1 और MARCH1 जैसे आनुवांशिक चरित्रों को तारीखों में परिवर्तित होने से बचाया जाता है।

Source: https://habr.com/ru/post/hi396941/


All Articles