يقوم Excel بإفساد 20 ٪ من جداول البيانات في الأوراق البحثية للوراثة


جزء من جدول البيانات من العمل العلمي " التعبير المحدد للأنسجة وتنظيم جينات إزدواج الشكل الجنسي في الفئران " (doi: 10.1101 / gr.5217506)

في جداول بيانات Microsoft Excel ، يتم تعيين التنسيق الافتراضي للخلية العامة. لقد صادف الكثير حقيقة أن Excel دون سبب يحول القيمة المدخلة إلى تاريخ. هذا هو خطأ التحويل التلقائي الأكثر شيوعًا. لتجنب ذلك ، يجب تغيير نوع البيانات من "عام" إلى "رقمي" (للأرقام) أو "نص" (للنص). في الحالة الأخيرة ، لن يتم تحويل البيانات المدخلة على الإطلاق.

يعاني مستخدمي Excel عديمي الخبرة من التحويل التلقائي. من المدهش أنه من بين هؤلاء المستخدمين عديمي الخبرة هناك عدد كبير من العلماء. مسح المنشورات تلقائيًا في PubMed باستخدامأظهرت مجموعة من مخطوطات باش أن حوالي 20 ٪ من الجداول التي تحتوي على بيانات في الأعمال العلمية حول علم الوراثة تحتوي على أخطاء في تحويل بيانات Excel في أسماء الجينات!

أولاً ، قام مؤلفو الدراسة بفحص جميع الرموز الجينية البشرية الأساسية - ووجدوا أن Excel مع الإعدادات الافتراضية يحول تلقائيًا 35 رمزًا جينيًا بشريًا ، وتحويلها إلى تواريخ: هذه هي الجينات FEB1 و FEB2 و FEB5 و FEB6 و FEB7 و FEB9 و FEB10 و MARCH1 و MARC1 ، MARCH2 ، MARC2 ، MARCH3 ، MARCH4 ، MARCH5 ، MARCH6 ، MARCH7 ، MARCH8 ، MARCH9 ، MARCH10 ، MARCH11 ، SEPT1 ، SEPT2 ، SEPT3 ، SEPT4 ، SEPT5 ، SEPT6 ، SEPT7 ، SEPT8 ، SEPT9 ، SEPT10 S10 ، SEPT10 ، SEPT10 ، SEPT ، 10 سبتمبر ، 10 سبتمبر ، DEC1.

يتم تحديد إجراء اختيار أسماء الرموز الجينية من خلال القواعدحيث يقتصر الحد الأقصى للطول على ستة أحرف ، ويجب أن يكون الاسم اسمًا جينيًا مختصرًا أو اختصارًا ، بحيث يتم ترميز جميع septins في SEPT ، وتبدأ جميع البروتينات المؤتلفة (Membrane-Associated Ring Finger) بـ MAR.

الوضع يزداد سوءًا ، نظرًا للمرادفات. على سبيل المثال ، الرمز الجيني CRNN ( معرف الجين 49860 ) له مرادف SEP53 ، والذي تحوله Excel إلى سبتمبر 1953.

يحتوي بروتين الكابتن برمز KPTN المعتمد على مرادف 2E4 ( معرف الجين 11133 ) ، والذي يتحول إلى الرقم 20000. يتم

تشغيل بروتين IFITM1 الناجم عن الإنترفيرون مع الاسم المستعار 9-27 ( معرف الجين 8519 ) في 27 سبتمبر.

يعد برنامج Excel حقل ألغام حقيقيًا لعلماء الوراثة ، لأنه في التسميات الجينية توجد معرفات مثل 201E9 ، 9130022E09 ، 3e46 ، NA ، NaN ، إلخ. وبالتالي ، يحول Excel الأحرف الجينية ليس فقط إلى التواريخ ، ولكن أيضًا إلى أرقام الفاصلة العائمة. على سبيل المثال ، يتحول 2310009E13 إلى 2.31E + 13.

بعد تجميع قائمة بالأخطاء المحتملة ، قام مؤلفو العمل العلمي بتنزيل جداول البيانات المصاحبة من جميع الأوراق العلمية المنشورة في 18 مجلة علمية من 2005 إلى 2015. بالنسبة للمجلات متعددة التخصصات ، اقتصر الاختيار على الأعمال العلمية مع كلمة "الجين" في العنوان. تم تحويل الجداول إلى تنسيق .tsv وتمريرها regexمع البحث عن الصفوف المحددة. أخذوا النص 2004وإضافة بعض تنسيقات التاريخ (DD / MM / YY و MM-DD-YY). تم إطلاق البرامج النصية على Ubuntu v14.04 LTS مع إصدار GNU bash shell 4.3.11.


نص 2004 ، عندما أجريت دراسة مماثلة حول التحويل التلقائي للرموز الوراثية في الأوراق

العلمية تم تضمين الأخطاء في الأوراق العلمية في جداول البيانات ، والتي يتم نشرها كمواد داعمة للأوراق العلمية. تم سرد ما يقرب من ألف ورقة علمية بها أخطاء في العمود الأول من هذا الجدول .

تم تحليل ما مجموعه 35175 جداول بيانات مصاحبة. تم العثور على 7467 قائمة الجينات في 3597 ورقة علمية. تم العثور على أخطاء تحويل Excel في 987 الملفات المصاحبة لـ 704 مقالات علمية منشورة. أي بالنسبة لهذه العينة ، فإن نسبة الأعمال العلمية التي تحتوي فيها جداول Excel المصاحبة على أخطاء تحويل هي 19.6٪.



لسبب ما ، تم العثور على ارتباط إيجابي بين عامل تأثير المجلة (JIF) ونسبة الأوراق العلمية التي تحتوي على أخطاء في الملفات المصاحبة (Spearman rho = 0.52 ، قيمة p على الوجهين = 0.03).



كما أظهر التحليل أن عدد الأوراق العلمية التي بها أخطاء قد زادت بنحو 15٪ سنوياً على مدى السنوات الخمس الماضية ، متجاوزة الزيادة الإجمالية في عدد المنشورات العلمية (3.8٪).

يقترح المؤلفون الاتصال بمطوري Microsoft. يمكن للجميع إرسال رسالة إليهم من خلال صندوق الاقتراحات في Excel أو عبر تويتر (مطورو Excel لديهم حساب على تويتر ).

تم تكرار مشكلة التحويل التلقائي للحروف العلمية في جداول بيانات Excel بشكل متكرر . في عام 2004 ، تم تحذير مؤلفي الأوراق العلمية من أن معرفات الجينات مشوهة تلقائيًا في Excel. لسوء الحظ ، لم يتم حل المشكلة خلال العقد الماضي. على العكس ، بدأ نشر المزيد من الأوراق العلمية حول المعلوماتية الحيوية التي بها أخطاء.

إلى حد ما ، يتحمل مؤلفو الأوراق العلمية أنفسهم المسؤولية عن الأخطاء ، الذين لا يعرفون واجهة برنامج Excel جيدًا بما يكفي ، ولا يعرفون كيفية تغيير نوع البيانات في تنسيق الخلية ، ولا تتحقق بعناية من الجداول مع البيانات المصاحبة لها. كما يلوم المراجعون الذين يقبلون هذا العمل للنشر ، أيضًا دون التحقق من الجداول. لاحظ القائمون على جدول الأخطاء على وجه التحديد عدة حالات حيث توجد أخطاء التحويل بالفعل في السطور الأولى من الجدول المصاحب ، مما يشير إلى عدم كفاية الاهتمام بمؤلفي الأوراق العلمية والمراجعين.

بشكل عام ، في الأوراق العلمية هناك أخطاء أكثر سخافة. على سبيل المثال ، في مجلة في الفيزياء النووية في عام 1991 تم نشر ورقة علمية مع خطأ مطبعي في العنوان. بدلاً من عبارة "hadron collider" ، طُبعت عبارة "hardon collider" ، التي لها معنى مختلف تمامًا ، للطباعة.

يدرك مطورو واجهة الكمبيوتر جيدًا أن الغالبية العظمى من المستخدمين لا يغيرون الإعدادات الافتراضية في البرامج. إذا تم تعيين نوع البيانات "عام" بشكل افتراضي في Excel ، فسيتم استخدامه ، وبالتالي فإن ظهور الأخطاء مع التحويل التلقائي في الأوراق العلمية حول المعلوماتية الحيوية وعلم الوراثة يمكن التنبؤ به تمامًا.

لاحظ مؤلفو الدراسة أنه لا توجد طريقة لتعطيل التحويل التلقائي للبيانات بشكل دائم في Excel وجداول بيانات LibreOffice Calc و OpenOffice Calc الأخرى. في كل مرة تحتاج إلى تعيين نوع البيانات يدويًا. الاستثناء هو جداول جداول بيانات Google ، حيث لا يوجد تلف في البيانات. علاوة على ذلك ، عندما تعيد فتح جداول بيانات Google في Excel أو LibreOffice Calc أو OpenOffice Calc ، يتم حماية الأحرف الجينية مثل SEPT1 و MARCH1 من التحويل إلى التواريخ.

Source: https://habr.com/ru/post/ar396941/


All Articles