Excel merusak 20% dari spreadsheet dalam makalah penelitian genetika
Sepotong tabel data dari karya ilmiah " Ekspresi spesifik jaringan dan regulasi gen Dimorfisme Seksual pada Tikus " (doi: 10.1101 / gr.5217506)Dalam spreadsheet Microsoft Excel, format default sel Umum diatur. Banyak yang menemukan fakta bahwa Excel tanpa alasan mengubah nilai yang dimasukkan ke tanggal. Ini adalah kesalahan konversi otomatis yang paling umum. Untuk menghindarinya, Anda harus mengubah tipe data dari "Umum" ke "Numerik" (untuk angka) atau "Teks" (untuk teks). Dalam kasus terakhir, data yang dimasukkan tidak akan dikonversi sama sekali.Pengguna Excel yang tidak berpengalaman menderita konversi otomatis. Sungguh mengejutkan bahwa di antara para pengguna yang tidak berpengalaman ini ada sejumlah besar ilmuwan. Secara otomatis memindai publikasi di PubMed menggunakansatu set skrip bash menunjukkan bahwa sekitar 20% dari tabel dengan data dalam karya ilmiah tentang genetika mengandung kesalahan mengonversi data Excel dalam nama gen!Pertama, penulis penelitian memeriksa semua simbol genetik dasar manusia - dan menemukan bahwa Excel dengan pengaturan default secara otomatis mengubah 35 simbol genetik manusia, mengubahnya menjadi tanggal: ini adalah gen FEB1, FEB2, FEB5, FEB6, FEB7, FEB9, FEB10, MARCH1, MARC1 , MARCH2, MARC2, MARCH3, MARCH4, MARCH5, MARCH6, MARCH7, MARCH9, MARCH10, MARCH11, SEPT1, SEPT2, SEPT3, SEPT4, SEPT5, SEPT6, SEPT8, SEPT9, SEPT9, SEPT10, SEPT10, SEPT10, SEPT10, SEPT10, SEPT10, SEPT10, SEPT10 , DEC1.Prosedur untuk memilih nama simbol genetik ditetapkan oleh aturanyang panjang maksimumnya dibatasi hingga enam karakter, dan namanya harus disingkat menjadi nama gen atau singkatan, sehingga semua septin dikodekan dalam SEPT, dan semua protein rekombinan (Membrane-Associated Ring Finger) dimulai dengan MAR.Situasinya semakin buruk, mengingat sinonimnya. Misalnya, simbol genetik CRNN ( pengidentifikasi gen 49860 ) memiliki sinonim SEP53, yang diubah Excel menjadi September 1953.Protein captin dengan simbol KPTN yang disetujui memiliki sinonim 2E4 ( pengidentifikasi gen 11133 ), yang berubah menjadi angka 20.000.Protein transmitran IFITM1 yang diinduksi oleh interferon dengan alias 9-27 ( pengidentifikasi gen 8519 ) berubah pada tanggal 27 September.Program Excel adalah ladang ranjau nyata bagi ahli genetika, karena dalam nomenklatur genetik terdapat pengidentifikasi seperti 201E9, 9130022E09, 3e46, NA, NaN, dll. Dengan demikian, Excel mengubah karakter genetik tidak hanya menjadi tanggal, tetapi juga ke angka titik mengambang. Sebagai contoh, 2310009E13 berubah menjadi 2.31E + 13.Setelah menyusun daftar kemungkinan kesalahan, penulis karya ilmiah mengunduh spreadsheet yang menyertainya dari semua makalah ilmiah yang diterbitkan dalam 18 jurnal ilmiah dari 2005 hingga 2015. Untuk jurnal interdisipliner, seleksi terbatas pada karya ilmiah dengan kata "gen" dalam judul. Tabel dikonversi ke format .tsv dan diteruskan regex
dengan mencari baris yang ditentukan. Mereka mengambil naskah 2004dan menambahkan beberapa format tanggal lainnya (DD / MM / YY dan MM-DD-YY). Skrip diluncurkan pada Ubuntu v14.04 LTS dengan GNU bash shell versi 4.3.11.
Naskah 2004 , ketika studi serupa dilakukan pada konversi otomatis simbol genetik dalam karya ilmiahKesalahan dalam karya ilmiah terkandung dalam spreadsheet, yang diterbitkan sebagai bahan pendukung untuk karya ilmiah. Hampir seribu makalah ilmiah dengan kesalahan tercantum di kolom pertama tabel ini .Sebanyak 35.175 lembar kerja terlampir dianalisis. 7467 daftar gen ditemukan di 3597 makalah ilmiah. Kesalahan konversi Excel ditemukan di 987 file terlampir untuk 704 artikel ilmiah yang diterbitkan. Artinya, untuk sampel ini, persentase karya ilmiah di mana tabel Excel yang menyertainya mengandung kesalahan konversi adalah 19,6%.
Untuk beberapa alasan, korelasi positif ditemukan antara faktor dampak jurnal (JIF) dan persentase makalah ilmiah dengan kesalahan dalam file yang menyertainya (Spearman rho = 0,52, nilai dua sisi p = 0,03).
Analisis juga menunjukkan bahwa jumlah makalah ilmiah dengan kesalahan meningkat sekitar 15% per tahun selama lima tahun terakhir, menyusul peningkatan keseluruhan dalam jumlah publikasi ilmiah (3,8%).Penulis menyarankan untuk menghubungi pengembang Microsoft. Setiap orang dapat mengirimi mereka pesan melalui Kotak Saran Excel atau melalui twitter (Pengembang Excel memiliki akun di Twitter ).Masalah dengan konversi otomatis karakter ilmiah di lembar kerja Excel telah dinaikkan berulang kali . Kembali pada tahun 2004, penulis makalah ilmiah diperingatkan bahwa pengidentifikasi gen secara otomatis terdistorsi di Excel. Sayangnya, selama dekade terakhir masalahnya belum terselesaikan. Sebaliknya, makalah yang lebih ilmiah tentang bioinformatika dengan kesalahan mulai dipublikasikan.Sampai taraf tertentu, penulis makalah ilmiah sendiri yang harus disalahkan atas kesalahan, yang tidak tahu antarmuka program Excel dengan baik, tidak tahu cara mengubah tipe data dalam format sel, jangan hati-hati memeriksa tabel dengan data yang menyertainya. Para pengulas yang menerima karya semacam itu untuk publikasi juga harus disalahkan, juga tanpa memeriksa tabelnya. Para penyusun tabel kesalahan secara khusus mencatat beberapa kasus di mana kesalahan konversi sudah ditemukan di baris pertama tabel terlampir, yang menunjukkan kurangnya perhatian kepada penulis makalah ilmiah dan pengulas.Secara umum, dalam karya ilmiah bahkan ada kesalahan yang lebih konyol. Misalnya, dalam jurnal fisika nuklir pada tahun 1991, sebuah makalah ilmiah diterbitkan dengan salah ketik pada judulnya. Alih-alih frasa “hadron collider”, frasa “hardon collider,” yang memiliki arti yang sama sekali berbeda, digunakan untuk mencetak.Pengembang antarmuka komputer sangat menyadari bahwa sebagian besar pengguna tidak mengubah pengaturan default dalam program. Jika tipe data "Umum" diatur secara default di Excel, maka akan digunakan, sehingga tampilan kesalahan dengan konversi otomatis dalam makalah ilmiah tentang bioinformatika dan genetika cukup dapat diprediksi.Para penulis penelitian mencatat bahwa tidak ada cara untuk menonaktifkan konversi data otomatis di Excel dan LibreOffice Calc dan OpenOffice Calc spreadsheet lainnya. Setiap kali Anda perlu mengatur tipe data secara manual. Pengecualian adalah tabel Google Sheets, di mana tidak ada kerusakan data. Terlebih lagi, ketika Anda membuka kembali Google Sheets di Excel, LibreOffice Calc, atau OpenOffice Calc, karakter genetik seperti SEPT1 dan MARCH1 dilindungi dari konversi menjadi tanggal.Source: https://habr.com/ru/post/id396941/
All Articles