Lima alasan egois untuk bekerja secara berulang

Anotasi


Jadi, rekan-rekan ilmuwan saya, jangan bertanya apa yang dapat Anda lakukan untuk reproduktifitas - tanyakan reproduktifitas apa yang dapat Anda lakukan untuk Anda!


Di sini saya akan mencantumkan lima alasan mengapa kemungkinan reproduksi data terbayarkan dalam jangka panjang dan merupakan kepentingan pribadi bagi setiap ilmuwan ambisius yang berorientasi pada karier.




Persamaan rumit di bagian kiri papan tulis, persamaan yang bahkan lebih rumit di sebelah kanan. Sebuah kalimat pendek menghubungkan dua persamaan: "Sebuah keajaiban terjadi di sini." Dua matematikawan, berpikir keras. "Saya pikir Anda harus lebih spesifik pada langkah kedua," yang satu memberi tahu yang lain.
gambar


Seperti inilah situasinya ketika Anda mencoba memahami bagaimana penulis beralih dari kumpulan data yang besar dan kompleks ke artikel padat dengan banyak grafik kompleks. Tanpa akses ke data dan kode analitik, transisi seperti itu hanya dapat dijelaskan dengan keajaiban. Dan dalam sains seharusnya tidak ada keajaiban.


Kemampuan untuk bekerja secara transparan dan reproduktif sangat bergantung pada empati - tempatkan diri Anda pada salah satu kolega Anda dan tanyakan: "Apakah orang ini dapat mengakses data saya dan memahami arti analisis saya?" Menguasai "alat" seperti itu (Kotak 1) membutuhkan keterlibatan dan investasi besar waktu dan energi Anda. A priori, tidak jelas mengapa keuntungan dari format pekerjaan ini melebihi biaya.


Berikut adalah beberapa argumen yang biasanya mengarah pada kasus-kasus seperti: "Karena reproduktifitas benar", "Karena itu adalah dasar ilmu pengetahuan!", "Karena dunia akan menjadi tempat yang lebih baik jika semua orang bekerja secara transparan dan dapat direproduksi!" Apakah Anda tahu bagaimana alasan ini bagi saya? Seperti "blah blah blah" ...


Bukan berarti saya akan menganggap argumen ini tidak bisa dipertahankan. Hanya saja saya tidak terlalu idealis: Saya tidak peduli ilmu apa yang seharusnya. Saya seorang realis: Saya mencoba melakukan yang terbaik yang saya bisa, berdasarkan bagaimana sains benar-benar bekerja. Apakah kita suka atau tidak, ilmu pengetahuan adalah tentang pertumbuhan karier, peningkatan faktor dampak, jumlah publikasi, dan jumlah uang. Lebih banyak, lebih banyak, lebih banyak ... Jadi bagaimana reproduktifitas membantu saya mencapai lebih banyak sebagai ilmuwan?


Reproduksibilitas: Mengapa Saya Membutuhkannya?


Dalam artikel ini, saya menyajikan lima alasan mengapa pendekatan ini untuk reproduktifitas terbayarkan dalam jangka panjang dan demi kepentingan setiap ilmuwan ambisius yang berorientasi pada karier.


Alasan # 1: reproduksibilitas membantu menghindari bencana


"Seperti janji besar dalam pengujian kanker, itu gagal," adalah judul artikel di The New York Times yang diterbitkan pada musim panas 2011 [1], yang menyoroti karya Keith Baggerly dan Kevin Coombs, dua biostatis di Cancer Center. M. D. Anderson. Mereka mengidentifikasi masalah dalam analisis data kematian dalam serangkaian artikel oleh para ilmuwan dari Universitas Duke, yang memiliki pengaruh besar pada penelitian kanker payudara [2].


Masalah-masalah yang ditemukan oleh Baggerly dan Coombs dapat dengan mudah diperhatikan oleh rekan penulis artikel sebelum diserahkan. Set data tidak terlalu besar, mereka dapat dengan mudah diperiksa pada laptop standar. Anda tidak perlu menjadi jenius statistik untuk memahami bahwa jumlah pasien di sana bervariasi, label mengubah tempat atau sampel disajikan beberapa kali dengan anotasi yang bertentangan dalam kumpulan data yang sama. Mengapa tidak ada yang memperhatikan masalah ini sebelum terlambat? Karena data dan analisisnya tidak transparan dan diperlukan pengetahuan tentang bioinformatika kriminal untuk dapat memahaminya [2].


Contoh ini memotivasi saya untuk lebih transparan dan dapat direproduksi dalam karya saya sendiri. Bahkan insiden yang lebih kecil dapat membuat Anda dalam posisi yang canggung.


Ini adalah contoh dari penelitian saya. Mitra percobaan kami menguji model lintasan yang kami buat. Namun, ketika menulis artikel, kami menemui hambatan serius: tidak peduli seberapa keras kami berusaha, kami tidak dapat mereproduksi model perjalanan asli kami. Mungkin datanya telah berubah, mungkin kodenya berbeda, atau mungkin kita tidak dapat mengingat pengaturan parameter metode kita dengan benar. Jika kami menerbitkan hasil ini, kami tidak akan dapat menunjukkan bagaimana kami sampai pada hipotesis yang disetujui dari sumber data. Kami akan menerbitkan keajaiban.


Pengalaman ini menunjukkan kepada saya dua hal. Pertama-tama, sebuah proyek lebih dari hasil yang indah. Anda perlu menjelaskan secara rinci bagaimana hasil ini diperoleh.


Dan selain itu, memikirkan reproduktifitas pada tahap awal, Anda akan menghemat waktu di masa depan. Kami menghabiskan bertahun-tahun waktu kami dan waktu mitra kami, tidak dapat mereproduksi hasil kami sendiri. Semua ini bisa dihindari jika kita lebih baik melacak bagaimana data dan analisis berubah seiring waktu.


Alasan # 2: reproduksibilitas membuatnya lebih mudah untuk menulis artikel


Transparansi dalam analisis Anda membuat penulisan artikel jauh lebih mudah. Misalnya, dalam dokumen dinamis (Kotak 1), semua hasil diperbarui secara otomatis ketika data berubah. Anda dapat yakin bahwa angka, grafik dan tabel Anda akan tetap relevan. Selain itu, transparansi analisis semacam itu lebih menarik, lebih banyak orang akan dapat membiasakan diri dengannya, dan menjadi lebih mudah untuk mendeteksi kesalahan.


Ini adalah contoh lain dari pekerjaan saya. Dalam proyek lain [3], kami berdiskusi dengan dokter mengapa beberapa hasil kelangsungan hidup dalam studi multicenter tidak memenuhi harapan kami. Karena semua data dan kode analitik tersedia bagi kami dalam file yang mudah dibaca, kami dapat mempelajari masalah ini sendiri.


Hanya dengan membuat tabel dengan variabel yang menggambarkan tahap tumor, kami dapat mengidentifikasi masalah: kami berharap dapat melihat angka-angka panggung dari 1 hingga 4, dan melihat sesuatu seperti "XXX", "Fred" dan "999". Orang-orang yang memberi kami data tampaknya membacanya dengan buruk. Ternyata jauh lebih cepat dan lebih mudah untuk mempelajari data Anda sendiri daripada pergi ke post-doc mengerjakan proyek dan berkata: "Jelaskan ini kepada kami." Rekan penulis dan saya terlalu sibuk untuk menghabiskan waktu pada pembersihan data tingkat rendah, dan tanpa analisis yang terdokumentasi dengan baik, kami tidak akan dapat berkontribusi. Tetapi karena kami memiliki data dan kode yang sangat transparan, kami hanya butuh lima menit untuk mendeteksi kesalahan.


Alasan # 3: reproduktifitas membantu pengulas melihat data Anda


Banyak dari kita suka mengeluh tentang peer review. Paling sering, saya mendengar: "Para pengulas bahkan belum membaca artikel itu dan tidak tahu apa yang sebenarnya kami teliti."


Ini sangat berbeda dengan pengalaman saya meninjau artikel baru-baru ini [4], di mana kami membuat data dan kode yang terdokumentasi dengan mudah diakses oleh pengulas. Salah satu dari mereka menyarankan untuk melakukan perubahan kecil pada beberapa analisis, dan karena ia memiliki akses ke semua data, ia dapat langsung menguji ide-idenya dan melihat bagaimana hasilnya berubah. Peninjau sepenuhnya terlibat, dan satu-satunya yang tersisa untuk dibahas adalah metode analisis data mana yang terbaik. Jadi tinjauan konstruktif harus diatur. Dan ini tidak akan mungkin terjadi tanpa representasi analisis kami yang transparan dan dapat direproduksi.


Alasan nomor 4: reproduktifitas menjamin kelangsungan pekerjaan Anda


Saya akan terkejut jika Anda belum pernah mendengar pernyataan berikut sebelumnya (dan mungkin bahkan menyuarakannya sendiri): "Saya sangat sibuk sehingga saya tidak dapat mengingat detail semua proyek saya secara menyeluruh" atau "Saya melakukan analisis ini 6 bulan yang lalu. Tentu saja, saya tidak dapat mengingat semua detail setelah periode yang lama "atau" Supervisor penelitian saya (PI) mengatakan bahwa saya harus melanjutkan proyek postdoc sebelumnya, tetapi postdoc itu sudah lama hilang dan tidak menyimpan skrip atau data apa pun. "


Pikirkan tentang hal ini: semua masalah ini dapat diselesaikan dengan mendokumentasikan dan membuat data dan kode tersedia. Ini sangat penting bagi para peneliti terkemuka yang bekerja pada proyek jangka panjang yang kompleks. Bagaimana Anda bisa memastikan kesinambungan pekerjaan di laboratorium Anda jika cara itu berkembang tidak didokumentasikan dalam bentuk yang dapat direproduksi? Di grup saya, saya bahkan tidak membahas hasil dengan siswa jika mereka didokumentasikan dengan buruk. Tidak ada bukti reproduktifitas - tidak ada hasil!


Alasan nomor 5: reproduksibilitas membantu reputasi


Dalam beberapa artikel, kami membuat data, kode, dan analisis kami tersedia sebagai paket untuk Bioconductor [5]. Ketika saya mulai mengerjakan kontrak, saya memberikan semua paket ini sebagai hasil penelitian laboratorium saya.


Biasanya, analisis yang disajikan dengan cara ini membantu membangun reputasi sebagai peneliti yang jujur โ€‹โ€‹dan teliti. Jika Anda pernah memiliki masalah dengan salah satu artikel Anda, akan sangat mudah bagi Anda untuk melindungi nama Anda dan menunjukkan bahwa Anda telah mengkomunikasikan semuanya dengan jujur.


Artikel terbaru yang diterbitkan dalam jurnal Science adalah Scientific Standards. Mempromosikan budaya penelitian terbuka โ€[6], merangkum delapan standar dan tiga tingkat rekomendasi untuk reproduksibilitas. Menggunakan alat seperti R dan rajutan (Kotak 1) akan memungkinkan Anda untuk dengan mudah mengikuti standar tingkat tertinggi, yang, sekali lagi, bagus untuk reputasi Anda.


Apa yang menahan Anda?


Apakah saya meyakinkan Anda? Mungkin tidak. Berikut ini adalah beberapa reaksi yang sering saya dapatkan ketika saya bersikeras tentang reproduktifitas (dan bagaimana saya menanggapinya):


  • "Hanya hasilnya yang penting!" Anda salah.
  • "Saya lebih suka melakukan sains nyata, daripada merapikan data saya." Jika hasil Anda tidak dapat direproduksi, Anda tidak melakukan sains sama sekali [7].
  • โ€œJalani bisnismu! Saya mendokumentasikan data saya seperti yang saya inginkan! " Ya silakan! Ada banyak cara untuk bekerja dengan cara yang dapat direproduksi [8] - Anda dapat memilih salah satu yang Anda suka.
  • โ€œExcel sangat bagus. Saya tidak memerlukan R bermodel baru, Python atau apa pun. " Alat yang Anda sebutkan mungkin berfungsi dengan baik jika Anda perlu melakukan banyak pengeditan manual. Tetapi jika Anda melakukan analisis data, klik lebih sedikit dan lebih banyak skrip adalah solusi terbaik. Bayangkan Anda perlu melakukan analisis sederhana - misalnya, buat grafik regresi - 5 (10, 20) kali. Bandingkan pemrosesan manual ini dengan menulis loop sederhana yang akan melakukannya untuk Anda. Sekarang bayangkan Anda perlu melakukan ini lagi setelah 3 minggu, karena datanya telah sedikit berubah. Dalam hal ini, Anda harus menggunakan R dan Python.
  • โ€œPemutaran terdengar bagus, tetapi kode dan data saya tersebar di banyak hard drive dan direktori sehingga butuh terlalu banyak upaya untuk meletakkan semuanya di satu tempat.โ€ Pikirkan saja apa yang baru saja Anda katakan. Kurangnya organisasi membuat Anda dan proyek Anda dalam bahaya besar.
  • "Kami selalu dapat mengurutkan kode dan data setelah mengirimkan aplikasi untuk ditinjau." Di atas, contoh model jejak saya menunjukkan bahaya dari strategi semacam itu. Selain itu, menyiapkan sebuah naskah bisa memakan banyak waktu, jadi Anda mungkin tidak ingat semua detail analisis Anda ketika tiba saatnya untuk mempresentasikan hasilnya.
  • "Ada banyak kompetisi di bidang penelitian saya, dan membuang-buang waktu terlalu banyak risiko." Dan itulah mengapa Anda harus mulai bekerja dengan reproduktifitas pada tahap awal sehingga Anda tidak membuang waktu ini dalam jangka panjang.

Kapan harus khawatir tentang reproduktifitas?


Misalkan saya meyakinkan Anda bahwa reproduktifitas dan transparansi adalah
untuk kepentingan Anda sendiri. Kapan mulai khawatir?
Jawaban panjang:


  • sebelum memulai proyek - karena Anda mungkin harus belajar alat seperti R atau git.;
  • saat Anda melakukan analisis - karena jika Anda menunggu terlalu lama, Anda bisa kehilangan banyak waktu untuk mencoba mengingat apa yang Anda lakukan dua bulan lalu;
  • ketika Anda menulis artikel - karena Anda ingin angka, tabel, dan angka Anda menjadi relevan;
  • ketika Anda adalah penulis bersama sebuah artikel - karena Anda ingin memastikan bahwa analisis yang disajikan dalam dokumen dengan nama Anda sudah benar;
  • ketika Anda melihat dokumen - karena Anda tidak dapat menilai hasilnya kecuali Anda tahu bagaimana penulis datang kepada mereka.

Jawaban singkat: selalu!


Mencapai budaya reproduktifitas


Untuk siapakah reproduksi dan transparansi itu penting? Jelas, siswa dan post-docs memainkan peran penting dalam pekerjaan yang dapat direproduksi, karena lebih sering mereka adalah orang-orang yang benar-benar melakukan pekerjaan ini. Saran saya adalah mempelajari alat reproduksibilitas secepat mungkin (Kotak 1) dan menggunakannya di setiap proyek.


Setelah berupaya, Anda akan mendapatkan banyak keuntungan:


  • Anda akan membuat lebih sedikit kesalahan dan lebih mudah untuk memperbaiki kesalahan yang ada;
  • Anda akan lebih efektif dan akan tumbuh lebih cepat dalam jangka panjang;
  • jika Anda berpikir bahwa penasihat akademis Anda sedikit terlibat, maka dengan membuat analisis lebih mudah dipahami, Anda dapat membantu mentor Anda menjadi lebih terlibat.

Peneliti terkemuka, pemimpin kelompok dan tim, profesor - adalah milik Anda untuk menciptakan "budaya reproduksibilitas" di atas basis teknis yang diwakili oleh siswa dan post-doc Anda. Di laboratorium saya, saya menjadikan reproduksibilitas sebagai elemen kunci dalam dokumen yang saya berikan kepada pemula [9]. Jika Anda ingin mendukung kolega Anda, minta dokumentasi analisis setiap kali anggota tim menunjukkan kepada Anda hasil pekerjaan. Anda tidak perlu masuk ke detail - pandangan sekilas akan menunjukkan seberapa baik hal itu dilakukan. Apa yang benar-benar meningkatkan reproduktifitas di laboratorium saya sendiri adalah persyaratan bahwa sebelum mengajukan aplikasi dengan salah satu anggota tim, rekannya yang tidak terlibat dalam proyek, harus mencoba menganalisis dan mereproduksi hasil kami secara mandiri.


Jika Anda tidak menciptakan budaya reproduktifitas di laboratorium Anda, Anda akan kehilangan manfaat ilmiah yang sangat besar dalam jangka panjang.


Ilmu pengetahuan menjadi lebih transparan dan dapat direproduksi setiap hari. Anda bisa menjadi pemimpin dalam proses ini! Trendsetter tingkat lanjut! Ayolah, saya tahu - Anda juga menginginkan ini.




Kotak 1


Pada level terendah, bekerja secara reproduktif berarti hanya menghindari kesalahan pemula. Jadikan proyek Anda teratur, tetapkan nama informatif untuk file dan direktori, simpan data dan kode di satu tempat dengan cadangan. Jangan menyebarkan data di berbagai server, laptop, dan hard drive.


Untuk mencapai tingkat reproduktifitas berikut, Anda perlu mempelajari beberapa alat reproduktifitas komputasi [8]. Secara umum, reproduksibilitas meningkat dengan lebih sedikit klik dan sisipan dan lebih banyak skrip dan pengkodean. Misalnya, lakukan analisis Anda dalam R atau Python dan mendokumentasikannya menggunakan knitR atau IPython .
Alat-alat ini membantu Anda menggabungkan teks deskriptif dengan kode analitik ke dalam dokumen dinamis yang dapat diperbarui secara otomatis setiap kali Anda mengubah data atau kode.


Selanjutnya, pelajari cara menggunakan sistem kontrol versi seperti git pada platform bersama seperti GitHub . Terakhir, jika Anda ingin menjadi seorang profesional, belajarlah menggunakan buruh pelabuhan yang membuat analisis Anda mulus dan mudah dibawa ke sistem yang berbeda.




Ucapan Terima Kasih


Saya mengembangkan pendekatan reproduktif yang egois untuk "Lokakarya Reprodusibilitas Postdoctoral" yang diajarkan di Gourdon Institute di Cambridge dengan Gordon Brown (CRUK Cambridge Institute) dan Stephen J. Eglen (DAMTP Cambridge). Saya berterima kasih kepada mereka atas kontribusi mereka.


Semua materi tersedia di GitHub melalui tautan , dan laporan saya direkam di blog saya .


Daftar sumber
  1. Kolata G. Bagaimana janji yang cerah dalam pengujian kanker berantakan. The New York Times. 2011. http://www.nytimes.com/2011/07/08/health/research/08genes.html?_r=0 .
  2. Baggerly KA, Coombes KR. Memperoleh kemosensitivitas dari garis sel: bioinformatika forensik dan penelitian yang dapat direproduksi dalam biologi throughput tinggi. Ann Appl Stat. 2009; 3: 1309โ€“34.
    https://projecteuclid.org/euclid.aoas/1267453942 .
  3. Martins FC, Santiago I, Trinh A, Xian J, Guo A, Sayal K, dkk. Kombinasi gambar dan analisis genom kanker ovarium serosa derajat tinggi mengungkapkan kehilangan PTEN sebagai peristiwa driver umum dan penggolong prognostik. Genom Biol. 2014; 15: 526.
    https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0526-8 .
  4. Schwarz RF, Ng CKY, Cooke SL, Newman S, Kuil J, Piskorz AM, dkk. Heterogenitas spasial dan temporal pada kanker ovarium serosa derajat tinggi: analisis filogenetik. PLoS Med. 2015; 12: 1001789.
    http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001789 .
  5. Castro MAA, Fletcher M, Markowetz F, data ekspresi Meyer K. Gene dari sel kanker payudara di bawah gangguan pensinyalan FGFR2. Paket Eksperimental BioConductor. http://bioconductor.org/packages/release/data/experiment/html/Fletcher2013a.html . Diakses 27 Nov 2015.
  6. Nosek BA, Alter G, Bank GC, Borsboom D, Bowman SD, Breckler SJ, et al. Standar ilmiah. Mempromosikan budaya penelitian terbuka. Sains 2015; 348: 1422โ€“5.
    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4550299 .
  7. Watson M. Kapan 'ilmu terbuka' akan menjadi 'ilmu semata'? Genom Biol. 2015; 16: 101.
  8. Piccolo SR, Lee AB, Frampton MB. Alat dan teknik untuk reproduksibilitas komputasi. 2015. http://biorxiv.org/content/early/2015/07/17/022707 . Diakses 27 Nov 2015.
  9. Markowetz F. Anda tidak bekerja untuk saya; Saya bekerja dengan Anda. PLoS Comput Biol. 2015; 11: 1004387.
    http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004387 .


    Twitter dan blog
    Florian di Twitter @markowetzlab dan di blognya: http://scientificbsides.wordpress.com/ .

Source: https://habr.com/ru/post/id417469/


All Articles