Deep Fake Science, krisis reproduktifitas dan dari mana repositori kosong berasal



Saya duduk dengan tenang di sebuah seminar, mendengarkan laporan seorang siswa tentang sebuah artikel dari CVPR yang lalu , dan google topik pada saat yang sama.

- Kelebihan dari artikel ini termasuk ketersediaan kode sumber ....
Saya harus turun tangan:
- Kehadiran apa, permisi?
- Uhh ... Kode sumber ...
"Apakah kamu menontonnya?"
- Tidak, tetapi artikel itu menyatakan ...
(ibu-ibu-ibu ... menggema terbiasa)
ㅡ Apakah Anda mengikuti tautannya?

Artikel itu, memang, sangat menggembirakan ditulis: "Kode dan model tersedia untuk umum di halaman proyek ... / imtqy.com / ...", namun, dalam komitmen dua tahun lalu, tautan "Kode dan model yang inspirasional akan segera ditata" :


Cari dan temukan, ketuk dan buka ... Mungkin ... Atau mungkin tidak. Berdasarkan pengalaman sedih saya, saya akan meletakkannya pada yang kedua, karena situasinya telah diulang akhir-akhir ini, oh, oh, sangat sering. Bahkan pada CVPR. Dan ini hanya sebagian dari masalah! Sumber dapat tersedia, tetapi, misalnya, hanya model, tanpa skrip pelatihan. Dan mungkin ada naskah pembelajaran, tetapi selama beberapa bulan dengan surat kepada penulis tidak mungkin untuk mendapatkan hasil yang sama. Atau, selama satu tahun pada dataset lain dengan panggilan skype biasa, seorang penulis di AS tidak dapat mereproduksi hasilnya, diperoleh di laboratorium paling terkenal di industri tentang topik ini ... Semacam Tryndets.

Dan, rupanya, sejauh ini kita hanya melihat bunga. Dalam waktu dekat, situasinya akan memburuk secara dramatis.

Siapa yang peduli dengan apa yang terjadi pada siswa di mana dunia ilmiah sedang menuju, termasuk melalui "kesalahan" dalam pembelajaran, selamat datang di kucing!

Krisis reproduksi


Pada tahun 2016, APAKAH ADA KRISIS REPRODUKSI? (Apakah ada krisis reproduktifitas sekarang)? , yang mengutip hasil survei terhadap 1.576 peneliti:


Sumber: Ini dan grafik berikut di bagian ini adalah artikel di Nature.

Menurut hasil survei, 52% peneliti percaya bahwa ada krisis yang signifikan, 38% - krisis ringan (total 90% total!), 3% - bahwa tidak ada krisis dan 7% - tidak ditentukan.
Versi konspiratorial penulis - mengingat skala bencana, yang terakhir tidak ingin menarik perhatian "berlebihan" terhadap pertanyaan:



Jika Anda melihat disiplin ilmu, ternyata kimia ada di tempat pertama, biologi di tempat kedua, dan fisika di tempat ketiga:



Menariknya, dalam bidang kimia, misalnya, lebih dari 60% peneliti merasa mustahil untuk mereproduksi penelitian mereka sendiri. Dalam fisika, ini juga lebih dari 50%.

Juga sangat menarik apa sebenarnya dari sudut pandang para peneliti yang memberikan kontribusi terbesar pada krisis yang tidak dapat direproduksi:



Yang pertama adalah “Pelaporan selektif”. Untuk Ilmu Komputer, ini adalah situasi di mana penulis, misalnya, memilih contoh terbaik untuk publikasi di mana algoritma bekerja, dan tidak menjelaskan secara terperinci di mana dan apa yang tidak bekerja.

Menariknya, yang kedua adalah "Tekanan untuk menerbitkan." Ini adalah prinsip "Terbitkan atau musnah" yang sangat terkenal. Artikel di Wikipedia bahasa Inggris menjelaskan masalah dengan baik. Tidak ada artikel di Wikipedia bahasa Rusia mengenai hal ini, meskipun di tempat-tempat dengan bayaran tinggi untuk karya ilmiah, masalahnya menjadi relevan. Misalnya, di satu universitas top dengan gaji yang bagus (sayangnya, saya tidak berbicara tentang Universitas Negeri Moskow saya yang asli), skor publikasi yang tinggi sangat penting untuk sertifikasi ulang, dan jika Anda ingin terus bekerja, silakan terbitkan. Sebuah bangkai, orang-orangan sawah, apa pun, tetapi begitu poinnya.

Juga perhatikan bahwa "Metode, kode tidak tersedia" adalah umum di 45% kasus, dan kadang-kadang di 82%. Ya, penipuan langsung sebagai alasannya ditunjukkan dalam 40% kasus, yaitu cukup sering. Baru-baru ini saya berbicara dengan seorang profesor China yang bekerja di bidang algoritma kompresi video. Dia mengatakan bahwa di dalam China ada banyak artikel dengan penipuan yang disengaja, mereka hanya menjadi momok. Publikasi asing dengan penipuan dengan cepat diberhentikan di sana, sehingga mereka berusaha mematuhinya, tetapi mimpi buruk tercipta di dalam (lihat, misalnya, artikel "Terbitkan atau binasa di Tiongkok" di Nature). Mimpi buruk, termasuk untuk alasan berikut dalam daftar “Ulasan sejawat yang tidak memadai” - tidak ada kekuatan yang cukup untuk tinjauan silang berkualitas tinggi.

Masalah besar yang terpisah, yang hanya akan saya sebutkan secara singkat: jika hasilnya tidak dapat direproduksi, maka artikel tentang ini hampir mustahil untuk dipublikasikan ...



Setiap orang tertarik pada pencapaian baru, kontribusi baru, dan gagasan baru, dan apa yang lama tidak berhasil - apa bedanya. Ini secara alami meningkatkan pangsa hasil yang tidak dapat direproduksi, termasuk penipuan yang disengaja. Kemungkinan besar, tidak ada yang akan mengerti, itu tidak diterima. Jelas bahwa ketika orang lain mulai didasarkan pada satu hasil palsu, seluruh sistem menjadi tidak stabil, yang akhirnya mempengaruhi semua orang:


Taruhan Anda - punya waktu untuk mengelak atau menghancurkannya?

Total:
  • Menurut sebuah survei terhadap 1.576 peneliti yang dipublikasikan di Nature, 52% percaya bahwa sekarang ada krisis reproduksibilitas yang signifikan , dan 90% setuju bahwa ada krisis semacam itu.
  • Apalagi situasi saat ini masih mekar dan segera semuanya akan menjadi lebih buruk, terutama dalam Ilmu Komputer. Mengapa Cari tahu sekarang.

Reproduksibilitas dalam Ilmu Komputer


Di Arizona State University (yang, omong-omong, 2 kali lebih besar dari Moscow State University dalam hal jumlah siswa), sebuah situs khusus http://repeatability.cs.arizona.edu/ dibuat di departemen programer yang didedikasikan untuk studi reproduktifitas hasil mereka dalam 601 artikel dari jurnal dan konferensi ACM . Hasilnya adalah gambar berikut:



Sumber: Pengulangan dalam Ilmu Komputer

Mereka tidak memeriksa 106 artikel karena mereka tidak ingin melanggar kemurnian percobaan (mereka menulis kepada penulis dan meminta kode), sisanya:

  • dalam 93 artikel (19%) tidak ada kode, atau ada perangkat keras yang tidak dapat dibandingkan,
  • dalam 176 artikel (35%), penulis tidak memberikan kode,
  • dalam 226 artikel (46%) kodenya adalah, dalam 9 (2%) tidak mungkin untuk mengumpulkan, dan dalam 87 (64 + 23) artikel (18%) butuh lebih dari setengah jam untuk menyelesaikan masalah perakitan proyek (dalam 23 kasus masalah dieliminasi gagal, tetapi penulis meyakinkan bahwa "melakukan lebih banyak upaya" semuanya akan dikumpulkan).

Saya harus mengatakan bahwa dalam pengalaman kami setelah kebaktian, yang paling menarik baru saja dimulai, tetapi dalam penelitian mereka memutuskan untuk berhenti pada tahap ini, dan dengan begitu banyak dari mereka yang dapat Anda pahami. Bagaimanapun, statistik sangat terbuka, dan 35% penolakan untuk memberikan kode cukup dekat dengan garis "Metode, kode tidak tersedia" dari studi sebelumnya (grafik ketiga).

Secara umum, topiknya digali dengan cukup baik. Secara khusus, "Standar Emas" adalah ketersediaan kode dan data yang mudah untuk mengulangi hasilnya, dan pendekatan terburuk adalah penyerahan hanya artikel:


Sumber: Konseptualisasi, Pengukuran, dan Mempelajari Reproducibilitas

Mengapa ini terjadi?

Ada beberapa alasan, seperti fenomena rumit apa pun:

  • Di Barat, "Terbitkan atau binasa" yang disebutkan itu sangat berpengaruh. Di seminar dan lokakarya, mahasiswa pascasarjana hijau muda dibimbing sepenuhnya dengan serius dan tegas - “Sebuah ide telah datang, pertama-tama terbitkan! Dan baru kemudian periksa! ”(Siapa bilang kebiadaban? Kenyataan pahit, tuan-tuan!) Prioritas dalam sains sangat penting (termasuk untuk kutipan terkenal), oleh karena itu, ketika beberapa ide menarik masuk, diterbitkan pertama kali (terkadang dengan data palsu) , terkadang tidak) dan baru kemudian mereka mulai memprogram sesuatu untuk waktu yang lama dengan menyakitkan, sering kali menarik burung hantu ke dunia. Artikel yang dikutip sebagai contoh pertama di awal teks ini tampaknya hanya salah satu dari itu (jaringan saraf halusinogen ... Saya ingin tahu apa yang mereka merokok? Tapi itu mengenai CVPR!). Hasilnya adalah hewan berbulu putih kelebihan berat badan, karena situasinya terus memburuk:


  • Secara konvensional, negara memberikan separuh dari uang penelitian (di suatu tempat lebih banyak, di suatu tempat kurang). Dan uang pemerintah memprovokasi kegilaan publikasi (saat diterbitkan, hanya untuk diterbitkan). Setengah dari uang itu berasal dari perusahaan, dan perusahaan jelas berbicara tentang pembatasan publikasi. Satu perusahaan Korea yang populer, yang menawarkan para ilmuwan Rusia untuk bekerja, menurut ungkapan yang tepat dari seorang kolega, "untuk manik-manik" secara khusus dikenal karena kondisi Negro untuk institut dan universitas. Ya, sekarang mereka bahkan mematahkan pasar di bidang jaringan saraf dalam perlombaan gaji, tetapi secara umum, hal pertama yang menawarkan kontrak mengerikan adalah identitas perusahaan dari perusahaan-perusahaan Asia tersebut. Dan ketika sebuah artikel yang ditulis dengan baik tidak diizinkan untuk diterbitkan, dan kemudian artikel lain, dan banyak lagi - tentu saja hal itu sangat menurunkan motivasi. Ini, bahkan setelah beberapa tahun, tidak dilupakan.

Akibatnya, hasilnya berlaku untuk hak paten dengan minimal artikel. Sangat menarik bahwa saya berbicara dengan rekan-rekan dari Finlandia, Amerika Serikat, Prancis, dll. Di sana, banyak orang duduk dengan erat pada hibah, tetapi mereka yang memiliki banyak perusahaan juga menerbitkan jauh dari semua hasil, dan jika mereka menerbitkan, mereka entah bagaimana mengurangi (berbicara secara budaya) deskripsi pendekatan, secara alami mempersulit reproduksi. Untuk ini sudah dibayar.

Total:

  • Bahkan setelah permintaan yang mendesak, kode tersebut dikirim dalam maksimal 46% kasus (omong-omong, baca penelitian , ada contoh menarik "alasan", menurut pengalaman kami persisnya ini pada dasarnya dikirim).
  • Sistem pembiayaan sains itu sendiri memotivasi publikasi hasil yang tidak terverifikasi secepat mungkin, atau membatasi publikasi, termasuk dalam hal pengungkapan penuh. Dalam kedua kasus, reproduktifitas menurun.

Mengapa pembelajaran mesin memperburuk keadaan


Tapi itu belum semuanya! Baru-baru ini, pembelajaran mesin di jaringan umum dan saraf khususnya telah menyebar dengan cepat. Ini luar biasa. Ini bekerja dengan sangat baik. Kemarin yang sepenuhnya mustahil menjadi mungkin hari ini! Hanya semacam liburan! Jadi?

Tidak. Jaringan saraf telah menambahkan Ilmu Komputer babak baru perendaman di jurang ketidakberhasilan.

Berikut adalah contoh sederhana: sepertinya fungsi kerugian untuk ResNet-56 tanpa koneksi lewati (visualisasi beberapa parameter dari beberapa puluh juta). Tugas kita untuk sejumlah iterasi (era) yang masuk akal adalah menemukan titik terdalam:


Sumber: Memvisualisasikan Lanskap Hilangnya Jaring Saraf

Anda dapat dengan jelas melihat lautan minimum lokal, di mana gradient descent kami “jatuh” dan “tidak bisa” keluar dari sana. Ya, jelas bagi ResNet bahwa contoh ini digunakan sebagai ilustrasi yang sangat bagus, yang disediakan oleh koneksi skip (setelah pengenalan pembelajaran jaringan mana yang secara dramatis ditingkatkan):



Karena itu adalah satu hal untuk mencoba menemukan minimum dalam lanskap yang kompleks (dan hanya dimensi keseluruhan ruang pencarian yang membantu), dan merupakan hal lain untuk melihat minimum global yang relatif relatif mudah ditemukan dengan gradien.

Ceritanya indah, tetapi dalam kenyataan pahit kita dengan sejumlah besar lapisan lagi dan lagi kita harus menghadapi kenyataan bahwa jaringan tidak belajar. Umumnya.

Dan bahkan lebih menarik - pada titik tertentu adalah mungkin untuk melatihnya (kesalahannya menurun tajam), tetapi setelah beberapa waktu, ketika mencoba mereproduksi hasil dari awal (misalnya, ketika koefisien ini hilang), tidak mungkin untuk mengulang fokus, dan ada perjalanan yang menyakitkan dari jaringan di kejauhan dari minimum. Ratusan era saling menggantikan, dan kereta tetap di tempatnya. Bunga Batu tidak keluar dari Danila sang master.

Agak sulit untuk membayangkan situasi di mana seorang peneliti tidak dapat mereproduksi hasil sendiri dalam Ilmu Komputer. Hari ini telah menjadi hal yang biasa, seperti yang telah lama terjadi di bidang fisika, kimia, biologi dan selanjutnya dalam daftar. Dengan jaringan saraf, Ilmu Komputer tiba-tiba menjadi ilmu eksperimental! Selamat datang di dunia yang indah ini. Sekarang Anda akan semakin dihadapkan dengan ketidakmampuan untuk mereproduksi hasil Anda sendiri (seperti 64% ahli kimia, 60% ahli biologi, lihat grafik kedua artikel ini).

Tapi ini tidak semua sukacita. Lebih banyak akan lebih menyenangkan!

Secara umum, untuk beberapa waktu saya cukup skeptis tentang jaringan saraf, karena algoritma yang didasarkan pada mereka tidak bekerja. Yah ... Entah bagaimana mereka bekerja, tentu saja, tetapi kehilangan sampel besar untuk algoritma "klasik" state-of-the-art (yang tidak menghentikan mereka dari dipublikasikan secara massal). Ini terjadi karena jaringan saraf sangat nyaman untuk semua jenis penipuan. Yang utama adalah memilih sampel pelatihan dengan benar untuk contoh dan Anda secara alami dapat menunjukkan keajaiban. Ternyata gambar yang indah (dan kadang-kadang gambar yang indah), dan artikel berjalan dengan baik. Anda bahkan dapat mengeluarkan kode (tampaknya menjadi mode), ini tidak mengubah esensinya. Itu tidak bekerja. Tetapi ketika ayam merah besar dengan paruh tajam besar tampak di belakang ... artikel itu adalah ara-ara dan pergi untuk mencetak.



Masalah utama yang terpisah adalah area di mana tidak ada sampel pelatihan besar. Kolega dari dunia kedokteran mengeluh - mimpi buruk lengkap terjadi. Mereka telah mengumpulkan set data selama bertahun-tahun. Dan bahkan ada puluhan ribu contoh. Tetapi mahasiswa pascasarjana dengan jaringan saraf yang dalam datang. Figak-figak dan menyusul semua orang ... Tampan! Raksasa sains! Dan dengan wajah ceria yang ceria melaporkan hasilnya. Mereka ditanya:
- Apa yang Anda lakukan untuk mencegah overfitting?
- Kenapa, maaf?
- Kenapa kamu tidak melakukan pelatihan ulang?

Dan seorang pria benar-benar dengan serius mengatakan bagaimana dia mengambil jaringan yang benar dan melatihnya dengan ketat sesuai dengan manual pelatihan, dan karenanya semuanya baik-baik saja dengannya. Yaitu orang muda (secara besar-besaran!) tidak mengerti apa itu pelatihan ulang! Bukan satu, bukan dua, tetapi hanya sebagian yang terlihat dari laporan pascasarjana. Ini dia, gelombang baru revolusioner jaringan saraf muda. Kami ingat Profesor Preobrazhensky , kami banyak mengeluh tentang buta huruf tradisional untuk kaum revolusioner muda. Kami menarik kesimpulan.

Tapi tidak apa-apa. Pada ITIS 2019 baru-baru ini , Mikhail Belyaev memberikan contoh yang bagus tentang bagaimana pendekatan ini cukup baik untuk produksi medis! Dalam perusahaan nyata yang menawarkan analisis menggunakan jaringan saraf, mereka lulus tes kontrol dan menerima hasil yang tidak terduga. Alasannya adalah bahwa investor juga merasakan revolusi, dan jika seseorang menjanjikan cakrawala baru berdasarkan jaringan saraf, maka mereka memberinya uang (Wawasan Anatoly Levenchuk memperingatkan tentang ini sejauh tahun 2015, setengah tahun setelah penemuan patokan , dan setengah tahun sebelum ResNet, ketika banyak lapisan masih kurang terlatih). Dan membayar Anda untuk itu, Tuan-tuan! Dan, ya, akan lebih baik untuk bereksperimen dengan tikus terlebih dahulu, tetapi tikus, seperti yang dikatakan orang yang sinis, tidak memiliki dompet! Oleh karena itu, data untuk pelatihan sekarang sedang dikumpulkan (diungkapkan secara budaya) dengan uang konsumen, mis. atas uangmu. Teman-teman, waspada!

Jelas bahwa bukan jaringan saraf yang harus disalahkan. Pertanyaan besar adalah bagaimana cara mendapatkan data yang berdekatan dalam jumlah yang cukup, sesuai dengan sampel kecil, menghindari lupa bencana, dan itu saja. Tetapi, bahkan jika Anda memiliki peneliti yang kompeten, itu akan membutuhkan waktu. Dan investor menginginkan hasilnya di sini dan kemarin . Jadi, bersukacita pada gelombang kesuksesan jaringan saraf?
Kami mendapatkan busa besar dari gelombang besar, ketika metode yang tidak aktif sebenarnya menyeret ombak besar untuk penggunaan nyata. Tolong bayar tagihannya!

Total: Jaringan saraf memperburuk situasi dalam Ilmu Komputer di tiga bidang:

  • Dengan pelatihan jaringan saraf, CS dari yang pertama menjadi ilmu eksperimental dengan semua kelemahan berikutnya.
  • Menyesuaikan sampel pelatihan dengan tes memungkinkan Anda untuk mendemonstrasikan hasil yang luar biasa sembarangan (memperburuk alasan utama tidak dapat direproduksinya - pelaporan selektif).
  • Dan, akhirnya, di daerah di mana sampel pelatihan kecil, sangat sulit untuk menghindari pelatihan ulang, yang banyak yang tidak tahu cara menangkap dan bekerja dengan (secara formal, hasilnya sangat baik pada dataset, tetapi pada kenyataannya algoritma tidak bekerja).

Apa yang bisa dilakukan?


Jika Anda (orang yang bahagia!) Bekerja di area yang digali dengan baik, sering kali semua pekerjaannya adalah menyiapkan set data dan memberi mereka ke jaringan. Kecuali layak menonton arsitektur. Dalam hal ini, tidak masuk akal untuk menonton artikel tanpa kode. Dan ini hari libur nyata! Rasakan kebahagiaan Anda, tidak semua orang begitu beruntung!

Bahkan ada situs seperti PapersWithCode.com , yang di bidang pembelajaran mesin dengan sengaja mengumpulkan artikel, secara otomatis mem-parsing peringkat repositori mereka dari GitHub, mendaftar semuanya berdasarkan kategori dan menambahkan tolok ukur dan dataset. Secara umum - semuanya untuk orang! Ngomong-ngomong, menurut perhitungan mereka, kode sekarang hanya tersedia untuk 17-19% dari artikel:


Sumber: Persentase makalah yang diterbitkan yang memiliki setidaknya satu implementasi kode

Tetapi mereka, jika kita terganggu sejenak (dan masih mengiklankan orang-orang ini), ada jadwal yang sangat menarik untuk mengubah popularitas kerangka kerja ML / DL selama 4 tahun terakhir:


Sumber: Implementasi Kertas dikelompokkan berdasarkan kerangka kerja

Obor di atas kuda, TF (siapa sangka baru-baru ini!) Kehilangan landasan. Namun, ini adalah cerita yang berbeda ...

Dari pengalaman, jelas bahwa 17-20% artikel dengan kode ini juga (karena alasan yang dijelaskan) tidak semuanya ajaib, tetapi setidaknya Anda dapat memeriksa pekerjaan mereka dengan urutan yang lebih cepat. Dan ini luar biasa.

Resep lain yang benar-benar berfungsi adalah pembuatan dataset dan tolok ukur yang cukup besar. Munculnya jaringan saraf mulai sia-sia dengan ImageNet dengan 14 juta gambar, dibagi menjadi 20.000 kelas. Ya, itu sulit, tetapi dengan pembelajaran yang mendalam Anda hanya dapat bekerja dengan perangkat yang sangat besar. Bahkan jika ciptaan mereka menyakitkan dan sulit.

Sebagai contoh, beberapa waktu lalu kami membuat tolok ukur untuk menyorot objek yang tembus cahaya dalam video (wol, rambut, kain, asap, dan kesenangan hidup yang tidak sepele). Awalnya, itu direncanakan untuk tetap di dalam ketika itu dibuat dalam 3 bulan. Servo drive ditemukan, layar, kamera yang bagus , pita listrik biru dibeli , satu juta mainan lunak dibeli dari semua teman gadis-gadis itu, ditemukan manekin dengan rambut asli di mana penata rambut melatih penataan rambut. Dan ...


Sumber: bahan-bahan penulis ... Pita listrik biru, seperti dapat dilihat dengan jelas, memainkan peran pendukung utama

Segalanya (tidak, tidak begitu ... SEMUANYA!) Salah. , ( ), ( ), ( , ). .. .. ( ), , . , ! , - , , .

— . , . , , , (. , 25 Kaggle).

Total:

  • — .
  • , , .
  • — , . ( ), .


, , , … . , , , .

, , . Replication crisis ( , , ) , — , :


: The Reproducibility Crisis in Psychological Science: One Year Later , , , , , … , Computer Science ...

! 20 , Computer Science , ( ), - . — , .


Dan yang terakhir. , . , . !

!

Baca juga:



The replication crisis Science for Sale: The Other Problem With Corporate Money .

, :

  • Laboratorium Grafik Komputer dan Multimedia VMK Moscow State University .. ,
  • , , , , ,
  • secara pribadi Konstantin Kozhemyakov dan Dmitry Konovalchuk, yang melakukan banyak hal untuk membuat artikel ini lebih baik dan lebih visual,
  • , , , , , , , , , , !

Source: https://habr.com/ru/post/id480348/


All Articles