
Hari ini kami meluncurkan hadiah ilmiah dengan nama Ilya Segalovich
iseg . Dia akan diberikan penghargaan untuk kemajuan dalam ilmu komputer. Siswa dan mahasiswa pascasarjana
dapat mengajukan aplikasi mereka sendiri untuk hadiah atau pengawas yang ditunjuk. Para pemenang akan dipilih oleh perwakilan dari komunitas akademik dan Yandex. Kriteria seleksi utama adalah: ketersediaan publikasi dan pidato di konferensi, serta kontribusi untuk pengembangan masyarakat.
Penghargaan pertama akan berlangsung pada bulan April. Sebagai bagian dari penghargaan, para ilmuwan muda akan menerima 350 ribu rubel masing-masing, dan di samping itu, mereka akan dapat pergi ke konferensi internasional, bekerja dengan seorang mentor dan mendapatkan magang di Departemen Penelitian Yandex. Penasihat ilmiah masing-masing akan menerima 700 ribu rubel.
Pada kesempatan peluncuran penghargaan, kami memutuskan untuk memberi tahu Habré tentang kriteria keberhasilan di dunia ilmu komputer. Beberapa pembaca Habr sudah terbiasa dengan kriteria ini, sementara sisanya dapat memiliki kesan yang salah tentang mereka. Hari ini kami akan menjembatani kesenjangan ini - kami akan menyentuh semua topik utama, termasuk artikel, konferensi, kumpulan data, dan transfer ide ilmiah ke layanan.
Bagi para ilmuwan di bidang ilmu komputer, kriteria utama untuk sukses adalah publikasi karya ilmiah mereka di salah satu konferensi internasional teratas. Ini adalah pengakuan "pos pemeriksaan" pertama dari karya peneliti. Misalnya, di bidang pembelajaran mesin, Konferensi Internasional tentang Pembelajaran Mesin (ICML) dan Konferensi Sistem Pemrosesan Informasi Saraf (NeurIPS, sebelumnya NIPS) umumnya dibedakan. Ada banyak konferensi di bidang ML tertentu, seperti visi komputer, pencarian informasi, teknologi bicara, terjemahan mesin, dll.
Mengapa memposting ide Anda
Orang yang jauh dari ilmu komputer mungkin memiliki kesalahpahaman bahwa lebih baik merahasiakan ide-ide paling berharga dan berusaha untuk memanfaatkan keunikannya. Namun, situasi nyata di bidang kita justru sebaliknya. Otoritas seorang ilmuwan dinilai oleh signifikansi karyanya, oleh seberapa sering ulama lain mengutip artikelnya (indeks kutipan). Ini adalah karakteristik penting dari karirnya. Peneliti bergerak menaiki tangga profesional, menjadi lebih dihormati di lingkungannya, hanya jika ia terus-menerus membagikan karya-karya kuat yang diterbitkan, menjadi terkenal dan membentuk dasar dari karya ilmuwan lain.
Banyak artikel top (dan mungkin sebagian besar) adalah hasil kolaborasi peneliti di berbagai universitas dan perusahaan di berbagai negara di dunia. Yang penting dan sangat berharga dalam karier seorang peneliti adalah saat ketika dia mendapat kesempatan untuk menemukan dan menyaring ide berdasarkan pengalamannya sendiri - tetapi bahkan setelah ini, rekan-rekannya terus memberikannya bantuan yang tak ternilai. Para ilmuwan saling membantu untuk menyusun ide, menulis artikel dalam kolaborasi - dan semakin banyak kontribusi ilmuwan pada sains, semakin mudah baginya untuk menemukan orang yang berpikiran sama.
Akhirnya, kepadatan dan aksesibilitas informasi sekarang begitu besar sehingga para peneliti yang berbeda pada saat yang sama memiliki ide ilmiah yang sangat mirip (dan sangat berharga). Jika Anda tidak mempublikasikan gagasan itu, seseorang pasti akan mempublikasikannya untuk Anda. "Pemenang" seringkali bukan orang yang datang dengan inovasi sedikit lebih awal, tetapi orang yang menerbitkannya sedikit lebih awal. Atau - orang yang berhasil mengungkapkan gagasan selengkap mungkin, dengan jelas dan meyakinkan.

Artikel dan Kumpulan Data
Jadi, artikel ilmiah dibuat berdasarkan gagasan utama yang ditawarkan peneliti. Gagasan ini adalah kontribusinya terhadap ilmu komputer. Artikel dimulai dengan deskripsi ide yang dirumuskan dalam beberapa kalimat. Ini diikuti oleh pengantar, yang menggambarkan berbagai masalah yang dipecahkan oleh inovasi yang diusulkan. Deskripsi dan pengantar biasanya ditulis dalam bahasa sederhana yang dapat dimengerti oleh khalayak luas. Setelah pendahuluan, perlu memformalkan masalah yang dinyatakan dalam bahasa matematika dan memperkenalkan notasi yang ketat. Kemudian, dengan menggunakan notasi yang diperkenalkan, perlu untuk menyusun pernyataan yang jelas dan komprehensif tentang esensi dari inovasi yang diusulkan, untuk mengidentifikasi perbedaan dari metode sebelumnya yang serupa. Semua perhitungan teoretis harus didukung oleh tautan ke bukti yang dikompilasi sebelumnya, atau dibuktikan secara independen. Ini bisa dilakukan dengan asumsi apa pun. Sebagai contoh, Anda dapat memberikan bukti untuk kasus ketika ada jumlah data yang tak terbatas dalam pelatihan (situasi yang jelas tidak dapat dicapai) atau mereka benar-benar independen satu sama lain. Menjelang akhir artikel, ilmuwan berbicara tentang hasil eksperimen yang berhasil diperolehnya.

Bagi pengulas yang tertarik pada penyelenggara konferensi untuk lebih cenderung menyetujui suatu artikel, artikel tersebut harus memiliki satu atau lebih atribut. Faktor kunci yang meningkatkan kemungkinan persetujuan adalah kebaruan ilmiah dari ide yang diusulkan. Seringkali, kebaruan dievaluasi terhadap ide-ide yang sudah ada - dan pekerjaan penilaiannya dilakukan bukan oleh reviewer, tetapi oleh penulis artikel. Dalam kasus yang ideal, penulis harus secara luas memberi tahu artikel tentang metode yang ada dan, jika mungkin, menyajikannya sebagai kasus khusus metodenya. Dengan demikian, ilmuwan menunjukkan bahwa pendekatan yang diterima tidak selalu berhasil, bahwa ia menggeneralisasikannya dan mengusulkan formulasi teoretis yang lebih luas, dan karenanya lebih efektif. Jika hal-hal baru tidak dapat dipungkiri, maka para pengulas lainnya mengevaluasi artikel tersebut dengan tidak begitu teliti - misalnya, mereka dapat menutup mata terhadap bahasa Inggris yang buruk.
Untuk memperkuat kebaruan, penting untuk menambahkan artikel perbandingan dengan metode yang ada pada satu atau lebih set data. Masing-masing dari mereka harus terbuka, diterima di lingkungan akademik. Sebagai contoh, ada repositori gambar ImageNet dan basis data institusi seperti Institut Standar dan Teknologi Nasional (MNIST) yang Dimodifikasi dan CIFAR (Institut Kanada untuk Penelitian Lanjutan). Kesulitannya adalah bahwa set data “akademik” seperti itu seringkali berbeda dalam struktur konten dari data nyata yang dihadapi industri. Data berbeda - beda hasil dari metode yang diusulkan. Ilmuwan yang sebagian bekerja untuk industri mencoba untuk memperhitungkan ini dan kadang-kadang memasukkan reservasi seperti "pada data kami hasilnya adalah ini dan itu, dan pada dataset publik - ini dan itu".
Kebetulan metode yang diusulkan sepenuhnya "dipertajam" di bawah database terbuka dan tidak bekerja pada data nyata. Anda dapat mengatasi masalah umum ini dengan membuka kumpulan data baru yang lebih representatif, tetapi seringkali kita berbicara tentang konten pribadi yang perusahaan tidak punya hak untuk membuka. Dalam beberapa kasus, mereka melakukan anonimisasi data (terkadang rumit dan melelahkan) - mereka menghilangkan fragmen yang menunjukkan orang tertentu. Misalnya, wajah dan angka dalam foto dicuci atau dibuat tidak terbaca. Selain itu, agar dataset tidak hanya dapat diakses oleh semua orang, tetapi menjadi standar di antara para ilmuwan, yang nyaman untuk membandingkan ide, perlu tidak hanya untuk mempublikasikannya, tetapi juga menulis artikel terpisah tentang hal itu dan keuntungannya.
Lebih buruk ketika tidak ada dataset terbuka dalam topik yang diteliti. Kemudian peninjau dibiarkan menerima hasil yang dikutip oleh penulis berdasarkan keyakinan. Secara teoritis, penulis bahkan mungkin melebih-lebihkan mereka dan tetap tidak tertangkap, tetapi dalam lingkungan akademik ini tidak mungkin, karena bertentangan dengan keinginan sebagian besar ilmuwan untuk mengembangkan ilmu pengetahuan.
Di sejumlah area ML, termasuk visi komputer, juga lazim untuk melampirkan tautan kode ke artikel (biasanya di GitHub). Dalam artikel itu sendiri, kodenya sangat kecil, atau pseudocode. Dan di sini, sekali lagi, kesulitan muncul jika artikel tersebut ditulis oleh seorang peneliti dari sebuah perusahaan, dan bukan dari universitas. Secara default, kode yang ditulis di perusahaan atau startup ditandai NDA. Para peneliti dan kolega mereka harus melakukan banyak upaya untuk memisahkan kode yang terkait dengan ide yang dijelaskan dari repositori internal dan tentunya tertutup.
Peluang publikasi tergantung pada relevansi topik yang dipilih. Relevansi sebagian besar ditentukan oleh produk dan layanan: jika sebuah perusahaan atau startup tertarik untuk membangun layanan baru atau meningkatkan yang sudah ada berdasarkan ide dari sebuah artikel, ini merupakan nilai tambah.

Seperti yang telah disebutkan, artikel tentang ilmu komputer jarang ditulis sendiri. Tetapi sebagai aturan, salah satu penulis menghabiskan lebih banyak waktu dan upaya daripada yang lain. Kontribusinya terhadap kebaruan ilmiah adalah yang terbesar. Orang seperti itu ditunjukkan pertama kali dalam daftar penulis - dan di masa depan, merujuk pada sebuah artikel, mereka hanya dapat menyebutkannya (misalnya, "Ivanov et al" - "Ivanov dan lainnya" yang diterjemahkan dari bahasa Latin). Namun, kontribusi yang lain juga sangat berharga - jika tidak tidak mungkin ada dalam daftar penulis.
Proses peer review
Artikel biasanya berhenti menerima beberapa bulan sebelum konferensi. Setelah mengirimkan artikel, pengulas memiliki waktu 3-5 minggu untuk membaca, menilai, dan mengomentarinya. Ini terjadi menurut sistem blind tunggal, ketika penulis tidak melihat nama-nama pengulas, atau buta ganda, ketika pengulas sendiri tidak melihat nama-nama penulis. Opsi kedua dianggap lebih tidak memihak: beberapa makalah ilmiah telah menunjukkan bahwa popularitas penulis mempengaruhi keputusan pengulas. Sebagai contoh, ia dapat mempertimbangkan bahwa seorang ilmuwan dengan sejumlah besar artikel yang sudah dipublikasikan a priori layak mendapat peringkat yang lebih tinggi.
Selain itu, bahkan dalam kasus buta ganda, peninjau mungkin akan menebak penulis jika mereka bekerja di bidang yang sama. Selain itu, artikel pada saat tinjauan sudah dapat diterbitkan di arXiv - repositori karya ilmiah terbesar. Penyelenggara konferensi tidak melarang ini, tetapi mereka merekomendasikan penggunaan nama dan anotasi yang berbeda dalam publikasi untuk arXiv. Tetapi jika artikel itu diposting di sana, menemukan itu semua tidak akan sulit.
Selalu ada beberapa pengulas mengevaluasi sebuah artikel. Salah satunya ditugaskan peran meta-reviewer, yang seharusnya hanya meninjau vonis rekan-rekannya dan membuat keputusan akhir. Jika pengulas tidak setuju tentang artikel tersebut, meta-reviewer juga dapat membacanya untuk kelengkapannya.
Terkadang, setelah meninjau peringkat dan komentar, penulis mendapat kesempatan untuk berdiskusi dengan pengulas; bahkan ada kesempatan untuk meyakinkan dia untuk mengubah keputusan (namun, sistem seperti itu tidak bekerja untuk semua konferensi, dan itu jauh lebih kecil kemungkinannya untuk secara serius mempengaruhi putusan yang disampaikan). Dalam diskusi, seseorang tidak dapat merujuk ke karya ilmiah lainnya, kecuali yang sudah disebutkan dalam artikel. Anda hanya dapat "membantu" pengulas untuk lebih memahami konten artikel.

Konferensi dan Majalah
Artikel dalam ilmu komputer lebih sering dikirim secara khusus ke konferensi daripada jurnal ilmiah. Alasannya adalah bahwa persyaratan untuk publikasi dalam jurnal lebih sulit untuk dipatuhi, dan proses peninjauan dapat memakan waktu berbulan-bulan atau bahkan bertahun-tahun. Ilmu komputer adalah industri yang sangat cepat berkembang, jadi penulis biasanya tidak siap untuk menunggu publikasi begitu lama. Namun, artikel yang sudah diterima di konferensi kemudian dapat ditambah (misalnya, untuk memberikan hasil yang lebih rinci) dan diterbitkan dalam jurnal di mana pembatasan volume tidak begitu ketat.
Acara Konferensi
Format kehadiran penulis artikel yang disetujui di konferensi ditentukan oleh pengulas. Jika artikel tersebut diberi lampu hijau, maka Anda paling sering dialokasikan dudukan untuk poster. Poster adalah slide statis dengan ringkasan artikel dan ilustrasi. Bagian dari ruang konferensi dipenuhi dengan deretan panjang berdiri untuk poster. Penulis menghabiskan sebagian besar waktunya di dekat posternya, berkomunikasi dengan para ilmuwan yang tertarik pada artikel tersebut.


Pilihan yang sedikit lebih bergengsi untuk partisipasi adalah laporan cepat (pembicaraan kilat). Jika pengulas menemukan artikel yang layak untuk laporan cepat, penulis diberikan waktu sekitar tiga menit untuk membahas khalayak luas. Di satu sisi, pembicaraan kilat adalah kesempatan yang baik untuk menceritakan tentang ide Anda tidak hanya kepada mereka yang, atas inisiatif mereka sendiri, menjadi tertarik pada poster. Di sisi lain, pengunjung inisiatif untuk poster lebih siap, lebih terbenam dalam topik spesifik Anda daripada audiens rata-rata di ruangan. Karenanya, dalam laporan singkat, Anda masih harus membuat orang mendapatkan informasi terkini.

Biasanya, di akhir pembicaraan kilat, penulis memanggil nomor poster - sehingga pendengar dapat menemukannya dan lebih memahami artikel.

Pilihan terakhir, yang paling bergengsi adalah poster plus presentasi ide yang lengkap ketika Anda tidak perlu lagi terburu-buru dalam cerita.

Tetapi tentu saja, para ilmuwan - termasuk penulis artikel yang disetujui - datang ke konferensi berikutnya tidak hanya untuk menunjukkan diri mereka sendiri. Pertama, untuk alasan yang jelas, mereka mencari poster yang termasuk dalam bidang mereka. Dan kedua, penting bagi mereka untuk mengisi kembali daftar kontak untuk tujuan kerja akademik bersama di masa depan. Ini bukan perburuan - atau setidaknya tahap pertama, setidaknya diikuti oleh pertukaran ide yang saling menguntungkan, praktik terbaik, dan kerja sama pada satu atau lebih artikel.
Pada saat yang sama, jaringan produktif di konferensi puncak sulit karena kurangnya waktu luang. Jika setelah seharian dihabiskan untuk laporan dan diskusi dengan poster, ilmuwan mempertahankan kekuatannya dan sudah mengatasi jetlag, maka ia pergi ke salah satu dari banyak pihak. Mereka puas dengan korporasi - sebagai akibatnya, partai sering kali lebih bersifat berburu. Namun, banyak tamu tidak menggunakannya sama sekali untuk mencari pekerjaan baru, tetapi, sekali lagi, untuk berjejaring. Tidak ada laporan dan poster di malam hari lagi - lebih mudah untuk "menangkap" spesialis yang Anda minati.

Dari ide hingga produksi
Ilmu komputer adalah salah satu dari sedikit industri di mana kepentingan perusahaan dan perusahaan pemula sangat terkait dengan lingkungan akademik. NIPS, ICML dan konferensi serupa lainnya dihadiri oleh banyak pakar dari industri, dan tidak hanya dari universitas. Ini khas untuk ilmu komputer, tetapi sebaliknya untuk sebagian besar ilmu lainnya.
Di sisi lain, jauh dari semua ide yang disajikan dalam artikel segera menuju penciptaan atau peningkatan layanan. Bahkan dalam satu perusahaan, seorang peneliti dapat menawarkan ide terobosan menurut standar ilmiah kepada rekan kerja dan ditolak penerapannya karena berbagai alasan. Salah satunya telah disebutkan di sini - ini adalah perbedaan antara set data "akademis", sesuai dengan mana artikel itu ditulis, dan dataset nyata. Selain itu, implementasi ide dapat ditunda, membutuhkan sejumlah besar sumber daya, atau hanya meningkatkan satu indikator dengan biaya yang memperburuk metrik yang tersisa.

Situasi diselamatkan oleh fakta bahwa banyak pengembang dan diri mereka sendiri seorang peneliti kecil. Mereka menghadiri konferensi, berbicara dalam bahasa yang sama dengan akademisi, menawarkan ide, kadang-kadang berpartisipasi dalam pembuatan artikel (misalnya, dalam menulis kode) atau bahkan bertindak sebagai penulis sendiri. Jika pengembang tenggelam dalam proses akademik, ikuti apa yang terjadi di departemen penelitian, dengan kata lain - jika ia menunjukkan gerakan berlawanan dengan ilmuwan, maka siklus mengubah gagasan ilmiah menjadi kemampuan layanan baru diperpendek.
Kami berharap semua peneliti muda semoga sukses dan pencapaian besar dalam pekerjaan mereka. Jika posting ini tidak memberi tahu Anda hal baru, maka Anda mungkin sudah menerbitkannya di konferensi puncak. Daftarkan diri Anda untuk
penghargaan ini dan tunjuk penasihat ilmiah.