Transformer dan Benci di Vancouver: Bagaimana Anti-Plagiarisme Mengendarai NeurIPS-2019

Pada akhir tahun lalu, kota Vancouver di Kanada menyelenggarakan konferensi NeurIPS-2019 . Pencarian di Habr memberikan tujuh referensi, di antaranya tidak ada satu laporan atau ulasan - kesenjangan yang aneh, mengingat tingkat dan skala acara pada 2019. Kami di Antiplagiarisme memutuskan untuk mengisi celah ini dengan sebuah cerita tentang kesan dua Nypsum neophytes di dunia ilmu data haute couture .




Malam itu, Domodedovo, check-in, dan kemudian dermaga yang sangat singkat di Frankfurt, di mana sudah jelas bahwa tidak akan ada kerumunan orang di konferensi. Orang-orang yang tergesa-gesa berkacamata dan kerudung korporat membanjiri zona transit, dan jalur pendaratan itu sendiri sudah tampak seperti konferensi Rusia yang baik (maaf, tidak ada). Selanjutnya, penerbangan sepuluh jam menunggu kami, yang berubah menjadi hackathon: di kabin di sana-sini layar hitam berkedip dengan terminal atau cangkang ide gelap. Di langit di atas Greenland, tampaknya, lebih banyak kode telah ditulis daripada sebelumnya di permukaannya.


Perbedaan waktu adalah 11 jam, jadi setelah tiba, kami segera menghadapi kenyataan brutal jetlag. Setelah berada tidak jauh dari venue (Vancouver Convention Center, yang terdiri dari dua bangunan dengan luas total 43.340 sq. M., yang, untuk kedua, memiliki hampir enam lapangan sepak bola) dan hampir tidak pernah menunggu, seperti yang diharapkan, pada malam hari, waktu setempat, kami tertidur.


Hari pertama, ketika kami dibayar penuh untuk kesabaran.


8 Desember, hari pertama konferensi. Panitia mencatat dalam surat yang dikirim sehari sebelumnya bahwa mereka harus mati, tetapi datang ke pendaftaran ketat pada hari pertama. Kami tiba pada jam 9 pagi yang disepakati dan segera menemukan sebuah garis yang dimulai di lantai pertama dan menuju lantai kedua, lipatan, ikal dan lipatan lagi, berputar di sudut. Itu membentang dan berbelok di tikungan lagi, di mana setelah beberapa jam menunggu (antrian untuk konser Anacondaz di Moskow, ngomong-ngomong, diselesaikan hanya dalam 1 jam) kita mendapatkan lencana yang didambakan dan mug dingin.



Datang lebih awal, kata mereka ... (semua orang yang memeriksa pada hari berikutnya melakukannya tanpa banyak usaha)


Melambaikan lencana di depan garis yang tumbuh aktif, kita pergi ke gedung berikutnya, tempat Expo Day direncanakan hari ini: stand dan seminar perusahaan sponsor besar. Ruang seminar kosong, para pembicara berusaha menarik perhatian seluruh hadirin, dan saat ini di aula dengan stan perusahaan ramai. Kopi dan manisan disajikan di sini, dan perusahaan-perusahaan terkemuka di industri ini (Facebook, IBM, Google, Apple, dll.) Dengan cerdik membicarakan diri mereka sendiri, mendaftarkan orang-orang di situs karier mereka dan dengan murah hati mendistribusikan topi, adaptor, kaus kaki, dan undangan kepada pihak perusahaan. Beberapa tampaknya sudah mewawancarai.



Tas merchant dari sponsor (tas itu sendiri juga merch)



Pemandangan gedung Pusat Timur dan teluk


Hari kedua, ketika semuanya tampak hilang.


Hari berikutnya, aksinya berkobar. Oleg_Bakhteev dan saya dengan gembira berlari untuk menyerap sains maju. Kami mendengarkan kinerja Kyunghyun Cho yang sangat baik tentang paradigma Pembelajaran Imitasi, menggabungkan keunggulan RL dan Pembelajaran yang Dibimbing klasik. Benar, semua sudah berakhir, untuk sisa hari itu, seminar-seminar yang sudah menjadi tradisional adalah Hitam dalam AI , Perempuan dalam Pembelajaran Mesin , LatinX dalam AI , Queer dalam AI, dan Baru dalam Pembelajaran Mesin. Seminar-seminar ini diselingi dengan satu dari tiga pertandingan yang dapat dipilih, di mana dari Pemrosesan Efisien Jaringan Neural Dalam yang diusulkan : dari Algoritma ke Arsitektur Perangkat Keras , Pembelajaran Mesin untuk Biologi Komputasi dan Kesehatan serta Perbandingan Distribusi dan Model yang dapat diartikan , kami memilih dipllerning yang efektif dan ... hilang. Kemacetan dan pengorbanan yang jelas telah muncul dalam mengejar efisiensi telah dijelaskan dengan inspirasi dan detail. Hari itu berakhir dengan serangkaian laporan Penguatan Pembelajaran: Masa Lalu, Sekarang, dan Masa Depan Perspektif, di mana di layar lebar hampir semua dua jam dilingkari, jatuh dan naik berbagai simulasi komputer pria kecil dari tongkat. Itu menyenangkan. Sedemikian rupa sehingga saya tidak ingin pergi ke presentasi filosofis oleh seorang psikolog dari Berkeley berjudul How to Know dengan pengumuman kemerahan.


Hari ketiga, ketika pikiran kita dipenuhi dengan harapan.


Ketika kami sudah putus asa untuk mendengar setidaknya beberapa berita terobosan pembelajaran mesin dari mulut para pembicara, orang-orang berpengetahuan menyarankan bahwa semuanya keren dan sekarang terjadi pada sesi poster. Bagus, dia baru mulai hari ini. Mari kita dengarkan highlightnya. Sorotan - ini adalah ketika semua orang mengumpulkan, duduk dan mendengarkan laporan lima menit dari penulis karya terbaik yang akan ada di sesi poster. Orang-orang mati-matian mencoba memotret presentasi dan sangat marah ketika presenter mengganti slide yang berharga. Tampaknya semua ini diperlukan agar tidak berkeliaran di antara tiga atau empat ratus poster tanpa tujuan, tetapi untuk menyoroti benar-benar menarik. Setelah satu jam highlight, kami berangkat untuk menonton poster dengan keyakinan bahwa akan ada banyak hal menarik. Sesi poster terletak di dua ruang pameran bersatu, di jalan yang garisnya membentang. Setelah masuk, kami menyebar untuk mencari topik terkait dan materi favorit dari highlight. Semuanya sangat baik, tetapi untuk berbicara dengan penulis, Anda harus antri atau, secara tidak sengaja menangkap bagian tengah cerita, tunggu permulaan. Kelelahan karena antrian terus-menerus dan upaya untuk melihat poster melalui gulungan kepala cukup cepat. Kekuatan hanya memberi snooping penuh semangat tanpa topi Schmidhuber . Hasilnya, kami berhasil menemukan dan mendengarkan dengan cermat sekitar sepuluh karya menarik. Tangkapan yang bagus dibandingkan hari-hari sebelumnya.


Hari keempat dan hari-hari berikutnya, ketika, akhirnya, itu dimulai.


Keesokan harinya, orang-orang berpengetahuan lagi memberi kami petunjuk yang berharga: tidak perlu dan bahkan dikontraindikasikan untuk pergi mendengarkan sorotan, karena Anda perlu berlari ke poster sementara mereka hanya menggantung - hampir tidak ada orang, dan penulis sudah bersedia menjawab pertanyaan. Jadi mereka melakukannya. Taktik ini berhasil - mereka banyak berbicara dengan rekan kerja dan secara produktif, menonton sejumlah besar karya menarik. Kami mengikuti rencana yang sama di masa depan, kadang-kadang mencoba untuk merasakan pidato para pembicara, tetapi selalu setuju bahwa kami tidak boleh mengambilnya untuk beristirahat dari pergi ke poster. Lokakarya tematik dalam dua hari terakhir konferensi juga senang dengan kekayaan dan relevansi informasi. Karya-karyanya, yang dipecah pada topik-topik sempit, ditempatkan di dinding audiens kecil, ada pidato dan diskusi yang hidup.



Lokakarya Intelijen Dokumen


Kami tiba di NeurIPS 2019 tidak hanya seperti itu, tetapi sebagai peserta dalam lokakarya Kecerdasan Dokumen, yang didedikasikan untuk pemrosesan intelektual dokumen. Sebagian besar tugas lokakarya terkait dengan pengenalan optik teks dan penindasan artefak dalam dokumen yang dipindai, alokasi entitas dari kwitansi penjualan atau kontrak. Oleg_Bakhteev dan saya mempresentasikan karya kami tentang pencarian pinjaman lintas-bahasa CrossLang: sistem pendeteksian plagiarisme lintas-bahasa , yang dapat dibaca secara populer di pusat Di sini kita tinggal lebih terinci, menyimpang dari kesan umum konferensi dan membuat sedikit artikel lokakarya. Hasil yang singkat dan jelas - tahun lalu telah menjadi BERT'a tahun untuk wilayah kami. Isi dari semua artikel lokakarya adalah (hampir) dalam satu baris di bawah ini:


  1. CrossLang: sistem deteksi plagiarisme lintas-bahasa. Artikel kami adalah tentang sistem untuk mendeteksi pinjaman yang dapat ditransfer. Masalah menemukan fragmen pinjam teks input dalam bahasa Rusia dalam koleksi dalam bahasa Inggris dipertimbangkan. Kami menggunakan sekelompok penerjemah + terlatih encoder-decoder semi-diawasi untuk membandingkan kalimat yang diterjemahkan. Sistem yang dihasilkan berhasil bekerja di prod, melayani sejumlah besar universitas.
  2. Repurposing Decoder-Transformer Language Model untuk Peringkasan Abstraktif. Masalah peringkasan abstraksi dipertimbangkan. Terlihat bahwa menggunakan decoder transformator pra-terlatih, Anda bisa mendapatkan hasil yang baik, dengan mempertimbangkan tugas sebagai pemodelan bahasa. Tanpa pencarian balok dan optimasi decoder lainnya, tetapi hanya decoding dengan rakus.
  3. Dari Stroke ke Finata Automata: Suatu Pendekatan Pengakuan Offline. Ada sistem elektronik untuk mengajar siswa Ilmu Komputer. Untuk mempelajari mesin negara hingga, dibuat sistem pengenalan diagram digambar tangan. Dataset untuk tugas disajikan.
  4. Penguraian pasca-OCR: membuat pengurai sederhana dan kuat melalui penandaan BIO. Membagi informasi dari cek menjadi kelompok. Setiap token diklasifikasikan ke dalam Start-Inside-Out (BIO) menggunakan embedded BERT. Kami membuat dataset kami sendiri untuk ini.
  5. BERTgrid: Penyertaan Kontekstual untuk Representasi dan Pemahaman Dokumen 2D. Saya ingin menggunakan gambar lengkap dari halaman dan teks. BERT untuk teks, CNN untuk gambar, kami mendapatkan representasi kontekstual dari elemen pada halaman untuk tugas-tugas berikutnya, seperti klasifikasi. Ini juga digunakan pada cek.
  6. Chargrid-OCR: Pengenalan Karakter Optik End-to-end Trainable melalui Segmentasi Semantik dan Deteksi Objek. Tugas OCR dianggap sebagai tugas segmentasi objek untuk objek yang sangat rapat. Tidak ada preprocessing khusus, piksel murni diberikan. Dibandingkan dengan Tesseract dan CNN-RNN.
  7. SVDocNet: Varian spasial U-Net untuk Deblurring Dokumen Blind. Jadikan pemindaian gambar jelas dengan U-Net.
  8. Ekstraksi Struktur Semantik untuk Tabel Spreadsheet dengan Arsitektur Pembelajaran Multi-tugas. Kerangka kerja multi-tugas untuk bekerja dengan tabel: baik semantik interior sel (BERT) dan tipe sel (CNN) diperhitungkan.
  9. Sistem Peningkatan Dokumen Menggunakan Auto-encoders. Membersihkan dokumen yang dipindai dari erosi, artefak, tanda air. Mereka mengambil arsitektur selesai dari Residual Encoder-Decoder Network. Dataset terdiri dari dokumen bising yang bersih dan relevan. Kesalahan rekonstruksi diminimalkan.
  10. CORD: Dataset Kwitansi Konsolidasi untuk Parsing Post-OCR. Kami membuat dataset dengan menandai pemeriksaan untuk zona dan nilainya.
  11. Tentang pengakuan Teks Sirilik. Kami membuat dataset untuk mengenali bahasa Cyrillic tulisan tangan.
  12. Representasi Pembelajaran dalam Geologi dan GilBERT. Cari istilah serupa dalam dokumen geologis menggunakan BERT.
  13. Ekstraksi Unsur Kontrak Neural Ditinjau Kembali. Ekstrak entitas dari kontrak: pihak, tanggal, uang, dll. Pertimbangkan tugas sebagai pelabelan urutan. Mencoba BiLSTM, dilatasi-cnn, transformator, BERT. BiLSTM bekerja paling baik dengan CRF di atasnya. Sebagai input digunakan w2v khusus domain.
  14. Doc2Dial: Kerangka Kerja untuk Komposisi Dialog yang Didasarkan pada Dokumen Bisnis. Agen dialog yang merespons permintaan pengguna berdasarkan berbagai dokumen.
  15. Transfer Domain untuk Memprediksi Niat dalam Teks. Artikel tentang situasi ketika ada dataset publik (email), tetapi kami ingin menggunakannya pada dataset tertutup (surat pengguna nyata). Mereka mungkin berasal dari distribusi yang berbeda dan memecah premis dasar ML. Berbagai teknik untuk mendeteksi perbedaan distribusi diperkenalkan.
  16. Menuju Penilai Kesamaan Saraf. Masalah penjumlahan dan metrik kualitasnya dipertimbangkan. Ada banyak masalah dengan BLEU dan ROUGE, jadi kami mengambil arsitektur RoBERTa dan menyelesaikannya di Sentence Similarity Task. Metrik kualitas - perbandingan representasi vektor yang dihasilkan.

Pada akhirnya, seperti yang diharapkan, kesimpulan. Selama dua atau tiga hari pertama, konferensi menghangat, jadi jika Anda memilih ilmu pengetahuan, Anda dapat melewati mereka dengan aman atau menonton Vancouver dan daerah sekitarnya, pulih dari jet lag. Jika Anda akan mendapatkan pekerjaan di industri atau akademi (dan mendapatkan merch), maka di Expo Anda memiliki kesempatan untuk menemukan pekerjaan di perusahaan besar (dan tidak demikian). Nah, semua bintang dari akademi, pemimpin laboratorium juga ada di konferensi, jadi ada kesempatan untuk bertemu dan mengobrol.


Jadi ternyata bagi kami NeurIPS 2019 :) Kami berharap artikel itu menarik dan bermanfaat bagi komunitas ML habrovoy.

Source: https://habr.com/ru/post/id485164/


All Articles