8 tren terbaik Konferensi Internasional tentang Representasi Pembelajaran (ICLR) 2019

Topik analisis data dan Ilmu Data berkembang pada tingkat yang mencengangkan dewasa ini. Untuk memahami relevansi metode dan pendekatan mereka, penting untuk tetap mengikuti pekerjaan kolega, dan pada konferensi inilah dimungkinkan untuk memperoleh informasi tentang tren modern. Sayangnya, tidak semua acara dapat dikunjungi, oleh karena itu artikel-artikel pada konferensi-konferensi sebelumnya menarik bagi para spesialis yang belum menemukan waktu dan kesempatan untuk kehadiran pribadi. Kami dengan senang hati menyajikan kepada Anda terjemahan dari artikel Chip Huyen pada konferensi ICLR 2019 tentang tren dan pendekatan mutakhir dalam bidang Ilmu Data.


Representasi Pembelajaran adalah seperangkat metode, teknik, dan pendekatan yang secara otomatis mendeteksi representasi yang diperlukan untuk mengidentifikasi fitur dari data mentah. Pengajuan pembelajaran menggantikan penemuan fitur secara manual dan memungkinkan Anda mempelajari sifat-sifat utama objek berdasarkan atributnya dan menggunakannya untuk memecahkan masalah tertentu.

Artikel ini memberikan pandangan subjektif pada sejumlah masalah industri. Namun, orang berharap bahwa tinjauan subjektif sekalipun akan menyediakan cukup makanan untuk dipikirkan oleh spesialis yang tertarik. Selanjutnya, kita akan membahas hal-hal berikut:

  • Metode artifisial untuk mengoreksi komposisi sosial-demografis dari konferensi membangkitkan berbagai perasaan di masyarakat: dari kemarahan yang agresif hingga ketidaktahuan yang pengecut. Memilih perilaku optimal dalam lingkungan seperti itu akan menjadi tugas yang menarik bagi seorang spesialis dalam teori permainan.
  • Bekerja di bidang Representasi, belajar dan mentransfer pembelajaran sedang meningkat popularitasnya dan membangkitkan minat aktif dari masyarakat.
  • Jaringan saraf rekursif terus kehilangan popularitas di kalangan peneliti, tetapi dalam praktiknya mereka tidak akan segera dibuang.
  • Area GAN terus berkembang pesat, meskipun tidak semua peneliti menyukai fakta ini. Potensi GAN hanya terungkap dan sejumlah karya menarik dalam arah ini dapat diharapkan dalam waktu dekat.
  • Pembelajaran yang diperkuat terus membangkitkan semangat para peneliti, tetap menjadi topik paling populer di konferensi. Spesialis semakin dekat dengan kemungkinan menerapkan metode RL untuk tugas nyata, yang sangat kurang untuk penganut di bidang ini.
  • Anehnya, baru-baru ini ada sedikit minat dalam penggunaan pembelajaran mesin secara biologis dan genetik. Peluang yang baik membuka peluang bagi para peneliti mencari topik untuk pertumbuhan lebih lanjut.
  • Artikel yang diterima secara umum dan artikel tentang metode retro masih berhasil sampai ke konferensi, namun, persaingan di antara mereka lebih tinggi dan para peneliti harus lebih berupaya untuk mendapatkan hasil yang menarik daripada di arah yang lebih modis dan populer. Pada saat itu, pikirkan fakta bahwa bahan-bahan untuk penerapan pembelajaran mesin klasik telah habis.

Ulasan terperinci tentang konferensi dari Chip Hyun dapat ditemukan di bawah.

1. Inklusi


Penyelenggara [ Konferensi Internasional tentang Representasi Pembelajaran 2019 - Red.] Menekankan pentingnya inklusivitas dalam bidang kecerdasan buatan. Dua pidato utama pertama - pidato pembukaan oleh Alexander Rush dan pembicara tamu Cynthia Dvork - dikhususkan untuk keadilan dan kesetaraan.

Beberapa statistik yang mengganggu dari ICLR 2019:

  • perempuan hanya 8,6% penutur dan 15% peserta,
  • 2/3 dari semua peneliti LGBTQ + tidak mengungkapkan orientasi mereka sendiri di tempat kerja,
  • semua 8 pembicara yang diundang adalah perwakilan dari ras Kaukasia.


Sayangnya [penulis wanita], sebagian besar peneliti kecerdasan buatan sama sekali tidak tertarik pada masalah kesetaraan. Jika seminar tentang topik lain ramai, maka bengkel AI untuk kebaikan sosial cukup kosong sampai Yoshua Benjio muncul . Selama banyak percakapan yang saya lakukan di ICLR, tidak ada yang menyebutkan "keragaman". Satu kasus adalah perkecualian: saya diundang ke acara teknis yang tidak cocok, yang membuat saya sangat terkejut, dan teman baik saya menjawab: "Jawaban yang sedikit menghina: Anda diundang karena Anda seorang wanita."

Alasan untuk keadaan yang diamati adalah bahwa topik keragaman tidak "teknis," dan karena itu tidak akan membantu dalam mempromosikan karir ilmiah. Alasan lain adalah bahwa ada penolakan terhadap propaganda sosial dan publik. Seorang teman saya pernah menasehati saya untuk tidak memperhatikan pria yang menjebak saya dalam obrolan grup, karena "dia suka mengolok-olok orang yang berbicara tentang kesetaraan dan keragaman." Saya punya teman yang tidak suka membahas keragaman di Internet karena mereka tidak ingin "dikaitkan dengan topik ini."

2. Representasi pembelajaran & transfer pembelajaran


Tujuan utama pembelajaran Representasi Tanpa Pengawasan adalah untuk mendeteksi sifat-sifat dalam data yang tidak terisi yang berguna untuk digunakan dalam tugas-tugas berikutnya. Di bidang Pemrosesan Bahasa Alami, pelatihan kinerja sering dilakukan melalui pemodelan bahasa. Representasi yang dihasilkan kemudian digunakan untuk tugas-tugas seperti analisis sentimen, pengenalan nama dan terjemahan mesin.

Beberapa presentasi non-guru tahun lalu yang paling menarik dimulai dengan ELMo (Peters et al.) , ULMFiT (Howard et al.) , GPT OpenAI (Radford et al.) , BERT. (Devlin et al.) Dan, tentu saja, GPT-2 yang sangat berbahaya (Radford et al.) .

GPT-2 lengkap diperlihatkan di ICLR, dan itu luar biasa. Anda dapat memasukkan sketsa sewenang-wenang dari awal teks, dan model akan menulis sisa artikel. Seorang model dapat menulis artikel berita, fiksi penggemar, artikel ilmiah, bahkan definisi kata-kata fiktif. Sejauh ini, hasilnya masih terlihat tidak manusiawi, tetapi tim bekerja keras pada GPT-3. Saya berharap dapat melihat kemampuan model baru.

Pendekatan pembelajaran transfer terutama diadopsi oleh komunitas spesialis visi komputer. Namun, pelatihan model klasifikasi gambar ImageNet masih berlangsung dalam mode pelatihan guru. Pertanyaan yang dapat terus-menerus didengar dari perwakilan kedua komunitas adalah: "Bagaimana kita menggunakan pelatihan presentasi non-guru dalam bekerja dengan gambar?"

Meskipun sebagian besar laboratorium penelitian terkenal sudah mengerjakan tugas ini, hanya satu artikel, "Memperbarui Aturan Meta-Pembelajaran untuk Mengajar Submisi Non-Guru" (Metz et al.) , Dipresentasikan di ICLR . Alih-alih memperbarui bobot, algoritma memperbarui aturan pembelajaran. Pandangan yang diperoleh dari aturan pembelajaran kemudian dibawa pada sampel kecil data yang ditandai dalam mode klasifikasi gambar. Peneliti dapat menemukan aturan pembelajaran yang memungkinkan mereka untuk mencapai akurasi lebih dari 70% pada MNIST dan Fashion MNIST.

Para penulis menemukan bagian dari kode , tetapi tidak semua, karena "itu terkait dengan komputasi." Siklus eksternal membutuhkan sekitar 100 ribu langkah pelatihan dan 200 jam pada 256 prosesor.


Saya merasa bahwa dalam waktu dekat kita akan melihat lebih banyak karya seperti itu. Dimungkinkan untuk menggunakan pengajaran tanpa guru dalam tugas-tugas seperti pengkodean otomatis, prediksi rotasi gambar ( dokumen Gidaris et al. Adalah hit di ICLR 2018), memperkirakan bingkai berikutnya dalam video, dll.

3. Retro ML


Gagasan dalam pembelajaran mesin seperti mode: mereka bersifat siklus. Menonton sesi poster sekarang seperti berjalan-jalan di museum bersejarah. Bahkan debat yang telah lama ditunggu-tunggu di ICLR berakhir dengan debat yang muncul pada pertanyaan "priors vs structure," yang membawa kembali diskusi Yann LeKun dan Christopher Manning tahun lalu dan menyerupai debat berabad-abad antara pendukung teori Bayesian dan mereka yang dari Freventy (frekuensi) pendekatan untuk kemungkinan.

Proyek “Grounded Language Learning and Understanding” di MIT Media Lab dihentikan pada tahun 2001, tetapi tahun ini Grounded Language Learning menyajikan dua karya yang dibungkus dengan sampul “reinforcement learning”.

  • DOM-Q-NET: Grounded RL pada Structured Language (Jia et al.) - Algoritma RL untuk menavigasi halaman web dengan mengklik tautan dan mengisi bidang, sedangkan tujuan navigasi dinyatakan dalam bahasa alami.
  • BabyAI: Platform untuk Mempelajari Contoh Efisiensi Pembelajaran Bahasa Beralas (Chevalier-Boisvert et al.) Adalah platform yang kompatibel dengan OpenAI Gym dengan agen bot buatan manusia yang meniru guru manusia yang membantu agen belajar bahasa sintetis.

Pikiran saya tentang dua artikel ini dirangkum dengan sempurna oleh AnonReviewer4:

“... metode yang diusulkan di sini sangat mirip dengan metode yang telah lama dipertimbangkan dalam literatur tentang penguraian semantik. Hanya karya ini yang mengutip artikel tentang RL yang mendalam. Saya pikir akan sangat berguna bagi penulis untuk membiasakan diri dengan literatur ini. Saya pikir komunitas analisis semantik juga akan mendapat manfaat dari ini ... Tetapi kedua komunitas ini, tampaknya, memiliki sedikit kontak satu sama lain, walaupun dalam beberapa kasus mereka bekerja pada masalah yang sangat mirip. "

DFA (Deterministic Finite Automata) juga menemukan tempat mereka di dunia pembelajaran mendalam tahun ini dalam dua artikel:

  • Mewakili Bahasa Formal: Perbandingan Antara Automata Hingga dan Jaringan Syaraf Berulang (Mikhalenko et al.),
  • Belajar Representasi Negara Hingga Jaringan Kebijakan Berulang (Koul et al.) .

Motivasi utama untuk kedua karya adalah sebagai berikut: sehubungan dengan ruang besar negara-negara tersembunyi di RNN, apakah mungkin untuk mengurangi jumlah negara menjadi yang terakhir? Saya ragu bahwa DFA akan dapat secara efektif mewakili RNN dalam masalah bahasa, tetapi saya menyukai gagasan mengajar RNN selama pelatihan dan kemudian mengubahnya menjadi DFA untuk kesimpulan logis, seperti yang disajikan dalam sebuah artikel oleh Koul et al. Representasi akhir akhir hanya membutuhkan tiga status memori diskrit dan 10 pengamatan untuk bermain pong. DFA juga membantu dalam menafsirkan RNN.


4. RNN kehilangan popularitas di kalangan peneliti


Ketika mempertimbangkan jadwal pertumbuhan artikel tentang berbagai topik pada 2019 dibandingkan 2018, menjadi jelas bahwa RNN ditandai dengan penurunan terbesar. Ini tidak mengherankan, karena meskipun penggunaan RNN adalah intuitif untuk tipe data serial, mereka menderita cacat serius: mereka tidak dapat diparalelkan. Akibatnya, tidak mungkin untuk mengambil keuntungan dari faktor terpenting yang merangsang kemajuan dalam penelitian sejak 2012: daya komputasi. RNN tidak pernah populer di CV atau RL, dan untuk NLP mereka digantikan oleh arsitektur berbasis Attention.


Apakah ini berarti RNN sudah mati? Bahkan tidak. Artikel "Memerintahkan neuron: Mengintegrasikan struktur pohon ke dalam Jaringan Syaraf Berulang" (Shen et al.). menerima salah satu penghargaan tertinggi tahun ini. Selain ini dan dua artikel tentang automata yang disebutkan di atas, sembilan makalah RNN lainnya ditinjau tahun ini, yang sebagian besar masuk lebih dalam ke dasar matematika daripada membuka kemungkinan baru.

RNN tetap penuh kehidupan dan merupakan pendorong dalam industri ini, terutama bagi perusahaan yang berurusan dengan rangkaian waktu seperti perusahaan dagang. Sayangnya, perusahaan dagang biasanya tidak mempublikasikan rincian pekerjaan mereka. Bahkan jika RNN tidak terlalu menarik bagi para peneliti saat ini, mereka dapat memperoleh kembali popularitas mereka di masa depan.

5. GAN masih di atas


Terlepas dari kenyataan bahwa tema GAN dalam skala relatif dibandingkan dengan tahun sebelumnya menunjukkan pertumbuhan negatif, dalam skala absolut jumlah karya meningkat dari ~ 70 menjadi ~ 100. Ian Goodfellow memberi ceramah tentang GAN dan terus-menerus dikelilingi oleh penggemar. Pada hari terakhir, ia harus menyerahkan lencananya sehingga orang tidak dapat melihat namanya.

Seluruh sesi poster pertama didedikasikan untuk GAN. Ada arsitektur GAN baru, perbaikan arsitektur GAN lama, analisis GAN, aplikasi GAN dari generasi gambar ke generasi teks dan sintesis audio. Ada PATE-GAN, GANSynth, ProbGAN, InstaGAN, RelGAN, MisGAN, SPIGAN, LayoutGAN, KnockoffGAN, dll. Dan saya tidak tahu apa artinya itu. Sayangnya, Andrew Brock menyebut model raksasanya BigGAN, bukan giGANtic :)


Sesi poster menunjukkan betapa biasnya masyarakat ketika datang ke GAN. Beberapa komentar yang saya dengar dari lawan GAN tampak seperti ini: "Saya tidak bisa menunggu semua gembar-gembor ini dengan GAN mereda," "Ketika seseorang menyebutkan istilah" permusuhan ", otak saya mati." Menurut pendapat saya, mereka hanya iri.

6. Kurangnya topik biologis dalam studi mendalam


Mengingat kegembiraan besar yang disebabkan oleh publik dengan menentukan urutan gen dalam DNA, serta penampilan anak-anak yang dimodifikasi menggunakan teknologi CRISPR, [mengejutkan] bagi saya bahwa tidak ada peningkatan dalam pekerjaan penggunaan pembelajaran mendalam dalam biologi pada ICLR. Ada enam artikel tentang topik ini.

Dua isu arsitektur yang dipinjam dari biologi:

  • Algoritma Pembelajaran yang Secara biologis Masuk Akal Dapat Menentukan Skala Data Besar (Xiao et al.),
  • Teori Unified Representasi Visual Awal dari Retina ke Cortex melalui CNNs Deep Anatomically Constrained (Lindsey et al.).

Satu pekerjaan pada pelatihan desain untuk RNA (Runge et al.) .

Tiga pekerjaan manipulasi protein:

  • Lokalisasi Protein Tingkat Manusia dengan Jaringan Syaraf Konvolusional (Rumetshofer et al.),
  • Belajar Struktur Protein dengan Simulator Diferensial (Ingraham et al.),
  • Mempelajari urutan protein dengan menggunakan informasi dari struktur (Bepler et al.).


Tidak ada artikel tentang topik genom, dan tidak ada seminar yang diadakan. Tidak peduli betapa menyedihkannya hal ini, peluang besar membuka peluang bagi para peneliti pendidikan dalam bidang biologi dan ahli biologi dalam pendidikan mendalam.

Satu fakta: Jack Lindsay, penulis pertama dari artikel di atas tentang sidik jari, belum lulus dari Stanford College.

7. Pembelajaran yang diperkuat tetap menjadi topik paling populer.


Makalah yang dipresentasikan di konferensi menunjukkan bahwa komunitas RL bergerak dari metode bebas model ke algoritma berbasis model dengan algoritma berbasis sampel dan meta-learning yang efisien. Pergeseran ini mungkin karena hasil yang sangat tinggi pada tolok ukur Mujoco yang ditetapkan oleh TD3 (Fujimoto et al., 2018) dan SAC (Haarnoja et al., 2018) , serta pada ruang operasi diskrit di Atari yang ditetapkan oleh R2D2 (Kapturowski et al. , ICLR 2019) .

Dalam proses pelatihan, algoritma berbasis model menggunakan data yang tersedia untuk mendapatkan model lingkungan dan menggunakannya untuk merencanakan strategi agen di lingkungan ini atau untuk menghasilkan data baru. Algoritma berbasis model akhirnya mencapai akurasi asimptotik dari rekan model-bebas mereka, menggunakan data 10-100 kali lebih sedikit (MB-MPO (Rothfuss et al.) ). Keuntungan baru membuat metode berbasis model cocok untuk tugas-tugas tingkat nyata kompleksitas. Jika setelah pelatihan, simulator lingkungan akan memiliki kekurangan, yang sangat mungkin terjadi, maka kekurangannya dapat diimbangi dengan menggunakan model yang lebih kompleks, seperti ansambel simulator (Rajeswaran et al.) . Cara lain untuk menggunakan RL dalam memecahkan masalah tingkat kompleksitas sebenarnya adalah dengan memungkinkan simulator mendukung skema pengacakan yang kompleks. Strategi yang diperoleh pada berbagai simulator lingkungan dapat mempertimbangkan dunia nyata sebagai "pengacakan lain" dan dapat berhasil dalam tugas-tugas tingkat kompleksitas nyata (OpenAI) .

Algoritma met-learning yang memungkinkan Anda untuk mendapatkan transfer pembelajaran cepat ke tugas-tugas baru juga telah ditingkatkan baik dalam hal kinerja maupun dalam hal efisiensi sampel ( ProMP (Rothfuss et al.) , PEARL (Rakelly et al.) ). Perbaikan ini telah membawa kami lebih dekat ke "ImageNet for RL moment" di mana kita dapat menggunakan strategi keputusan yang dipelajari dari tugas-tugas lain, alih-alih melatih mereka dari awal (yang tidak mungkin untuk tugas-tugas kompleks).


Bagian yang mengesankan dari karya yang diterima, bersama dengan seminar tentang struktur dan probabilitas apriori dalam RL, dikhususkan untuk integrasi pengetahuan lingkungan ke dalam algoritma pembelajaran. Jika salah satu kekuatan utama dari algoritma RL awal dalam adalah generalisasi (misalnya, DQN menggunakan arsitektur yang sama untuk semua game Atari, tidak tahu apa-apa tentang game tertentu), sekarang algoritma baru menggunakan integrasi pengetahuan apriori untuk menyelesaikan lebih kompleks tugas. Misalnya, dalam Jaringan Transporter (Jakab et al.), Seorang agen menggunakan pengetahuan apriori untuk melakukan pekerjaan eksplorasi yang lebih informatif.

Kesimpulannya, kita dapat mengatakan bahwa selama 5 tahun terakhir, komunitas RL telah mengembangkan banyak alat yang efektif untuk memecahkan masalah pelatihan penguatan dalam mode bebas model. Sekarang saatnya untuk datang dengan algoritma yang lebih mudah diangkut dan efisien sampel untuk menerapkan RL untuk tugas-tugas dunia nyata.

Salah satu fakta: Sergey Levin mungkin adalah orang yang paling banyak mengerjakan ICLR tahun ini, khususnya, 15 dari artikelnya telah diterima untuk dipublikasikan.

8. Artikel umum dengan cepat menghilang ke latar belakang


Ketika saya bertanya kepada peneliti terkenal apa pendapatnya tentang pekerjaan yang diterima tahun ini, dia tertawa, "Sebagian besar dari mereka akan dilupakan begitu konferensi selesai." Dalam bidang yang serba cepat seperti pembelajaran mesin, hasilnya dibantah dalam beberapa minggu, jika tidak berhari-hari. Tidak mengherankan, sebagian besar makalah yang diterima sudah usang pada saat pengajuan. Misalnya, menurut Borealis AI untuk ICLR 2018, " tujuh dari delapan artikel tentang pembelaan terhadap serangan musuh telah dibantah bahkan sebelum ICLR dimulai . Ini menunjukkan bahwa metode heuristik tanpa dasar teoretis jauh dari dapat diandalkan seperti yang tampaknya. "

Saya sering mendengar komentar selama konferensi, mencatat kontribusi nyata dari kesempatan pada keputusan untuk menerima / menolak pekerjaan. Saya tidak akan menyebutkan nama artikel tertentu, namun beberapa makalah yang paling banyak dibahas dan paling banyak dikutip dalam beberapa tahun terakhir ditolak oleh konferensi pada posting pertama. Namun, banyak dari makalah yang diterima akan relevan selama bertahun-tahun, bahkan tanpa dikutip.

Sebagai orang yang melakukan penelitian di bidang ini, saya sering menemukan krisis eksistensial. Gagasan apa pun yang datang kepada saya, tampaknya orang lain sudah menyadari ini, dan lebih baik dan lebih cepat. Apa gunanya menerbitkan artikel jika tidak ada yang membutuhkannya?

Kesimpulan


Tentu saja, masih ada tren yang ingin saya bahas.

  • Optimasi dan regularisasi: Perdebatan Adam terhadap SGD berlanjut. Banyak metode baru telah diusulkan, dan beberapa di antaranya cukup menarik. Tampaknya saat ini setiap laboratorium sedang mengembangkan pengoptimal sendiri - bahkan tim kami sedang mengerjakan pengoptimal baru, yang harus dirilis dalam waktu dekat.
  • : , - . , , . , , GAN , .

, . , (55 ) . ICLR 2019 , , .




ICLR. , , , . . NeurIPS , : « , , ».

, , — , . , , . , . 10 10, [ICLR — .].

- , , , , . « » (Oleksii Hrinchuk)



Ini menyimpulkan artikel aslinya. Di pihak karyawan CleverDATA kami, saya ingin setuju dengan penulis bahwa konferensi pembelajaran mesin benar-benar memberikan motivasi untuk pekerjaan lebih lanjut, memungkinkan Anda untuk membandingkan hasil Anda dan mendapatkan umpan balik profesional dari rekan kerja. Partisipasi dalam acara tersebut diperlukan untuk pertumbuhan profesional. Tingkat perkembangan Ilmu Data tumbuh, pekerjaan itu sudah ketinggalan zaman bahkan sebelum saat presentasi mereka di konferensi, dan sebagian besar pekerjaan dilupakan setelah akhir konferensi. Anda harus berlari secepatnya hanya untuk tetap di tempatnya, tetapi untuk mencapai suatu tempat, Anda harus berlari setidaknya dua kali lebih cepat!

Source: https://habr.com/ru/post/id475720/


All Articles