Selama dekade terakhir, pembelajaran mesin telah berkembang pesat di berbagai bidang seperti pengenalan pola, robomobiles, dan permainan kompleks seperti go. Keberhasilan ini terutama dicapai melalui pelatihan jaringan saraf yang dalam dengan salah satu dari dua paradigma -
belajar dengan guru dan
belajar dengan penguatan . Kedua paradigma membutuhkan pengembangan sinyal pelatihan manusia, yang kemudian ditransmisikan ke komputer. Dalam hal pelatihan dengan seorang guru, ini adalah "tujuan" (misalnya, tanda tangan yang benar di bawah gambar); dalam hal bala bantuan, ini adalah "hadiah" untuk perilaku sukses (skor tinggi dalam permainan dari Atari). Karena itu, batas belajar ditentukan oleh orang.
Dan jika beberapa ilmuwan percaya bahwa program pelatihan yang cukup luas - misalnya, kemampuan untuk berhasil menyelesaikan berbagai tugas - harus cukup untuk menghasilkan kecerdasan tujuan umum, maka yang lain berpikir bahwa kecerdasan sejati akan memerlukan strategi belajar yang lebih mandiri. Pertimbangkan, misalnya, proses mengajar bayi. Neneknya dapat duduk bersamanya dan dengan sabar menunjukkan kepadanya contoh-contoh bebek (bekerja sebagai sinyal pengajaran ketika belajar dengan seorang guru) atau menghadiahinya tepuk tangan karena memecahkan teka-teki dengan kubus (seperti dalam pembelajaran yang diperkuat). Namun, sebagian besar waktu bayi secara naif menjelajahi dunia, dan memahami lingkungan melalui rasa ingin tahu, permainan dan pengamatan.
Belajar tanpa guru adalah paradigma yang dirancang untuk menciptakan kecerdasan otonom oleh agen yang memberi penghargaan (program komputer) untuk mempelajari data yang mereka amati, terlepas dari tugas-tugas tertentu. Dengan kata lain, agen dilatih untuk belajar.
Motivasi utama dalam belajar tanpa guru adalah bahwa jika data yang dikirimkan ke algoritma pembelajaran memiliki struktur internal yang sangat kaya (gambar, video, teks), maka tujuan dan imbalan dalam pelatihan biasanya sangat kering (label "anjing" untuk spesies ini, atau unit / nol, menunjukkan keberhasilan atau kegagalan dalam game). Ini menunjukkan bahwa sebagian besar dari apa yang dipelajari oleh algoritma harus terdiri dari pemahaman tentang data itu sendiri, dan bukan dari penerapan pemahaman ini untuk solusi masalah tertentu.
Decoding elemen-elemen visi
2012 adalah tahun yang penting untuk pembelajaran mendalam ketika AlexNet (dinamai sebagai arsitek utama Alex Krizhevsky) menantang para pesaing dalam
kontes klasifikasi ImageNet . Kemampuannya untuk mengenali gambar tidak memiliki analog, tetapi yang lebih mengejutkan adalah apa yang terjadi di bawah tenda. Setelah menganalisis tindakan AlexNet, para ilmuwan menemukan bahwa itu menafsirkan gambar melalui pembangunan
representasi internal yang semakin kompleks
dari data input. Fitur tingkat rendah, misalnya, tekstur dan wajah, diwakili oleh lapisan bawah, dan kemudian dari mereka pada lapisan yang lebih tinggi, konsep tingkat yang lebih tinggi digabungkan, seperti roda atau anjing.
Ini secara mengejutkan mirip dengan cara otak kita memproses informasi - wajah dan tekstur sederhana di area utama yang berkaitan dengan indera dirangkai menjadi objek kompleks seperti wajah di area otak yang lebih tinggi. Dengan demikian, adegan yang kompleks dapat dikumpulkan dari primitif visual, dengan cara yang hampir sama bahwa makna muncul dari kata-kata individual yang membentuk kalimat. Tanpa instalasi langsung, lapisan AlexNet mengungkapkan "kamus" visual mendasar yang cocok untuk memecahkan masalah. Di satu sisi, jaringan belajar memainkan apa yang disebut Ludwig Wittgenstein sebagai "
permainan bahasa, " yang berjalan selangkah demi selangkah dari piksel ke label gambar.
Kamus visual dari jaringan saraf convolutional. Untuk setiap lapisan, gambar dibuat yang memaksimalkan aktivasi neuron tertentu. Kemudian reaksi neuron-neuron ini terhadap gambar-gambar lain dapat ditafsirkan sebagai ada atau tidak adanya "kata-kata" visual: tekstur, rak buku, wajah anjing, burung.Pelatihan Transfer
Dari sudut pandang kecerdasan tujuan umum, hal yang paling menarik dalam kamus AlexNet adalah dapat digunakan kembali, atau dipindahkan ke tugas visual lainnya, misalnya, untuk mengenali tidak hanya objek individual, tetapi juga seluruh adegan. Transfer dalam dunia yang selalu berubah mutlak diperlukan, dan orang melakukannya dengan sangat baik: kami dapat dengan cepat menyesuaikan keterampilan dan pemahaman yang diperoleh dari pengalaman (model dunia) untuk setiap situasi saat ini. Misalnya, seorang pianis dengan pendidikan klasik akan dengan mudah belajar cara bermain jazz. Agen buatan yang membentuk gambaran internal dunia yang benar mungkin harus memiliki kemampuan yang sama.
Namun, representasi yang diperoleh oleh pengklasifikasi seperti AlexNet memiliki keterbatasan. Secara khusus, karena jaringan dilatih untuk melabeli satu kelas (anjing, kucing, mobil, gunung berapi) sisa informasi - tidak peduli seberapa berguna itu untuk tugas-tugas lain - itu akan diabaikan. Misalnya, representasi mungkin tidak menangkap latar belakang gambar jika label hanya merujuk ke objek di latar depan. Solusi yang mungkin adalah memberikan sinyal pelatihan yang lebih komprehensif, misalnya,
deskripsi rinci gambar : bukan hanya "anjing", tetapi "Corgi menangkap frisbee di taman yang cerah". Namun, label semacam itu sulit ditempelkan, terutama dalam skala besar, dan mereka mungkin masih tidak cukup untuk memahami semua informasi yang diperlukan untuk menyelesaikan tugas. Premis dasar belajar tanpa guru adalah bahwa cara terbaik untuk belajar representasi portabel dengan mudah adalah dengan mencoba mempelajari semua yang mungkin tentang data.
Jika konsep pemindahan melalui pelatihan representasi tampaknya terlalu abstrak bagi Anda, bayangkan seorang anak yang telah belajar menggambar orang dengan gaya "tongkat, tongkat, mentimun". Dia menemukan representasi dari penampilan seseorang, yang sangat kompak dan beradaptasi dengan baik. Melengkapi setiap figur dengan fitur tertentu, ia dapat membuat potret semua teman sekelas: kacamata untuk sahabatnya, kaus merah favorit untuk teman sekolahnya. Dan dia mengembangkan keterampilan ini bukan untuk memenuhi tugas tertentu atau menerima hadiah, tetapi sebagai tanggapan terhadap kebutuhan dasar untuk mencerminkan dunia di sekitarnya.
Belajar melalui kreativitas: model generatif
Mungkin tujuan paling sederhana untuk belajar tanpa guru adalah melatih algoritma untuk membuat contoh data sendiri. T.N. model generatif seharusnya tidak hanya mereproduksi data di mana mereka dilatih (ini hanya "mengingat" tidak menarik), tetapi membuat model kelas dari mana data diambil. Bukan foto spesifik kuda atau pelangi, tetapi satu set foto kuda dan pelangi; bukan pernyataan spesifik dari pembicara tertentu, tetapi distribusi umum pernyataan verbal. Prinsip dasar model generatif adalah bahwa kemungkinan membuat contoh data yang meyakinkan adalah bukti terkuat yang dipahami: sebagaimana dikatakan Richard Feynman, "yang tidak bisa saya buat, saya tidak mengerti."
Sejauh ini, model generatif yang paling berhasil untuk gambar tetap menjadi
Generative-Competitive Network (GSS), di mana dua jaringan - generator dan pembeda - memasuki kompetisi pengakuan, mirip dengan kompetisi spesialis palsu dan seorang detektif. Generator menghasilkan gambar, berusaha membuat pembeda percaya pada kenyataan mereka; diskriminator diberi penghargaan karena mendeteksi kesalahan. Gambar yang dihasilkan pertama kali diperoleh secara acak dan ceroboh, kemudian ditingkatkan melalui banyak pendekatan, dan interaksi dinamis dari jaringan mengarah pada tampilan gambar yang semakin realistis, yang dalam banyak kasus
tidak dapat dibedakan dari foto nyata. GSS juga dapat memberikan
lanskap terperinci berdasarkan sketsa kasar pengguna.
Pandangan sekilas pada gambar di bawah ini akan cukup untuk memastikan bahwa jaringan telah belajar untuk menggambarkan banyak fitur utama dari foto-foto yang dilatihnya - struktur tubuh hewan, tekstur rumput dan detail permainan cahaya dan bayangan (bahkan dalam refleksi gelembung sabun). Sebuah penelitian yang cermat mengungkap anomali kecil, seperti kaki ekstra pada anjing putih dan sudut kanan aneh di semburan salah satu air mancur. Meskipun pencipta model generatif berusaha untuk menyingkirkan ketidaksempurnaan seperti itu, fakta bahwa kita dapat melihatnya berbicara tentang salah satu keuntungan merekonstruksi data yang sudah dikenal seperti gambar: dengan mempelajari sampel, peneliti dapat memahami apa yang telah dipelajari model dan apa yang belum.

Penciptaan melalui prediksi
Kelompok jaringan penting lainnya dalam kelas tanpa guru adalah model autoregresif, di mana data dipecah menjadi potongan-potongan kecil, yang masing-masing model memprediksi pada gilirannya. Model semacam itu dapat digunakan untuk menghasilkan data sebagai berikut: pertama, jaringan menebak apa yang sedang terjadi, mereka memberi makan dugaan ini ke inputnya, dan itu menebak lagi. Contoh paling terkenal adalah model bahasa, di mana setiap kata berikutnya diprediksi berdasarkan yang sebelumnya: model ini berfungsi dengan prediksi teks yang muncul di berbagai aplikasi dan saat mengirim email. Perkembangan terbaru dalam pemodelan bahasa memungkinkan Anda untuk membuat bagian-bagian yang secara wajar masuk akal - misalnya, diambil dari
OpenAI GPT-2 :
Petunjuk ke sistem (ditulis oleh manusia)
Para ilmuwan membuat penemuan mengejutkan dengan menemukan kawanan unicorn yang tinggal di Lembah Andes yang terpencil dan sebelumnya belum dijelajahi. Yang lebih mengejutkan bagi para peneliti adalah unicorn berbicara bahasa Inggris yang sangat baik.
Teks model selesai (setelah 10 upaya)
Para ilmuwan menyebut populasi "Ovid unicorn" karena tanduknya yang khas. Unicorn putih perak bertanduk empat ini sebelumnya tidak dikenal oleh sains. Dan akhirnya, setelah dua abad, misteri apa yang memunculkan fenomena aneh ini terpecahkan.
Jorge Perez, ahli biologi evolusi di Universitas Lapaz dan beberapa rekannya mempelajari Andes ketika mereka menemukan sebuah lembah kecil di mana tidak ada hewan dan manusia lain. Perez memperhatikan sesuatu di lembah yang tampak seperti air mancur alami, dikelilingi oleh dua puncak berbatu dan salju keperakan.
Kemudian Perez dan yang lainnya pergi lebih jauh ke lembah ini. "Ketika kami sampai di salah satu puncak, air tampak biru, dan ada beberapa kristal di permukaannya," kata Perez.
Perez dan teman-temannya kagum melihat kawanan unicorn. Makhluk-makhluk ini dapat dilihat dari udara, tidak terlalu dekat dengan mereka untuk melihat mereka - mereka begitu dekat sehingga mereka dapat menyentuh tanduk mereka.
Satu perbedaan yang menarik adalah deskripsi unicorn sebagai "bertanduk empat": menyenangkan untuk mempelajari keterbatasan memahami jaringan.
Dengan mengontrol urutan input yang digunakan untuk menyempurnakan prediksi, Anda dapat menggunakan model autoregresif untuk menerjemahkan satu urutan ke urutan lainnya.
Demonstrasi ini menggunakan model autoregresif bersyarat untuk menerjemahkan teks menjadi tampilan tulisan tangan yang realistis.
WaveNet mengonversi teks menjadi ucapan biasa, dan sekarang digunakan untuk
menghasilkan suara untuk Google Assistant . Kemajuan serupa dalam tuning dan generasi autoregresif dapat digunakan untuk
terjemahan dari satu bahasa ke bahasa lain.
Model mempelajari data autoregresif, mencoba memprediksi setiap bagian dalam urutan tertentu. Anda dapat membuat kelas jaringan yang lebih umum dengan pembelajaran tanpa guru, membuat prediksi tentang bagian mana pun dari data berdasarkan yang lainnya. Misalnya, ini dapat berarti bahwa kami menghapus satu kata dari kalimat dan
mencoba memprediksinya berdasarkan sisa teks . Dengan mengajarkan suatu sistem melalui permintaan dari banyak prediksi lokal, kami memaksanya untuk mempelajari semua data secara keseluruhan.
Salah satu masalah dari model generatif adalah kemungkinan penggunaannya yang berbahaya. Manipulasi bukti dalam bentuk foto, video dan rekaman audio telah dimungkinkan sejak lama, tetapi model generatif dapat sangat memudahkan pengeditan materi ini dengan niat jahat. Kami telah melihat demonstrasi yang disebut deepfake - misalnya,
video palsu dengan Obama . Sangat menyenangkan untuk melihat bahwa ada upaya serius untuk menjawab tantangan ini - misalnya, penggunaan
teknik statistik untuk mendeteksi
bahan sintetis dan mengkonfirmasi yang asli,
membiasakan masyarakat dengan apa yang terjadi , dan diskusi tentang membatasi ketersediaan model generatif yang terlatih. Selain itu, model generatif itu sendiri dapat digunakan untuk mendeteksi bahan fabrikasi dan data abnormal - misalnya,
mendeteksi ucapan palsu atau mendeteksi pembayaran abnormal untuk melindungi pengguna dari penipu. Para peneliti perlu bekerja pada model generatif untuk lebih memahami mereka dan mengurangi risiko di masa depan.
Menciptakan Kembali Kecerdasan
Model generatif itu sendiri sangat menarik, tetapi di DeepMind kami memperlakukan mereka sebagai tahap menuju kecerdasan umum. Memberi agen kemampuan untuk menghasilkan data adalah tentang bagaimana memberinya imajinasi, dan, akibatnya, kemampuan untuk
merencanakan dan bernalar tentang masa depan. Studi kami menunjukkan bahwa
pelatihan dalam memprediksi berbagai
aspek lingkungan, bahkan tanpa tugas khusus untuk menghasilkan data, memperkaya
model dunia agen dan, karenanya, meningkatkan kemampuannya untuk menyelesaikan masalah.
Hasil ini tumpang tindih dengan pemahaman intuitif kita tentang pikiran manusia. Kemampuan kita untuk mempelajari dunia tanpa pengawasan khusus adalah salah satu sifat dasar kecerdasan. Dalam perjalanan pelatihan, kita dapat dengan acuh tak acuh memandang ke luar jendela, menyentuh beludru di kursi, pertimbangkan penumpang yang bepergian bersama kita. Kami tidak memiliki tujuan dalam studi ini: kami hampir tidak dapat melepaskan diri dari pikiran kami dari mengumpulkan informasi, dan otak kami tanpa lelah bekerja untuk memahami dunia di sekitar kami dan tempat kami di dalamnya.