
Eksperimen pemikiran
Bayangkan Anda terbangun di kamar yang aneh. Ini bukan kamar yang nyaman di mana Anda tertidur, tetapi sel remang-remang dengan lantai basah yang sejuk. Plester retak di dinding. Dan satu-satunya pintu masuk dan keluar seharusnya adalah pintu besi besar, dikunci dengan gembok dari dalam. Sedikit lebih tinggi di dinding adalah jendela berpalang yang memungkinkan beberapa cahaya untuk lewat. Jika Anda melihat sekeliling Anda akan sampai pada kesimpulan bahwa Anda terjebak, itu akan sangat masuk akal. Terlihat mengerikan.
Tetapi apakah itu akan memuaskan Anda? Mungkin tidak. Anda akan ingin menjelajahi ruangan lebih sedikit, mungkin tarik gembok untuk mencoba keandalannya. Atau ingin menguji kekuatan tembok yang diplester ini. Mungkin beberapa pukulan keras dan Anda membuat lubang di mana Anda bisa keluar? Atau mungkin gerbang di jendela ini memiliki bukaan besar sehingga Anda bisa memanjat keluar? Interaksi dengan lingkungan memberi Anda lebih banyak informasi daripada pengamatan pasif terhadapnya. Visi mungkin merupakan hipotesis, tetapi mengujinya membutuhkan interaksi nyata dengan lingkungan.
Konsep konsep
Konten dan kesimpulan adalah konsep.
Anjing juga sebuah konsep. Serta
berlari ,
hutan ,
keindahan ,
hijau atau
kematian . Konsep adalah abstraksi yang kita bedakan dari interaksi sehari-hari dengan dunia. Mereka membentuk blok bangunan pengetahuan yang dapat digunakan kembali yang orang perlu memahami dunia.
Ketika kita memiliki pemahaman konseptual tentang sesuatu, itu berarti bahwa kita memiliki beberapa pengalaman dengan hal ini, kita entah bagaimana menguasainya. Dalam hal konten, pengalaman ini berarti bahwa kita dapat mengidentifikasi objek kontainer di dunia yang dapat mengandung sesuatu, memisahkannya dari "non-kontainer", memasukkan beberapa barang ke dalamnya, membawanya kembali, dan mengantisipasi apa yang akan terjadi, jika kita entah bagaimana akan berinteraksi dengan mereka. Kita bahkan dapat melihat hal-hal baru dan memahami apakah mereka berpotensi mengandung sesuatu dalam diri mereka sendiri atau sebaliknya - apakah mereka dapat dilampirkan dalam beberapa subjek lain.
Pendekatan utama pemahaman konseptual dalam AI, termasuk sistem pembelajaran mendalam yang dilatih pada dataset seperti
ImageNet , tampaknya memiliki beberapa kemampuan ini, tetapi mereka tidak memiliki pemahaman yang lebih dalam - pengalaman yang berasal dari interaksi. Dengan melihat gambar atau bahkan video, pendekatan ini mungkin dapat menentukan apakah ada jenis "wadah" tertentu di atasnya, katakanlah, cangkir, rumah atau botol, dan juga untuk menentukan di mana objek ini berada dalam gambar. Tetapi mereka hampir pasti akan gagal ketika mereka menemukan jenis objek semacam itu yang belum dijelajahi. Permintaan untuk menempatkan diri sendiri di suatu tempat hanya akan memiliki kesalahpahaman yang lengkap dalam sistem seperti itu, karena itu menghubungkan konsep objek kontainer dengan berbagai tanda-tanda visual, tetapi tidak memiliki pemahaman aktif tentang istilah konten di dalam sesuatu.
Konsep dari pengalaman sensorimotor
Henri Poincaré adalah salah satu yang pertama yang menekankan peran representasi sensorimotor dalam pemahaman manusia. Dalam bukunya Science and Hypothesis, ia berpendapat bahwa makhluk tidak bergerak tidak akan pernah bisa menguasai konsep ruang tiga dimensi. Belum lama berselang, beberapa ilmuwan kognitif menyarankan bahwa representasi konseptual muncul dari integrasi persepsi dan tindakan. Misalnya,
O'Regan dan Noë mendefinisikan pengalaman sensorimotor sebagai "struktur aturan yang mendefinisikan perubahan sensorik yang dihasilkan oleh berbagai aksi motorik," dan pengamatan pasif sebagai "mode menjelajahi dunia yang mengandalkan pengetahuan tentang pengalaman sensorimotor."
Noë menambahkan bahwa "konsep adalah semacam pendekatan untuk mengelola apa yang ada di sekitar."
Meskipun pentingnya pengalaman sensorimotor telah dihargai dalam komunitas kognitif, ide-ide ini telah menyebabkan hanya beberapa model komputasi spesifik yang mengeksplorasi perannya dalam membentuk konsep. Dalam
artikel yang kami sajikan di AAAI-18, kami menunjukkan model komputasi yang mengeksplorasi konsep melalui interaksi dengan lingkungan.
Apa yang telah kita lakukan
Kami berencana untuk menyadari dan mempelajari dua kemampuan utama yang membentuk pemahaman konseptual: kemampuan untuk secara aktif mendeteksi konsep dan kemampuan untuk menarik kesimpulan atau bertindak berdasarkan konsep ini. Selain itu, kami ingin menyelidiki situasi di mana kemampuan interaktif lebih disukai daripada pendekatan pasif, dan untuk memahami bagaimana penggunaan konsep-konsep sederhana yang sudah dipelajari dapat membantu untuk mempelajari yang lebih kompleks.
Kami mulai dengan mengembangkan tempat pelatihan virtual khusus untuk mengeksplorasi konsep aktif, lingkungan yang kami sebut
PixelWorld (tersedia di
github ). Di dunia ini segalanya diatur sedikit lebih mudah daripada yang asli. Ini adalah bidang dua dimensi diskrit yang mengandung agen piksel dan satu atau lebih objek dari jenis lain, juga terdiri dari piksel (misalnya, garis, titik atau wadah).
Agen memiliki implementasi yang cukup sederhana: ia hanya merasakan ruang sel 3 × 3 di sekitarnya dan dapat bergerak ke atas, bawah, kiri, kanan, atau berhenti dan mengirim beberapa informasi. Implementasi seperti itu membutuhkan studi bahkan ide-ide paling dasar tentang dunia, baik konsep objek maupun konsep konsep interaksi. Terlepas dari kenyataan bahwa ini mungkin tampak seperti kekurangan sensorik yang berlebihan, menghilangkan persepsi visual yang kaya memungkinkan kita untuk fokus pada peran mengubah perilaku multifaset menjadi pandangan dunia yang bermakna.
Kami melatih agen dalam dua jenis tugas. Tugas pertama adalah menyelidiki lingkungan dan melaporkan jika konsep yang diperlukan ada di lingkungan. Misalnya, sebuah wadah. Dan itu dihargai jika jawabannya benar. Tugas kedua adalah mengambil tindakan sehubungan dengan konsep ini. Misalnya, tempatkan diri Anda dalam wadah ini. Ini dihargai jika dia benar memenuhi tugas dan melaporkannya. Untuk ini, kami menggunakan pelatihan penguatan.
Sebagai contoh, kami mengajar agen untuk menentukan kapan dia berada di sebuah objek dalam bidang horizontal. Animasi di bawah ini menunjukkan perilaku ini: agen memeriksa apakah ada dinding di sebelah kanan, lalu memeriksa apakah ada dinding di sebelah kiri. Segera setelah kedua tes berhasil dilewati, ia melaporkan bahwa ia “ditahan”.

Kami melatih agen berikutnya untuk memahami hal yang sama ketika dia dikelilingi oleh dua benda di sisinya: sebuah wadah padat dan sebuah wadah berlubang. Animasi menunjukkan bahwa agen masuk ke objek yang tepat, memeriksa apakah itu adalah wadah yang solid. Mendeteksi lubang dan kemudian naik ke wadah kiri, menandakan pada akhirnya bahwa itu dalam tahanan.

Kita dapat memahami secara lebih rinci apa yang dilakukan agen dengan menganalisis catatan tindakannya:

Gambar di atas menunjukkan setiap tindakan yang dilakukan oleh agen dalam animasi yang ditunjukkan di atas. Setiap kotak mewakili suatu tindakan, waktu meningkat dari kiri ke kanan. "BAWAH", "KANAN", "ATAS" dan "KIRI" adalah tindakan utama agen, dan setiap baris "SMC" menunjukkan kasus khusus interaksi sensorimotor yang dapat dilakukan oleh agen. SMC (
sensorimotor contingencies - approx. Transl. ) Dapat direpresentasikan sebagai program kecil yang, ketika dijalankan, menggunakan urutan tindakan dasar hingga agen memutuskan untuk berhenti dan mengirim salah satu dari dua sinyal yang berarti keberhasilan ("SIG1", hijau) atau kekalahan ("SIG0", merah). Masing-masing SMC ini muncul sebagai agen yang dilatih untuk memecahkan masalah konseptual yang lebih sederhana. Misalnya, "SMC 3" dilatih untuk naik ke wadah jika awalnya di lantai di sebelah kirinya. Dan ini adalah hal pertama yang dilakukan agen dalam animasi dari langkah 0 hingga 11. Dengan demikian, agen dapat melakukan tugas-tugas kompleks, seperti membuat kesimpulan akhir tentang kesimpulan, melakukan urutan SMC tingkat rendah yang sesuai.
Setelah itu, kami memperluas konsep kami di luar ketentuan kesimpulan dan memasukkan konsep-konsep seperti berada di atas suatu objek atau berada di sebelah kiri dua objek:


Pelatihan agen-agen ini hanya dalam satu lingkungan tidak akan cukup, karena untuk memahami aspek lingkungan mana yang terkait dengan konsep dan yang tidak, banyak lingkungan yang berbeda diperlukan. Kehadiran banyak jenis lingkungan juga memungkinkan kita untuk menentukan jenis di mana pendekatan aktif dan penggunaan kembali perilaku yang dikembangkan sebelumnya akan mendapat manfaat dari pendekatan pasif.
Untuk memenuhi kebutuhan ini, kami menerapkan jenis perekaman khusus berdasarkan logika tingkat pertama untuk menyiapkan array data untuk eksperimen, menggunakan ekspresi logis baik untuk menghasilkan media dan untuk menandai mereka sehubungan dengan konsep apa yang diwakili di dalamnya. Kami telah menciptakan 96 susunan seperti itu yang disusun dalam blok pelatihan dari konsep sederhana hingga kompleks. Baik sistem perekaman dan lingkungan yang disebutkan di atas terkandung dalam rilis PixelWorld.
Apa yang kita punya
Kami membandingkan pendekatan aktif kami dengan yang pasif, menggunakan jaringan saraf convolutional, dilatih untuk menentukan apakah konsep hadir, berdasarkan persepsi statis dari seluruh lingkungan. Untuk konsep yang menggunakan "kesimpulan," pendekatan interaktif jelas lebih unggul daripada jaringan konvolusional. Untuk konsep yang melibatkan beragam objek dalam berbagai bentuk dan hubungan spasial, kami menemukan bahwa jaringan konvolusi bekerja lebih baik dalam beberapa kasus, tetapi lebih buruk pada yang lain. Perlu dicatat bahwa pendekatan pasif, menurut definisi, tidak dapat berinteraksi dengan lingkungan, sehingga dalam hal ini satu-satunya hal yang dapat diharapkan adalah deteksi statis konsep. Hanya pendekatan proaktif kami yang dapat berhasil di lingkungan yang membutuhkan pemahaman tentang beberapa jenis interaksi atau hubungan dengan konsep tersebut.
Kami juga menemukan bahwa perilaku menggunakan kembali meningkatkan hasil untuk kedua tugas (deteksi dan interaksi), dengan hasil yang paling jelas dalam kasus-kasus di mana konsep mencakup beberapa objek atau diperlukan urutan kompleks dalam perilaku.
Kesimpulan
Pekerjaan kami menunjukkan bahwa representasi konseptual sensorimotor interaktif dapat diformalkan dan berasimilasi. Sementara percobaan yang tercermin dalam artikel ini membantu mengidentifikasi peran interaksi secara umum, kombinasi mereka dengan pendekatan
sistem visi generatif dapat berguna untuk mempelajari konsep-konsep dunia nyata. Selain itu, menggabungkan representasi sensorimotor dengan teknik seperti "
jaringan Skema " akan memungkinkan agen untuk memiliki representasi internal dari dunia luar yang dapat ia gunakan untuk simulasi dan perencanaan.
Meskipun kecerdasan buatan yang kabur adalah topik yang sebaiknya dibiarkan untuk film fiksi ilmiah, kami percaya bahwa mengekstraksi konsep dari interaksi sensorimotor adalah salah satu kunci untuk bergerak di luar teknik kecerdasan buatan pasif modern.