Machine Learning: Berebutlah dengan Kamar Gajah


Satu adalah nol untuk otak manusia. Dalam sebuah studi baru , para ilmuwan komputer menemukan bahwa sistem kecerdasan buatan gagal lulus tes untuk pengenalan visual terhadap benda-benda yang dapat dengan mudah ditangani oleh setiap anak.

"Studi kualitatif dan penting ini mengingatkan kita bahwa" pembelajaran mendalam "itu sendiri tidak dapat membanggakan kedalaman yang dikaitkan dengan itu," kata Gary Marcus, seorang ilmuwan saraf di New York University yang tidak terkait dengan pekerjaan ini.

Hasil penelitian berhubungan dengan bidang visi komputer, ketika sistem kecerdasan buatan mencoba untuk mendeteksi dan mengkategorikan objek. Sebagai contoh, mereka mungkin diminta untuk menemukan semua pejalan kaki di jalanan atau hanya untuk membedakan burung dari sepeda - sebuah tugas yang sudah terkenal dengan kerumitannya.

Taruhannya tinggi: komputer secara bertahap mulai melakukan operasi penting bagi orang-orang, seperti pengawasan video otomatis dan mengemudi secara otonom. Dan untuk pekerjaan yang berhasil, perlu bahwa kemampuan AI untuk pemrosesan visual setidaknya tidak kalah dengan manusia.

Tugasnya tidak mudah. Studi baru ini berfokus pada kecanggihan visi manusia dan kesulitan dalam menciptakan sistem meniru. Para ilmuwan menguji keakuratan sistem visi komputer menggunakan contoh ruang tamu. AI bekerja dengan baik, mengidentifikasi kursi, orang, dan buku di rak dengan benar. Tetapi ketika para ilmuwan menambahkan objek yang tidak biasa ke pemandangan - gambar gajah - fakta penampilannya membuat sistem melupakan semua hasil sebelumnya. Tiba-tiba, dia mulai menyebut kursi itu sofa, gajah kursi, dan mengabaikan semua benda lainnya.

"Ada berbagai keanehan yang menunjukkan kerapuhan sistem deteksi objek modern," kata Amir Rosenfeld, seorang ilmuwan dari York University di Toronto dan rekan penulis studi yang ia dan rekannya John Totsotsos , juga dari York, dan Richard Zemel dari University of Toronto.

Para peneliti masih berusaha mengklarifikasi alasan mengapa sistem visi komputer begitu mudah dibuat bingung, dan mereka sudah memiliki tebakan yang bagus. Poin dalam keterampilan manusia, yang tidak dimiliki AI, adalah kemampuan untuk menyadari bahwa pemandangan itu tidak dapat dipahami, dan kita perlu mempertimbangkannya lebih dekat lagi.

Gajah di kamar


Melihat dunia, kami merasakan sejumlah informasi visual yang mengejutkan. Otak manusia memprosesnya saat bepergian. “Kami membuka mata kami, dan semuanya terjadi dengan sendirinya,” kata Totsotsos.

Kecerdasan buatan, sebaliknya, menciptakan kesan visual dengan susah payah, seolah-olah membaca deskripsi dalam huruf Braille. Dia menjalankan melalui ujung jari algoritmiknya melalui piksel, secara bertahap membentuk dari mereka representasi yang semakin kompleks. Berbagai sistem AI yang melakukan proses serupa adalah jaringan saraf. Mereka melewati gambar melalui serangkaian "lapisan". Ketika setiap lapisan melewati, detail gambar individu, seperti warna dan kecerahan piksel individu, diproses, dan deskripsi objek yang semakin abstrak dibentuk berdasarkan analisis ini.

“Hasil pemrosesan dari layer sebelumnya dipindahkan ke yang berikutnya, dan seterusnya, seperti pada conveyor,” jelas Totsotsos.


Diposting oleh: Lucy Reading-Ikkanda / Majalah Quanta

Jaringan saraf adalah ahli dalam tugas rutin tertentu di bidang pemrosesan visual. Mereka lebih baik daripada orang-orang untuk mengatasi tugas-tugas yang sangat khusus seperti menentukan jenis anjing dan penyortiran objek lainnya ke dalam kategori. Contoh-contoh sukses ini telah memunculkan harapan bahwa sistem visi komputer akan segera menjadi sangat pintar sehingga mereka akan dapat mengendarai mobil di jalanan kota yang padat.

Ini juga mendorong para ahli untuk mengeksplorasi kerentanan mereka. Selama beberapa tahun terakhir, para peneliti telah melakukan sejumlah upaya untuk mensimulasikan serangan musuh - mereka datang dengan skenario yang memaksa jaringan saraf untuk membuat kesalahan. Dalam satu percobaan, para ilmuwan komputer menipu jaringan itu, memaksanya mengambil kura-kura sebagai senjata. Kisah lain tentang kecurangan yang berhasil adalah bahwa, di samping benda-benda biasa seperti pisang, para peneliti meletakkan pemanggang yang dicat dengan warna psychedelic pada gambar.

Dalam karya baru, para ilmuwan telah memilih pendekatan yang sama. Tiga peneliti menunjukkan foto jaringan saraf ruang tamu. Itu menangkap seorang pria yang memainkan video game, duduk di tepi kursi tua dan condong ke depan. "Mencerna" adegan ini, AI dengan cepat mengenali beberapa objek: seseorang, sofa, TV, kursi, dan beberapa buku.

Kemudian para peneliti menambahkan objek yang tidak biasa untuk pemandangan serupa: gambar gajah dalam setengah profil. Dan jaringan saraf bingung. Dalam beberapa kasus, penampilan gajah memaksanya untuk mengambil kursi untuk sofa, dan kadang-kadang sistem berhenti melihat benda-benda tertentu, dengan pengakuan sebelumnya bahwa tidak ada masalah. Ini, misalnya, adalah seri buku. Selain itu, rindu terjadi bahkan dengan benda yang terletak jauh dari gajah.


Pada dokumen asli di sebelah kiri, jaringan saraf dengan benar dan dengan kepercayaan tinggi mengidentifikasi banyak objek yang terletak di ruang tamu yang penuh dengan berbagai hal. Tetapi begitu gajah ditambahkan (gambar di sebelah kanan), program mulai macet. Kursi di sudut kiri bawah berubah menjadi sofa, piala yang berdiri di sebelahnya menghilang, dan gajah menjadi kursi.

Kesalahan sistem serupa sama sekali tidak dapat diterima untuk mengemudi otonom yang sama. Komputer tidak akan dapat mengemudikan mobil jika tidak melihat pejalan kaki hanya karena beberapa detik sebelumnya ia melihat seekor kalkun di sisi jalan.

Adapun gajah itu sendiri, hasil pengakuannya juga berbeda dari upaya ke upaya. Sistem kemudian menentukan dengan benar, kadang-kadang disebut domba, lalu tidak menyadarinya sama sekali.

"Jika seekor gajah benar-benar muncul di ruangan, siapa pun mungkin akan memperhatikannya," kata Rosenfeld. "Dan sistem bahkan tidak merekam kehadirannya."

Hubungan dekat


Ketika orang melihat sesuatu yang tidak terduga, mereka melihatnya dengan lebih baik. Betapapun sederhananya kedengarannya, “perhatikan lebih dekat”, ini memiliki konsekuensi kognitif nyata dan menjelaskan mengapa AI keliru ketika sesuatu yang tidak biasa muncul.

Saat memproses dan mengenali objek, jaringan saraf modern terbaik menyampaikan informasi melalui diri mereka sendiri hanya ke arah depan. Mereka mulai dengan memilih piksel pada input, beralih ke kurva, bentuk, dan adegan, dan membuat tebakan paling mungkin di setiap tahap. Setiap kesalahpahaman di tahap awal proses menyebabkan kesalahan pada akhirnya ketika jaringan saraf mengumpulkan "pikiran" bersama untuk menebak apa yang dilihatnya.

"Dalam jaringan saraf, semua proses saling berhubungan erat, sehingga selalu ada kemungkinan bahwa fitur apa pun di mana saja dapat mempengaruhi hasil yang mungkin," kata Totsosos.

Pendekatan manusia lebih baik. Bayangkan bahwa Anda diberi pandangan sekilas pada gambar yang memiliki lingkaran dan kotak, satu merah, biru lainnya. Setelah itu, Anda diminta untuk menyebutkan warna kotak. Sekilas mungkin tidak cukup untuk mengingat warna dengan benar. Segera muncul pemahaman bahwa Anda tidak yakin, dan Anda perlu mencarinya lagi. Dan, yang sangat penting, selama menonton kedua Anda sudah tahu apa yang Anda butuhkan untuk fokus.

"Sistem visual manusia mengatakan:" Saya masih tidak bisa memberikan jawaban yang benar, jadi saya akan kembali dan memeriksa di mana kesalahan itu bisa terjadi, "jelas Totsotsos, yang sedang mengembangkan teori yang disebut" Selunis selaras "yang menjelaskan fitur persepsi visual ini.

Sebagian besar jaringan saraf tidak memiliki kemampuan untuk kembali. Fitur ini sangat sulit dirancang. Salah satu keuntungan dari jaringan searah adalah bahwa mereka relatif mudah untuk dilatih - cukup “lewati” gambar melalui enam lapisan yang disebutkan dan dapatkan hasilnya. Tetapi jika jaringan saraf harus "melihat dekat", mereka juga perlu membedakan antara garis yang halus, kapan lebih baik untuk kembali, dan kapan untuk terus bekerja. Otak manusia dengan mudah dan alami beralih di antara berbagai proses yang berbeda. Dan jaringan saraf membutuhkan landasan teori baru sehingga mereka dapat melakukan hal yang sama.

Peneliti terkemuka dari seluruh dunia bekerja ke arah ini, tetapi mereka juga membutuhkan bantuan. Baru-baru ini, proyek Google AI mengumumkan kompetisi untuk pengklasifikasian crowdsourcing gambar yang dapat membedakan antara kasus distorsi gambar yang disengaja. Solusi yang dapat dengan jelas membedakan gambar burung dari gambar sepeda akan menang. Ini akan menjadi langkah pertama yang sederhana namun sangat penting.

gambar

Source: https://habr.com/ru/post/id424855/


All Articles