Keterbatasan algoritma pengenalan gambar



Tidak, ini bukan tentang algoritme pengenalan gambar - ini tentang batasan penggunaannya, khususnya saat membuat AI.

Menurut pendapat saya, pengenalan gambar visual oleh seseorang dan sistem komputer sangat berbeda - begitu banyak sehingga memiliki sedikit kesamaan. Ketika seseorang berkata "Aku mengerti," dia benar-benar berpikir lebih dari yang dia lihat, yang tidak dapat dikatakan tentang sistem komputer yang dilengkapi dengan peralatan untuk pengenalan gambar.

Saya tahu bahwa ide itu tidak baru, tetapi saya mengusulkan sekali lagi untuk memastikan validitasnya dengan contoh robot yang mengklaim memiliki kecerdasan. Pertanyaan pengujiannya adalah: robot seperti apa yang harus dilihat dunia sekitarnya agar sepenuhnya menjadi seperti manusia?

Tentu saja, robot harus mengenali benda. Oh ya, algoritma mengatasi ini - melalui pelatihan pada sampel asli, seperti yang saya mengerti. Tapi ini sangat kecil!

Saya
Pertama, setiap objek dari dunia sekitarnya terdiri dari banyak objek dan, pada gilirannya, adalah bagian dari objek lain. Saya menyebut properti ini bersarang. Tetapi bagaimana jika subjek tidak memiliki nama, sehingga tidak ada di dasar sampel asli yang digunakan untuk mempelajari algoritma - apa yang harus dikenali robot dalam kasus ini?

Awan yang saya amati di jendela tidak memiliki nama bagian, meskipun jelas terdiri dari tepi dan tengah. Namun, tidak ada istilah khusus untuk tepi dan tengah awan, tidak diciptakan. Untuk menunjukkan objek yang tidak disebutkan namanya, saya menggunakan kata-kata verbal ("cloud" - jenis objek, "cloud edge" - kata-kata verbal), yang tidak termasuk dalam kemampuan algoritma pengenalan gambar.

Ternyata algoritma tanpa blok logis tidak banyak berguna. Jika algoritma mendeteksi bagian dari keseluruhan objek, itu tidak akan selalu dapat mencari tahu - sesuai, robot tidak akan dapat mengetahui - apa itu.

II
Kedua, daftar objek yang membentuk dunia tidak tertutup: itu terus diperbarui.

Seseorang memiliki kemampuan untuk membangun objek-objek realitas, memberikan nama-nama pada objek-objek baru yang ditemukan, misalnya, spesies fauna. Dia akan menyebut seekor kuda dengan kepala manusia dan batang tubuh sebagai centaur, tetapi untuk ini, dia pertama-tama akan menyadari bahwa makhluk itu memiliki kepala dan batang tubuh manusia, dan segala sesuatu yang lain adalah kuda, sehingga mengenali objek yang dilihat sebagai yang baru. Inilah yang dilakukan otak manusia. Dan algoritme, jika tidak ada input data, akan menentukan makhluk seperti itu sebagai orang atau kuda: tanpa beroperasi dengan karakteristik tipe, ia tidak akan dapat membuat kombinasinya.

Agar robot menjadi seperti manusia, ia harus dapat mendefinisikan jenis objek baru untuknya dan menetapkan nama untuk jenis ini. Dalam deskripsi tipe baru, karakteristik tipe yang diketahui akan muncul. Dan jika robot tidak tahu caranya, mengapa kita membutuhkannya, begitu indah?

Katakanlah kita mengirim robot pengintai ke Mars. Robot melihat sesuatu yang tidak biasa, tetapi mampu mengidentifikasi objek secara eksklusif dalam istilah duniawi yang diketahui. Apa yang akan memberi orang mendengarkan pesan verbal yang datang dari robot? Kadang-kadang itu akan memberikan sesuatu, tentu saja (jika benda-benda Bumi ditemukan di Mars), dan dalam kasus lain, tidak ada (jika benda-benda Mars tidak mirip dengan benda-benda Bumi).

Citra adalah masalah lain: seseorang sendiri akan dapat melihat segalanya, mengevaluasi dengan benar dan menamainya. Hanya melalui bukan algoritma pengenalan gambar pra-terlatih, tetapi otak manusia Anda lebih licik.

III.
Ketiga, ada beberapa masalah dengan individualisasi objek.

Dunia sekitar terdiri dari objek-objek tertentu. Sebenarnya, Anda hanya dapat melihat objek tertentu. Tetapi dalam beberapa kasus mereka perlu individual secara verbal, di mana salah satu nama pribadi digunakan ("Vasya Petrov"), atau indikasi sederhana dari objek tertentu, diucapkan atau tersirat ("tabel ini"). Apa yang saya sebut jenis objek ("orang", "tabel") hanyalah nama kolektif dari objek yang memiliki karakteristik umum tertentu.

Algoritma pengenalan gambar, jika dilatih tentang sampel asli, akan dapat mengenali objek individual dan non-individual - ini bagus. Pengenalan wajah di tempat-tempat ramai dan semua itu. Yang buruk adalah bahwa algoritma seperti itu tidak akan mengerti objek mana yang harus diakui sebagai memiliki individualitas dan mana yang sama sekali tidak sepadan.

Robot, sebagai pemilik AI, sesekali harus masuk ke pesan seperti:
- Oh, dan saya melihat wanita tua ini seminggu yang lalu!

Tetapi tidak ada gunanya menyalahgunakan replika semacam itu tentang bilah rumput, terutama karena ada kekhawatiran yang cukup kuat tentang kecukupan daya komputasi untuk melakukan tugas seperti itu.

Tidak jelas bagi saya di mana garis tipis ditarik antara seorang wanita tua yang individual dan bilah-bilah rumput yang tak terhitung banyaknya, yang diindividuasikan oleh tidak kurang dari seorang wanita tua, tetapi tidak menarik bagi seseorang dari sudut pandang individualisasi. Apa gambar yang dikenal dalam pengertian ini? Nyaris tidak ada apa-apa - awal dari persepsi yang sulit dan menyakitkan tentang realitas di sekitarnya.

IV.
Keempat, dinamika objek, ditentukan oleh penataan ruang bersama mereka. Ini, saya katakan, adalah sesuatu!

Saya duduk di depan perapian di kursi berlengan yang dalam dan sekarang saya mencoba untuk bangun.
"Apa yang kamu lihat, robot?"

Dari sudut pandang kami sehari-hari, robot melihat saya bangkit dari kursi. Apa yang harus dia jawab? Mungkin jawaban yang relevan adalah:
"Aku melihatmu bangkit dari kursimu."

Untuk melakukan ini, robot harus tahu siapa saya, apa kursi itu dan apa artinya naik ...

Algoritma pengenalan gambar setelah pengaturan yang sesuai akan dapat mengenali saya dan kursi, kemudian dengan membandingkan frame kita dapat menentukan fakta saling menghilangkan saya dari kursi, tetapi apa artinya "bangkit"? Bagaimana "peningkatan" terjadi dalam realitas fisik?

Jika saya sudah bangun dan berjalan pergi, semuanya cukup sederhana. Setelah saya menjauh dari kursi, semua benda di kantor tidak mengubah posisi spasial satu sama lain, kecuali saya, yang semula duduk di kursi, dan setelah beberapa waktu jauh dari kursi. Diijinkan untuk menyimpulkan bahwa saya meninggalkan kursi.

Jika saya masih dalam proses bangun dari kursi, semuanya agak lebih rumit. Saya masih di sebelah kursi, namun, posisi spasial relatif dari bagian tubuh saya telah berubah:

  • awalnya tibia dan trunk berada dalam posisi tegak, dan paha dalam posisi horizontal (saya sedang duduk),
  • saat berikutnya, semua bagian tubuh berada dalam posisi tegak (saya berdiri).

Perhatikan perilaku saya sebagai pribadi, dia akan langsung menyimpulkan bahwa saya bangkit dari kursi. Bagi seseorang, ini bukan kesimpulan logis sebagai persepsi visual: dia benar-benar akan melihat saya bangkit dari kursi saya, meskipun pada kenyataannya dia akan melihat perubahan posisi relatif dari bagian-bagian tubuh saya. Namun, pada kenyataannya itu akan menjadi kesimpulan logis bahwa seseorang harus menjelaskan kepada robot, atau robot harus mengerjakan kesimpulan logis ini sendiri.

Keduanya sama-sama sulit:

  • untuk memasuki informasi basis pengetahuan awal bahwa berdiri adalah perubahan berurutan dalam posisi spasial timbal balik dari bagian-bagian tertentu dari tubuh yang entah bagaimana tidak menginspirasi;
  • tidak kurang bodoh untuk berharap bahwa robot, sebagai makhluk berpikir buatan, itu sendiri akan dengan cepat menebak bahwa perubahan posisi spasial timbal balik dari bagian-bagian tertentu dari tubuh yang dijelaskan di atas disebut berdiri. Pada manusia, proses ini memakan waktu bertahun-tahun, berapa banyak yang dibutuhkan untuk robot?

Dan apa hubungannya dengan algoritma pengenalan gambar? Mereka tidak akan pernah dapat menentukan bahwa saya bangkit dari kursi.

V.
"Berdiri" adalah konsep abstrak, ditentukan oleh perubahan karakteristik objek material, dalam hal ini, perubahan posisi spasial timbal balik mereka. Dalam kasus umum, ini berlaku untuk konsep abstrak mana pun, karena konsep abstrak itu sendiri tidak ada di dunia material, tetapi sepenuhnya bergantung pada objek material. Meskipun sering kita melihatnya sebagai diamati secara pribadi.

Untuk menggerakkan rahang ke kanan atau kiri, tanpa membuka mulut - apa tindakan ini? Tapi tidak mungkin. Tidak diragukan lagi, dengan alasan bahwa gerakan seperti itu umumnya tidak seperti biasanya bagi seseorang. Menggunakan algoritma yang dibahas, robot akan melihat sesuatu, tetapi apa gunanya? Di dasar sampel awal, nama yang diinginkan akan tidak ada, dan akan sulit untuk menyebutkan aksi rekaman robot. Dan untuk memberikan formulasi verbal terperinci untuk tindakan yang tidak disebutkan namanya, serta konsep-konsep abstrak lainnya, algoritma pengenalan gambar tidak dilatih.

Bahkan, kami memiliki duplikat paragraf pertama, tidak hanya berkenaan dengan objek, tetapi untuk konsep-konsep abstrak. Namun, sisa paragraf, sebelum dan sesudahnya, juga dapat dikaitkan dengan konsep abstrak - Saya hanya memperhatikan peningkatan tingkat kompleksitas ketika bekerja dengan abstraksi.

VI.
Keenam, hubungan kausal.

Bayangkan Anda sedang menonton truk pikap yang melayang di jalan dan menghancurkan pagar. Alasan bahwa pagar dihancurkan adalah gerakan pikap, dan pada gilirannya gerakan pikap menghasilkan penghancuran pagar.

- Aku melihatnya dengan mataku sendiri!
Ini adalah jawaban untuk pertanyaan apakah Anda melihat apa yang terjadi atau memikirkannya. Dan apa yang sebenarnya Anda lihat?

Beberapa item dalam dinamika tersebut:

  • sebuah truk pickup melaju di jalan
  • pickup mendekati pagar,
  • pagar telah berubah bentuk dan lokasi.

Berdasarkan persepsi visual, robot harus menyadari bahwa dalam kasus biasa, pagar tidak berubah bentuk dan lokasi: di sini ini terjadi sebagai akibat dari kontak dengan pickup. Penyebab-subjek dan efek-subjek harus bersentuhan satu sama lain, jika tidak, kausalitas tidak ada dalam hubungan mereka.

Meskipun di sini kita jatuh ke dalam perangkap logis, karena objek lain dapat bersentuhan dengan subjek-konsekuensi, bukan hanya subjek-alasan.

Misalkan, pada saat pikap menabrak gagak di pagar. Sebuah truk pickup dan gagak bersentuhan dengan pagar pada saat yang sama: bagaimana menentukan hasil kontak mana yang dihancurkan pagar?

Mungkin menggunakan pengulangan:

  • jika dalam setiap kasus, ketika gagak duduk di pagar, pagar dihancurkan, gagak yang harus disalahkan;
  • jika dalam setiap kasus ketika sebuah pickup menabrak pagar, pickup itu yang harus disalahkan.

Dengan demikian, kesimpulan bahwa pagar itu dihancurkan oleh sebuah pickup bukanlah pengamatan, tetapi hasil analisis berdasarkan pengamatan objek yang bersentuhan.

Di sisi lain, aksi dapat dilakukan pada jarak jauh, misalnya aksi magnet pada benda besi. Bagaimana robot menebak bahwa memindahkan magnet lebih dekat ke paku menyebabkan paku bergegas ke arah magnet? Gambar visual tidak seperti ini:

  • magnet mendekat, tetapi tidak bersentuhan dengan kuku,
  • pada saat yang sama, paku bergegas ke magnet atas inisiatifnya sendiri dan melakukan kontak dengannya.

Seperti yang Anda lihat, sangat sulit untuk melacak hubungan sebab-akibat, bahkan dalam kasus-kasus di mana saksi menyatakan dengan keyakinan besi bahwa ia melihatnya dengan matanya sendiri. Algoritma pengenalan gambar tidak berdaya di sini.

VII.
Ketujuh dan terakhir, ini adalah pilihan tujuan persepsi visual.

Gambar visual di sekitarnya dapat terdiri dari ratusan dan ribuan objek yang bersarang satu sama lain, banyak di antaranya secara konstan mengubah posisi spasial mereka dan karakteristik lainnya. Jelas, robot tidak perlu melihat setiap helai rumput di lapangan, namun, seperti setiap wajah di jalan kota: Anda hanya perlu melihat yang penting, tergantung pada tugas yang dilakukan.

Jelas, menyesuaikan algoritme pengenalan gambar dengan persepsi beberapa objek dan mengabaikan yang lain tidak akan berhasil, karena mungkin tidak diketahui sebelumnya apa yang harus diperhatikan dan apa yang harus diabaikan, terutama karena tujuan saat ini dapat berubah sepanjang jalan. Suatu situasi mungkin muncul ketika Anda pertama kali perlu melihat ribuan objek bersarang satu sama lain - masing-masing secara harfiah - untuk menganalisis dan hanya kemudian mengeluarkan vonis objek mana yang penting untuk menyelesaikan masalah saat ini dan yang tidak menarik. Beginilah cara orang memandang dunia di sekitarnya: ia hanya melihat yang penting, tidak memperhatikan peristiwa latar belakang yang tidak menarik. Bagaimana dia berhasil adalah rahasia.

Dan robot itu, bahkan dilengkapi dengan algoritme pengenalan gambar yang paling modern dan cerdik? ... Jika, selama serangan oleh alien Mars, dia memulai laporan dengan laporan cuaca dan melanjutkan dengan deskripsi lanskap baru yang tersebar di depannya, dia mungkin tidak punya waktu untuk melaporkan serangan itu sendiri.

Kesimpulan

  1. Pengenalan sederhana gambar visual tidak akan menggantikan mata manusia.
  2. Algoritma pengenalan gambar adalah alat bantu dengan cakupan yang sangat sempit.
  3. Agar robot dapat mulai tidak hanya berpikir, tetapi setidaknya melihatnya secara manusiawi, algoritma diperlukan tidak hanya untuk pengenalan pola, tetapi juga untuk pemikiran manusia yang sama tetapi juga tidak terjangkau.

Source: https://habr.com/ru/post/id450422/


All Articles