Dengan beberapa parameter, visi mesin lebih unggul daripada manusia. Menurut yang lain, mungkin itu tidak akan pernah bisa mengejar kita.

Ketika insinyur pertama kali memutuskan untuk mengajar komputer untuk melihat, mereka menerima begitu saja bahwa komputer akan melihat semuanya seperti yang dilakukan orang. Saran pertama untuk penglihatan komputer dari tahun 1960-an adalah "tampaknya termotivasi oleh karakteristik penglihatan manusia," kata
John Tsotsos , seorang ilmuwan komputer di York University.
Sejak itu, banyak yang berubah.
Visi komputer telah melampaui tahap kastil di udara dan berubah menjadi area yang aktif berkembang. Saat ini, komputer berada di depan orang dalam beberapa tugas pengenalan pola, misalnya, dalam klasifikasi gambar ("anjing atau serigala?") Atau deteksi anomali dalam foto-foto medis. Dan proses pemrosesan data visual oleh "jaringan saraf" semakin berbeda dari proses yang digunakan oleh orang-orang.
Komputer mengalahkan kami dalam permainan kami sendiri, memainkannya sesuai aturan lainnya.
Jaringan saraf yang mendasari visi komputer cukup sederhana. Mereka menerima gambar input dan memprosesnya dalam beberapa tahap. Pertama, mereka mengenali piksel, lalu wajah dan kontur, lalu seluruh objek, dan pada akhirnya mereka memberikan firasat tentang apa yang mereka selipkan. Sistem ini disebut jaringan saraf distribusi langsung karena operasinya mirip dengan konveyor.
Kami tidak tahu banyak tentang penglihatan manusia, tetapi kami tahu itu tidak bekerja seperti itu. Dalam sejarah baru-baru ini, "
Model Matematika Mengungkapkan Rahasia Visi, " kami menggambarkan model matematika baru yang mencoba menjelaskan misteri utama penglihatan manusia: bagaimana korteks visual otak menciptakan representasi dunia yang jelas dan akurat berdasarkan informasi yang diterima sedikit dari retina.
Model ini mengasumsikan bahwa korteks visual mampu bekerja karena urutan loop umpan balik saraf yang memproses perubahan kecil dalam data yang datang dari dunia luar menjadi beragam gambar yang muncul sebelum persepsi batin kita. Proses umpan balik ini sangat berbeda dari metode propagasi langsung yang bekerja dengan visi komputer.
"Karya ini menunjukkan betapa kompleksnya korteks visual, dan dalam beberapa hal, berbeda" dari visi komputer, kata
Jonathan Victor , seorang ilmuwan saraf di Cornell University.
Namun, dalam beberapa tugas, visi komputer lebih unggul daripada manusia. Muncul pertanyaan: apakah perlu untuk membangun skema visi komputer berdasarkan pada manusia?
Dalam arti tertentu, jawabannya adalah negatif. Informasi yang mencapai korteks visual dibatasi oleh anatomi: sejumlah kecil saraf menghubungkan korteks visual ke dunia luar, yang membatasi jumlah data visual yang harus dikerjakan dengan korteks visual. Komputer tidak memiliki masalah bandwidth seperti itu, jadi tidak ada alasan bagi mereka untuk bekerja dengan kurangnya informasi.
โJika saya memiliki kekuatan komputasi yang tak terbatas dan memori yang tak terbatas, apakah saya perlu membatasi aliran informasi? Mungkin tidak, โkata Tsotsos. Namun, ia berpikir bahwa mengabaikan visi manusia itu tidak bijaksana.
Tugas klasifikasi di mana komputer telah berhasil hari ini terlalu sederhana untuk visi komputer, katanya. Untuk berhasil memecahkan masalah ini, Anda hanya perlu menemukan korelasi dalam kumpulan data besar. Untuk tugas-tugas yang lebih kompleks, seperti memeriksa objek dari sudut pandang yang berbeda untuk mengenalinya (kira-kira bagaimana seseorang berkenalan dengan patung, mengelilinginya dari sisi yang berbeda), korelasi seperti itu mungkin tidak cukup. Untuk eksekusi yang tepat, komputer mungkin harus belajar dari seseorang.
Tahun lalu,
dalam sebuah wawancara dengan majalah kami, pelopor kecerdasan buatan,
Judah Pearl, berbicara tentang hal yang sama dalam konteks yang lebih umum, dengan alasan bahwa pelatihan korelasi tidak akan cukup untuk pengembangan sistem AI dalam jangka panjang.
Sebagai contoh, fitur utama dari visi manusia adalah reaksi yang tertunda. Kami memproses informasi visual dan sampai pada kesimpulan tentang apa yang kami lihat. Ketika kesimpulan ini tidak sesuai dengan kita, kita melihat apa yang terjadi lagi, dan seringkali tampilan kedua ini lebih akurat memberi tahu kita apa yang sedang terjadi. Sistem visi komputer yang beroperasi sesuai dengan skema distribusi langsung tidak memiliki kesempatan seperti itu, karena itu mereka sering gagal total bahkan tugas yang paling sederhana yaitu pengenalan pola.
Visi manusia memiliki aspek lain, kurang jelas dan lebih penting yang tidak dimiliki oleh visi komputer.
Sistem visual manusia telah meningkat selama bertahun-tahun. Dalam
karya 2019 , yang ditulis Tsotsos dengan rekan-rekannya, ditemukan bahwa kemampuan untuk menekan keributan dalam adegan terlalu jenuh dengan detail dan fokus pada apa yang mereka butuhkan hanya muncul pada orang-orang hanya pada usia sekitar 17 tahun. Peneliti lain telah menemukan bahwa kemampuan mengenali wajah terus meningkat hingga 20 tahun.
Sistem visi komputer bekerja dengan mencerna data dalam jumlah besar. Arsitektur yang mendasarinya adalah tetap dan tidak berubah seiring waktu seperti yang terjadi di otak. Dan jika mekanisme pembelajaran yang mendasarinya sangat berbeda, apakah hasilnya akan berbeda? Tsotsos percaya bahwa sistem visi komputer pada akhirnya menunggu perhitungan.
โBelajar dari metode pembelajaran yang mendalam ini adalah sejauh mungkin dari pembelajaran manusia,โ katanya. "Karena itu, bagiku jalan buntu menunggu mereka." Mereka akan mencapai batas perkembangan yang tidak bisa mereka lewati. โ