Anehnya, para peneliti dengan algoritma penglihatan komputer pembelajaran dalam sering gagal untuk mengklasifikasikan gambar karena mereka terutama berfokus pada tekstur daripada bentuk.

Jika Anda melihat foto kucing, dengan kemungkinan besar Anda akan dapat mengenali hewan ini, terlepas dari apakah itu merah atau bergaris - atau bahkan jika foto itu hitam dan putih, ternoda, babak belur, atau ternoda. Anda mungkin bisa melihat kucing ketika ia meringkuk di belakang bantal atau melompat ke atas meja, hanya mewakili bentuk buram. Anda secara alami belajar mengenali kucing dalam hampir semua situasi. Tetapi sistem penglihatan mesin berdasarkan jaringan saraf yang dalam, meskipun kadang-kadang dapat memberi orang tugas-tugas pengenalan kucing dalam kondisi tetap, dapat dikacaukan dengan gambar yang setidaknya sedikit berbeda dari apa yang mereka ketahui, atau yang mengandung noise atau grit yang kuat.
Dan sekarang para peneliti Jerman telah menemukan alasan yang tidak terduga untuk hal ini: jika orang memperhatikan bentuk objek yang digambarkan, visi komputer dengan pembelajaran mendalam melekat pada tekstur objek.
Penemuan ini, dipresentasikan pada bulan Mei di sebuah konferensi internasional tentang representasi pembelajaran, menekankan perbedaan tajam antara "pemikiran" orang dan mesin, dan menggambarkan betapa salahnya kita dalam memahami bagaimana AI bekerja. Dan itu juga dapat memberi tahu kita mengapa visi kita menjadi demikian sebagai hasil evolusi.
Kucing gading dan menonton pesawat terbang
Algoritma pembelajaran mendalam bekerja dengan menggerakkan ribuan gambar melalui jaringan saraf yang memiliki kucing atau tidak. Sistem mencari pola dalam data ini, yang kemudian digunakan untuk memberi tanda terbaik pada gambar yang belum pernah ditemukan sebelumnya. Arsitektur jaringan agak mirip dengan struktur sistem visual manusia, karena telah menghubungkan lapisan yang memungkinkannya untuk mengekstraksi fitur-fitur yang lebih abstrak dari gambar. Namun, proses membangun sistem asosiasi yang mengarah ke jawaban yang benar adalah kotak hitam yang orang hanya bisa coba tafsirkan setelah fakta. "Kami mencoba memahami apa yang mengarah pada keberhasilan algoritma penglihatan komputer pembelajaran mendalam ini, dan mengapa mereka sangat rentan," kata
Thomas Ditterich , seorang spesialis IT di University of Oregon yang tidak berafiliasi dengan penelitian ini.
Beberapa peneliti lebih suka mempelajari apa yang terjadi ketika mereka mencoba menipu jaringan dengan sedikit mengubah gambar. Mereka menemukan bahwa bahkan perubahan kecil dapat menyebabkan sistem menandai gambar secara tidak benar - dan perubahan besar
mungkin tidak menyebabkan label berubah. Sementara itu, para ahli lain melacak perubahan dalam sistem untuk menganalisis bagaimana masing-masing neuron merespons gambar, dan menyusun "
atlas aktivasi " berdasarkan atribut yang telah dipelajari sistem.
Tetapi sekelompok ilmuwan dari laboratorium ahli neurobiologi komputasi
Matias Betge dan psikofisiologis
Felix Wichmann dari Universitas Tübingen di Jerman memilih pendekatan kualitatif. Tahun lalu,
tim melaporkan bahwa ketika melatih gambar yang diubah oleh noise dari jenis tertentu, jaringan mulai mengenali gambar lebih baik daripada orang yang mencoba membuat gambar berisik yang sama. Namun, gambar yang sama, dimodifikasi sedikit berbeda, benar-benar membingungkan jaringan, meskipun bagi orang-orang distorsi baru tampak hampir sama dengan yang lama.
Robert Geyros, Mahasiswa Pascasarjana Neurobiologi Komputasi dari University of TübingenUntuk menjelaskan hasil ini, para peneliti bertanya-tanya kualitas gambar mana yang paling berubah bahkan dengan penambahan sedikit noise. Pilihan yang jelas adalah tekstur. "Bentuk objek tetap kurang lebih tanpa cedera jika Anda menambahkan banyak suara untuk waktu yang lama," kata
Robert Geyros , seorang mahasiswa pascasarjana di laboratorium Betge dan Wichmann, penulis utama penelitian ini. Tetapi "struktur gambar lokal terdistorsi dengan sangat cepat ketika sejumlah kecil noise ditambahkan." Jadi mereka datang dengan cara yang sulit untuk menguji bagaimana sistem visual mesin dan orang memproses gambar.
Geyros, Betge dan rekan-rekan mereka menciptakan gambar dengan dua fitur yang saling bertentangan, mengambil bentuk dari satu objek dan tekstur dari yang lain: misalnya, siluet kucing dicat dengan tekstur kulit gajah abu-abu, atau beruang yang terbuat dari kaleng aluminium, atau siluet pesawat penuh dengan tumpang tindih satu sama lain dengan gambar cepat. Orang memberi label pada ratusan gambar seperti itu berdasarkan bentuknya - kucing, beruang, pesawat - hampir setiap waktu, sebagaimana dimaksud. Namun, empat algoritma klasifikasi berbeda condong ke arah yang berlawanan, memberikan label yang mencerminkan tekstur objek: gajah, kaleng, jam tangan.
"Ini mengubah pemahaman kita tentang seberapa dalam jaringan saraf dengan distribusi langsung - tanpa pengaturan tambahan, setelah proses pembelajaran yang biasa - mengenali gambar," kata
Nikolaus Kriegscorte , seorang ahli saraf komputasi di Universitas Columbia yang tidak terlibat dalam penelitian ini.
Sekilas, preferensi untuk tekstur AI di atas bentuk mungkin tampak aneh, tetapi masuk akal. "Tekstur sedikit bentuk resolusi tinggi," kata Kriegscorte. Dan lebih mudah bagi sistem untuk melekat pada skala seperti itu: jumlah piksel dengan informasi tekstur secara signifikan melebihi jumlah piksel yang membentuk batas objek, dan langkah pertama jaringan terkait dengan pengenalan fitur-fitur lokal, seperti garis dan wajah. "Itulah teksturnya," kata
John Tsotsos , spesialis penglihatan komputer di York University di Toronto yang tidak terkait dengan penelitian ini. "Misalnya, pengelompokan segmen yang berbaris dengan cara yang sama."
Geyros dan rekannya menunjukkan bahwa tanda-tanda lokal ini cukup bagi jaringan untuk melakukan klasifikasi. Ini adalah bukti Betge dan penulis studi lain, postdoc
Wiland Brendel , dibawa ke tampilan selesai dalam
pekerjaan , yang juga dipresentasikan pada konferensi Mei. Dalam pekerjaan itu, mereka membangun sistem pembelajaran yang dalam yang bekerja dengan cara yang sama seperti algoritma klasifikasi bekerja sebelum penyebaran pembelajaran yang mendalam - berdasarkan pada prinsip “tas atribut”. Algoritma memecah gambar menjadi fragmen kecil, seperti model saat ini (seperti Geyros digunakan dalam eksperimennya), tetapi kemudian, alih-alih secara bertahap mengintegrasikan informasi ini untuk mengekstraksi tanda-tanda tingkat abstraksi yang lebih tinggi, algoritma segera membuat asumsi tentang isi dari masing-masing bagian ( "Di bagian ini ada bukti sepeda, dalam hal ini - bukti burung"). Dia hanya melipat semua keputusan untuk menentukan objek ("jika lebih banyak potongan berisi tanda-tanda sepeda, maka ini adalah sepeda"), tidak memperhatikan hubungan spasial potongan-potongan itu. Namun dia mampu mengenali objek dengan akurasi tinggi yang tidak terduga.
"Pekerjaan ini menantang asumsi bahwa pembelajaran mendalam melakukan sesuatu yang sama sekali berbeda," dari model sebelumnya, kata Brendel. "Jelas, lompatan besar telah dibuat. Saya hanya mengatakan bahwa itu tidak sebesar yang beberapa orang harapkan. "
Menurut Amir Rosenfeld, seorang postdoc dari York University dan University of Toronto, yang tidak berpartisipasi dalam penelitian ini, "ada perbedaan besar antara apa yang seharusnya jaringan saraf, menurut pendapat kami, dan apa yang mereka lakukan," termasuk seberapa baik mereka mengelola mereproduksi perilaku manusia.
Pretzel berbicara dengan nada yang sama. Sangat mudah untuk mengasumsikan bahwa jaringan saraf akan menyelesaikan masalah dengan cara yang sama seperti orang, katanya. "Namun, kami terus-menerus melupakan keberadaan metode lain."
Pergeseran menuju pandangan yang lebih manusiawi
Metode pembelajaran mendalam modern dapat mengintegrasikan fitur-fitur lokal, seperti tekstur, ke dalam pola yang lebih global, seperti formulir. "Apa yang secara tak terduga dan sangat meyakinkan ditunjukkan dalam karya-karya ini - meskipun arsitektur memungkinkan Anda untuk mengklasifikasikan gambar standar, ini tidak terjadi secara otomatis jika Anda hanya melatih jaringan tentang ini," kata Kriegescorte.
Geyros ingin melihat apa yang terjadi jika tim memaksa model untuk mengabaikan tekstur. Tim mengambil gambar yang secara tradisional digunakan untuk pelatihan algoritma klasifikasi dan melukisnya dalam gaya yang berbeda, menghilangkan mereka dari informasi tekstur yang berguna. Ketika mereka melatih kembali setiap model dalam gambar-gambar baru, sistem mulai bergantung pada pola global yang lebih besar, dan menunjukkan kecenderungan yang lebih besar terhadap pengenalan pola, yang lebih mirip manusia.
Wieland Brendel, Ilmuwan Saraf Komputasi di University of Tübingen di JermanDan setelah itu, algoritma mulai lebih mengklasifikasikan gambar yang bising, bahkan ketika mereka tidak dilatih untuk menangani distorsi semacam itu. "Jaringan pengenalan bentuk telah menjadi benar-benar lebih dapat diandalkan secara gratis," kata Geyros. "Ini menunjukkan bahwa bias yang tepat untuk melakukan tugas-tugas tertentu, dalam kasus kami, kecenderungan untuk menggunakan formulir, membantu untuk menggeneralisasi pengetahuan dengan kondisi baru."
Ini juga menunjukkan bahwa pada manusia kecenderungan seperti itu dapat terbentuk secara alami, karena penggunaan bentuk adalah cara yang lebih dapat diandalkan untuk mengenali apa yang kita lihat dalam kondisi baru atau bising. Orang hidup di dunia tiga dimensi, di mana objek terlihat dari banyak sudut di bawah berbagai kondisi, dan di mana perasaan kita yang lain, seperti sentuhan, secara opsional dapat melengkapi pengenalan objek. Oleh karena itu, untuk visi kami, masuk akal untuk menempatkan bentuk tekstur prioritas. Selain itu, beberapa psikolog telah menunjukkan hubungan antara bahasa, pembelajaran, dan kecenderungan untuk menggunakan bentuk: ketika anak-anak diajarkan untuk lebih memperhatikan bentuk ketika mempelajari kategori kata tertentu, kemudian mereka mampu mengembangkan kosakata kata benda yang jauh lebih luas daripada yang lain.
Karya ini berfungsi sebagai pengingat bahwa "data memiliki efek yang lebih kuat pada prasangka dan bias model daripada yang kita duga," kata Wichman. Ini bukan pertama kalinya para peneliti menghadapi masalah ini: telah ditunjukkan bahwa program pengenalan wajah, pencarian resume otomatis, dan jaringan saraf lainnya memberikan terlalu banyak tanda penting yang tak terduga karena prasangka yang berakar dalam pada data di mana mereka dilatih. Menghilangkan prasangka yang tidak diinginkan dari proses pengambilan keputusan terbukti menjadi tugas yang sulit, tetapi Wichman mengatakan pekerjaan baru menunjukkan bahwa ini mungkin pada prinsipnya, dan menggembirakan.
Namun demikian, bahkan model Geyros yang fokus pada formulir dapat dikelabui dengan menambahkan terlalu banyak noise pada gambar, atau dengan mengubah piksel tertentu, yang berarti mereka masih memiliki jalan panjang untuk mencapai kualitas yang sebanding dengan visi manusia. Dalam nada yang sama, sebuah karya baru oleh Rosenfeld, Tsotsos dan Marcus Solbach, seorang mahasiswa pascasarjana dari laboratorium Tsotsos, menunjukkan bahwa algoritma pembelajaran mesin tidak mampu menangkap kesamaan gambar yang berbeda dengan cara yang sama seperti orang. Namun demikian, karya-karya tersebut "membantu menunjukkan dengan tepat di mana aspek-aspek yang model-model ini belum mereproduksi aspek-aspek penting dari otak manusia," kata Kriegscorte. Dan Wichman mengatakan bahwa "dalam beberapa kasus, mungkin lebih penting untuk memeriksa kumpulan data."
Sanya Fiedler, seorang spesialis IT di University of Toronto yang tidak berpartisipasi dalam penelitian ini, setuju. "Adalah tugas kita untuk mengembangkan data pintar," katanya. Dia dan rekan-rekannya mengeksplorasi bagaimana tugas tambahan dapat membantu jaringan saraf meningkatkan kualitas tugas inti mereka. Terinspirasi oleh penemuan Geyros, mereka baru-baru ini melatih algoritma klasifikasi gambar tidak hanya untuk mengenali objek itu sendiri, tetapi juga untuk menentukan piksel mana yang termasuk dalam kontur mereka. Dan jaringan secara otomatis menjadi lebih baik dalam mengenali objek. "Jika Anda hanya diberi satu tugas, maka hasilnya adalah perhatian dan kebutaan selektif sehubungan dengan banyak hal lainnya," kata Fiedler. "Jika saya memberi Anda beberapa tugas, Anda akan belajar tentang berbagai hal, dan ini mungkin tidak terjadi." Itu sama dengan algoritma ini. " Memecahkan berbagai masalah membantu mereka "mengembangkan kecenderungan untuk berbagai informasi", yang mirip dengan apa yang terjadi dalam percobaan Geyros dengan bentuk dan tekstur.
Semua studi ini adalah "langkah yang sangat menarik untuk memperdalam pemahaman kita tentang apa yang terjadi dengan pembelajaran mendalam, dan mungkin itu akan membantu kita mengatasi keterbatasan yang kita hadapi," kata Dietrich. "Karena itulah aku suka seri pekerjaan ini."