Jaringan saraf belajar menilai buku dari sampulnya

Ungkapan gigih "jangan menilai buku dari sampulnya" memperingatkan untuk tidak mengevaluasi sesuatu atau seseorang hanya dari penampilan mereka. Tetapi ketika pembaca melihat buku itu, semuanya terjadi: kenalan biasanya dimulai dengan sampul. Dialah yang meninggalkan kesan pertama dari konten dan mulai menarik sejarah dalam pikiran seseorang. Sampul yang bagus hanya dibuat untuk dihakimi.

Orang-orang melakukan pekerjaan yang hebat dalam menentukan genre dengan nyaris tidak melirik desain visual sebuah buku. Setuju bahwa memilih buku masak, biografi, atau buku panduan hanya dengan melihat sampulnya cukup mudah. Kemudian muncul pertanyaan yang menarik: dapatkah kecerdasan buatan sama berhasil menilai sebuah buku dari sampulnya sebagai pribadi?

Ilmuwan dari Universitas Kyushu di Jepang mencoba mendapatkan jawaban . Mereka menempatkan di depan jaringan saraf convolutional ( CNN) tugas mempelajari sampul buku dan menentukan kategori yang terkait. Metode pelatihan ternyata cukup sederhana: para peneliti mengunduh lebih dari 13,5 ribu sampul dari Amazon.com bersama dengan judul, nama penulis, dan genre buku tersebut. Selain mendefinisikan kategori, set data ini dapat berguna di masa depan untuk pelatihan jaringan saraf dalam mengenali dan menganalisis font dan memecahkan masalah desain lainnya. Dalam percobaan mereka, para ilmuwan hanya menggunakan genre, membuang semua data lain dari set. Jaringan saraf dipahami dalam 20 kemungkinan genre. Jika buku itu diulang dalam beberapa kategori sekaligus, para ilmuwan hanya menunjukkan yang pertama.



Tim peneliti kemudian menggunakan 80% dari set data untuk melatih jaringan saraf untuk mengenali genre berdasarkan gambar sampul. Jaringan saraf yang mereka gunakan dalam percobaan mereka terdiri dari empat lapisan, di mana masing-masing ada 512 neuron. Bersama-sama, mereka belajar menentukan korelasi antara desain sampul dan genre. Lain 10% dari kumpulan data pergi untuk memeriksa jaringan. Pada tahap akhir, 10% sisanya digunakan untuk menentukan seberapa baik jaringan dapat mengklasifikasikan gambar yang tidak dikenal.

Hasilnya cukup menarik. Algoritma dengan tepat menentukan tiga genre yang paling sering ditemui dalam 40% kasus. Dengan semua genre lain, akurasi sekitar 20%. Ini jauh lebih baik daripada hanya kecelakaan. Operasi yang relatif benar dari jaringan saraf menunjukkan bahwa klasifikasi buku dengan sampul adalah tugas nyata, meskipun sulit.

Beberapa genre terbukti lebih mudah dikenali daripada yang lain. Misalnya, buku perjalanan atau buku tentang komputer dan teknologi relatif mudah untuk didefinisikan, karena desainer biasanya menggunakan gambar sampul yang memiliki arti yang hampir sama. Selain itu, para ilmuwan menemukan bahwa jaringan saraf dengan mudah mengenali buku resep jika foto digunakan dalam desain mereka.



Namun, jaringan saraf mulai meragukan apakah itu layak muncul di sampul foto seorang juru masak atau benda lain yang secara tidak langsung berkaitan dengan memasak.

Biografi dan memoar juga menyebabkan kesulitan dalam jaringan saraf: sangat sering buku-buku seperti itu dikirim ke kategori sejarah. Menariknya, bagi banyak buku ini, sejarahlah yang menjadi genre sekunder di Amazon.com. Karena itu, tidak dapat dikatakan bahwa algoritma itu 100% salah.



CNN juga membingungkan buku anak-anak dengan komik dan novel grafis, serta buku-buku medis dengan buku teks matematika. Ini tidak mengherankan, mengingat kesamaan tertentu antara kategori-kategori ini. Jaringan itu juga keliru dengan buku-buku dalam hukum dan agama yang intinya berbeda, tetapi dalam desain yang serupa. Biasanya sampul mereka dibuat dalam satu warna tanpa gambar, atau dengan gambar abstrak.

Karya yang disajikan oleh para ilmuwan Jepang memiliki satu kelemahan signifikan. Mereka tidak membandingkan kinerja jaringan saraf mereka dengan kemampuan seseorang untuk mengidentifikasi genre berdasarkan sampulnya. Ini akan menjadi eksperimen yang menarik, yang akan mudah diatur oleh crowdsourcing platform online. Dan sampai percobaan ini dilakukan, kita tidak akan tahu apakah kecerdasan buatan mengatasi tugas dengan lebih baik daripada seseorang. Namun terlepas dari kelalaian yang mengganggu ini, tidak peduli seberapa baik kita dapat mendefinisikan genre berdasarkan sampul, suatu hari mobil akan dapat melakukannya lebih cepat. Ini hanya masalah waktu saja.

Namun, hasil dari penelitian ini patut diperhatikan. Ini dapat membantu desainer meningkatkan keterampilan mereka ketika datang ke sampul buku. Anda dapat melangkah lebih jauh dan mengajarkan teknik mendesain sampul tanpa campur tangan manusia. Di masa depan, ini mungkin berarti bahwa membuat desain sampul oleh seseorang adalah tugas lain yang akan masuk ke arsip sejarah.

Desain grafis telah menjadi objek pembelajaran mesin relatif baru. Pengalaman paling terkenal dalam aplikasi praktis jaringan saraf dikaitkan, pertama-tama, dengan pengakuan gaya artistik dari penulis lukisan terkenal dan transfernya lebih lanjutke gambar lain. Para peneliti dari Universitas Kyushu mengejar tujuan yang sama, tetapi melangkah lebih jauh: mereka mencoba mengungkap makna tersembunyi di balik gaya desain. Jika kita berbicara tentang klasifikasi, sudah ada upaya untuk mengajarkan jaringan saraf untuk mengurutkan musik , gambar , teks berdasarkan genre.

Karya ilmiah diterbitkan di arXiv.org ( ArXiv: 1610.09204 [cs.CV])

Source: https://habr.com/ru/post/id398965/


All Articles