Jaringan saraf menghasilkan gambar hidangan sesuai dengan resep untuk persiapan mereka


Perbandingan foto asli (di atas), gambar yang dihasilkan dengan regularisasi semantik (baris tengah) dan tanpa itu

Sebuah tim peneliti dari Universitas Tel Aviv telah mengembangkan jaringan saraf yang dapat menghasilkan gambar hidangan sesuai dengan resep tekstual mereka. Dengan demikian, seorang ibu rumah tangga dapat melihat terlebih dahulu apa yang akan terjadi sebagai hasilnya, jika satu atau beberapa poin dari resep diubah: tambahkan bahan baru atau hapus beberapa yang sudah ada. Pada prinsipnya, karya ilmiah ini adalah ide yang baik untuk aplikasi komersial, terutama karena kode sumber program ini diterbitkan dalam domain publik .

Jaringan saraf adalah versi modifikasi dari jaringan permusuhan generatif (GAN) yang disebut StackGAN V2. Pelatihan berlangsung di basis besar 52 ribu pasang gambar / resep dari dataset resep1M.

Pada prinsipnya, jaringan saraf dapat mengambil hampir semua daftar bahan dan instruksi - bahkan kombinasi yang fantastis - dan mencari tahu seperti apa produk akhirnya.

“Semuanya berawal ketika saya meminta resep nenek saya untuk roti ikan legendarisnya dengan saus tomat,” kata Ori Bar El, penulis utama makalah itu. "Karena usianya yang lanjut, dia tidak ingat resep pastinya." Tapi saya bertanya-tanya apakah mungkin untuk membangun sistem yang menampilkan resep dari gambar makanan. Setelah memikirkan tugas ini, saya sampai pada kesimpulan bahwa terlalu sulit bagi sistem untuk mendapatkan resep yang akurat dengan bahan-bahan nyata dan “tersembunyi”, seperti garam, merica, mentega, tepung, dll. Lalu saya bertanya-tanya apakah itu bisa dilakukan sebaliknya. Yakni, menghasilkan gambar produk berdasarkan resep. Kami percaya bahwa tugas ini sangat sulit bagi orang-orang, terutama untuk komputer. Karena sebagian besar sistem kecerdasan buatan modern mencoba menggantikan para ahli dalam tugas-tugas yang sederhana bagi manusia, kami pikir akan menarik untuk menyelesaikan masalah yang bahkan melampaui kemampuan manusia. Seperti yang Anda lihat, ini bisa dilakukan dengan beberapa keberhasilan. "

Menghasilkan gambar dari teks adalah tugas kompleks yang memiliki banyak aplikasi penglihatan komputer. Pekerjaan terbaru menunjukkan bahwa jaringan permusuhan generatif (GAN) sangat efektif dalam mensintesis gambar realistis berkualitas tinggi dari set data variabilitas rendah dan beresolusi rendah.

Juga diketahui bahwa jaringan cGAN menghasilkan gambar yang menarik langsung dari deskripsi tekstual. Baru-baru ini, sebagai bagian dari studi ilmiah, dataset resep1M diterbitkan yang berisi 800 ribu pasang resep dan gambar yang sesuai (lihat A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, dan A. Torralba. Mempelajari penanaman modal silang untuk resep masakan dan gambar makanan. Dalam Prosiding Konferensi IEEE tentang Penglihatan Komputer dan Pengenalan Pola , 2017). Perangkat ini memiliki variabilitas tinggi karena variasi kategori makanan berdasarkan kategori. Selain itu, teks kompleks dari dua bagian (bahan dan instruksi) dilampirkan pada gambar. Secara total, bagian teks dapat berisi puluhan baris.

Dengan set data yang sangat baik, para ilmuwan dari Universitas Tel Aviv hanya bisa melatih jaringan saraf. Mereka menggabungkan akumulasi pengetahuan di bidang jaringan kompetitif generatif dan kumpulan data yang diterbitkan.

Peneliti mengakui bahwa sistemnya belum sempurna. Masalahnya adalah bahwa kumpulan data asli diwakili oleh gambar dengan resolusi yang relatif kecil 256 × 256 piksel, dan seringkali berkualitas buruk, ada banyak gambar dengan kondisi pencahayaan yang buruk, gambar seperti bubur dan gambar berbentuk persegi (yang menyulitkan pelatihan model). Fakta ini menjelaskan mengapa kedua model cGAN yang dikembangkan berhasil menciptakan produk makanan "seperti bubur" (misalnya, pasta, nasi, sup, salad), tetapi sangat sulit bagi mereka untuk menghasilkan gambar makanan dengan bentuk yang berbeda, berbeda (misalnya, hamburger atau ayam).

Di masa depan, penulis bermaksud untuk terus bekerja dengan mengajarkan sistem sisa resep (sekitar 350 ribu gambar tetap dalam set data yang sesuai). Namun, ini tidak meniadakan fakta bahwa foto-foto yang tersedia berkualitas buruk. Oleh karena itu, mereka memungkinkan kemungkinan membuat set Anda sendiri berdasarkan pada teks buku anak-anak dan gambar terkait.

Artikel ilmiah ini diterbitkan pada 8 Januari 2019 di situs pracetak arXiv.org (arXiv: 1901.02404).

Source: https://habr.com/ru/post/id435924/


All Articles