Jaringan saraf Pix2pix secara realistis mewarnai sketsa pensil dan foto hitam putih
Empat contoh program, yang kodenya diterbitkan dalam domain publik. Gambar sumber ditampilkan di sebelah kiri, dan hasil pemrosesan otomatis ditampilkan di sebelah kanan.Banyak tugas dalam pemrosesan gambar, grafik komputer, dan visi komputer dapat direduksi menjadi tugas "menerjemahkan" satu gambar (pada input) ke yang lain (pada output). Sama seperti teks yang sama dapat direpresentasikan dalam bahasa Inggris atau Rusia, sehingga gambar dapat direpresentasikan dalam warna RGB, dalam gradien, sebagai peta batas objek, peta label semantik, dll. Berdasarkan model sistem terjemahan otomatis, pengembang dari Berkeley AI Research Laboratory (BAIR) dari University of California di Berkeley membuat aplikasiuntuk secara otomatis menyiarkan gambar dari satu tampilan ke tampilan lainnya. Misalnya, dari sketsa hitam putih ke gambar penuh warna.Bagi orang yang tidak mendapat informasi, pekerjaan program semacam itu akan tampak ajaib, tetapi didasarkan pada model program jaringan permusuhan generatif bersyarat (cGAN) - varietas dari jenis jaringan permusuhan generatif (GAN) yang dikenal.Para penulis karya ilmiah menulis bahwa sebagian besar masalah yang muncul ketika menerjemahkan gambar terkait dengan terjemahan "banyak ke satu" (visi komputer - menerjemahkan foto ke dalam peta semantik, segmen, batas objek, dll.), Atau "satu ke banyak" "(Grafik komputer - terjemahan label atau input data dari pengguna dalam gambar realistis). Secara tradisional, masing-masing tugas ini dilakukan oleh aplikasi khusus yang terpisah. Dalam karya mereka, penulis mencoba membuat kerangka universal tunggal untuk semua masalah tersebut. Dan mereka melakukannya.Jaringan saraf convolutional yang dilatih untuk meminimalkan fungsi kerugian sangat bagus untuk menyiarkan gambar., yaitu ukuran perbedaan antara nilai sebenarnya dari estimasi parameter dan estimasi parameter. Meskipun pelatihan itu sendiri berlangsung secara otomatis, namun, pekerjaan manual yang signifikan diperlukan untuk secara efektif meminimalkan fungsi kerugian. Dengan kata lain, kita masih perlu menjelaskan dan menunjukkan jaringan saraf apa yang secara khusus perlu diminimalkan. Dan di sini ada banyak jebakan yang mempengaruhi hasil, jika kita bekerja dengan fungsi kehilangan tingkat rendah seperti "meminimalkan jarak Euclidean antara piksel yang diprediksi dan yang sebenarnya" - ini akan menyebabkan generasi gambar buram.
Efek dari berbagai fungsi kerugian pada hasilnyaAkan lebih mudah untuk mengatur jaringan saraf untuk tugas-tugas tingkat tinggi seperti "menghasilkan gambar yang tidak bisa dibedakan dari kenyataan", dan kemudian secara otomatis melatih jaringan saraf untuk meminimalkan fungsi kehilangan yang paling baik melakukan tugas. Ini adalah cara kerja jaringan permusuhan generatif (GAN) - salah satu bidang yang paling menjanjikan dalam pengembangan jaringan saraf saat ini. Jaringan GAN melatih fungsi kehilangan, yang tugasnya untuk mengklasifikasikan gambar sebagai "nyata" atau "palsu," sambil melatih model generatif untuk meminimalkan fungsi ini. Di sini, gambar buram tidak dapat diproduksi dengan cara apa pun, karena mereka tidak akan lulus pemeriksaan klasifikasi sebagai "nyata".Pengembang menggunakan conditional generative adversarial networks (cGAN) untuk tugas tersebut, yaitu GAN dengan parameter bersyarat. Seperti halnya GAN mengasimilasi model data generatif, cGAN juga mengasimilasi model generatif dalam kondisi tertentu, yang membuatnya cocok untuk menyiarkan gambar "satu ke satu".
Siarkan tata letak Cityscapes ke foto yang realistis. Di sebelah kiri adalah markup, di tengah adalah yang asli, dan di sebelah kanan adalah gambar yang dihasilkan.Selama dua tahun terakhir, banyak aplikasi GAN telah dijelaskan dan dasar teoritis dari pekerjaan mereka telah dipelajari dengan baik. Namun dalam semua karya ini, GAN hanya digunakan untuk tugas khusus (misalnya, generasi gambar yang menakutkan atau generasi gambar porno)) Tidak sepenuhnya jelas bagaimana GAN cocok untuk terjemahan efisien gambar satu-ke-satu. Tujuan utama dari pekerjaan ini adalah untuk menunjukkan bahwa jaringan saraf seperti itu mampu melakukan daftar besar berbagai tugas, menunjukkan hasil yang cukup dapat diterima.Misalnya, pewarnaan sketsa pensil hitam dan putih (kolom kiri) terlihat sangat bagus, atas dasar di mana jaringan saraf menghasilkan gambar fotorealistik (kolom kanan). Dalam beberapa kasus, hasil pengoperasian jaringan saraf tampaknya bahkan lebih realistis daripada foto nyata (kolom pusat, untuk perbandingan).
Keluarkan sketsa pensil ke foto realistis. Di sebelah kiri adalah gambar pensil, di tengah adalah asli, dan di sebelah kanan adalah gambar yang dihasilkan.Terjemahan
sketsa pensil menjadi foto yang realistis.Seperti dalam jaringan generatif lainnya, dalam GAN ini jaringan saraf berperang di antara mereka sendiri . Salah satunya (generator) sedang mencoba membuat gambar palsu untuk mengelabui yang lain (diskriminator). Seiring waktu, generator belajar untuk mengelabui pembeda dengan lebih baik, yaitu menghasilkan gambar yang lebih realistis. Tidak seperti GAN konvensional, dalam Pix2Pix baik diskriminator dan generator memiliki akses ke gambar asli.
Melatih cGAN untuk memprediksi foto udara dari peta terrain
Contoh pekerjaan cGAN dalam menerjemahkan foto udara ke peta terrain dan sebaliknya.Artikel ilmiah diterbitkan dalam domain publik, kode sumber untuk Pix2pix ada di GitHub . Para penulis menawarkan semua orang untuk mengalami program ini.Source: https://habr.com/ru/post/id399469/
All Articles