Jaringan Google Neural Secara Acak Gaya Gambar Real-Time


Jaringan saraf Google menempatkan di antara 32 gaya terlatih pada foto (lima ditampilkan di sini). Program ini tidak menuntut perangkat keras dan memori. Kode ini akan segera diterbitkan

Sintesis tekstur dengan transfer gaya dari satu gambar ke yang lain - teknik terkenal yang berusia 15 tahun. Ini pertama kali dijelaskan dalam artikel " Analogies dalam Gambar " oleh sekelompok peneliti dari Microsoft Research untuk konferensi SIGGRAPH 2001, serta dalam artikel " Padding gambar untuk sintesis dan transfer tekstur " dari Mitsubishi Electric Research dan University of California di Berkeley pada tahun yang sama 2001. Sekarang sulit untuk mengatakan mana yang muncul sebelumnya.

Pada 2015, teknik ini menerima kehidupan kedua, ketika jaringan saraf terhubung ke sintesis gambar dengan transfer gaya. Itu terjadi setelah karya ilmiah " neuroalgorithms gaya artistik " Getisa, Ecker dan Bethge dari Universitas Eberhard Karls-Tuebingen, Jerman ( artikel tentang Geektimes ). Pekerjaan ini sangat mengesankan sehingga algoritma yang dijelaskan segera diimplementasikan dalam beberapa program komputer untuk pasar konsumen, termasuk aplikasi mobile seperti Prisma Rusia (Juni 2016).

Karya Gatis, Ecker dan Betge bagus karena penulis melatih jaringan saraf pada karya-karya seniman terkenal yang ada: Vincent Van Gogh, Pablo Picasso, Edward Munch dan lainnya. Pada saat yang sama, jaringan saraf dapat terus dilatih pada set data lainnya, jadi ini adalah alat universal. Ini adalah jaringan saraf yang berjalan di server Prisma dan perusahaan lain yang mendistribusikan aplikasi seluler untuk menyesuaikan dgn mode foto pengguna.

Jaringan saraf konvolusional Getis, Ecker dan Betge dibuat berdasarkan jaringan saraf VGG 19-layer Simonyan dan Zisserman, dan pemrosesan gambar asli terjadi dalam beberapa tahap. Pada setiap tahap dalam hierarki, jumlah filter meningkat. Styling untuk gaya tertentu terjadi pada tahap pertama "downsampling" (goresan lebar, pola kubis, dll.), Dan lapisan terakhir dari jaringan saraf memproses gambar asli sehingga objek tetap dapat dikenali ( d dan e dalam diagram). Jaringan saraf mulai bekerja dari posisi acak (atau dari gambar asli) hingga hasilnya memenuhi persyaratan yang ditentukan.



Representasi konten dan gaya dipisahkan satu sama lain dalam jaringan saraf. Dengan demikian, mereka dapat dikontrol secara independen satu sama lain. Misalnya, ambil konten dari satu gambar, dan gaya dari yang lain.


Contoh gambar styling di jaringan saraf Gatis, Ecker dan Betge

Gambar asli: Kota Tua di Tübingen


Gaya sampel: melukis "Clown's Head" (1907-1908), Georges Rouault, style: ekspresionisme


Hasil kerja dari jaringan saraf


Karya ini dianggap sebagai terobosan mendasar dalam teknologi pembelajaran yang mendalam, karena ini adalah bukti konseptual pertama dari transfer gaya artistik melalui jaringan saraf. Apa yang dianggap sebagai visi artistik, gaya penulis dan genre seni, berhasil diformalkan dan diserap oleh jaringan saraf. Kecerdasan buatan pertama-tama menguasai kreativitas nyata.

Gagasan memisahkan gaya dan isi gambar menciptakan berbagai jaringan saraf, termasuk untuk generasi gambar yang menakutkandan untuk menghasilkan gambar porno .

Sayangnya, jaringan saraf Gatis, Ecker dan Betge memiliki kelemahan: jaringan saraf seperti itu terlalu menuntut sumber daya komputasi. Ini menjadi jelas setelah rilis aplikasi demo pertama, yang diproses di server selama beberapa menit.

Dalam karya-karya berikutnya, termasuk oleh spesialis Rusia , jaringan saraf dioptimalkan secara signifikan karena fungsi yang terbatas. Akibatnya, optimasi mencapai sedemikian rupa sehingga alih-alih beberapa menit, gaya foto mulai terjadi hampir secara instan. Jadi ada kesempatan untuk menyesuaikan dgn mode video real-time !

Tapi gaya seperti itu memiliki sisi lain dari koin. Penataan sangat cepat hanya dimungkinkan jika satu gambar diambil untuk sampel . Ini adalah batasan dari algoritma asli, karena tidak terikat pada satu gaya. Dengan kata lain, jika Anda ingin membuat sistem yang dapat mengirimkan 100 gaya yang berbeda, maka Anda harus melatih 100 jaringan saraf yang berbeda.

Sekarang Google telah berkontribusi dalam penelitian ini. Pada 24 Oktober 2016, karyawan Tim Otak Google menerbitkan sebuah artikel yang menggambarkan algoritma yang bekerja secepat yang sebelumnya, tetapi pada saat yang sama dalam satu jaringan saraf universal yang dapat memaksakan gaya yang diperoleh.

menurut kata-katapengembang, algoritma mereka mudah diimplementasikan dan tidak mengedepankan tuntutan tinggi pada RAM. Selain itu, setelah berlatih beberapa gaya, ia dapat menggabungkan beberapa gaya pada saat yang sama dan bekerja secara real time. Sebagai contoh, berikut adalah foto Kota Tua yang sama di Tübingen, di mana empat gaya ditumpangkan secara bersamaan .



Para peneliti percaya bahwa pekerjaan mereka membuka kemungkinan baru untuk penggunaan kreatif dari jaringan saraf stylization. Dalam waktu dekat, mereka berjanji untuk menerbitkan kode sumber program untuk TensorFlow di blog Magenta , sehingga semua orang dapat menjalankan demo di komputer mereka.

Rincian lebih lanjut tentang menata gambar dalam jaringan saraf dijelaskan dalam video sains populer .. Itu direkam oleh dua karyawan Nat dan Lo di 20% dari waktu kerja mereka, yang dialokasikan Google untuk proyek-proyek pilihan mereka.

Source: https://habr.com/ru/post/id398703/


All Articles