Peningkatan foto probabilistik multi-piksel: Google Brain


Contoh jaringan saraf setelah pelatihan berdasarkan wajah selebriti. Di sebelah kiri adalah set awal gambar 8 ร— 8 piksel pada input jaringan saraf, di tengah adalah hasil interpolasi hingga 32 ร— 32 piksel sesuai dengan prediksi model. Di sebelah kanan adalah foto-foto nyata dari wajah selebriti, dikurangi menjadi 32 ร— 32, dari mana sampel diperoleh untuk kolom kiri

Apakah mungkin untuk meningkatkan resolusi foto hingga tak terbatas? Apakah mungkin untuk menghasilkan gambar yang dapat dipercaya berdasarkan 64 piksel? Logika menunjukkan bahwa ini tidak mungkin. Jaringan saraf baru dari Google Brain berpikir berbeda. Ini benar-benar meningkatkan resolusi foto ke tingkat yang luar biasa.

"Resolusi berlebih" semacam itu bukanlah pemulihan gambar asli dari salinan resolusi rendah. Ini adalah sintesis dari foto yang dapat dipercaya yang mungkin merupakan gambar asli. Ini adalah proses probabilistik.

Ketika tugasnya adalah untuk "meningkatkan resolusi" dari sebuah foto, tetapi tidak ada detail untuk perbaikannya, tugas model adalah untuk menghasilkan gambar yang paling masuk akal dari sudut pandang manusia. Pada gilirannya, tidak mungkin untuk menghasilkan gambar yang realistis sampai model telah menciptakan kontur dan membuat keputusan "berkemauan keras" tentang tekstur, bentuk dan pola mana yang akan hadir di berbagai bagian gambar.

Sebagai contoh, lihat saja KDPV, di mana di kolom kiri adalah gambar uji nyata untuk jaringan saraf. Mereka tidak memiliki detail kulit dan rambut. Mereka tidak dapat dipulihkan dengan metode interpolasi tradisional seperti linier atau bikubik. Namun, jika Anda pertama kali memiliki pengetahuan yang mendalam tentang seluruh keragaman wajah dan garis besarnya (dan mengetahui bahwa perlu untuk meningkatkan resolusi wajah di sini), maka jaringan saraf dapat mencapai hal yang fantastis - dan โ€œmenggambarโ€ detail yang hilang yang paling mungkin ada di sana.

Spesialis di Google Brain telah menerbitkan makalah ilmiah Resolusi Super Pixel Rekursif , yang menggambarkan model probabilistik penuh yang dilatih pada serangkaian foto resolusi tinggi dan salinan mereka yang diperkecil 8 ร— 8 untuk menghasilkan 32 ร— 32 gambar dari sampel 8 ร— 8 kecil.

Model ini terdiri dari dua komponen yang dilatih secara bersamaan: jaringan saraf pengkondisian dan jaringan sebelumnya. Yang pertama dari mereka secara efektif menempatkan gambar beresolusi rendah pada distribusi gambar beresolusi tinggi yang sesuai, dan model kedua detail resolusi tinggi untuk membuat versi final lebih realistis. Jaringan saraf ber-AC terdiri dari unit-unit ResNet , dan yang sebelumnya adalah arsitektur PixelCNN .

Secara skematis, model tersebut digambarkan dalam ilustrasi.



Jaringan saraf convolutional terkondisikan menerima gambar beresolusi rendah pada input dan menghasilkan log - nilai yang memprediksi probabilitas logit bersyarat untuk setiap piksel dalam gambar resolusi tinggi. Pada gilirannya, jaringan saraf convolutional sebelumnya membuat prediksi berdasarkan prediksi acak sebelumnya (ditunjukkan oleh garis putus-putus dalam diagram). Distribusi probabilitas untuk seluruh model dihitung sebagai operator softmax di atas jumlah dua set log dari jaringan saraf terkondisi dan sebelumnya.

Tetapi bagaimana cara mengevaluasi kualitas jaringan semacam itu? Para penulis karya ilmiah sampai pada kesimpulan bahwa metrik standar seperti sinyal puncak untuk rasio kebisingan (pSNR) dan kesamaan struktural (SSIM) tidak dapat menilai dengan benar kualitas prediksi untuk masalah seperti peningkatan superstrong dalam resolusi. Menurut metrik ini, ternyata hasil terbaik adalah gambar buram, bukan gambar fotorealistik di mana detail yang jelas dan dapat dipercaya tidak bertepatan di tempat penempatan dengan detail gambar nyata yang jelas. Artinya, metrik pSNR dan SSIM ini sangat konservatif. Penelitian telah menunjukkan bahwa orang dapat dengan mudah membedakan foto nyata dari opsi buram yang dibuat oleh metode regresi, tetapi tidak begitu mudah bagi mereka untuk membedakan antara sampel yang dihasilkan oleh jaringan saraf dari foto nyata.

Mari kita lihat apa hasil model yang dikembangkan oleh Google Brain dan dilatih pada set 200.000 wajah selebriti (set foto CelebA) dan 2.000.000 kamar tidur (set foto Kamar Tidur LSUN) menunjukkan. Dalam semua kasus, foto sebelum pelatihan sistem dikurangi menjadi ukuran 32 ร— 32 piksel, dan sekali lagi menjadi 8 ร— 8 menggunakan metode interpolasi bikubik. Jaringan saraf TensorFlow dilatih pada 8 GPU.

Hasilnya dibandingkan pada dua basis utama: 1) regresi pixel-by-pixel independen (Regresi) dengan arsitektur yang mirip dengan jaringan saraf SRResNet , yang menunjukkan hasil yang luar biasa pada metrik standar untuk menilai kualitas interpolasi; 2) mencari elemen tetangga terdekat (NN), yang mencari database sampel pendidikan resolusi rendah untuk gambar yang paling mirip dengan kedekatan piksel dalam ruang Euclidean, dan kemudian mengembalikan gambar resolusi tinggi yang sesuai dari mana sampel pendidikan ini dihasilkan.

Perlu dicatat bahwa model probabilistik menghasilkan hasil kualitas yang berbeda, tergantung pada suhu softmax. Secara manual ditetapkan bahwa nilai-nilai optimal  tauterletak antara 1.1 dan 1.3. Tetapi bahkan jika Anda menginstal  tau=1.2lagipula hasilnya akan berbeda setiap kali.


Hasil berbeda ketika memulai model dengan suhu softmax  tau=1.2

Anda dapat mengevaluasi kualitas kerja model probabilistik dengan sampel di bawah spoiler.

Perbandingan Hasil Kamar Tidur









Perbandingan Hasil Wajah Selebriti









Untuk memverifikasi realisme hasil, para ilmuwan melakukan survei crowdsourcing. Para peserta ditunjukkan dua foto: satu asli, dan yang kedua dihasilkan oleh berbagai metode dari salinan yang diperkecil 8 ร— 8 dan diminta untuk menunjukkan foto mana yang diambil oleh kamera.



Di bagian atas tabel adalah hasil untuk pangkalan selebriti, dan di bawah untuk kamar tidur. Seperti yang Anda lihat, pada suhu  tau=1.2dalam foto-foto kamar tidur, model menunjukkan hasil maksimal: dalam 27,9% kasus, pengirimannya ternyata lebih realistis daripada gambar nyata! Ini adalah keberhasilan yang jelas.

Ilustrasi di bawah ini menunjukkan karya paling sukses dari jaringan saraf, di mana ia "mengalahkan" aslinya dalam hal realisme. Untuk objektivitas - dan beberapa yang terburuk.



Di bidang menghasilkan gambar fotorealistik menggunakan jaringan saraf, perkembangan yang sangat cepat sekarang diamati. Pada 2017, kita pasti akan mendengar banyak berita tentang topik ini.

Source: https://habr.com/ru/post/id401395/


All Articles