GAN diajarkan untuk membuat wajah dengan tekstur dan geometri yang realistis

Halo, Habr! Saya mempersembahkan untuk Anda terjemahan artikel "Permukaan dan Sintesis Tekstur Wajah via GAN" .

Ketika peneliti memiliki kekurangan data nyata, mereka sering menggunakan augmentasi data, sebagai cara untuk memperluas dataset yang ada. Idenya adalah untuk mengubah set data pelatihan yang ada sedemikian rupa agar properti semantik tetap utuh. Bukan tugas sepele seperti itu ketika datang ke wajah manusia.

Metode pembuatan wajah harus mempertimbangkan transformasi data yang rumit seperti

  • berpose
  • pencahayaan
  • deformasi tidak kaku

sambil menciptakan gambar realistis yang konsisten dengan statistik data nyata.

Pertimbangkan bagaimana metode canggih mencoba memecahkan masalah ini.

Pendekatan modern untuk menghadapi generasi


Generative adversarial neural networks (GANs) telah terbukti lebih efektif dalam memberikan data sintetis lebih realisme. Dengan menerima data yang disintesis sebagai input, GAN menghasilkan sampel yang lebih seperti data nyata . Namun, sifat semantik dapat diubah, dan bahkan fungsi kerugian, menghukum karena mengubah parameter, tidak menyelesaikan masalah sampai akhir.

3D Morphable Model (3DMM) adalah metode yang paling umum untuk mewakili dan mensintesis geometri dan tekstur dan awalnya diperkenalkan dalam konteks generasi wajah manusia tiga dimensi. Menurut model ini, struktur geometris dan tekstur wajah manusia dapat secara linear didekati sebagai kombinasi dari vektor akar.

Baru-baru ini, model 3DMM telah dikombinasikan dengan jaringan saraf convolutional untuk menambah data. Namun, sampel yang dihasilkan terlalu halus dan tidak realistis, seperti yang dapat dilihat pada gambar di bawah ini:

Orang yang diperoleh menggunakan 3DMM
Orang yang diperoleh menggunakan 3DMM


Selain itu, 3DMM menghasilkan data berdasarkan distribusi Gaussian, yang jarang mencerminkan distribusi data aktual. Sebagai contoh, di bawah ini adalah dua koefisien PCA (analisis komponen utama) yang dibangun di atas permukaan nyata dan disintesis menggunakan 3DMM. Perbedaan antara distribusi sintetis dan nyata dapat dengan mudah menyebabkan generasi data yang salah.
Dua koefisien PCA pertama untuk individu nyata (kiri) dan 3DMM dihasilkan (kanan)
Dua koefisien PCA pertama untuk individu nyata (kiri) dan 3DMM dihasilkan (kanan)



Gagasan canggih


Slossberg, Shamai, dan Kimmel dari Technion Israel Institute of Technology menawarkan pendekatan baru untuk sintesis wajah manusia yang realistis menggunakan kombinasi 3DMM dan GAN.

Secara khusus, peneliti menggunakan GAN untuk mensimulasikan ruang tekstur manusia parameter dan membuat geometri wajah yang sesuai, menghitung koefisien 3DMM terbaik untuk setiap tekstur. Tekstur yang dihasilkan dipetakan ke geometri yang sesuai untuk menghasilkan wajah 3D resolusi tinggi yang baru.

Arsitektur seperti itu menghasilkan gambar yang realistis, sementara:

  • Tidak menderita kontrol atas atribut seperti pose dan pencahayaan
  • secara kuantitatif tidak terbatas pada generasi wajah-wajah baru.

Mari kita lihat lebih dekat proses pembuatan data.

Proses pembuatan data


Jalur persiapan data
Persiapan data


Pipa pembuatan data terdiri dari empat langkah utama:

  • Pengumpulan data : Para peneliti telah mengumpulkan lebih dari 5.000 pemindaian (pemindaian wajah) dari berbagai etnis, jenis kelamin dan kelompok umur. Setiap peserta harus menggambarkan 5 ekspresi wajah yang berbeda termasuk netral.
  • Markup : 43 poin kunci ditambahkan ke mashi secara semi-otomatis, dengan menampilkan wajah dan menggunakan detektor tanda wajah yang sudah dilatih sebelumnya
  • Alignment of meshes : diimplementasikan karena deformasi cache wajah template sesuai dengan geometri setiap pemindaian, dengan fokus pada markup yang ditandai.
  • Transfer tekstur : tekstur ditransfer dari pemindaian ke templat menggunakan teknik pengecoran sinar yang ada di dalam kotak alat Blender. Setelah itu, tekstur diubah dari cetakan menjadi strip dua dimensi menggunakan transformasi universal yang telah ditentukan


Tekstur Wajah Berjajar Rata
Tekstur Wajah Berjajar Rata


Langkah selanjutnya adalah mengajarkan GAN cara membuat simulasi tekstur yang selaras. Untuk tugas ini, para peneliti menggunakan GAN progresif dengan generator dan diskriminator yang diorganisir sebagai jaringan saraf simetris. Dalam implementasi seperti itu, generator semakin meningkatkan ukuran peta fitur hingga mencapai ukuran gambar output, sementara pembeda secara bertahap mengurangi ukuran kembali ke satu output.

Tekstur wajah disintesis oleh GAN
Tekstur Wajah GAN


Langkah terakhir adalah membuat geometri wajah. Para peneliti mencoba pendekatan yang berbeda untuk menemukan koefisien geometri yang tepat untuk tekstur. Perbandingan kualitatif dan kuantitatif berbagai metode di bawah ini (kesalahan geometri L2):

Dua tekstur yang disintesis dipetakan ke dalam geometri yang berbeda
Dua tekstur yang disintesis ditumpangkan pada geometri yang berbeda.


Tanpa diduga, metode kuadrat terkecil menunjukkan hasil terbaik. Mempertimbangkan kesederhanaan metode, itu dipilih untuk semua percobaan.

Hasil


Metode yang diusulkan dapat menghasilkan banyak wajah baru, dan masing-masing dapat diwakili dalam berbagai pose, dengan ekspresi dan pencahayaan yang berbeda. Berbagai ekspresi wajah ditambahkan ke geometri netral menggunakan model Blend Shape. Gambar yang dihasilkan ditunjukkan di bawah ini:

gambar

gambar

Identitas dihasilkan oleh metode yang diusulkan dengan pose dan pencahayaan yang berbeda

Untuk penilaian kuantitatif, para peneliti menggunakan Wasserstein Truncated Metric (SWD) untuk mengukur jarak antara distribusi pelatihan dan gambar yang dihasilkan.



Tabel menunjukkan bahwa tekstur yang dihasilkan secara statistik lebih dekat dengan data nyata daripada yang diperoleh dengan menggunakan 3DMM.

Eksperimen berikut mengevaluasi kemampuan untuk mensintesis gambar, yang sangat berbeda dari dataset pelatihan, dan mendapatkan gambar yang sebelumnya tidak terlihat. Dengan demikian, 5% individu tidak dimasukkan dalam penilaian. Peneliti mengukur L2 jarak antara setiap orang nyata dari data pelatihan dan yang paling mirip dari yang dihasilkan, dan sama - untuk yang nyata dari dataset pelatihan.

Jarak antara identitas yang dihasilkan dan nyata
Jarak antara wajah yang disintesis dan yang asli


Seperti yang dapat dilihat dari grafik, data uji lebih dekat dengan gambar yang dihasilkan daripada gambar pelatihan. Apalagi jarak "Test to fake" tidak terlalu berbeda dari "Fake to real". Oleh karena itu, sampel yang diperoleh tidak hanya wajah yang disintesis mirip dengan set pelatihan, tetapi wajah yang sama sekali baru.

Akhirnya, untuk memverifikasi kemungkinan menghasilkan dataset awal, penilaian kualitatif dibuat: tekstur wajah yang diperoleh oleh model ini dibandingkan dengan tetangga terdekat mereka di metrik L2.

Tekstur wajah yang disintesis (atas) vs. tetangga nyata terdekat yang sesuai (bawah)
Tekstur disintesis (di atas) versus "tetangga" nyata terdekat (di bawah)


Seperti yang Anda lihat, tekstur asli terdekat sangat berbeda dari yang asli, yang memungkinkan kami untuk menyimpulkan tentang kemampuan untuk menghasilkan wajah baru .

Ringkasan


Model yang diusulkan mungkin yang pertama yang mampu mensintesis tekstur dan geometri wajah manusia secara realistis. Ini dapat berguna untuk mendeteksi dan mengenali wajah atau menghadapi model rekonstruksi. Selain itu, dapat digunakan dalam kasus di mana banyak wajah realistis yang berbeda diperlukan, misalnya, dalam industri film atau permainan komputer. Selain itu, struktur ini tidak terbatas pada sintesis wajah manusia, tetapi sebenarnya dapat digunakan untuk kelas objek lain di mana dimungkinkan augmentasi data.

Asli

Diterjemahkan - Stanislav Litvinov.

Source: https://habr.com/ru/post/id422723/


All Articles