Halo, Habr! Saya mempersembahkan kepada Anda terjemahan dari artikel β
Belajar Model Wajah Morfabel 3D Keluar dari Gambar 2D β.

Model wajah tiga dimensi yang dapat diubah (3D Morphable Model, selanjutnya 3DMM) adalah model statistik struktur dan tekstur wajah, yang digunakan oleh visi komputer, grafik komputer, dalam analisis perilaku manusia dan operasi plastik.
Keunikan masing-masing fitur wajah menjadikan pemodelan wajah manusia sebagai
tugas yang tidak sepele . 3DMM dibuat untuk mendapatkan model wajah dalam ruang korespondensi eksplisit. Ini berarti korespondensi searah antara model yang dihasilkan dan model lain yang memungkinkan morphing. Selain itu, transformasi tingkat rendah, seperti perbedaan antara wajah pria dan wanita, ekspresi wajah netral dari senyum, harus tercermin dalam 3DMM.

Para peneliti dari University of Michigan menawarkan metode 3DMM pembelajaran mendalam terbaru. Menggunakan efisiensi tinggi jaringan saraf dalam untuk mengimplementasikan pemetaan non-linear, metode mereka memungkinkan untuk mendapatkan 3DMM berdasarkan gambar 2D yang ditangkap dalam lingkungan yang sewenang-wenang.
Pendekatan Sebelumnya
Biasanya, 3DMM diperoleh menggunakan satu set pemindaian wajah 3D dan satu set gambar 2D dari wajah yang sama. Pendekatan yang diterima secara umum adalah dengan menggunakan reduksi dimensi dalam pengajaran dengan seorang guru, yang dilakukan dengan menggunakan Principal Component Analysis (PCA) pada set data pelatihan yang terdiri dari pemindaian wajah 3D dan gambar 2D yang sesuai. Ketika menggunakan model linier seperti PCA, transformasi nonlinear dan variasi wajah tidak dapat tercermin dalam 3DMM. Selain itu, untuk memodelkan tekstur 3D wajah yang akurat, diperlukan banyak βinformasi 3Dβ. Dengan demikian, penggunaan pendekatan ini tidak efektif.
Metode yang diusulkan
Gagasan
metode yang diusulkan adalah menggunakan jaringan saraf yang dalam atau, lebih khusus,
jaringan saraf konvolusional (yang lebih cocok untuk masalah yang sedang dipertimbangkan dan lebih murah dalam hal waktu komputasi daripada perceptron multilayer) untuk mendapatkan 3DMM. Pengkodean jaringan saraf (encoder) mengambil gambar wajah sebagai input dan menghasilkan tekstur wajah dan parameter albedo yang dengannya dua jaringan saraf penguraian (decoder) mengevaluasi tekstur dan albedo.
Seperti disebutkan sebelumnya, 3DMM linear memiliki sejumlah masalah, seperti kebutuhan untuk pemindaian wajah 3D, ketidakmampuan untuk menggunakan gambar yang diambil dari sudut yang sewenang-wenang, dan keakuratan presentasi yang terbatas karena penggunaan PCA linier. Pada gilirannya, metode yang diusulkan memungkinkan untuk mendapatkan model 3DMM nonlinear berdasarkan gambar 2D wajah resolusi tinggi, yang
diambil dari sudut yang sewenang-wenang .
Tampilan planar
Dalam pendekatan mereka, para peneliti menggunakan peta wajah 2D terperinci untuk mewakili tekstur dan albedo-nya. Mereka berpendapat bahwa mempertimbangkan informasi spasial memainkan peran penting, karena mereka menggunakan jaringan saraf konvolusional, dan gambar depan wajah mengandung sedikit informasi tentang sisi. Itu sebabnya pilihan mereka jatuh pada representasi planar.

Tiga pandangan berbeda tentang Albedo. (a) - Representasi 3D, (c) - Albedo sebagai gambar frontal 2D wajah, (c) - representasi planar.

Tampilan planar. x, y, z dan representasi ringkasan tekstur.
Arsitektur jaringan saraf
Para peneliti merancang jaringan saraf yang, mengambil gambar sebagai input, mengkodekannya menjadi vektor tekstur, Albedo, dan pencahayaan. Vektor tersembunyi kode untuk albedo dan tekstur diterjemahkan menggunakan dua decoder, yang digunakan jaringan saraf convolutional. Pada outputnya, decoder mengeluarkan silau wajah, albedo dan tekstur wajah 3D. Menggunakan parameter ini, lapisan rendering terdiferensiasi menghasilkan model wajah dengan menggabungkan tekstur 3D, Albedo, pencahayaan, dan parameter lokasi kamera yang diperoleh oleh encoder. Arsitekturnya disajikan dalam diagram di bawah ini.

Arsitektur metode yang diusulkan untuk mendapatkan 3DMM nonlinier
3DMM non-linear stabil yang dihasilkan dapat digunakan untuk wajah 2D yang tumpang tindih dan menyelesaikan masalah rekonstruksi wajah tiga dimensi.

Rendering layout layer
Perbandingan dengan metode lain
Metode yang dipertimbangkan dibandingkan dengan metode lain menggunakan tugas-tugas berikut sebagai contoh:
Overlay 2D, rekonstruksi dan pengeditan wajah 3D . Metode yang diusulkan lebih unggul daripada pendekatan modern lainnya untuk menyelesaikan masalah ini. Hasil perbandingan disajikan di bawah ini.
Hamparan wajah 2D
Salah satu aplikasi dari metode ini adalah overlay wajah, yang seharusnya secara signifikan meningkatkan analisis wajah dalam sejumlah tugas (misalnya, pengenalan wajah). Memaksakan wajah bukanlah tugas yang mudah, tetapi metode yang dipertimbangkan menunjukkan hasil yang tinggi saat menyelesaikannya.

Hasil hamparan 2D. Tanda yang tak terlihat ditandai dengan warna merah. Metode yang dipertimbangkan mencerminkan postur, pencahayaan, dan ekspresi wajah yang tidak biasa.
Rekonstruksi wajah 3D
Metode yang dipertimbangkan juga dibandingkan dengan menggunakan rekonstruksi wajah 3D dan menunjukkan hasil yang luar biasa dibandingkan dengan metode lain.

Perbandingan kuantitatif hasil rekonstruksi 3D

Hasil rekonstruksi 3D dibandingkan dengan metode Sela et al. Metode yang diusulkan menghemat rambut wajah dan fitur wajah lainnya jauh lebih baik daripada metode ini.

Hasil rekonstruksi 3D dibandingkan dengan VRN dari Jackson dan lainnya pada contoh dataset CelebA yang terkenal.

Hasil rekonstruksi 3D dibandingkan dengan metode Tewari dan lain-lain.Seperti yang Anda lihat, metode yang diusulkan memecahkan masalah mengompresi wajah di hadapan berbagai tekstur (seperti rambut wajah).
Pengeditan wajah
Metode yang dibahas memecah gambar wajah menjadi elemen yang terpisah dan memungkinkan Anda untuk mengubah wajah dengan memanipulasi mereka. Hasil dari metode ini ketika mengedit wajah dievaluasi pada contoh tugas seperti mengubah pencahayaan dan menambahkan elemen wajah tambahan.

Hasil penambahan janggut. Kolom pertama berisi gambar asli, yang berikutnya - derajat perubahan jenggot yang berbeda.

Perbandingan dengan metode Shu et al. (Baris kedua). Seperti yang Anda lihat, metode yang diusulkan memberikan gambar yang lebih realistis, dan di samping itu, identitas wajah lebih terjaga.
Kesimpulan
Metode yang diusulkan, mungkin, akan digunakan secara luas, karena memungkinkan Anda untuk mendapatkan 3DMM yang akurat dan stabil. Meskipun 3DMM tersebar luas sejak awal, hingga munculnya metode yang dipertanyakan, tidak ada cara yang efektif untuk mendapatkan model ini menggunakan gambar 2D dari sudut yang sewenang-wenang.
Metode yang diusulkan menggunakan jaringan saraf yang dalam sebagai pendekatan untuk pemodelan wajah manusia yang berkelanjutan dengan semua fitur mereka. Cara yang tidak biasa untuk mendapatkan 3DMM memungkinkan Anda untuk memanipulasi gambar dan dapat digunakan dalam banyak tugas, beberapa di antaranya disajikan ke artikel.
Terjemahan - Boris Rumyantsev.