Beberapa hasil penerapan metode VRN - Dipandu pada gambar dari set AFLW2000-3DAda sejumlah startup di Internet, termasuk yang dari Rusia, yang terlibat dalam memulihkan struktur 3D wajah dari foto. Misalnya,
VisionLabs dengan aplikasi Face.DJ-nya dapat melakukan rekonstruksi 3D dari satu foto. Transformasi semacam itu (pemodelan 3D dengan foto) masuk akal secara praktis. Setelah membuat model, menjadi mungkin, misalnya, untuk mengubah gaya rambut, mencoba kacamata, menumbuhkan jenggot, dll. Teknologi ini dapat digunakan dalam verifikasi wajah dan sistem pengenalan.
Tapi sekarang bisnis startup seperti itu dalam bahaya: pekerjaan mereka dengan mudah dilakukan oleh jaringan saraf baru VRN (Volumetric Regression Network), yang telah
diposting secara publik di GitHub . Anda dapat mengunggah foto Anda sendiri atau foto lain secara langsung ke situs - dan jaringan saraf akan dikonversi secara online dalam beberapa detik (
demo ).
Rekonstruksi 3D dari fotografi 2D dianggap sebagai salah satu masalah mendasar dari penglihatan mesin karena kerumitannya yang luar biasa. Sebagian besar sistem saat ini membutuhkan banyak foto dari orang yang sama dari sudut yang berbeda untuk bekerja. Menurut penulis makalah ilmiah baru, model yang ada secara keseluruhan menggunakan pipa pemrosesan data yang kompleks dan tidak efisien untuk membangun model dan sesuai hasilnya. Ternyata, jaringan saraf convolutional melakukan pekerjaan lebih mudah dan lebih efisien daripada model dan algoritma yang dikembangkan manusia.
Ilustrasi menunjukkan bahwa jaringan saraf VRN berupaya memproses berbagai ekspresi wajah pada sudut yang sewenang-wenang sehubungan dengan lensa kamera - dan bekerja pada satu foto. Benda-benda asing dengan latar belakang wajah (kacamata, permen lolipop) tidak mengganggunya.
Para penulis pengembangan ini, yang dipimpin oleh Aaron Jackson (Aaron Jackson) dari University of Nottingham (UK) telah mengambil pendekatan yang sangat sederhana untuk voxelisasi gambar. Ini tidak memiliki banyak kekurangan yang melekat dalam metode rekonstruksi 3D lainnya (termasuk
3D Morphable Model - 3DMM ). Secara umum, esensi dari metode VRN baru digambarkan dalam ilustrasi di bawah ini.
(A) Jaringan Regresi Volumetrik yang diusulkan (VRN) menerima gambar RGB sebagai input dan langsung mengembalikan output volumetrik 3D, benar-benar melewatkan pas 3DMM. Setiap persegi panjang adalah modulus residual dari 256 atribut. (B) Arsitektur VRN-Guided yang diusulkan pertama mendefinisikan proyeksi 2D dari landmark 3D dan mencocokkannya dengan gambar asli. Tumpukan ini dikirim ke jaringan rekonstruksi, yang secara langsung mengembalikan volume. (c) Arsitektur VRN yang diusulkan - Multitask mengembalikan gambar wajah 3D yang tebal dan sekumpulan landmark 3D yang jarang.Para penulis penelitian membuktikan bahwa jaringan saraf convolutional (CNN) dapat berhasil menghasilkan model 3D dari foto setelah pelatihan pada dataset yang berisi foto dan model 3D yang sesuai. Dalam hal ini, pelatihan dilakukan pada 60.000 foto dua dimensi individu dari pangkalan 300W dan kisi-kisi 3D terkait yang diperoleh dengan menggunakan 3DMM.
Ternyata, untuk menghasilkan hasil yang memuaskan, jaringan saraf tidak perlu menggunakan model 3DMM dan berhasil melakukan konversi langsung dari 2D ke 3D.
Kompetensi model ini terbukti pada sejumlah besar foto sewenang-wenang yang diunggah pengguna melalui Internet (
demo ). Rupanya, metode VRN lebih unggul daripada sistem rekonstruksi 3D lainnya dalam satu foto. Hingga saat ini, demo tersebut telah memproses lebih dari 400.000 foto sewenang-wenang dari Internet.
Jaringan saraf juga dapat dijalankan secara lokal di komputer Anda sendiri. Kode program
diterbitkan di GitHub . Agar berfungsi, Anda memerlukan
kerangka kerja komputasi ilmiah
Torch7 yang terpasang, prosesor grafis Nvidia yang kurang lebih produktif dengan dukungan CUDA. Program ini diuji dalam sistem operasi Linux dan penulis tidak tahu cara kerjanya di Windows. Anda juga membutuhkan MATLAB, bash, ImageMagick, awk GNU, Python 2.7 (+ visvis, imageio, numpy).
Artikel ilmiah yang menggambarkan jaringan saraf
diterbitkan pada 22 Maret 2017 (arXiv: 1703.07834,
pdf ).