Kami mengembalikan geometri objek terperinci untuk validasi bermacam-macam yang lebih akurat

Ketika berhadapan dengan masalah kualitas pencarian, cepat atau lambat kita harus berurusan dengan tugas validasi produk visual. Kami menghilangkan tugas-tugas sederhana yang akan ditangani oleh pengklasifikasi biasa, dengan fokus pada kasus-kasus yang membutuhkan geometri objek yang kurang lebih akurat:



Misalkan Anda hanya perlu memilih foto yang bagus dari objek tertentu untuk digunakan nanti dalam e-commerce. Yang kami maksud adalah foto tanpa detail yang tidak perlu dengan subjek utama yang dominan.

Mengapa ini dibutuhkan?


Citra produk yang tidak standar pasti akan menarik perhatian. Tetapi reaksi pembeli potensial bisa positif dan negatif. Tugas validasi awal adalah untuk mengurangi (lebih disukai secara substansial) probabilitas skenario negatif.

Di bawah ini adalah "perbedaan" gaya untuk salah satu kategori toko pengujian



Tanpa menyulitkan lebih lanjut, jika T-shirt sedikit hilang di foto, atau Anda sedang mempertimbangkan detail yang tidak sepenuhnya diperlukan untuk Anda, ada kemungkinan besar ada yang salah (atau sudah hilang).

Dengan demikian, salah satu strategi untuk validasi awal dapat dirumuskan dengan sangat sederhana: foto dengan produk dominan menang. Kasusnya kecil, perlu untuk memberi mereka kemenangan.



Hasil awal terlihat cukup bagus dan memungkinkan kami menyederhanakan dan mengotomatisasi validasi secara signifikan:



Apa yang tidak begitu mendekati kotak pendekatan?


Masalah utama adalah keakuratan hasil. Objek kompleks, foto non-standar, kehidupan nyata, lho. Jadi, jika Anda memiliki kotak pembatas - Anda masih belum memiliki informasi yang cukup.



Kesimpulannya agak menjengkelkan, karena segera menolak solusi yang terbukti dan berfungsi dengan baik (atau membuat mereka jauh lebih sulit). Sebagai contoh, penggunaan jaringan saraf untuk mendapatkan geometri yang tepat membutuhkan banyak sumber daya untuk menyiapkan satu set pelatihan, tanpa menjamin akurasi yang diperlukan.



Tetapi memiliki geometri yang lebih atau kurang akurat, orang dapat menggunakan logika analisis dan validasi yang lebih kompleks. Ya, apa yang bisa ada di sana, Anda juga dapat melambai pada video (pilihan segmen yang diperlukan, pemangkasan otomatis, dll.)



Solusi


Solusi saat ini tidak dapat disebut universal karena sejumlah besar keterbatasan dan penyederhanaan.

Penyederhanaan No. 1: kontras


Salah satu penyederhanaan dapat dirumuskan sebagai berikut: objek dalam foto akan selalu kontras. Tidak sulit untuk menemukan objek yang kontras, dan kemudian melakukan pemindaian (adaptif, dengan langkah dinamis, dll.):



Secara alami, jika perlu, kontras dapat ditingkatkan, menjadikan solusi lebih stabil



Ngomong-ngomong, pada contoh di atas, pencarian rambut implan diimplementasikan. Tugas yang sangat aneh yang muncul di stackoverflow dan berhasil "dipilih" suatu malam.

Penyederhanaan No. 2: hanya satu objek yang harus dominan


Dalam kasus ini, sejumlah kecil produk dengan keputusan desain yang jelas menderita, tetapi kasus-kasus lain diselesaikan dengan mudah:



Kasus yang sulit


Setelah mempelajari topik ini selama beberapa waktu, saya dapat dengan yakin mengatakan bahwa semua kasus rumit dengan caranya sendiri. Namun, pemandangan dinamis atau pemandangan dengan jarak yang bervariasi menciptakan masalah terbesar.

Menari




Pemain ski




Opsional:
Keanehan 4K Masker RCNN COCO
YOLOv2 vs YOLOv3 vs Mask RCNN vs Deeplab Xception
Telegram: RobotsCanSee
Instagram: RobotsCanSee

Source: https://habr.com/ru/post/id429540/


All Articles