Ketika berhadapan dengan masalah kualitas pencarian, cepat atau lambat kita harus berurusan dengan tugas validasi produk visual. Kami menghilangkan tugas-tugas sederhana yang akan ditangani oleh pengklasifikasi biasa, dengan fokus pada kasus-kasus yang membutuhkan geometri objek yang kurang lebih akurat:

Misalkan Anda hanya perlu memilih foto yang bagus dari objek tertentu untuk digunakan nanti dalam e-commerce. Yang kami maksud adalah foto tanpa detail yang tidak perlu dengan subjek utama yang dominan.
Mengapa ini dibutuhkan?
Citra produk yang tidak standar pasti akan menarik perhatian. Tetapi reaksi pembeli potensial bisa positif dan negatif. Tugas validasi awal adalah untuk mengurangi (lebih disukai secara substansial) probabilitas skenario negatif.
Di bawah ini adalah "perbedaan" gaya untuk salah satu kategori toko pengujian

Tanpa menyulitkan lebih lanjut, jika T-shirt sedikit hilang di foto, atau Anda sedang mempertimbangkan detail yang tidak sepenuhnya diperlukan untuk Anda, ada kemungkinan besar ada yang salah (atau sudah hilang).
Dengan demikian, salah satu strategi untuk validasi awal dapat dirumuskan dengan sangat sederhana: foto dengan produk dominan menang. Kasusnya kecil, perlu untuk memberi mereka kemenangan.

Hasil awal terlihat cukup bagus dan memungkinkan kami menyederhanakan dan mengotomatisasi validasi secara signifikan:

Apa yang tidak begitu mendekati kotak pendekatan?
Masalah utama adalah keakuratan hasil. Objek kompleks, foto non-standar, kehidupan nyata, lho. Jadi, jika Anda memiliki kotak pembatas - Anda masih belum memiliki informasi yang cukup.

Kesimpulannya agak menjengkelkan, karena segera menolak solusi yang terbukti dan berfungsi dengan baik (atau membuat mereka jauh lebih sulit). Sebagai contoh, penggunaan jaringan saraf untuk mendapatkan geometri yang tepat membutuhkan banyak sumber daya untuk menyiapkan satu set pelatihan, tanpa menjamin akurasi yang diperlukan.

Tetapi memiliki geometri yang lebih atau kurang akurat, orang dapat menggunakan logika analisis dan validasi yang lebih kompleks. Ya, apa yang bisa ada di sana, Anda juga dapat melambai pada video (pilihan segmen yang diperlukan, pemangkasan otomatis, dll.)

Solusi
Solusi saat ini tidak dapat disebut universal karena sejumlah besar keterbatasan dan penyederhanaan.
Penyederhanaan No. 1: kontras
Salah satu penyederhanaan dapat dirumuskan sebagai berikut: objek dalam foto akan selalu kontras. Tidak sulit untuk menemukan objek yang kontras, dan kemudian melakukan pemindaian (adaptif, dengan langkah dinamis, dll.):

Secara alami, jika perlu, kontras dapat ditingkatkan, menjadikan solusi lebih stabil

Ngomong-ngomong, pada contoh di atas, pencarian rambut implan diimplementasikan. Tugas yang sangat aneh yang muncul di
stackoverflow dan berhasil "dipilih" suatu malam.
Penyederhanaan No. 2: hanya satu objek yang harus dominan
Dalam kasus ini, sejumlah kecil produk dengan keputusan desain yang jelas menderita, tetapi kasus-kasus lain diselesaikan dengan mudah:

Kasus yang sulit
Setelah mempelajari topik ini selama beberapa waktu, saya dapat dengan yakin mengatakan bahwa semua kasus rumit dengan caranya sendiri. Namun, pemandangan dinamis atau pemandangan dengan jarak yang bervariasi menciptakan masalah terbesar.
Menari

Pemain ski

Opsional:
Keanehan 4K Masker RCNN COCOYOLOv2 vs YOLOv3 vs Mask RCNN vs Deeplab XceptionTelegram:
RobotsCanSeeInstagram:
RobotsCanSee