Nous restaurons la géométrie détaillée des objets pour une validation plus précise de l'assortiment

Lorsque nous traitons des problèmes de qualité de la recherche, nous devons tôt ou tard faire face à la tâche de validation visuelle du produit. Nous omettons les tâches simples auxquelles le classificateur ordinaire devra faire face, en nous concentrant sur les cas qui nécessitent une géométrie d'objet plus ou moins précise:



Supposons que vous ne deviez sélectionner que de bonnes photos de certains objets pour une utilisation ultérieure dans le commerce électronique. Par bien, nous entendons des photographies sans détails inutiles avec un sujet principal dominant.

Pourquoi est-ce nécessaire?


Toute image non standard du produit attirera certainement l'attention. Mais la réaction de l'acheteur potentiel peut être à la fois positive et négative. La tâche de validation préliminaire est de réduire (de préférence sensiblement) la probabilité d'un scénario négatif.

Vous trouverez ci-dessous une "divergence" de styles pour l'une des catégories du magasin de test



Sans compliquer davantage, si le T-shirt est un peu perdu sur la photo, ou si vous envisagez des détails qui ne vous sont pas entièrement nécessaires, quelque chose va très probablement (ou a déjà mal tourné).

Ainsi, l'une des stratégies de validation préalable peut être formulée très simplement: les photographies avec des produits dominants gagnent. L'affaire est petite, il faut leur donner la victoire.



Les premiers résultats semblaient plutôt bons et nous ont permis de simplifier et d'automatiser considérablement la validation:



Qu'est-ce qui n'est pas une approche de type boîte englobante?


Le principal problème est la précision des résultats. Objets complexes, photos non standard, vie réelle, vous savez. Ainsi, si vous avez une boîte englobante - vous n'avez toujours pas assez d'informations.



La conclusion est quelque peu bouleversante, car elle rejette immédiatement les solutions éprouvées et efficaces (ou les rend beaucoup plus difficiles). Par exemple, l'utilisation de réseaux de neurones pour obtenir une géométrie exacte nécessite beaucoup de ressources pour préparer un ensemble d'entraînement, sans garantir la précision nécessaire.



Mais ayant une géométrie plus ou moins précise, on pourrait utiliser une logique d'analyse et de validation plus complexe. Oui, ce qui peut être là, vous pouvez aussi onduler sur la vidéo (le choix du segment nécessaire, le recadrage automatique, etc.)



Solution


La solution actuelle ne peut pas être qualifiée d'universelle en raison d'un nombre suffisamment important de limitations et de simplifications.

Simplification n ° 1: contraste


L'une des simplifications peut être formulée comme suit: l'objet sur la photo sera toujours contrasté. Il n'est pas difficile de trouver un objet contrasté, puis d'effectuer un scan (adaptatif, avec une étape dynamique, etc.):



Naturellement, si nécessaire, le contraste peut être augmenté, ce qui rend la solution plus stable



Par ailleurs, dans l'exemple ci-dessus, la recherche de cheveux implantés est mise en œuvre. Une tâche très étrange qui est apparue sur stackoverflow et «sélectionnée» avec succès un soir.

Simplification n ° 2: un seul objet doit être dominant


Dans ce cas, un très petit nombre de produits avec des décisions de conception évidentes en souffrent, mais d'autres cas sont élaborés assez facilement:



Cas difficiles


Ayant étudié ce sujet depuis un certain temps, je peux affirmer avec confiance que tous les cas sont complexes à leur manière. Cependant, les scènes dynamiques ou les scènes avec des distances variables créent les plus gros problèmes.

La danse




Skieur




Facultatif:
Oddities 4K Mask RCNN COCO
YOLOv2 vs YOLOv3 vs Mask RCNN vs Deeplab Xception
Télégramme: RobotsCanSee
Instagram: RobotsCanSee

Source: https://habr.com/ru/post/fr429540/


All Articles