Bei Problemen mit der Suchqualität müssen wir uns früher oder später mit der visuellen Produktvalidierung befassen. Wir lassen die einfachen Aufgaben weg, die der gewöhnliche Klassifikator bewältigen wird, und konzentrieren uns auf Fälle, die eine mehr oder weniger genaue Objektgeometrie erfordern:

Angenommen, Sie müssen nur gute Fotos bestimmter Objekte für die spätere Verwendung im E-Commerce auswählen. Mit gut meinen wir Fotografien ohne unnötige Details mit einem dominanten Hauptthema.
Warum wird das benötigt?
Jedes nicht standardmäßige Bild des Produkts wird definitiv Aufmerksamkeit erregen. Die Reaktion des potenziellen Käufers kann jedoch sowohl positiv als auch negativ sein. Die Aufgabe der vorläufigen Validierung besteht darin, die Wahrscheinlichkeit eines negativen Szenarios (vorzugsweise erheblich) zu verringern.
Unten finden Sie eine "Diskrepanz" der Stile für eine der Kategorien des Testspeichers

Ohne weitere Komplikationen, wenn das T-Shirt auf dem Foto etwas verloren geht oder Sie Details in Betracht ziehen, die für Sie nicht unbedingt erforderlich sind, ist es sehr wahrscheinlich, dass etwas schief geht (oder bereits verschwunden ist).
Somit kann eine der Strategien zur vorläufigen Validierung sehr einfach formuliert werden: Fotos mit dominanten Produkten gewinnen. Der Fall ist klein, es ist notwendig, ihnen den Sieg zu geben.

Die ersten Ergebnisse sahen ziemlich gut aus und ermöglichten es uns, die Validierung erheblich zu vereinfachen und zu automatisieren:

Was ist nicht so Bounding-Box-Ansatz?
Das Hauptproblem ist die Genauigkeit der Ergebnisse. Komplexe Objekte, nicht standardmäßige Fotos, reales Leben, wissen Sie. Wenn Sie also einen Begrenzungsrahmen haben, haben Sie immer noch nicht genügend Informationen.

Die Schlussfolgerung ist etwas beunruhigend, da sie bewährte und gut funktionierende Lösungen sofort ablehnt (oder sie viel schwieriger macht). Beispielsweise erfordert die Verwendung neuronaler Netze zum Erhalten einer exakten Geometrie viele Ressourcen, um einen Trainingssatz vorzubereiten, ohne die erforderliche Genauigkeit zu gewährleisten.

Mit einer mehr oder weniger genauen Geometrie könnte man jedoch eine komplexere Logik der Analyse und Validierung verwenden. Ja, was kann da sein, Sie können auch auf dem Video winken (Auswahl des erforderlichen Segments, automatisches Zuschneiden usw.)

Lösung
Die derzeitige Lösung kann aufgrund einer ausreichend großen Anzahl von Einschränkungen und Vereinfachungen nicht als universell bezeichnet werden.
Vereinfachung Nr. 1: Kontrast
Eine der Vereinfachungen kann wie folgt formuliert werden: Das Objekt auf dem Foto ist immer kontrastreich. Es ist nicht schwierig, ein kontrastierendes Objekt zu finden und dann einen Scan durchzuführen (adaptiv, mit einem dynamischen Schritt usw.):

Bei Bedarf kann natürlich der Kontrast erhöht werden, wodurch die Lösung stabiler wird

Übrigens wird im obigen Beispiel die Suche nach implantierten Haaren implementiert. Eine sehr seltsame Aufgabe, die im
Stackoverflow auftauchte und eines Abends erfolgreich „ausgewählt“ wurde.
Vereinfachung Nr. 2: Nur ein Objekt sollte dominant sein
In diesem Fall leidet eine sehr kleine Anzahl von Produkten mit offensichtlichen Designentscheidungen, andere Fälle lassen sich jedoch recht einfach lösen:

Schwierige Fälle
Nachdem ich mich einige Zeit mit diesem Thema befasst habe, kann ich mit Sicherheit sagen, dass alle Fälle auf ihre Weise komplex sind. Dynamische Szenen oder Szenen mit unterschiedlichen Entfernungen verursachen jedoch die größten Probleme.
Tanzen

Skifahrer

Optional:
Kuriositäten 4K Maske RCNN COCOYOLOv2 gegen YOLOv3 gegen Mask RCNN gegen Deeplab XceptionTelegramm:
RobotsCanSeeInstagram:
RobotsCanSee