Cuando se trata de problemas de calidad de búsqueda, tarde o temprano tenemos que ocuparnos de la tarea de validación visual del producto. Omitimos las tareas simples que enfrentará el clasificador ordinario, centrándonos en casos que requieren una geometría de objeto más o menos precisa:

Suponga que necesita seleccionar solo buenas fotos de ciertos objetos para su uso posterior en el comercio electrónico. Por bueno queremos decir fotografías sin detalles innecesarios con un tema principal dominante.
¿Por qué se necesita esto?
Cualquier imagen no estándar del producto definitivamente atraerá la atención. Pero la reacción del comprador potencial puede ser tanto positiva como negativa. La tarea de validación preliminar es reducir (preferiblemente sustancialmente) la probabilidad de un escenario negativo.
A continuación se muestra una "discrepancia" de estilos para una de las categorías de la tienda de prueba.

Sin complicarse más, si la camiseta está un poco perdida en la foto, o si está considerando detalles que no son completamente necesarios para usted, es muy probable que algo salga mal (o que ya no esté).
Por lo tanto, una de las estrategias para la validación preliminar se puede formular de manera muy simple: las fotografías con productos dominantes ganan. El caso es pequeño, es necesario darles la victoria.

Los primeros resultados parecían bastante buenos y nos permitieron simplificar y automatizar significativamente la validación:

¿Qué no es un enfoque de cuadro tan delimitador?
El principal problema es la precisión de los resultados. Objetos complejos, fotos no estándar, vida real, ya sabes. Por lo tanto, si tiene un cuadro delimitador, todavía no tiene suficiente información.

La conclusión es algo molesta, ya que rechaza de inmediato las soluciones comprobadas y que funcionan bien (o las hace mucho más difíciles). Por ejemplo, el uso de redes neuronales para obtener cualquier geometría exacta requiere muchos recursos para preparar un conjunto de entrenamiento, sin garantizar la precisión necesaria.

Pero teniendo una geometría más o menos precisa, uno podría usar una lógica de análisis y validación más compleja. Sí, lo que puede estar allí, también puede agitar el video (la elección del segmento necesario, recorte automático, etc.)

Solución
La solución actual no puede llamarse universal debido a un número suficientemente grande de limitaciones y simplificaciones.
Simplificación No. 1: contraste
Una de las simplificaciones se puede formular de la siguiente manera: el objeto en la foto siempre estará en contraste. No es difícil encontrar un objeto contrastante y luego realizar un escaneo (adaptativo, con un paso dinámico, etc.):

Naturalmente, si es necesario, se puede aumentar el contraste, haciendo que la solución sea más estable

Por cierto, en el ejemplo anterior, se implementa la búsqueda de cabello implantado. Una tarea muy extraña que apareció en
stackoverflow y se "seleccionó" con éxito una noche.
Simplificación No. 2: solo un objeto debe ser dominante
En este caso, un número muy pequeño de productos con decisiones de diseño obvias sufren, pero otros casos se resuelven con bastante facilidad:

Casos difíciles
Después de estudiar este tema durante algún tiempo, puedo decir con confianza que todos los casos son complejos a su manera. Sin embargo, las escenas dinámicas o las escenas con distancias variables crean los mayores problemas.
Bailando

Esquiador

Opcional:
Curiosidades 4K Máscara RCNN COCOYOLOv2 vs YOLOv3 vs Máscara RCNN vs Deeplab XceptionTelegram:
RobotsCanSeeInstagram:
RobotsCanSee