Restauramos a geometria detalhada dos objetos para validação de sortimento mais precisa

Ao lidar com problemas de qualidade de pesquisa, mais cedo ou mais tarde, precisamos lidar com a tarefa de validação visual do produto. Nós omitimos as tarefas simples com as quais o classificador comum lidará, concentrando-se nos casos que exigem geometria de objeto mais ou menos precisa:



Suponha que você precise selecionar apenas boas fotos de determinados objetos para uso posterior no comércio eletrônico. Por bom, queremos dizer fotografias sem detalhes desnecessários com um assunto principal dominante.

Por que isso é necessário?


Qualquer imagem não padronizada do produto atrairá definitivamente a atenção. Mas a reação do potencial comprador pode ser positiva e negativa. A tarefa da validação preliminar é reduzir (preferencialmente substancialmente) a probabilidade de um cenário negativo.

Abaixo está uma "discrepância" de estilos para uma das categorias da loja de teste



Sem complicar ainda mais, se a camiseta estiver um pouco perdida na foto, ou se você estiver considerando detalhes que não são totalmente necessários para você, é muito provável que algo dê errado (ou já deu errado).

Assim, uma das estratégias para validação preliminar pode ser formulada de maneira muito simples: as fotografias com produtos dominantes vencem. O caso é pequeno, é necessário dar-lhes vitória.



Os primeiros resultados pareciam muito bons e nos permitiram simplificar e automatizar significativamente a validação:



O que não é uma abordagem de caixa delimitadora?


O principal problema é a precisão dos resultados. Objetos complexos, fotos fora do padrão, vida real, você sabe. Portanto, se você possui uma caixa delimitadora - ainda não possui informações suficientes.



A conclusão é um pouco perturbadora, pois rejeita imediatamente soluções comprovadas e que funcionam bem (ou as torna muito mais difíceis). Por exemplo, o uso de redes neurais para obter qualquer geometria exata requer muitos recursos para preparar um conjunto de treinamento, sem garantir a precisão necessária.



Mas, com uma geometria mais ou menos precisa, pode-se usar uma lógica mais complexa de análise e validação. Sim, o que pode estar lá, você também pode acenar no vídeo (a escolha do segmento necessário, corte automático, etc.)



Solução


A solução atual não pode ser chamada de universal devido a um número suficientemente grande de limitações e simplificações.

Simplificação nº 1: contraste


Uma das simplificações pode ser formulada da seguinte forma: o objeto na foto sempre será contrastante. Não é difícil encontrar um objeto contrastante e executar uma varredura (adaptável, com uma etapa dinâmica, etc.):



Naturalmente, se necessário, o contraste pode ser aumentado, tornando a solução mais estável



A propósito, no exemplo acima, a busca por cabelos implantados é implementada. Uma tarefa muito estranha que apareceu no stackoverflow e foi "selecionada" com êxito uma noite.

Simplificação nº 2: apenas um objeto deve ser dominante


Nesse caso, um número muito pequeno de produtos com decisões óbvias de design sofre, mas outros casos são resolvidos com bastante facilidade:



Casos difíceis


Tendo estudado esse tópico há algum tempo, posso dizer com segurança que todos os casos são complexos à sua maneira. No entanto, cenas dinâmicas ou cenas com distâncias variáveis ​​criam os maiores problemas.

Dançando




Esquiador




Opcional:
Máscara 4K Extravagâncias RCNN COCO
YOLOv2 vs YOLOv3 vs Mask RCNN vs Deeplab Xception
Telegrama: RobotsCanSee
Instagram: RobotsCanSee

Source: https://habr.com/ru/post/pt429540/


All Articles