
Certamente, muitos se lembram do quarto episódio da quarta temporada do Vale do Silício, lançado no ano passado, em que Dzang Young cortou o aplicativo Not HotDog.
Na verdade, foi um aplicativo real que criou a HBO especificamente para esta série, e
Habr já escreveu sobre isso.
Bem, contaremos como fizemos um bot para determinar não apenas os cachorros-quentes, mas também muitos outros itens, além de determinar o sexo e a idade das pessoas a partir das fotografias.
AntecedentesNão íamos lidar com redes neurais. Queríamos apenas fazer um projeto para aumentar a produtividade dos comerciantes nas redes de varejo.

Os deveres dos comerciantes incluem, em particular, verificar a disponibilidade de mercadorias na prateleira, para isso eles devem visitar pontos de venda quase todos os dias e relatar a presença / ausência de mercadorias ao supervisor.
Como regra, várias lojas são atribuídas ao comerciante e todos os dias elas vão para os campos - para as lojas que lhes são atribuídas.
Geralmente, os comerciantes são obrigados a fotografar suas prateleiras e enviar essas fotos ao supervisor - como se fossem uma prova de que o comerciante estava de fato na loja.
Na prática, os comerciantes, que são o nível mais baixo da hierarquia dos vendedores e recebem muito pouco dinheiro por seu trabalho, nem sempre trabalham de boa fé, às vezes não vão ao campo, mas enviam fotos antigas para seus supervisores. Eles são demitidos, vão para outras redes, o processo se repete novamente - nesta posição, há sempre uma grande rotatividade de pessoal e há um conjunto constante de comerciantes.
Os gerentes fazem todos os tipos de tentativas para melhorar o controle sobre os comerciantes - eles introduzem aplicativos complicados com coordenadas geográficas, com a incapacidade de enviar fotos antigas etc.
Compradores misteriosos também são contratados para controlar os comerciantes - eles precisam tirar fotos da prateleira da loja, distribuir materiais etc. Existem até empresas que procuram esses compradores misteriosos entre estudantes, crianças em idade escolar etc. e vendem esses serviços ao varejo. Mas aqui surge a questão - quem controlará os compradores misteriosos, isto é, tudo o que depende da consciência de uma pessoa precisa de monitoramento constante. E os comerciantes ainda encontram maneiras de contornar o controle, em geral, o problema do escudo e da espada.
E surgiu em geral a idéia de abandonar o fator humano. Nossa solução é fornecer controle visual da exibição de mercadorias e controle da disponibilidade de mercadorias na prateleira sem a participação de comerciantes, e fazemos isso 24 horas por dia, 7 dias por semana.
O fato é que nosso messenger possui funcionalidade de vigilância por vídeo, ou seja, você pode colocar um smartphone barato em questão e dar acesso à visualização de todas as partes interessadas - merchandiser, supervisor, líder, etc. Assim, você pode ver em tempo real a qualquer momento o que está acontecendo na prateleira, respectivamente, o comerciante sempre tem informações relevantes - se ele precisa ir ao objeto ou não.
O supervisor também pode monitorar o trabalho do comerciante a qualquer momento, e o chefe, por exemplo, se é uma rede federal com um grande número de representantes nas regiões, pode ver o que está acontecendo com seus produtos em qualquer cidade e a qualquer momento.
Uma pergunta razoável surge - por que não usar filmadoras baratas para essa tarefa?
A resposta é a facilidade de instalar a vigilância por vídeo usando um smartphone e a facilidade de uso no messenger.
Na maioria dos casos, para uma câmera de vídeo barata que possui apenas conexão Wi-Fi, você precisa levá-lo a algum lugar e provavelmente precisará de um roteador com um modem 3-4G, ou seja, você já precisa de dois dispositivos. Além disso, o smartphone já possui uma bateria, ou seja, não há problemas durante uma queda de energia.
Para que o roteador funcione corretamente, determinadas configurações devem ser feitas por pessoal mais ou menos qualificado e, no caso de um telefone, o modo de vigilância por vídeo é ativado com muita simplicidade e pode ser executado por quase qualquer usuário.
Além disso, para visualizar um grande número de câmeras, você precisa de um software especial, precisa pensar no acesso, fornecer nomes de usuário e senhas e, no caso de um mensageiro, o acesso à visualização é organizado de maneira muito simples - o usuário certo tem uma lista de câmeras permitidas e isso é tudo.
O custo de um smartphone também é baixo - de US $ 25 a 30 no varejo. Para smartphones, existem muitos tipos de suportes, existem pequenos smartphones que podem ser colocados, por exemplo, dentro de luzes para prateleiras, etc.
Problema de US $ 8 bilhões
No processo de mergulhar no tópico, verificou-se que, por exemplo, o problema da disponibilidade de mercadorias nas prateleiras das lojas (OSA - On Shelf Availability) é global e, como resultado da falta de produtos necessários nas prateleiras, a indústria global está perdendo até US $ 8 bilhões por ano.
Existem muitas startups que resolvem esse problema com a ajuda de redes neurais - o comerciante, durante sua aparição na loja, tira uma foto da prateleira, envia para a nuvem, a rede neural verifica a foto com o planograma e envia o resultado na forma de dicas - quais itens estão em pé corretamente, quais produtos não estão na prateleira etc.
Mas também há um fator humano - um funcionário veio de manhã, tirou uma foto, publicou as mercadorias de acordo com as regras e saiu. E então, literalmente, após 5 minutos, pode vir um ônibus com os clientes que mudarão tudo o que ele fez, e o supervisor achará que está tudo bem.
Portanto, em nossa opinião, é melhor fazer a análise várias vezes durante o dia; além disso, essas análises podem ajudar a identificar padrões nas vendas de certos produtos.
Para implementar essa idéia, decidimos que é melhor tirar várias fotos durante o dia e enviá-las periodicamente para reconhecimento na nuvem.
Mas não tínhamos experiência em trabalhar com redes neurais, e parecia bastante difícil criar nosso próprio mecanismo e depois treiná-lo.
Portanto, decidimos adotar uma solução pronta. Alguém pode pensar que essa abordagem está errada - você precisa pagar pelo processamento de imagens na nuvem.
Mas existem contra-argumentos - fabricar seu próprio mecanismo é caro e duradouro, e você precisa treinar a rede neural, e esse também é um processo trabalhoso.
Além disso, usando a solução pronta, você pode lançar rapidamente o produto acabado e não se envolver na sua criação, pisando em todos os tipos de ancinhos e aprendendo com seus erros. E não queríamos nos tornar especialistas em redes neurais - para nós, eles são apenas uma ferramenta para resolver problemas específicos.
Além disso, o mercado já possui muitas plataformas que podem ser usadas - Amazon Rekognition, Google API, etc. À medida que essas plataformas se desenvolvem e competem entre si, o preço cairá apenas.
Portanto, decidimos usar o IBM Watson com seu mecanismo de reconhecimento visual.
Bot de reconhecimento visualUm subproduto do projeto para controlar a exibição de mercadorias nas prateleiras era um bot, que chamamos de reconhecimento visual.
O bot é capaz de determinar todos os tipos de objetos da foto baixada ou tirada e também sabe como determinar o sexo e a idade das pessoas na foto.
O bot em si, seu algoritmo, também publicamos no IBM Watson e, portanto, ele usa o mecanismo de reconhecimento visual com uma rede neural mais ou menos treinada no mesmo local.
Na plataforma Bluemix, o bot fica assim:
Como usar o botFaça o download do M1 Messenger
para Android ou
iOS .
Após o registro na pesquisa, encontramos o Bot de reconhecimento visual:

Adicione ao bot:

O bot criará um bate-papo na guia Negócios:

Agora você pode enviar fotos para ele:

Clique em Processando e obtenha o resultado:

Então, o cachorro-quente determina, tente um hambúrguer:

Existe uma aplicação bastante popular,
Vivino , na qual o usuário pode tirar uma foto do rótulo de uma garrafa de qualquer vinho e obter todas as características, classificações, preços, etc.

Com a ajuda do bot de reconhecimento visual, você pode fazer a mesma coisa com cerveja, vodka etc. - O IBM Watson possui um módulo de aprendizado.
Bem, reconhecimento de idade por foto:

Além de gênero e idade, a rede neural ainda está tentando determinar a profissão de vestuário:

Determinação de idade, sexo e coordenadas na foto:


