
Seguramente, muchos recuerdan el cuarto episodio de la cuarta temporada de Silicon Valley, lanzado el año pasado, en el que Dzang Young cortó la aplicación Not HotDog.
Al final resultó que, de hecho, era una aplicación real que hizo a HBO específicamente para esta serie, y
Habr ya escribió sobre ella.
Bueno, le diremos cómo hicimos un bot para determinar no solo los hot dogs, sino también muchos otros artículos, así como para determinar el sexo y la edad de las personas a partir de fotografías.
AntecedentesNo íbamos a tratar con redes neuronales. Solo queríamos hacer un proyecto para aumentar la productividad de los comerciantes en las redes minoristas.

Los deberes de los comerciantes incluyen, en particular, verificar la disponibilidad de productos en el estante, para esto deben visitar los puntos de venta casi todos los días e informar la presencia / ausencia de productos al supervisor.
Como regla general, se asignan varias tiendas al exhibidor y todos los días van a los campos, a los puntos de venta asignados a ellos.
Por lo general, los comerciantes están obligados a fotografiar su estante y enviar estas fotos al supervisor, como si se tratara de una prueba de que el comerciante realmente estaba en la tienda.
En la práctica, los comerciantes, que son el nivel más bajo en la jerarquía de vendedores y que reciben muy poco dinero por su trabajo, no siempre trabajan de buena fe, a veces no van al campo, sino que envían fotos antiguas a sus supervisores. Son despedidos, van a otras redes, el proceso se repite nuevamente: en esta posición siempre hay una gran rotación de personal y hay un conjunto constante de comerciantes.
Los gerentes hacen todo tipo de intentos para mejorar el control sobre los comerciantes: introducen aplicaciones difíciles con geocoordenadas, con la imposibilidad de enviar fotos antiguas, etc.
Los compradores misteriosos también son contratados para controlar a los comerciantes: deben tomar fotos del estante de la tienda, colocar materiales, etc. Incluso hay empresas que buscan compradores misteriosos entre estudiantes, escolares, etc., y venden estos servicios al por menor. Pero aquí surge la pregunta: quién controlará a los compradores misteriosos, es decir, todo lo que depende de la conciencia de una persona necesita un monitoreo constante. Y los comerciantes aún encuentran formas de evitar el control, en general, el problema del escudo y la espada.
Y en general surgió la idea de abandonar el factor humano. Nuestra solución es que proporcionamos control visual de la exhibición de productos y control de la disponibilidad de productos en el estante sin la participación de los comerciantes, y lo hacemos las 24 horas, los 7 días de la semana.
El hecho es que nuestro messenger tiene la funcionalidad de videovigilancia, es decir, puede colocar un teléfono inteligente de bajo costo en el punto y dar acceso a la visualización a todas las partes interesadas: el comerciante, el supervisor, el líder, etc. Por lo tanto, puede ver en tiempo real en cualquier momento Lo que está sucediendo en el estante, respectivamente, el comerciante siempre tiene información relevante, ya sea que necesite ir al objeto o no.
El supervisor también puede monitorear el trabajo del comerciante en cualquier momento, y el jefe, por ejemplo, si se trata de una red federal con una gran cantidad de representantes en las regiones, puede ver lo que está sucediendo con sus productos en cualquier ciudad y en cualquier momento.
Surge una pregunta razonable: ¿por qué no utilizar videocámaras económicas para tal tarea?
La respuesta es la facilidad de instalar videovigilancia utilizando un teléfono inteligente y la facilidad de uso en el messenger.
En la mayoría de los casos, para una videocámara económica que solo tiene conexión Wi-Fi, debe llevar este Wi-Fi a algún lugar y lo más probable es que necesite un enrutador con un módem 3-4G, es decir, ya necesita dos dispositivos. Además, el teléfono inteligente ya tiene una batería, es decir, no hay ningún problema durante un corte de energía.
Para que el enrutador funcione correctamente, ciertas configuraciones deben ser realizadas por personal más o menos calificado, y en el caso de un teléfono, el modo de videovigilancia se activa de manera muy simple y puede ser realizado por casi cualquier usuario.
Además, para ver una gran cantidad de cámaras, necesita un software especial, debe pensar en el acceso, dar nombres de usuario y contraseñas, y en el caso de un mensajero, el acceso a la visualización se organiza de manera muy simple: el usuario correcto tiene una lista de cámaras permitidas para él y eso es todo.
El costo de un teléfono inteligente también es bajo: de $ 25-30 al por menor. Para los teléfonos inteligentes, hay muchos tipos de soportes, hay teléfonos inteligentes pequeños que se pueden colocar, por ejemplo, luces interiores para estantes, etc.
Problema de $ 8 mil millones
En el proceso de profundizar en el tema, resultó que, por ejemplo, el problema de la disponibilidad de bienes en los estantes de las tiendas (OSA - On Shelf Availability) es global y, como resultado de la falta de productos necesarios en los estantes, la industria global está perdiendo hasta $ 8 mil millones al año.
Hay muchas nuevas empresas que resuelven este problema con la ayuda de redes neuronales: el comerciante, durante su aparición en la tienda, toma una foto del estante, la envía a la nube, la red neuronal verifica la foto con el planograma y envía el resultado en forma de pistas: qué posiciones se colocan correctamente, qué productos no están en el estante etc.
Pero también hay un factor humano: un empleado llegó por la mañana, tomó una foto, publicó los productos de acuerdo con las reglas y se fue. Y luego, literalmente después de 5 minutos, puede venir un autobús con clientes que cambiará todo lo que hizo, y el supervisor pensará que todo está bien.
Por lo tanto, en nuestra opinión, es mejor hacer el análisis varias veces durante el día, además, tales análisis pueden ayudar a identificar patrones en las ventas de ciertos bienes.
Para implementar esta idea, decidimos que es mejor tomar varias fotos durante el día y enviarlas periódicamente para su reconocimiento en la nube.
Pero no teníamos ninguna experiencia trabajando con redes neuronales, y parecía bastante difícil hacer nuestro propio motor y luego entrenarlo.
Por lo tanto, decidimos tomar una solución preparada. Alguien puede pensar que este enfoque es incorrecto: debe pagar el procesamiento de imágenes en la nube.
Pero hay argumentos en contra: hacer su propio motor es costoso y duradero, y necesita entrenar la red neuronal, y esto también es un proceso laborioso.
Además, con la solución preparada, puede implementar rápidamente el producto terminado y no participar en su creación, pisar todo tipo de rastrillos y aprender de sus errores. Y no queríamos convertirnos en especialistas en redes neuronales, para nosotros son solo una herramienta para resolver problemas específicos.
Además, el mercado ya tiene muchas plataformas que se pueden usar: Amazon Rekognition, Google API, etc. A medida que estas plataformas se desarrollen y compitan entre ellas, el precio solo caerá.
Por lo tanto, decidimos usar IBM Watson con su motor de reconocimiento visual.
Bot de reconocimiento visualUn subproducto del proyecto para controlar la exhibición de productos en los estantes fue un bot, al que llamamos Reconocimiento Visual.
El bot puede determinar todo tipo de objetos a partir de la foto descargada o tomada, y también sabe cómo determinar el género y la edad de las personas a partir de la foto.
El robot en sí, su algoritmo, también lo publicamos en IBM Watson, y en consecuencia utiliza el motor de Reconocimiento Visual con una red neuronal más o menos entrenada en el mismo lugar.
En la plataforma Bluemix, el bot se ve así:
Cómo usar el botDescarga M1 Messenger
para Android o
iOS .
Después de registrarse en la búsqueda, encontramos el Bot de reconocimiento visual:

Añadir al bot:

El bot creará un chat en la pestaña Empresa:

Ahora puedes subirle fotos:

Haga clic en Procesando y obtenga el resultado:

Entonces, el hot dog determina, pruebe una hamburguesa:

Existe una aplicación bastante popular,
Vivino , en la que el usuario puede tomar una foto de la etiqueta de una botella de cualquier vino y obtener todas las características, clasificaciones, precios, etc.

Con la ayuda del bot de Reconocimiento Visual, puedes hacer lo mismo para la cerveza, el vodka, etc. - IBM Watson tiene un módulo de aprendizaje.
Bueno, reconocimiento de edad por foto:

Además del género y la edad, la red neuronal todavía está tratando de determinar la profesión de la vestimenta:

Determinación de edad, sexo y coordenadas en la foto:


