
Sicherlich erinnern sich viele an die 4. Folge der 4. Staffel von Silicon Valley, die letztes Jahr veröffentlicht wurde und in der Dzang Young die Not HotDog-Anwendung abgesägt hat.
Wie sich herausstellte, war es eine echte Anwendung, die HBO speziell für diese Serie gemacht hat, und
Habr hat bereits darüber geschrieben .
Nun, wir erzählen Ihnen, wie wir einen Bot erstellt haben, um nicht nur Hot Dogs, sondern auch viele andere Elemente zu bestimmen und das Geschlecht und Alter von Menschen anhand von Fotos zu bestimmen.
HintergrundWir wollten uns nicht mit neuronalen Netzen befassen. Wir wollten nur ein Projekt zur Steigerung der Produktivität von Merchandisern in Einzelhandelsnetzwerken durchführen.

Zu den Aufgaben der Händler gehört insbesondere die Überprüfung der Verfügbarkeit von Waren im Regal. Dazu müssen sie fast täglich Einzelhandelsgeschäfte aufsuchen und dem Vorgesetzten das Vorhandensein / Fehlen von Waren melden.
In der Regel werden dem Merchandiser mehrere Filialen zugewiesen, und jeden Tag gehen sie zu den Feldern - zu den ihnen zugewiesenen Filialen.
Normalerweise sind Merchandiser verpflichtet, ihr Regal zu fotografieren und diese Bilder an den Vorgesetzten zu senden - als ob der Beweis erbracht würde, dass der Merchandiser tatsächlich im Geschäft war.
In der Praxis arbeiten Merchandiser, die die unterste Ebene in der Hierarchie der Verkäufer darstellen und nur sehr wenig Geld für ihre Arbeit erhalten, nicht immer in gutem Glauben. Manchmal gehen sie nicht auf die Felder, sondern senden alte Fotos an ihre Vorgesetzten. Sie werden entlassen, sie gehen in andere Netzwerke, der Prozess wiederholt sich erneut - in dieser Position gibt es immer eine große Fluktuation des Personals und es gibt eine ständige Gruppe von Merchandisern.
Manager unternehmen alle möglichen Versuche, um die Kontrolle über Merchandiser zu verbessern. Sie führen knifflige Anwendungen mit Geokoordinaten ein, mit der Unfähigkeit, alte Fotos usw. zu senden.
Mystery Shopper werden auch beauftragt, Merchandiser zu kontrollieren - sie müssen Fotos vom Regal im Laden machen, Materialien auslegen usw. Es gibt sogar Unternehmen, die solche Mystery Shopper bei Schülern, Schulkindern usw. suchen und diese Dienstleistungen an den Einzelhandel verkaufen. Aber hier stellt sich die Frage, wer die Testkäufer kontrollieren wird, dh alles, was vom Bewusstsein einer Person abhängt, muss ständig überwacht werden. Und Merchandiser finden immer noch Möglichkeiten, das Problem des Schildes und des Schwertes im Allgemeinen zu umgehen.
Und die Idee entstand im Allgemeinen, den menschlichen Faktor aufzugeben. Unsere Lösung besteht darin, dass wir die visuelle Anzeige der Warenausstellung und die Verfügbarkeit der Waren im Regal ohne Beteiligung von Merchandisern steuern können, und dies rund um die Uhr.
Tatsache ist, dass unser Messenger über Videoüberwachungsfunktionen verfügt. Das heißt, Sie können ein kostengünstiges Smartphone auf den Punkt bringen und allen Interessenten - dem Merchandiser, Supervisor, Leader usw. - Zugriff auf die Anzeige gewähren. So können Sie jederzeit in Echtzeit sehen Was im Regal passiert, hat der Merchandiser immer relevante Informationen - ob er zum Objekt gehen muss oder nicht.
Der Vorgesetzte kann auch jederzeit die Arbeit des Merchandisers überwachen, und der Leiter kann beispielsweise, wenn es sich um ein Bundesnetz mit einer großen Anzahl von Vertretern in den Regionen handelt, jederzeit und jederzeit sehen, was mit seinen Waren geschieht.
Es stellt sich die vernünftige Frage: Warum nicht für eine solche Aufgabe preiswerte Camcorder verwenden?
Die Antwort ist die einfache Installation der Videoüberwachung mit einem Smartphone und die einfache Verwendung im Messenger.
In den meisten Fällen müssen Sie für einen kostengünstigen Camcorder, der nur über eine Wi-Fi-Verbindung verfügt, dieses Wi-Fi irgendwohin mitnehmen. Wahrscheinlich benötigen Sie einen Router mit einem 3-4G-Modem, dh Sie benötigen bereits zwei Geräte. Darüber hinaus verfügt das Smartphone bereits über einen Akku, d. H. Es gibt kein Problem während eines Stromausfalls.
Damit der Router ordnungsgemäß funktioniert, müssen bestimmte Einstellungen von mehr oder weniger qualifiziertem Personal vorgenommen werden. Bei einem Telefon wird der Videoüberwachungsmodus sehr einfach aktiviert und kann von fast jedem Benutzer ausgeführt werden.
Um eine große Anzahl von Kameras anzeigen zu können, benötigen Sie eine spezielle Software. Sie müssen über den Zugriff nachdenken, Benutzernamen und Kennwörter angeben. Bei einem Messenger ist der Zugriff auf die Anzeige sehr einfach zu organisieren. Der richtige Benutzer verfügt über eine Liste der Kameras, die ihm zur Verfügung stehen, und das ist alles.
Die Kosten für ein Smartphone sind ebenfalls niedrig - von 25 bis 30 US-Dollar im Einzelhandel. Für Smartphones gibt es viele Arten von Halterungen, es gibt kleine Smartphones, die platziert werden können, z. B. Innenleuchten für Regale usw.
8-Milliarden-Dollar-Problem
Beim Eintauchen in das Thema stellte sich heraus, dass beispielsweise das Problem der Verfügbarkeit von Waren in Regalen in Geschäften (OSA - On Shelf Availability) global ist und die globale Industrie aufgrund des Mangels an notwendigen Produkten in den Regalen jährlich bis zu 8 Milliarden US-Dollar verliert.
Es gibt viele Startups, die dieses Problem mithilfe neuronaler Netze lösen - der Merchandiser macht während seines Auftritts im Geschäft ein Foto des Regals, sendet es in die Cloud, das neuronale Netz überprüft das Foto mit dem Planogramm und sendet das Ergebnis in Form von Hinweisen - welche Positionen richtig stehen, welche Produkte nicht im Regal stehen usw.
Aber es gibt auch einen menschlichen Faktor: Ein Mitarbeiter kam am Morgen, machte ein Foto, postete die Waren gemäß den Regeln und ging. Und dann, buchstäblich nach 5 Minuten, kann ein Bus mit Kunden kommen, der alles ändert, was er getan hat, und der Vorgesetzte wird denken, dass alles in Ordnung ist.
Daher ist es unserer Meinung nach besser, die Analyse mehrmals am Tag durchzuführen. Darüber hinaus können solche Analysen dazu beitragen, Muster beim Verkauf bestimmter Waren zu identifizieren.
Um diese Idee umzusetzen, haben wir beschlossen, dass es besser ist, mehrere Fotos während des Tages aufzunehmen und sie regelmäßig zur Erkennung in die Cloud zu senden.
Wir hatten jedoch keine Erfahrung mit neuronalen Netzen, und es schien ziemlich schwierig, einen eigenen Motor zu bauen und ihn dann zu trainieren.
Aus diesem Grund haben wir uns für eine vorgefertigte Lösung entschieden. Jemand könnte denken, dass dieser Ansatz falsch ist - Sie müssen für die Verarbeitung von Bildern in der Cloud bezahlen.
Es gibt jedoch Gegenargumente: Die Herstellung eines eigenen Motors ist teuer und langlebig, und Sie müssen das neuronale Netzwerk trainieren. Dies ist auch ein mühsamer Prozess.
Darüber hinaus können Sie mit der vorgefertigten Lösung das fertige Produkt schnell ausrollen und sich nicht auf dessen Erstellung einlassen, auf alle Arten von Rechen treten und aus Ihren Fehlern lernen. Und wir wollten keine Spezialisten für neuronale Netze werden - für uns sind sie nur ein Werkzeug zur Lösung spezifischer Probleme.
Darüber hinaus verfügt der Markt bereits über viele Plattformen, die verwendet werden können - Amazon Rekognition, Google API usw. Da sich diese Plattformen entwickeln und zwischen ihnen konkurrieren, wird der Preis nur fallen.
Aus diesem Grund haben wir uns für IBM Watson mit seiner visuellen Erkennungs-Engine entschieden.
Visuelle ErkennungsbotEin Nebenprodukt des Projekts zur Steuerung der Warenausstellung in den Regalen war ein Bot, den wir Visual Recognition nannten.
Der Bot kann alle Arten von Objekten anhand des heruntergeladenen oder aufgenommenen Fotos bestimmen und weiß auch, wie Geschlecht und Alter der Personen anhand des Fotos bestimmt werden.
Der Bot selbst, sein Algorithmus, haben wir auch auf IBM Watson veröffentlicht, und dementsprechend verwendet er die Visual Recognition Engine mit einem mehr oder weniger trainierten neuronalen Netzwerk am selben Ort.
Auf der Bluemix-Plattform sieht der Bot folgendermaßen aus:
Wie man den Bot benutztLaden Sie M1 Messenger
für Android oder
iOS herunter.
Nach der Registrierung in der Suche finden wir den Visual Recognition Bot:

Zum Bot hinzufügen:

Der Bot erstellt einen Chat auf der Registerkarte Business:

Jetzt können Sie Fotos zu ihm hochladen:

Klicken Sie auf Verarbeitung und erhalten Sie das Ergebnis:

Also, der Hot Dog bestimmt, probieren Sie einen Hamburger:

Es gibt eine sehr beliebte Anwendung
Vivino , bei der der Benutzer ein Bild des Etiketts aus einer Flasche Wein machen und alle Eigenschaften, Bewertungen, Preise usw. abrufen kann.

Mit Hilfe des Visual Recognition-Bots können Sie ganz einfach das Gleiche für Bier, Wodka usw. tun. - IBM Watson verfügt über ein Lernmodul.
Nun, Alterserkennung durch Foto:

Neben Geschlecht und Alter versucht das neuronale Netz immer noch, den Beruf der Kleidung zu bestimmen:

Bestimmung von Alter, Geschlecht und Koordinaten auf dem Foto:


