Maschinelles Lernen dringt weiterhin in Branchen außerhalb der Internetbranche ein. Alexander Belugin von der Firma „Digital“ sprach auf der Data & Science-Konferenz „Die
Welt mit den Augen von Robotern “ über die Erfolge, Schwierigkeiten und dringenden Aufgaben auf diese Weise. Die Einführung von Technologien wie Computer Vision erfordert einen seriellen Ansatz und einen Produktansatz, um die Kosten für einzelne Implementierungen zu senken. Tatsache ist, dass es in der Produktion viele Arten von Aufgaben gibt. Aus dem Bericht erfahren Sie mehr über die Produkte, Welttrends und die Erfahrungen des Alexander-Teams in den Bereichen Arbeitssicherheit und Prozessautomatisierung.
- Guten Morgen. Ich bin froh, dass alle zu dieser interessanten Konferenz gekommen sind. Ich werde zunächst kurz über das Unternehmen "Digital" sprechen, dann ein wenig über die Aufgaben in der Branche und über typische Wege zur Lösung solcher Probleme. Dies sind Aufgaben ohne Roboter, keine Montageaufgaben, sondern verschiedene Prozessanlagen. Am Ende ein kleiner Blick auf unsere Erfahrung.
Wir arbeiten seit einem Jahr auf dem Markt und unser Ziel ist es, die industrielle Produktion vollständig zu automatisieren, um ihre Rentabilität um 10-15% zu steigern. Um dies vollständig zu erreichen, müssen alle Probleme gelöst werden, die mit einer gemeinsamen Optimierung aller Prozesse, der Logistik, der Beschaffung und der Produktion selbst enden, jedoch mit grundlegenden Dingen wie dem Internet der Dinge, Sensoren und der Informationssammlung beginnen.

Dies nennt man jetzt das Schlagwort Digitalisierung. Dies ist die Übertragung von Daten über alle Prozesse in digitaler Form, damit Sie sie später zur Steigerung der Effizienz verwenden können.

Heute sprechen wir mehr über Computer Vision. Es gibt auch den Begriff "Bildverarbeitung", der sich auf Technologie bezieht. Es gibt Videokameras, die denen für die Videoüberwachung ähneln, es gibt Webkameras, die für die Kommunikation verwendet werden, und es gibt spezielle Kameras in der Branche. Sie unterscheiden sich darin, dass sie häufig keinen regulären Ethernet-Port haben, spezielle Protokolle verwendet werden, sie können beispielsweise 750 Bilder pro Sekunde übertragen und nicht im Burst-Modus, sondern kontinuierlich ohne Komprimierung. Es gibt spezielle Kameras mit besonderer Lichtempfindlichkeit in anderen Bereichen als für das Auge optisch sichtbar. Es gibt sogar Kameras, die eine Spur lesen, viele Bilder pro Sekunde aufnehmen, aber eine Breite von einem Pixel haben. Eine solche Kamera steht über dem Förderband und schaut, was dort passiert.
Ein charakteristisches Merkmal von Computer-Vision-Aufgaben ist, dass die Ausgabe kein Bild sein sollte - es interessiert niemanden -, sondern eine Zahl, die die Qualität oder Größe dessen, was wir beobachten, kennzeichnet.

Ich möchte einige grundlegende Aufgaben auflisten. Der erste wichtige Block betrifft die Sicherheit. Es gibt eine Perimeterkontrolle, damit nichts aus dem Unternehmen herausgenommen wird. Dies ist ein Beispiel aus der Anzahl der Videoanalyse-Aufgaben, die seit 15 bis 20 Jahren gelöst wurden, und jedes Jahr ist alles besser. Wenn es einen Zaun und eine Videokamera gibt und jemand versucht zu klettern, wird ihn die Videoanalyse mit Sicherheit fangen.
Es gibt komplexere Aufgaben - die Steuerung der Bewegung in einigen Zonen. Im Unternehmen können Sie sich beispielsweise immer verbrennen, sich im Entlade- oder Ladebereich oder auf den Gleisen befinden, auf denen die Karren fahren. Es gibt bereits eine schwierigere Aufgabe, Sie müssen enge Einschränkungen beachten und verstehen, auf welchen Wegen Menschen gehen können.
Ein weiteres Beispiel für eine sicherheitsrelevante Aufgabe ist die Erkennung von Helmen auf ihren Köpfen, wenn Kameras auf Plattformen platziert werden. In Russland ist dieses Thema sehr schlecht verkauft. Wenn Leute hören, wie viel solche Systeme kosten, sagen sie, dass wir eine Vorschrift haben, eine Person sollte einen Helm aufsetzen und er wird ihn aufsetzen, und wenn nicht, hat er die Vorschrift verletzt, sein Problem. Im Allgemeinen ist dies eine weltweit beliebte Lösung, die sowohl von Anbietern als auch von privaten Unternehmen beworben wird.
Der nächste Aufgabenblock bezieht sich auf das Rechnungswesen. Grundsätzlich ist dies die Erkennung einiger Aufkleber. Beim Drucken eines Barcodes gibt es spezielle Aufkleber. Dann geht es etwas einfacher. Es gibt eine Reihe vorgefertigter Software zum Erkennen von Barcodes oder deutlich gedruckten Zeichen. Sie versuchen oft, Geld zu sparen, nicht das Codierungssystem zu ändern, sondern Computer Vision zur Erkennung zu verwenden. Dann kann es zum Beispiel auf einen Eisenbahnwaggon gestopft werden und schlecht unterscheidbare Nummern. Dann ist alles komplizierter, Sie müssen mehr Zeit damit verbringen, all dies aufzubauen. Dies ist notwendig, um Diebstahl zu bekämpfen und Waren zu kontrollieren - was in das Unternehmen geflossen ist, wie es sich darin bewegt hat und wo es gelandet ist.

Der letzte Aufgabenblock ist die Qualitätskontrolle. Es kann auch in zwei Komponenten unterteilt werden. Eine bezieht sich auf die physikalische Qualitätskontrolle. Sie können die Größe verschiedener Objekte beobachten. Meistens betrifft dies die kleinen Dinge: einige Deckel aus Verpackungen mit Milch oder aus Flaschen. Sie haben einen ziemlich einfachen, billigen Produktionsprozess, viele Fehler, sie müssen nur gefiltert werden, was sie unrentabel macht.
Und es gibt einen Teil, der auf dem Bild ist. Es gibt bereits komplexere Aufgaben. Dies ist der Zeitpunkt, an dem wir versuchen zu verstehen - und ob sie tatsächlich die richtige Aktion mit unserem Produkt ausführen. Zum Beispiel müssen Sie die Haltung eines Mechanikers bewerten und verstehen, welche Operation er ausführt. Oder es gab eine Aufgabe, wenn es eine Plattform gibt, auf der Bohrinseln montiert und demontiert werden. Das größte Feld wird zusammengebaut, zur Arbeit gefahren, dann abgebaut und weggenommen. Es ist sehr teuer, eine Person nach Norden zu bringen, um diese Operationen zu verfolgen, obwohl sie die meiste Zeit untätig sein wird. Auch auf einem Camcorder. Mit dem Camcorder können Sie automatisch beobachten, welche Ereignisse auftreten, und den Zeitplan für die Montage und Demontage verfolgen.

Ein anderes Beispiel ist ein Screenshot von Affiliate-Software, Kontrolle der Ehe in Gussteilen, allerlei Plastikgegenständen vor dem Malen, wie dies in solchen Formen gegossen wird. Sie können die Ehe mit der Kamera erkennen.
Es gibt zwei Hauptansätze zur Lösung dieser Probleme. Beide wurden für eine lange Zeit erfunden, aber der Klassiker besteht darin, mit Bildern unter Verwendung von Algorithmen zu arbeiten.

Linker Hebel, versuchen Sie es zu identifizieren. Richtig ist nicht so klar. Kreise sind aufgerollte Rollen aus Stahlblech, in der Mitte ist nicht klar, was. Die Methoden bestehen darin, das Bild irgendwie zu verarbeiten, seinen Kontrast zu erhöhen, es möglicherweise zweifarbig zu machen, einige Kanten und Kanten von Objekten auszuwählen, zu versuchen, die Objekte selbst zu finden und dann mit ihnen zu arbeiten.

Die zweite, modernere Methode, die sich auf die Datenwissenschaft bezieht, ist alles, was mit neuronalen Netzen zu tun hat. Hier gibt es gewisse Vorteile. In erster Linie ist es in Bezug auf die Qualität möglich, bei den komplexesten Problemen, die mit klassischen Methoden nicht gelöst werden können, höhere Ergebnisse zu erzielen. Einige Beispielaufgaben werden aufgelistet.
Es gibt Anpassungsfähigkeit, Sie können den Lernalgorithmus für neuronale Netze konfigurieren und nicht das trainierte neuronale Netz selbst, sondern alle zusammen mit dem Algorithmus von der Aufgabe auf die Aufgabe übertragen, und dann können leicht unterschiedliche Aufgaben mit demselben Werkzeug gelöst werden.
Es gibt Nachteile, die in der Branche häufig auftreten - Datenmangel. Um Fehler zu identifizieren, benötigen wir, wenn wir über klassische Methoden sprechen, einen Videostream, der fertige Produkte aufnimmt. Wir müssen mit unseren Augen sehen, welche Fehler vorhanden sind, sie sehen und unseren Code sie sehen lassen. Durchlaufen Sie mehrere Parameter, hierfür ist kein manuelles Markup erforderlich. Im Fall eines neuronalen Netzwerks benötigen Sie eine große Anzahl von Beispielen, um sie entweder manuell zu erfassen oder mit modernen, kunstvollen Methoden zu generieren. Dies ist ein langer und komplexer Prozess, der möglicherweise von Zeit zu Zeit wiederholt werden muss, wenn er auf andere Aufgaben übertragen wird.

Hier ist ein Beispiel für ein solches Bild, das sich auf die Erkennung von Fehlern bezieht. Eines der beliebtesten Themen, wenn Sie sich die Artikel ansehen, zeigt unten im Bild eine kleine Ehe auf den Strukturen. Mit neuronalen Netzen ist es möglich, 92% bis 99% aller Defekte in verschiedenen Jobs auf unterschiedliche Weise zu erkennen, wobei falsch positive Ergebnisse in Höhe von 3-4% durchaus geeignete Ergebnisse sind. Das normale Heiratsniveau in verschiedenen Branchen reicht von 0,5% bis zu kleinen Prozenteinheiten. Solche Indikatoren sind durchaus geeignet, eine Person zu ersetzen, die diese Mängel feststellt. Oder sogar die Ergebnisse verbessern.

Ein weiteres Beispiel für Aufgaben im Zusammenhang mit der Digitalisierung ist das Anschließen verschiedener Geräte ohne digitale Schnittstellen, bei denen der grüne Pfeil die Hebelwirkung darstellt. Ein kleiner Schuss vom Arbeitsplatz des Bohrers, der die Bohrungen steuert, hat eine Hebelwirkung, die er wechselt. Bohren ist wichtig, ein teurer Prozess, ein paar Millionen Rubel pro Tag. Und dies wird in keiner Weise aufgezeichnet, er schaltet einige Hebel, und nirgends gibt es eine Aufzeichnung, oder im besten Fall in einem manuellen Tagebuch, welche Schaltvorgänge dieser Hebel durchgeführt wurden. Das ist kritisch.

Dies ist ein Ofen, der Draht tempert. In diesem Beispiel Golddraht. Der Ofen ist ungefähr 25 Jahre alt, reines Gold dringt ein, er wird geschmolzen, in einen dünnen Faden gegossen und durch Hitze getempert, verbrannt und in festes Material umgewandelt. Es ist bekannt, dass sich dieser Draht manchmal als zuverlässig herausstellt, alle Arten von Ketten daraus gewebt werden und manchmal eine bestimmte Menge Draht zur Ehe führt, während das Weben von Ketten bricht, reißt, bricht. Es scheint, dass dies von den Wärmebehandlungssystemen abhängt, da sich der Rohstoff geringfügig ändert. Der Datenlogger ist hier geschrieben, rechts vom Rahmen befindet sich ein Rekorder, der seine Parameter auf eine Papierrolle schreiben kann. Es gibt drei Parameter: die Temperatur in dem Becher, in dem das Gold geschmolzen wird, die Erwärmungstemperatur ist der Ofenmodus und die Geschwindigkeit, mit der all dies passiert.
Um zu verstehen, womit die Ehe verbunden ist und ob es möglich ist, den Ofen so einzustellen, dass die Ehe reduziert werden kann, müssen diese Parameter digitalisiert werden. Wie? Es hat industrielle Steckverbinder, aber es war alles vor 25 Jahren, es wird sehr teuer sein, entweder eine Verbindung mit Reverse Engineering herzustellen oder den Ofenhersteller, falls das Unternehmen noch nicht bankrott gegangen ist, für die Verbindung zu bezahlen. Das Anschließen solcher Geräte an das USP- oder MS-System [00:14:24] kann beispielsweise eine Million Rubel kosten. Oder vielleicht Hunderttausende. Besonders wenn man bedenkt, dass es nur zwei solcher Öfen gibt, nicht hundert.

Wie können wir dieses Problem mit den Tools lösen, über die wir gesprochen haben? Der klassische Ansatz mit OpenCV funktioniert in diesem Fall nicht, es gibt zu viele Blendungen, das Bild ist verschwommen, selbst eine Person unterscheidet nicht wirklich, welche Zahlen vorhanden sind. OCR, vorgefertigte Bibliotheken zur Texterkennung sind ebenfalls nicht sehr geeignet.
Die zweite Option bleibt - neuronale Netze. In diesem Fall funktioniert es, erfordert jedoch eine große Anzahl von Schritten. Sicherlich müssen Sie ein Markup für das Netzwerktraining, Testen, Aufnehmen eines Netzwerks und Trainieren sammeln. All dies muss getan, getestet werden. Ich habe die Arbeitskosten berechnet. Hier können Sie diskutieren, Sie können es schneller oder langsamer machen, aber im Allgemeinen stellt sich heraus, 72 Stunden. Für einen guten Spezialisten kann dies so viel kosten. Gleichzeitig haben wir keine Infrastruktur oder Software erhalten. Wir haben gerade ein optimiertes und getestetes Netzwerk, das diese Zahlen gut erkennt.
Ein Plus des Ansatzes ist, dass es funktioniert. Der Nachteil ist, dass auch niemand bereit ist, es umzusetzen. Zuerst müssen Sie lernen, wie diese Daten gesammelt werden, und erst dann verstehen, ob tatsächlich ein Zusammenhang zwischen diesen Daten und der Ehe besteht. Wenn ja, müssen Sie herausfinden, wie und was Sie ändern müssen, um den Anteil der Ehe zu verringern. Was ist, wenn es zu viel davon gibt? Und für den Piloten bezahlen, für Automatisierung und Verbindung müssen Sie sofort mindestens so viel bezahlen. Sogar höchstwahrscheinlich mehr.

Daher konnten solche Projekte in den letzten drei Jahren nach unserer Erfahrung kein einziges verkaufen. Wenn dies ein defektes Rohr ist, in dem eine Person steht, ist eine Person viel billiger. Wenn dies eine komplexe Sache ist, sind die Risiken für die Kunden zu groß.
Fazit - Sie müssen es produzieren.
In der Welt, auf den Märkten für maschinelles Lernen, gibt es viel Bewegung in Richtung Produktisierung. Alle Arten von Auto-ML-Lösungen, mit denen Sie den Data Scientist teilweise ersetzen können, sowie fertige Produkte oder Lösungen für bestimmte Anwendungen. Das einfachste Beispiel sind Empfehlungen im E-Commerce. Es gibt seit langem Produkte, bei denen Daten in einem Standardformat verbunden sind und die selbst Empfehlungen abgeben.
Das haben wir auch im Bereich Computer Vision versucht. Um ein Produkt anzubieten, mit dem Sie Handarbeit um eine Größenordnung automatisieren und reduzieren können, um alte Geräte mit der Erkennung von Zahlen zu verbinden: Messuhren und andere.

Die erste Aufgabe, die gelöst werden muss, ist die Reduzierung der Einrichtungskosten. Wenn Sie die Kamera einsetzen, müssen Sie die Interessenzone hervorheben. Kreise zum Beispiel so mit einem Rechteck ein und sage, was ich in dieser Zone erkennen möchte.

Die nächste Frage ist, dass alle Aufgaben unterschiedlich sind und nur an dieser Stelle müssen Sie einige neuronale Netze lernen, damit sie hier gut funktionieren.

Wir wissen, dass es verschiedene neuronale Netze gibt. Wenn wir über Zahlen sprechen, haben viele Autoübersetzer in Smartphones: Wir zeigen auf jeden Text, und er beginnt mehr oder weniger, ihn zu übersetzen, unabhängig von Schriftart oder Winkel. Es gibt solche Lösungen, dh mit der Anzeigetafel können Sie ein Netzwerk trainieren, das mit jeder Anzeigetafel gut funktioniert. Aber es wird Nachteile haben - es wird schwierig, schwierig, es wird langsam arbeiten, und da es universell ist, wird die Qualität bei einer bestimmten Aufgabe leiden. Aus diesem Grund haben wir einen Ansatz namens Tutor-Student verwendet, bei dem eine Reihe leistungsstarker Netzwerke für bestimmte Aufgaben in die Lösung integriert sind. Zum Beispiel - separat für Texte, für einige Hebel, für Messuhren. Es gibt nicht viele Arten solcher Geräte. Dieses System arbeitet von selbst, erkennt etwas und gibt dem Bediener dann die Möglichkeit, zusätzliche Markups durchzuführen, durch seine Augen zu schauen und 3-5% der Fehler zu korrigieren, die er sieht. Und dann auf der Grundlage einer solchen ausdrücklichen Methode des generierten Markups ein bereits leichtes Netzwerk zu trainieren, das gemäß seinen Daten an die spezifische Aufgabe des Kunden angepasst ist. Dieser Ansatz kann die Implementierungskosten erheblich senken und gleichzeitig die Qualität nahezu so gestalten, als ob die Arbeit von Hand erledigt würde.

Ein leichtes Netz wird später benötigt, da nicht überall in Unternehmen Videokameras an eine Art Videomanagementsystem angeschlossen werden können. Wenn es ein solches VMS gab, können Sie alles auf dem Server ausführen, wobei das Ressourcenlimit nur mit den Kosten verbunden ist. In den Camcorder sind Chips wie Nvidia Jetson und separate Lösungen integriert. Unsere Lösung funktioniert insbesondere mit Orange PI, einer Art Raspberry PI-Mikrocomputer, und erzeugt 8 bis 10 Bilder pro Sekunde, wobei am Eingang ein Full-HD-Bild empfangen wird.

Als nächstes kommt auch der Lebensmittelbereich. All diese Daten müssen irgendwo abgelegt werden. Es bietet sofort eine Reihe von Standardanschlüssen.

Zusammenfassend. Eine solche Produktivierung ermöglicht es Ihnen, maschinelles Lernen und Computer Vision aufgrund der geringen Kosten und der geringen Implementierungskosten auf die breite Masse und auf einen breiten Markt zu verlagern, ohne teure Spezialisten und Datenwissenschaftler einsetzen zu müssen. Ich denke, dass dies die Zukunft ist, auch in der Industrie.