L'apprentissage automatique continue de pénétrer les industries au-delà de l'industrie Internet. Lors de la conférence Data & Science «Le
monde à travers les yeux des robots », Alexander Belugin de la société «Digital» a évoqué les succès, les difficultés et les tâches urgentes de cette manière. L'introduction de technologies telles que la vision par ordinateur nécessite une approche sérielle et une approche produit pour réduire le coût des implémentations uniques. Le fait est qu'il existe de nombreux types de tâches en production. À partir du rapport, vous pouvez en apprendre davantage sur les produits, les tendances mondiales et l'expérience de l'équipe Alexander dans les domaines de la sécurité industrielle et de l'automatisation des processus.
- Bonjour. Heureux que tout le monde soit venu à cette intéressante conférence. Je vais d'abord parler brièvement de la société "Digital", puis un peu des tâches qui sont dans l'industrie, et des moyens typiques de résoudre de tels problèmes. Ce sont des tâches sans robots, pas d'assemblage, mais différentes usines de traitement. Au final, un petit regard sur notre expérience.
Nous travaillons sur le marché depuis un an maintenant et notre objectif est d'automatiser entièrement la production industrielle, ce qui nous permettra d'atteindre une augmentation de 10 à 15% de leur rentabilité. Pour ce faire, il est nécessaire de résoudre tous les problèmes, en terminant par une sorte d'optimisation conjointe de tous les processus, de la logistique, de l'approvisionnement et de la production elle-même, mais en commençant par des éléments de base tels que l'Internet des objets, les capteurs, la collecte d'informations.

C'est ce qu'on appelle maintenant la numérisation du mot à la mode. Il s'agit du transfert de données sur tous les processus sous forme numérique, afin que vous puissiez ensuite les utiliser pour augmenter l'efficacité.

Aujourd'hui, nous parlons davantage de vision par ordinateur. Il y a aussi le terme «vision industrielle», qui fait référence à la technologie. Il existe des caméras vidéo similaires à celles utilisées pour la vidéosurveillance, des caméras Web sont utilisées pour les communications et il existe des caméras spéciales dans l'industrie. Ils diffèrent en ce qu'ils n'ont souvent pas de port Ethernet régulier, des protocoles spéciaux sont utilisés, ils peuvent transmettre, par exemple, 750 images par seconde et pas en mode rafale, mais en continu, sans compression. Il existe des caméras spéciales avec une photosensibilité spéciale dans d'autres plages que celles visibles visuellement. Il existe même des caméras qui lisent une voie, prennent beaucoup d'images par seconde, mais avec une largeur d'un pixel. Une telle caméra se tient au-dessus du convoyeur et regarde ce qui s'y passe.
Une caractéristique distinctive des tâches de vision par ordinateur est que la sortie ne doit pas être une image - cela n'intéresse personne - mais un nombre qui caractérise la qualité ou la taille de ce que nous observons.

Je veux énumérer quelques tâches de base. Le premier bloc majeur est lié à la sécurité. Il y a un contrôle de périmètre pour que rien ne soit retiré de l'entreprise. Ceci est un exemple du nombre de tâches d'analyse vidéo qui ont été résolues depuis 15 à 20 ans, et chaque année, cela s'améliore. S'il y a une clôture et une caméra vidéo et que quelqu'un essaie de grimper, alors l'analyse vidéo le rattrapera à coup sûr.
Il y a des tâches plus complexes - contrôler le mouvement dans certaines zones. Par exemple, dans l'entreprise, vous pouvez toujours vous brûler, vous retrouver dans la zone de déchargement-chargement ou sur les pistes où roulent les chariots. Il y a déjà une tâche plus difficile, vous devez observer des restrictions étroites, comprendre sur quels chemins les gens peuvent marcher.
Un autre exemple de tâche liée à la sécurité est la détection de casques sur la tête lorsque des caméras sont placées sur des plates-formes. En Russie, ce sujet est très mal vendu. Quand les gens entendent combien ces systèmes coûtent, ils disent que nous avons un règlement, une personne devrait mettre un casque et il le mettra, et sinon, il a violé le règlement, son problème. En général, il s'agit d'une solution populaire dans le monde qui est promue par les fournisseurs et les entreprises privées.
Le bloc de tâches suivant est lié à la comptabilité. Fondamentalement, c'est la reconnaissance de certains autocollants. Il existe des autocollants spéciaux lors de l'impression d'un code-barres. Ensuite, cela fonctionne un peu plus facilement. Il existe un tas de logiciels prêts à l'emploi pour reconnaître les codes-barres ou les caractères clairement imprimés. Ils essaient souvent d'économiser de l'argent, non pas pour changer le système de codage, mais pour utiliser la vision par ordinateur pour la reconnaissance. Ensuite, il peut être, par exemple, bourré sur un wagon et des numéros mal reconnaissables. Ensuite, tout est plus compliqué, vous devez passer plus de temps à construire tout cela. Cela est nécessaire pour lutter contre le vol et contrôler les marchandises - ce qui est entré dans l'entreprise, comment elle s'est déplacée à l'intérieur et où elle s'est retrouvée.

Le dernier bloc de tâches est le contrôle de la qualité. Il peut également être divisé en deux volets. L'un est lié au contrôle de la qualité physique. Vous pouvez regarder les tailles de divers objets. Le plus souvent, cela concerne les petites choses: certains couvercles d'emballages avec du lait ou de bouteilles. Ils ont un processus de production bon marché assez simple, beaucoup de défauts, ils ont juste besoin d'être filtrés, les rendre meilleurs n'est pas rentable.
Et il y a une partie qui est dans l'image. Il existe déjà des tâches plus complexes. C'est quand nous essayons de comprendre - et si, en fait, ils effectuent la bonne action avec notre produit. Par exemple, vous devez évaluer la pose d'un mécanicien et comprendre quelle opération il effectue. Ou il y avait une tâche quand il y a une plate-forme sur laquelle les plates-formes de forage sont assemblées et démontées. Le plus grand champ est assemblé, conduit au travail, puis démonté et emporté. Mettre une personne au nord pour suivre ces opérations coûte très cher, malgré le fait qu'elle sera inactive la plupart du temps. Sur un caméscope aussi. À l'aide du caméscope, vous pouvez regarder automatiquement les événements qui se produisent et suivre le calendrier de montage et de démontage.

Un autre exemple est une capture d'écran d'un logiciel d'affiliation, le contrôle du mariage dans les castings, toutes sortes de choses en plastique avant d'être peintes, comme cela est versé sous de telles formes. Vous pouvez détecter le mariage à l'aide de la caméra.
Il existe deux approches principales pour résoudre ces problèmes. Les deux ont été inventés depuis longtemps, mais le classique consiste à travailler avec des images à l'aide d'une sorte d'algorithmes.

Levier gauche, essayez de l'identifier. Le droit n'est pas si clair. Les cercles sont des rouleaux de tôles d'acier enroulés, au centre on ne sait pas quoi. Les méthodes consistent à traiter l'image d'une manière ou d'une autre, à augmenter son contraste, peut-être à la rendre bicolore, à sélectionner des bords, des bords d'objets, à essayer de trouver les objets eux-mêmes, puis à travailler avec eux.

La seconde méthode, plus moderne, liée à la science des données, est tout ce qui concerne les réseaux de neurones. Il y a ici certains avantages. Tout d'abord, en termes de qualité, il est possible d'obtenir des résultats plus élevés dans les problèmes les plus complexes qui ne peuvent pas être résolus par des méthodes classiques. Certains exemples de tâches sont répertoriés.
Il y a une adaptabilité, vous pouvez configurer l'algorithme d'apprentissage du réseau neuronal et transférer de la tâche à la tâche non pas le réseau neuronal formé lui-même, mais tous ensemble avec l'algorithme, puis des tâches légèrement différentes peuvent être résolues avec le même outil.
Il y a des inconvénients qui jouent souvent dans l'industrie - le manque de données. Pour commencer à identifier les défauts, si nous parlons de méthodes classiques, nous avons besoin d'un flux vidéo qui tire des produits finis, nous devons voir quels sont les défauts, avec nos yeux, les voir et faire voir notre code. Itérer sur plusieurs paramètres, aucun balisage manuel n'est requis pour cela. Dans le cas d'un réseau neuronal, vous avez besoin d'un grand nombre d'exemples, soit pour les collecter manuellement, soit utiliser des méthodes astucieuses modernes pour les générer. Il s'agit d'un processus long et complexe, qui peut encore devoir être répété de temps à autre lors du transfert vers d'autres tâches.

Voici un exemple d'une telle image liée à la détection de défauts. L'un des sujets populaires, si vous regardez ce que sont les articles, au bas de l'image montre un petit mariage sur les structures. En utilisant des réseaux de neurones, il est possible de détecter de 92% à 99% de tous les défauts, dans différents travaux de différentes manières, avec des faux positifs au niveau de 3-4%, des résultats tout à fait appropriés. Le niveau normal de mariage dans différentes industries de 0,5% à de petites unités de pourcentage. De tels indicateurs sont tout à fait appropriés pour remplacer une personne qui détecte ces défauts. Ou même améliorer les résultats.

Un autre exemple de tâches liées à la numérisation, la connexion de divers équipements qui n'ont pas d'interfaces numériques, où la flèche verte fait levier. À un petit coup du lieu de travail du foreur, qui contrôle le forage, il a un certain effet de levier qu'il commute. Le forage est important, un processus coûteux, quelques millions de roubles par jour. Et cela n'est enregistré d'aucune façon, il commute certains leviers, et nulle part il n'y a de record, ou dans le meilleur des cas, c'est dans un journal manuel, que les changements de ces leviers étaient en cours. C'est critique.

Il s'agit d'un four qui tempère le fil. Dans cet exemple, fil d'or. Le poêle a environ 25 ans, l'or pur entre à l'intérieur, il est fondu, coulé dans un fil mince et il est tempéré par la chaleur, brûlé, converti en matériau solide. On sait que parfois ce fil se révèle parfois fiable, toutes sortes de chaînes en sont tissées, et parfois une certaine quantité de fil conduit au mariage, lors du tissage des chaînes elles se cassent, se fissurent, se cassent. Il semble que cela dépende des régimes de traitement thermique, étant donné que la matière première change légèrement. L'enregistreur de données est écrit ici, à droite du cadre il y a un enregistreur qui peut écrire ses paramètres sur un rouleau de papier. Il y a trois paramètres: la température dans la tasse dans laquelle l'or est fondu, la température de chauffage est le mode du four et la vitesse à laquelle tout cela passe.
Pour comprendre ce qui est lié au mariage et s'il est possible d'ajuster le poêle afin que le mariage puisse être réduit, ces paramètres doivent être numérisés. Comment? Il a des connecteurs industriels, mais c'était il y a 25 ans, cela coûtera très cher, soit de faire une connexion en rétro-ingénierie, soit de payer le fabricant du four, si l'entreprise n'a pas encore fait faillite, pour la connexion. La connexion d'un tel équipement au système USP ou MS [00:14:24] peut coûter, par exemple, un million de roubles. Ou peut-être des centaines de milliers. Surtout si l'on considère qu'il n'y a que deux de ces poêles, pas cent.

Comment résoudre ce problème avec les outils dont nous avons parlé? L'approche classique utilisant OpenCV dans ce cas ne fonctionne pas, il y a trop de reflets, l'image est floue, même une personne ne distingue pas vraiment quels nombres sont là. L'OCR, les bibliothèques prêtes à l'emploi pour la reconnaissance de texte ne conviennent pas non plus.
La deuxième option reste - les réseaux de neurones. Dans ce cas, cela fonctionne, mais implique un grand nombre d'étapes. Vous devez sûrement collecter du balisage pour la formation du réseau, les tests, ramasser un réseau, le former. Tout cela doit être fait, testé. J'ai compris les coûts de main-d'œuvre. Ici, vous pouvez discuter, vous pouvez le faire plus rapidement ou plus lentement, mais en général, cela s'avère 72 heures. Au rythme d'un bon spécialiste, cela peut coûter très cher. Dans le même temps, nous n'avons reçu aucune infrastructure ni logiciel. Nous venons de recevoir un réseau réglé et testé qui reconnaît bien ces chiffres.
Un plus de l'approche est que cela fonctionne. L'inconvénient est que personne n'est prêt à le mettre en œuvre non plus. Vous devez d'abord apprendre à collecter ces données, et seulement ensuite comprendre s'il existe réellement une relation entre ces données et le mariage. Si oui, vous devez déterminer comment et quoi changer afin de réduire la proportion de mariages. Et s'il y en a trop? Et payer pour le pilote, pour l'automatisation et la connexion, vous devez immédiatement au moins autant. Même, très probablement, plus.

Par conséquent, au cours des trois dernières années, d'après notre expérience, de tels projets n'ont pas pu en vendre un seul. S'il s'agit d'un tuyau défectueux où une personne se tient, alors une personne est beaucoup moins chère. Si c'est une chose complexe, les risques pour les clients sont trop importants.
Conclusion - vous devez le produire.
Maintenant dans le monde, sur les marchés de l'apprentissage automatique, il y a beaucoup de mouvement vers la production. Toutes sortes de solutions auto ML qui vous permettent de remplacer partiellement le data scientist et les produits finis ou solutions pour des applications spécifiques. L'exemple le plus simple est celui des recommandations dans le commerce électronique. Pendant longtemps, il existe des produits où les données sont connectées dans un format standard, et ils émettent eux-mêmes des recommandations.
Nous avons essayé de faire de même dans le domaine de la vision par ordinateur. Offrir un produit qui vous permet d'automatiser et de réduire d'un ordre de grandeur le travail manuel pour connecter d'anciens équipements avec reconnaissance des chiffres: cadrans et autres.

La première tâche qui doit être résolue est de réduire les coûts d'installation. Lorsque vous installez l'appareil photo, vous devez laisser les gens mettre en évidence la zone d'intérêt. Par exemple, encerclez comme ceci avec un rectangle et dites ce que je veux reconnaître dans cette zone.

La question suivante est que toutes les tâches sont différentes, et juste à cet endroit, vous devez apprendre certains réseaux de neurones pour qu'ils fonctionnent bien ici.

Nous savons qu'il existe différents réseaux de neurones. Si nous parlons de chiffres, beaucoup ont des traducteurs automatiques dans les smartphones: nous pointons vers n'importe quel texte, et il commence plus ou moins à le traduire, indépendamment de la police ou de l'angle. Il existe de telles solutions, ce qui signifie qu'en utilisant le tableau de bord, vous pouvez former un réseau qui fonctionnera bien avec n'importe quel tableau de bord. Mais cela aura des inconvénients - ce sera difficile, difficile, cela fonctionnera lentement, et comme il est universel, la qualité souffrira d'une tâche spécifique. Par conséquent, nous avons utilisé une approche appelée Tutor-Student, dans laquelle un ensemble de réseaux puissants pour des tâches spécifiques est intégré à la solution. Par exemple - séparément pour les textes, pour certains leviers, pour les comparateurs. Il n'y a pas beaucoup de types de tels appareils. Ce système fonctionne de lui-même, reconnaît quelque chose, puis donne à l'opérateur la possibilité d'effectuer un balisage supplémentaire, de regarder à travers ses yeux et de corriger 3 à 5% des erreurs qu'il voit. Et puis, sur la base d'une telle méthode express de balisage généré, former un réseau déjà léger et adapté à la tâche spécifique du client, selon ses données. Cette approche peut réduire considérablement le coût de la mise en œuvre, tout en rendant la qualité presque la même que si le travail se faisait à la main.

Un maillage léger est nécessaire plus tard, car partout dans les entreprises, il est possible de connecter des caméras vidéo à une sorte de système de gestion vidéo. S'il y avait un tel VMS, vous pouvez tout faire sur le serveur, où la limite de ressources n'est associée qu'au coût. Et il y a des puces intégrées dans le caméscope comme Nvidia Jetson, et des solutions distinctes. En particulier, notre solution fonctionne sur Orange PI, c'est une sorte de micro-ordinateur Raspberry PI, et produit 8-10 images par seconde, recevant une image Full HD en entrée.

Vient ensuite la partie épicerie. Toutes ces données doivent être mises quelque part. Il fournit immédiatement un ensemble de connecteurs standard.

Pour résumer. Une telle productivisation vous permet de déplacer l'apprentissage automatique et la vision par ordinateur vers les masses, vers un large marché, en raison du faible coût et des faibles coûts de mise en œuvre, sans recourir à des spécialistes et à des scientifiques des données coûteux. Je pense que c'est l'avenir, y compris dans l'industrie.