El aprendizaje automático continúa penetrando industrias más allá de la industria de Internet. En la conferencia Data & Science "El
mundo a través de los ojos de los robots ", Alexander Belugin de la compañía "Digital" habló sobre los éxitos, las dificultades y las tareas urgentes de esta manera. La introducción de tecnologías como la visión por computadora requiere un enfoque en serie y un enfoque de producto para reducir el costo de las implementaciones individuales. El hecho es que hay muchos tipos de tareas en producción. Del informe puede conocer los productos, las tendencias mundiales y la experiencia del equipo de Alexander en las áreas de seguridad industrial y automatización de procesos.
- buenos dias Me alegra que todos hayan venido a esta interesante conferencia. Primero hablaré brevemente sobre la compañía "Digital", luego un poco sobre las tareas que se encuentran en la industria y sobre las formas típicas de resolver tales problemas. Estas son tareas sin robots, no ensambladoras, sino diferentes plantas de proceso. Al final, un pequeño vistazo a nuestra experiencia.
Llevamos un año trabajando en el mercado y nuestro objetivo es automatizar completamente la producción industrial, lo que nos permitirá lograr un aumento del 10-15% en su rentabilidad. Para hacer esto completamente, es necesario resolver todos los problemas, terminando con algún tipo de optimización conjunta de todos los procesos, logística, compras y la producción en sí, pero comenzando con cosas tan básicas como Internet de las cosas, sensores, recolección de información.

Esto ahora se llama la digitalización de la palabra de moda. Esta es la transferencia de datos sobre todos los procesos en forma digital, para que luego pueda usarlos para aumentar la eficiencia.

Hoy hablamos más sobre la visión por computadora. También existe el término "visión artificial", que se refiere a la tecnología. Hay cámaras de video similares a las que se usan para videovigilancia, hay cámaras web que se usan para las comunicaciones y hay cámaras especiales en la industria. Se diferencian en que a menudo no tienen un puerto Ethernet normal, se utilizan protocolos especiales, pueden transmitir, por ejemplo, 750 cuadros por segundo y no en modo ráfaga, sino continuamente, sin compresión. Hay cámaras especiales con fotosensibilidad especial en otros rangos que no son ópticamente visibles para el ojo. Incluso hay cámaras que leen un carril, toman muchos cuadros por segundo, pero con un ancho de un píxel. Dicha cámara se encuentra sobre el transportador y mira lo que está sucediendo allí.
Una característica distintiva de las tareas de visión por computadora es que el resultado no debe ser una imagen, no le interesa a nadie, sino un número que caracteriza la calidad o el tamaño de lo que observamos.

Quiero enumerar algunas tareas básicas. El primer bloque importante es lo que está relacionado con la seguridad. Hay control perimetral para que nada se saque de la empresa. Este es un ejemplo de la cantidad de tareas de análisis de video que se han resuelto durante 15–20 años, y cada año está mejorando. Si hay una cerca y una cámara de video y alguien está tratando de escalar, entonces la analítica de video lo atrapará con seguridad.
Hay tareas más complejas: controlar el movimiento en algunas zonas. Por ejemplo, en la empresa siempre puede quemarse, encontrarse en el área de descarga y carga o en las pistas donde conducen los carros. Ya hay una tarea más difícil, debe observar restricciones estrechas, comprender qué caminos pueden caminar las personas.
Otro ejemplo de una tarea relacionada con la seguridad es la detección de cascos en sus cabezas cuando las cámaras se colocan en plataformas. En Rusia, este tema está muy mal vendido. Cuando las personas escuchan cuánto cuestan tales sistemas, dicen que tenemos una regulación, una persona debe ponerse un casco y se lo pondrá, y si no, violó la regulación, su problema. En general, esta es una solución popular en el mundo que es promovida tanto por proveedores como por empresas privadas.
El siguiente bloque de tareas está relacionado con la contabilidad. Básicamente, este es el reconocimiento de algunas pegatinas. Hay pegatinas especiales al imprimir un código de barras. Entonces funciona un poco más fácil. Hay un montón de software listo para usar para reconocer códigos de barras o caracteres claramente impresos. A menudo intentan ahorrar dinero, no para cambiar el sistema de codificación, sino para usar la visión por computadora para el reconocimiento. Entonces puede ser, por ejemplo, embutido en un vagón de ferrocarril y números poco distinguibles. Entonces todo es más complicado, necesita pasar más tiempo construyendo todo esto. Esto es necesario para combatir el robo y controlar los bienes: lo que entró en la empresa, cómo se movió dentro de ella y dónde terminó.

El último bloque de tareas es el control de calidad. También se puede dividir en dos componentes. Uno está relacionado con el control de calidad física. Puedes ver los tamaños de varios objetos. Muy a menudo esto se refiere a las pequeñas cosas: algunas tapas de paquetes con leche o botellas. Tienen un proceso de producción barato bastante simple, muchos defectos, solo necesitan ser filtrados, mejorarlos no es rentable.
Y hay una parte que está en la imagen. Ya hay tareas más complejas. Esto es cuando tratamos de entender, y si, de hecho, realizan la acción correcta con nuestro producto. Por ejemplo, debe evaluar la postura de un mecánico y comprender qué operación realiza. O hubo una tarea cuando hay una plataforma en la que se montan y desmontan las plataformas de perforación. El campo más grande se ensambla, se conduce al trabajo, luego se desmonta y se retira. Poner a una persona al norte para rastrear estas operaciones es muy costoso, a pesar de que estará inactivo la mayor parte del tiempo. En una videocámara también. Con la videocámara, puede ver automáticamente qué eventos están ocurriendo y realizar un seguimiento del programa de ensamblaje y desensamblaje.

Otro ejemplo es una captura de pantalla del software de afiliación, el control del matrimonio en los moldes, todo tipo de cosas plásticas antes de pintarlas, de esta forma se vierte en tales formas. Puedes detectar el matrimonio usando la cámara.
Hay dos enfoques principales para resolver estos problemas. Ambos fueron inventados durante mucho tiempo, pero el clásico es trabajar con imágenes utilizando algún tipo de algoritmo.

Palanca izquierda, intenta identificarlo. El derecho no está tan claro. Los círculos son rollos de láminas de acero enrolladas, en el centro no está claro qué. Los métodos son de alguna manera procesar la imagen, aumentar su contraste, quizás hacerla de dos colores, seleccionar algunos bordes, bordes de objetos, tratar de encontrar los objetos por sí mismos y luego trabajar con ellos.

El segundo método, más moderno, relacionado con la ciencia de datos, es todo lo relacionado con las redes neuronales. Hay ciertas ventajas aquí. En primer lugar, en términos de calidad, es posible lograr resultados más altos en la mayoría de los problemas complejos que no se pueden resolver con los métodos clásicos. Se enumeran algunas tareas de muestra.
Hay adaptabilidad, puede configurar el algoritmo de aprendizaje de la red neuronal y transferir de la tarea a la tarea, no la red neuronal entrenada en sí, sino todo junto con el algoritmo, y luego se pueden resolver tareas ligeramente diferentes con la misma herramienta.
Hay desventajas que a menudo juegan en la industria: la falta de datos. Para comenzar a identificar defectos, si hablamos de métodos clásicos, necesitamos una transmisión de video que filme productos terminados, necesitamos ver qué defectos hay, con nuestros ojos, verlos y hacer que nuestro código los vea. Itere sobre varios parámetros, no se requiere marcado manual para esto. En el caso de una red neuronal, necesita una gran cantidad de ejemplos, ya sea para recopilarlos manualmente o utilizar métodos modernos e ingeniosos para generarlos. Este es un proceso largo y complejo, que aún puede necesitar repetirse de vez en cuando cuando se transfiere a otras tareas.

Aquí hay un ejemplo de dicha imagen relacionada con la detección de defectos. Uno de los temas populares, si miras qué artículos son, en la parte inferior de la imagen muestra un pequeño matrimonio en las estructuras. Usando redes neuronales, es posible detectar del 92% al 99% de todos los defectos, en diferentes trabajos de diferentes maneras, con falsos positivos al nivel del 3-4%, resultados bastante adecuados. El nivel normal de matrimonio en diferentes industrias del 0,5% a pequeñas unidades de porcentaje. Tales indicadores son bastante adecuados para reemplazar a una persona que detecta estos defectos. O incluso mejorar los resultados.

Otro ejemplo de tareas relacionadas con la digitalización, conectando varios equipos que no tienen interfaces digitales, donde la flecha verde es el apalancamiento. Un pequeño disparo desde el lugar de trabajo del perforador, que controla la perforación, tiene cierta influencia que cambia. La perforación es importante, un proceso costoso, un par de millones de rublos por día. Y esto no se registra de ninguna manera, cambia algunas palancas, y en ninguna parte hay un registro, o en el mejor de los casos, es en un diario manual, en el que se estaban realizando los cambios de estas palancas. Esto es critico.

Este es un horno que templa el alambre. En este ejemplo, alambre de oro. La estufa tiene aproximadamente 25 años, el oro puro ingresa al interior, se derrite, se vierte en un hilo delgado y se templa por calor, se quema, se convierte en material sólido. Se sabe que a veces este cable a veces resulta ser confiable, se tejen todo tipo de cadenas y, a veces, una cierta cantidad de cable conduce al matrimonio, durante el tejido de las cadenas se rompen, agrietan, rompen. Parece que esto depende de los regímenes de tratamiento térmico, dado que la materia prima cambia ligeramente. El registrador de datos se escribe aquí, a la derecha del marco hay un registrador que puede escribir sus parámetros en un rollo de papel. Hay tres parámetros: la temperatura en la copa en la que se derrite el oro, la temperatura de calentamiento es el modo de horno y la velocidad con la que pasa todo esto.
Para comprender con qué está relacionado el matrimonio y si es posible ajustar la estufa para que se pueda reducir el matrimonio, estos parámetros deben digitalizarse. Como? Tiene conectores industriales, pero todo fue hace 25 años, será muy costoso, ya sea hacer una conexión con ingeniería inversa o pagar al fabricante del horno, si la compañía aún no se ha declarado en quiebra, por la conexión. Conectar dicho equipo al sistema USP o MS [00:14:24] puede costar, por ejemplo, un millón de rublos. O tal vez cientos de miles. Sobre todo teniendo en cuenta que solo hay dos estufas, no cien.

¿Cómo podemos resolver este problema con las herramientas de las que hablamos? El enfoque clásico que usa OpenCV en este caso no funciona, hay demasiados brillos, la imagen es borrosa, incluso una persona realmente no distingue qué números hay. OCR, las bibliotecas listas para el reconocimiento de texto tampoco son muy adecuadas.
La segunda opción permanece: las redes neuronales. En este caso, funciona, pero implica una gran cantidad de pasos. Seguramente necesita recopilar algunas marcas para el entrenamiento de red, pruebas, recoger alguna red, entrenarla. Todo esto debe hacerse, probado. Calculé los costos laborales. Aquí puede discutir, puede hacerlo más rápido o más lento, pero en general resulta 72 horas. Al ritmo de un buen especialista, esto puede costar mucho. Al mismo tiempo, no recibimos ninguna infraestructura o software. Acabamos de obtener una red sintonizada y probada que reconoce bien estos números.
Una ventaja del enfoque es que funciona. Menos: nadie está listo para implementarlo tampoco. Primero debe aprender cómo recopilar estos datos, y solo entonces comprender si realmente existe una relación entre estos datos y el matrimonio. Si es así, debe averiguar cómo y qué cambiar para reducir la proporción de matrimonio. ¿Qué pasa si hay demasiado? Y pague por el piloto, por la automatización y la conexión, necesita inmediatamente al menos lo mismo. Incluso, lo más probable, más.

Por lo tanto, en los últimos tres años, en nuestra experiencia, tales proyectos no han podido vender uno solo. Si esta es una tubería defectuosa donde se encuentra una persona, entonces una persona es mucho más barata. Si esto es algo complejo, entonces los riesgos para los clientes son demasiado grandes.
Conclusión: necesitas crearlo.
Ahora en el mundo, en los mercados de aprendizaje automático, hay mucho movimiento hacia la productización. Todo tipo de soluciones automáticas de ML que le permiten reemplazar parcialmente al científico de datos y productos o soluciones terminados para aplicaciones específicas. El ejemplo más simple son las recomendaciones en el comercio electrónico. Durante mucho tiempo hay productos en los que los datos están conectados en un formato estándar, y ellos mismos emiten recomendaciones.
Intentamos hacer lo mismo en el campo de la visión por computadora. Ofrecer un producto que le permita automatizar y reducir en un orden de magnitud el trabajo manual para conectar equipos antiguos con reconocimiento de números: indicadores de marcación y otros.

La primera tarea que debe resolverse es reducir los costos de configuración. Cuando coloca la cámara, debe dejar que las personas resalten la zona de interés. Por ejemplo, circule así con un rectángulo y diga lo que quiero reconocer en esta zona.

La siguiente pregunta es que todas las tareas son diferentes, y solo en este lugar necesitas aprender algunas redes neuronales para que funcionen bien aquí.

Sabemos que hay diferentes redes neuronales. Si hablamos de números, muchos tienen traductores automáticos en teléfonos inteligentes: señalamos cualquier texto, y más o menos comienza a traducirlo, independientemente de la fuente o el ángulo. Existen tales soluciones, lo que significa que, utilizando el marcador, puede entrenar una red que funcionará bien con cualquier marcador. Pero tendrá desventajas: será difícil, difícil, funcionará lentamente y, dado que es universal, la calidad se verá afectada en una tarea específica. Por lo tanto, utilizamos un enfoque llamado Tutor-Estudiante, en el que se integra un conjunto de redes potentes para tareas específicas en la solución. Por ejemplo, por separado para textos, para algunas palancas, para indicadores de cuadrante. No hay muchos tipos de tales dispositivos. Este sistema funciona solo, reconoce algo y luego le da al operador la oportunidad de realizar un marcado adicional, mirar a través de sus ojos y corregir el 3-5% de los errores que ve. Y luego, sobre la base de un método tan expreso de marcado generado, entrenar una red ya ligera que se adapte a la tarea específica del cliente, de acuerdo con sus datos. Este enfoque puede reducir significativamente el costo de implementación, al tiempo que hace que la calidad sea casi la misma que si el trabajo fuera a mano.

Más adelante se necesita una malla ligera, porque no en todas las empresas existe la posibilidad de conectar cámaras de video a algún tipo de sistema de administración de video. Si existiera dicho VMS, puede hacer todo en el servidor, donde el límite de recursos está asociado solo con el costo. Y hay chips integrados en la videocámara como Nvidia Jetson, y soluciones separadas. En particular, nuestra solución funciona en Orange PI, es una especie de microordenador Raspberry PI, y produce 8-10 cuadros por segundo, recibiendo una imagen Full HD en la entrada.

El siguiente es también la parte de la tienda de comestibles. Todos estos datos deben colocarse en alguna parte. Inmediatamente proporciona un conjunto de conectores estándar.

Para resumir. Dicha productivización le permite trasladar el aprendizaje automático y la visión por computadora a las masas, a un mercado amplio, debido al bajo costo y los bajos costos de implementación, sin el uso de costosos especialistas y científicos de datos. Creo que este es el futuro, incluso en la industria.