Cualquiera, no el objeto más trivial (o simplemente raro) puede crear fácilmente muchos problemas con casi cada intento de usar redes neuronales para resolver problemas reales. Obviamente, la falta de un conjunto de entrenamiento sensato complica significativamente el abrumador número de escenarios para usar el enfoque de neuroesmatos.
Qué hacer, por ejemplo, con una especie rara de saltamontes, el reconocimiento de representantes de los cuales, por una razón u otra, se ha convertido en una tarea muy importante.
Todos los resultados / ejemplos se obtuvieron de forma independiente (y rápidamente).
Objetos personalizados
El mundo real, como las tareas reales, es abrumadoramente único, inusual y, a menudo, muy específico cuando se trata de color, forma, comportamiento, etc.
Para resolver con éxito los problemas correspondientes, se necesitan datos (conjuntos de entrenamiento, en nuestro caso). Y dado que no todos intentan construir el piloto automático "más correcto" o buscar sonrisas en las fotografías, la creación de los conjuntos necesarios se convierte en el principal problema.
De acuerdo, la probabilidad de encontrar un conjunto listo y de alta calidad para un estilo de coloración muy específico tiende a cero:
Por cierto, los algoritmos de youtube parecen un poco falsos cuando se trata del cuerpo pintado. Al menos el contenido devuelto parece algo controvertido.
La forma habitual de marcar
Bueno, suponga que el marcado manual no parece muy aterrador: no tiene miedo del trabajo monótono o el abastecimiento público es adecuado tanto por la calidad del resultado como por el costo. Pero esto es cierto siempre que se reduzca a un cuadro delimitador (se utiliza un ejemplo trillado, solo con fines ilustrativos):
¿Qué hacer si los detalles específicos de la tarea requieren encontrar el contorno exacto? Mask RCNN es una buena solución, pero requiere un conjunto de entrenamiento preciso y de alta calidad. Y para dibujar un contorno, como saben, este no es un rectángulo para marcar y tal trabajo requerirá varios otros esfuerzos.
Enfoque automatizado
La eterna pregunta: "¿Qué hacer?". La respuesta no es menos trivial: automatizar. Los algoritmos clásicos de visión por computadora permiten lograr resultados aceptables siempre que se cumplan algunas condiciones básicas.
En realidad, es la imposición de condiciones adicionales lo que no permite utilizar este enfoque como la solución principal. Sin embargo, los algoritmos estándar correctos le permiten obtener rápidamente un conjunto de alta calidad, diverso y fácilmente extensible.
Tan alta calidad que incluso el cambio de color habitual en el área seleccionada parece una solución casi lista para usar:
Más sobre el enfoque la próxima vez.
Ejemplo de conjunto de entrenamiento
El enfoque para generar un conjunto de entrenamiento a partir de un video es conveniente porque el resultado final contiene ejemplos exclusivamente "en vivo" y completamente reales que reflejan la variabilidad y complejidad del mundo real. Por ejemplo, labios:
Otros resultados
Seguir el desarrollo del proyecto.
YouTube:
RobotsCanSeeTelegram:
RobotsCanSeeUs