Según Gartner, el aprendizaje automático está en su apogeo. Al participar en el desarrollo y la implementación de soluciones en el campo del análisis de datos y el aprendizaje automático, nuestro equipo DATA4 ha adquirido experiencia en etapas y dificultades clave, que compartiré en el artículo.

Considere las etapas de implementación:
1. Declaración del problema
Cualquier tecnología debe resolver problemas comerciales específicos. Se requerirá un artículo separado para describir todas las aplicaciones del aprendizaje automático, pero se pueden distinguir varias áreas principales. Se trata de análisis predictivos (puntuación, flujo de salida, determinación de la mejor oferta, productos relacionados, etc.), análisis de texto (revisiones en Internet, moderación de contenido, temas de referencias, etc.), análisis del habla y análisis de video.
Para una implementación exitosa, es necesario determinar qué negocio de KPI estamos mejorando, cómo y con qué métrica medimos el resultado.
2. Recolección, almacenamiento y preprocesamiento de datos.
Cuando se establece la tarea, es necesario crear una muestra de capacitación (desafortunadamente, la mayoría de las tareas comerciales se resuelven "aprendiendo con un maestro"). En nuestra experiencia, el muestreo es el paso más largo. Para reducirlo, la empresa debe tener una cultura de trabajar con datos.
Además de recopilar datos, es necesario borrarlos y determinar las características que afectan el resultado final.
3. Algoritmo de entrenamiento
El desarrollo de la parte algorítmica es la etapa más interesante, pero también la más rápida. Usualmente toma de varias horas a varias semanas de trabajo.
4. Desarrollo de flejes de alto nivel.
La solución debe ser clara no solo para el especialista en análisis de datos, sino también para el programador o administrador que implementará esta solución. Y si esta es una solución altamente cargada, o una solución con mayores requisitos de seguridad, es posible que deba volver a escribirla desde Python a otro idioma.
5. Integración
Como regla general, lleva mucho tiempo debido a la necesidad de comunicaciones y aprobaciones adicionales. Esta etapa la realizan mejor las fuerzas internas del equipo del cliente.
6. Recopilación de comentarios, ajuste del modelo
El mundo cambia constantemente, no todas las características se pueden tener en cuenta al comienzo del desarrollo. La recopilación de comentarios ayuda a capacitar a los modelos de manera oportuna. Idealmente, en esta etapa, el ciclo comienza de nuevo, pero con menos tiempo.
Características de las soluciones basadas en el aprendizaje automático:
- El aprendizaje automático se basa en estadísticas, y cuando el algoritmo da una predicción incorrecta, esto es normal. Es mejor explicar inmediatamente al cliente comercial qué métricas se evalúa la calidad, qué significan estas métricas (no todo el mundo sabe lo que son la medida F y Roc-Auc) y que, a mano, establecer 3 ejemplos y ver el resultado es interesante, pero no estadísticamente significativo .
- Resultado mal pronosticado. Los datos no siempre contienen una señal útil, y es imposible predecir con precisión el resultado de antemano. Por lo general, tomamos datos, construimos modelos simples y, en base a ellos, decimos qué tipo de resultado es posible lograr. Este problema no se aplica a algunas tareas clásicas (reconocimiento facial, reconocimiento de voz, etc.).
- El aprendizaje automático es una tecnología de última milla, no una bala de plata de todos los problemas. Si los vendedores no recogen un teléfono de un cliente y no vuelven a llamar a los clientes, entonces tendrá muy poco sentido introducir el análisis de voz.
- La mayor parte del tiempo se dedica a la integración y la recopilación y procesamiento de datos, y no a la capacitación del algoritmo (con raras excepciones).
Opciones para trabajar con desarrolladores de terceros:
- Pago por hora. Solo adecuado para la creación rápida de prototipos y MVP. Pero no es adecuado para soluciones que requieren soporte adicional.
- Desarrollo de contrato. La propiedad intelectual pasa al cliente, el soporte es posible, pero los conocimientos tradicionales deben prescribirse cuidadosamente.
- Pago de efectividad comprobada. Por experiencia personal en DATA4, un caso que es demasiado complicado en términos de aprobaciones, que prácticamente no se aplica en la práctica.
Alternativamente, puede usar plataformas preparadas de IBM, Microsoft, etc., pero en la práctica resulta costoso con el uso constante, no siempre es posible implementar un caso específico usando herramientas preparadas, y existen restricciones sobre qué datos se pueden enviar allí.
Conclusión
Las tecnologías de aprendizaje automático aumentan la eficiencia del negocio, pero debemos recordar que para tomar una decisión completa no es suficiente entrenar el algoritmo, sino que es necesario preparar los datos e integrar la solución con los sistemas internos. Y esté preparado para que el resultado dependa de la calidad de la muestra de capacitación.