Malos consejos sobre la introducción de Machine Learning en los negocios

No confíes en la inteligencia artificial,
a menos que tenga una comprensión profunda del proceso.

Ray Dalio

En Jet Infosystems, introducimos el aprendizaje automático en una amplia variedad de industrias y, según nuestra experiencia, seleccionamos los componentes necesarios para una implementación exitosa:

  • declaración del problema destinado a optimizar la métrica de prioridad para las empresas;
  • un equipo de científicos de datos que tienen competencias y están listos para profundizar en el proceso;
  • datos que son relevantes para la tarea comercial;
  • Elección adecuada del método.

En la práctica, todos estos elementos son extremadamente raros juntos, según las estadísticas, solo alrededor del 7% de los proyectos con LD se consideran exitosos. ¡Los proyectos con todos estos componentes se pueden clasificar de forma segura como avance! Para ilustrar, hemos formulado varios puntos que se pueden llamar consejos dañinos sobre la introducción del aprendizaje automático en los negocios.

Mal consejo No. 1: "La tarea es simplemente implementar ML"


A menudo, el cliente formula la tarea como "solo para introducir el aprendizaje automático para una cierta optimización", sin ninguna conexión con las métricas comerciales y la priorización de las tareas comerciales.

En este caso, podemos ver varios escenarios negativos. Por ejemplo, los objetivos cambiarán a medida que funcionen, pero esto significa que todo el preprocesamiento y la elección de los métodos de optimización cambiarán, ya que están directamente relacionados con el significado del objetivo. O un científico de datos elegirá alguna métrica del aprendizaje automático, por ejemplo, auc, y la mejorará, incorporará todos los marcos y bibliotecas publicitarias, en función de su sentido de la belleza: mejore el "quinto decimal" en la métrica elegida. Al mismo tiempo, para las empresas, este trabajo puede ser completamente sin importancia y no conducir a una implementación exitosa. O algún problema comercial menor comenzará a resolverse, cuando de hecho existe un potencial mucho mayor para introducir el aprendizaje automático cerca.

Como resultado, puede encontrar consecuencias negativas:

  • es imposible predecir el tiempo y los costos laborales;
  • los modelos se mejoran aisladamente de las métricas comerciales;
  • hizo una inversión en una tarea menor.

Mal consejo # 2: "Cualquier científico de datos lo hará"


Existe la opinión de que puede sacar a cualquier científico de datos del mercado, aislarlo con excelencia y mágicamente descubrirá qué necesita ser optimizado. En nuestra opinión, la mentalidad de los científicos de datos que participan en la optimización de la producción es extremadamente importante. Esto significa que deben estar listos para sumergirse profundamente en los procesos tecnológicos (por ejemplo, electrólisis de aluminio, tratamiento con celulosa alcalina de oxígeno, producción de altos hornos, etc.). La disposición de los científicos de datos a viajar en viajes de negocios distantes con el objetivo de hablar personalmente con los tecnólogos y operadores de la fábrica también es importante, para comprender cómo funciona realmente todo. Sin esto, lo más probable es que estén condenados a una gran cantidad de iteraciones irreflexivas de enumerar modelos, y nunca se puede llegar a una implementación útil.

Mal consejo No. 3: "El trabajo debería ser un mosaico"


La ideología de la organización del trabajo más fragmentada con la máxima división del trabajo para minimizar los costos se cumple regularmente. Por ejemplo, hay un analista que entiende el proceso, se comunica con clientes y tecnólogos. Hay un ingeniero de citas: procesa los datos, genera funciones. Y finalmente, hay un científico de datos: solo importa sklearn y ajusta / predice. Por lo tanto, el trabajo de un científico de datos se realiza de forma aislada de las realidades de la vida, extremadamente de laboratorio, y existe un alto riesgo de cometer una gran cantidad de errores y faltar aspectos importantes de la tarea original.

Mal consejo # 4: "No explique a los científicos de datos cómo se recopilan los datos"


No siempre es obvio que los científicos de datos deben comprender cómo y dónde se recopilan los datos. Incluso hay casos en los que los contratos de implementación de LD se firman sin revisar primero los datos, y en tales condiciones existe el riesgo de nunca alcanzar los valores objetivo de las métricas descritas en el contrato. Con este enfoque, inevitablemente surgirán problemas tanto con la evaluación de la calidad de los modelos como con la posibilidad de su aplicación real.

Muchas propiedades de datos influyen en la elección de los métodos: promediar datos y errores de medición, muestreo desigual de ejemplos, retraso de tiempo en las mediciones. Es importante limpiar correctamente los datos del ruido en factores y objetivos, las causas del ruido pueden ser diferentes: errores de digitalización, valores atípicos, duplicación de variables, errores de instrumentos, etc.

La compañía debería estar interesada en el hecho de que los científicos de datos entiendan completamente la naturaleza de los datos, de lo contrario el procesamiento de datos será largo y no conducirá a un modelado exitoso. Sin una comprensión profunda de los detalles del proceso de recopilación y almacenamiento de datos, uno puede encontrar los siguientes problemas:

  • el preprocesamiento de datos llevará mucho tiempo;
  • el modelo puede no ser aplicable en condiciones reales;
  • Los términos del contrato pueden ser inalcanzables.

Mal consejo # 5: “Haga que la recopilación de datos sea un proceso complicado e incomprensible para que nadie sepa cómo funciona. Después de la introducción de modelos, asegúrese de realizar cambios en el proceso "


A menudo, en paralelo con el desarrollo e implementación del modelo, los procesos tecnológicos cambian y afectan la recolección de datos. Imagine que es necesario optimizar el proceso tecnológico, y después de la introducción del modelo, algunas unidades se reconfiguran y esto afecta la recopilación de datos: las características "flotarán", las distribuciones cambiarán, la muestra de capacitación dejará de ser representativa. Por supuesto, nadie sabe sobre esto de antemano. Como resultado: el modelo dejará de funcionar y todo debe rehacerse. Por ejemplo, en casos con árboles, puede ocurrir un problema fuera del dominio.

Es importante coordinar de antemano con los científicos de datos todos los cambios en los procesos tecnológicos para que puedan adaptar rápidamente los modelos a las nuevas condiciones.

Mal consejo # 6: "Promedio de los signos"


Algunos tipos de promedios conducen a problemas, por ejemplo:

  • la tarea es predecir el consumo de energía por hora, pero al mismo tiempo, los datos de consumo de energía se almacenan solo durante meses; en esta situación, no se puede hacer nada antes de la acumulación de datos sin procesar;
  • el promedio ocurre sobre características que se miden en puntos significativamente diferentes en el tiempo;
  • usando promedios móviles que capturan el período de predicción (lo que conduce a un problema de fuga de datos y distorsión del modelo);
  • Lo peor de todo, cuando los datos se promedian de alguna manera y este hecho sigue siendo desconocido.

En tales casos, la tarea puede no recibir una solución adecuada hasta que aparezcan los datos brutos relevantes.

Mal consejo No. 7: "No des datos adicionales"


Existen varios escenarios en los que los científicos de datos solicitan datos adicionales:

  • se necesitan datos brutos adicionales;
  • Es necesario agregar nuevos signos al conjunto de datos. Por ejemplo, en las tareas del sector bancario y las recomendaciones de productos, es útil utilizar tantos atributos sociodemográficos como sea posible;
  • aumentar el tamaño del conjunto de datos
  • la cantidad de datos es limitada, pero puede expandirse debido a datos históricos o es posible crear datos adicionales, como en tareas de procesamiento de imágenes y videos.

Los científicos de datos solicitan datos adicionales cuando tienen experiencia en la resolución de problemas similares en los que el uso de estos datos arroja un resultado positivo; de lo contrario, la calidad de los modelos puede ser mucho peor de lo que es posible alcanzar.

Mal consejo número 8: "La precisión del marcado manual no es importante"


Deje que se requiera predecir la calidad de los productos en función del marcado manual, es decir Los operadores de producción registran manualmente los valores objetivo. Si al mismo tiempo los operadores reciben bonos por buenos resultados y castigos por los malos, entonces:

  • es probable que el objetivo contenga un desplazamiento;
  • Como resultado del entrenamiento, este sesgo entrará en el modelo;
  • El modelo no predecirá la distribución real de la variable objetivo.

Pueden surgir problemas similares con el uso de soluciones de crowdsourcing (por ejemplo, Yandex.Toloka), donde los expertos reciben recompensas por marcar los datos. En este caso, debe validar cuidadosamente el marcado resultante. Hay varios enfoques para esto:

  • Superposición: marcado de varios expertos independientes;
  • Conjunto dorado: se agregan ejemplos con resultados conocidos a los datos para evaluar la precisión de los operadores y su selección;
  • Votación mayoritaria: algoritmos de selección de veredictos basados ​​en marcas de superposición.

Conclusión: si hay un marcado manual de datos, debe verificarlo, de lo contrario pueden producirse errores sistemáticos.

Mal consejo número 9: "Usa el más de moda"


Lea artículos populares y exija que la solución del problema se base en un método de moda.

Hoy en día, la ciencia de datos es un campo de la moda, se publican muchos artículos, se realizan conferencias casi todos los días y se crean un número cada vez mayor de métodos. Sin embargo, esto no significa que un método popular tomado arbitrariamente sea óptimo en tareas industriales. Por lo general, no es necesario usar LSTM en la tarea de optimizar la producción de arrabio, ni se requiere usar RL en pequeños conjuntos de datos de marketing o minería. En tales tareas, es aconsejable comenzar con métodos tradicionales (por ejemplo, aumento de gradiente), que pueden ser bastante difíciles de convencer a los clientes. Los métodos de ML de moda no siempre son adecuados para las tareas de la industria y, a menudo, resultan costosos de implementar.

Moraleja


El conjunto de consejos dado no es exhaustivo, pero todos se cumplen regularmente en la práctica. Con este enfoque, es probable que se asegure de que ML no esté funcionando en la industria y sea simplemente una pérdida de dinero.

Resumiendo, podemos decir que los casos verdaderamente innovadores son los proyectos de ML, implementados a tiempo y que aportan de manera estable ganancias mensurables a la empresa. Para lograr esto, las competencias del análisis de datos y el aprendizaje automático son importantes, y las condiciones en que los científicos de datos comprenden bien la imagen completa de un problema empresarial.

Publicado por Irina Pimenova, Jefa de Minería, Jet Infosystems

Source: https://habr.com/ru/post/475862/


All Articles