
Hace algún tiempo, encontramos nuestros materiales antiguos en los que enseñamos las primeras transmisiones en nuestros cursos de aprendizaje automático en
la Escuela de datos y los comparamos con los actuales. Nos sorprendió cuánto agregamos y cambiamos en 5 años de entrenamiento. Al darnos cuenta de por qué hicimos esto y cómo, de hecho, el enfoque para resolver los problemas de Data Science ha cambiado, decidimos escribir esta publicación.
Comenzamos a entrenar con los métodos y algoritmos básicos del aprendizaje automático, explicamos cómo ponerlos en práctica, cómo seleccionar parámetros, cómo limpiar y preparar datos, cómo medir la calidad. Creíamos (y seguimos creyendo) que la capacitación de un agente-científico de pleno derecho debería incluir no solo métodos clásicos de aprendizaje automático, sino también métodos de análisis de gráficos (redes sociales, SNA), análisis de texto, trabajo con redes neuronales y big data (Big Data).
Por lo tanto, en la salida obtuvimos un experto en un amplio campo de la ciencia de datos, capaz de aplicar un amplio arsenal de métodos en la práctica. Llevamos a los mismos especialistas a nuestro negocio. Primero, en la empresa donde trabajamos y dirigimos las áreas relevantes, y luego en nuestro negocio para el desarrollo de productos basados en aprendizaje automático:
Data Studio .
Pero luego nos dimos cuenta de que esto no solo no es suficiente para la implementación exitosa de los proyectos de Data Science, sino que esto ni siquiera es lo principal.
El enfoque al comienzo de la práctica de Data Science y, para ser honesto, para muchos analistas hasta ahora, es el siguiente: dame los datos, los borraré, crearé un vector de características, dividirlo en muestras de entrenamiento y prueba, ejecutar varios algoritmos de ML, y aquí está el resultado.
¿Este enfoque tiene derecho a la vida?
Sí, pero donde el área temática ya está bien estudiada y ya hay una buena experiencia acumulada en la aplicación de análisis. Ejemplos? Puntaje bancario, salida de operadores, venta cruzada (Next Best Offer) en minoristas, bancos, telecomunicaciones, pronosticando la efectividad de las acciones en minoristas, pronosticando saldos. Esta lista continúa.
Ahora imaginemos otras áreas: pronóstico de la hora de llegada en el transporte multimodal (barco, tren, camión): ¿qué señales usará? ¿Tipo de carga, peso de la carga, la presencia de ciertos nodos de clasificación? ¿Y si lo piensas? ¿Quizás algunos signos más simples y obvios (incluso sin modelos de aprendizaje automático) le darán una precisión significativa?
O necesita predecir la sensibilidad de los grandes clientes a los cambios en los precios de ciertos productos. ¿Cómo determinar la elasticidad? ¿Qué va a predecir exactamente?
Pero, ¿es necesario construir un modelo si el proceso de producción se cambia más tarde?
Resulta que necesita poder trabajar en nuevas áreas temáticas de aplicación de análisis, ya que en áreas bien estudiadas, ya hay muchos desarrollos y este es el "océano rojo".
¿Qué se necesita para entrar en nuevas áreas con análisis?
Para hacer esto, debe ser capaz de comprender profundamente el área temática de un proceso en particular, cuyas descripciones a menudo no están disponibles. Comprenda qué tipo de datos generalmente se necesitan, comprenda exactamente en qué se hace el negocio. ¿Necesita comprender la analítica aquí, necesita algunos algoritmos predictivos, necesita cambiar el proceso de negocio, existen palancas operativas (¿cuál es el punto de predecir el apagado del equipo si aún no hay formas de evitarlo?).
Para resumir, se requieren las siguientes cosas:
- Enfoque analítico, capacidad de formular y probar hipótesis.
- Comprender los principios y características del negocio y los procesos individuales.
- Comprender la economía del proceso
- Comprensión de la tecnología.
- Capacidad para vincular datos con procesos comerciales
Y, si te alejas del aprendizaje automático, ¿en qué área puedes hacerlo mejor? Correcto - consultoría de gestión. ¿Y dónde se enseña esto usando el llamado método de caso (muchos ejemplos de diferentes situaciones de negocios)? Correcto, en los cursos de MBA (maestro de administración de empresas).
Por lo tanto, resulta que el Data Scientist ideal es un graduado de MBA con experiencia en consultoría, que ha completado cursos de aprendizaje automático.
Esto, por supuesto, es excesivo, pero es cierto que entre los contratistas, aquellos con el más alto nivel de procesos y estándares, a nivel de selección y capacitación del personal, han desarrollado una cultura de pensamiento analítico. Nos adherimos al mismo enfoque en nuestro
Data Studio . Y, lógicamente, establecimos el mismo enfoque en nuestra capacitación en la
Escuela de Datos .
Puedes objetar. Después de todo, lo que se escribió anteriormente es más aplicable en consultoría, donde cada vez que no sabe de antemano de qué área temática será el proyecto. ¿Y qué hay de las grandes empresas donde el área se describe en principio?
En las empresas, observamos los mismos detalles descritos anteriormente, y la necesidad de que un analista y todo el equipo comprendan el negocio, la responsabilidad del resultado final.
Por esta razón, en las grandes empresas, ahora estamos viendo una tendencia en la especialización de las divisiones de Data Science y el cambio de la función analítica de una división centralizada, una para toda la compañía, a una función comercial, es decir, más cercana a los negocios. Con esta especialización, la capacidad de un analista para comprender rápidamente un nuevo negocio y ofrecer soluciones realistas, en lugar de modelos, es una ventaja competitiva.
¿Qué ha cambiado exactamente en nuestro plan de estudios? Ante todos nosotros, enseñamos sobre la base de casos prácticos. La estructura y la naturaleza de los casos ha cambiado. Anteriormente, nuestros casos eran como tareas en Kaggle: aquí está la tarea, aquí está la variable objetivo, aquí está la métrica de calidad, aquí están los datos.
Ahora la tarea suena diferente: aquí está la tarea en términos del cliente, aquí hay una descripción del proceso del cliente. Formule la tarea de análisis, proponga una métrica de calidad, evalúe la idoneidad del uso de análisis, calcule el efecto económico, sugiera métodos, formule una solicitud de los datos que necesita. Y luego todo es como de costumbre: limpiar los datos, construir un modelo, etc. Y damos ejemplos de áreas completamente diferentes, afortunadamente, la presencia de nuestra propia consultoría en esta área amplía enormemente el rango de tareas disponibles que resolvimos en nuestra propia experiencia.
Pero la disciplina del enfoque analítico no es solo la práctica de los casos. También enseñamos los marcos estándar (patrones de análisis básicos) utilizados en consultoría. También agregamos a la capacitación el proceso de desarrollo del producto analítico al que nos adherimos en el aula, desde el análisis comercial hasta la presentación de los resultados al cliente y la planificación del despliegue de una solución productiva que incluye las etapas, roles, puntos clave de decisión y momentos de interacción con el cliente.
Otorgamos un papel separado a las presentaciones: con demasiada frecuencia hemos visto una brecha entre los pensamientos de los analistas y la percepción de estos pensamientos por parte de los empleados del cliente.
En general, creemos que la tarea de capacitar a un Científico de Datos no es cómo preparar a un especialista para las áreas existentes (ya hay muchos cursos para esto y esto se ha convertido en gran medida en un producto básico), sino preparar a un investigador experto para trabajar en nuevas áreas donde La digitalización está llegando.
Bueno, y, como siempre, el comienzo de un nuevo curso en nuestra
Escuela de Datos el 16 de septiembre. Aceptamos pedidos de nuevos proyectos en
Data Studio todo el tiempo, al igual que reclutamos empleados (consulte la sección sobre vacantes abiertas).
PD: Actualizamos nuestro sitio un poco para hacerlo más conveniente. Por lo tanto, no se sorprenda de la nueva apariencia.