La diferencia entre Data Scientist y un adolescente en un auto deportivo



Recientemente, han aparecido muchos cursos, tanto académicos como privados, que tienen como objetivo capacitar el análisis de datos y capacitar a especialistas que puedan resolver problemas comerciales utilizando el aprendizaje automático. Si observa de cerca los programas de estos cursos, todos son casi iguales, la diferencia está solo en los formatos de capacitación (en línea fuera de línea) y en los maestros.

La Escuela de Datos comenzó a hacer estos cursos en 2015. Además, comenzaron a hacerlo de acuerdo con el mismo escenario. Revisamos una gran cantidad de programas de varios cursos académicos en aprendizaje automático, basados ​​en la experiencia, elegimos solo lo que realmente se necesita para resolver problemas prácticos e hicimos una gran cantidad de cuadernos Jupyter en los que tratamos de distinguir las matemáticas y el aprendizaje automático en nuestros dedos.

Intentamos enseñar principalmente tecnologías de aprendizaje automático, métodos de procesamiento de texto, redes neuronales, análisis de estructuras de red, sistemas de recomendación y otras áreas de análisis de datos. Y parece que las críticas de los estudiantes fueron buenas, pero aún faltaba algo.

Teniendo en cuenta que nuestra actividad principal es el desarrollo de tareas reales en el marco de Data Studio , los estudiantes, en primer lugar, nos preparamos para nosotros mismos. Rápidamente nos dimos cuenta de que, en la práctica, el conocimiento del análisis de datos y los métodos de aprendizaje automático es, como dicen los matemáticos, "una condición necesaria pero no suficiente". Es por eso que actualizamos muy rápidamente el programa de nuestras clases, teniendo en cuenta las necesidades reales.

Brevemente, las conclusiones a las que llegamos (y sobre la base de las cuales ahora estamos construyendo nuestra capacitación):

  • Aprendizaje automático y tecnologías de redes neuronales sobrevaloradas
  • Las técnicas de aprendizaje automático canibalizan una cultura de pensamiento analítico
  • Para lograr el efecto económico de los proyectos que involucran análisis de datos, las habilidades blandas son más importantes que el conocimiento profundo de ML
  • La profesión de Data Scientist está muy sobrevalorada, no habrá más especialistas universales

Los siguientes párrafos discutirán todos estos temas.

La mayoría de las tareas en grandes empresas que ahora están tratando de resolver utilizando métodos modernos de análisis de datos y redes neuronales se han resuelto durante mucho tiempo. Los bancos son los casos más exitosos en la gestión de riesgos. En telecomunicaciones, esto es CRM / CBM, donde todo el modelo de negocio está vinculado a un aumento de suscriptores de LTV. El comercio minorista funciona de manera similar: hay varias tareas (pronóstico de RTO, gestión de inventario, promociones) que proporcionan el negocio principal.

Hay empresas de fabricación en las que las tareas principales son aumentar la estabilidad del régimen, reducir las pérdidas y el mantenimiento predictivo, por un lado, y gestionar los saldos de inventario y la comercialización por el otro.

Estas tareas no son nuevas, sus analistas han estado resolviendo durante mucho tiempo. Además, analistas que entienden el área temática. Además, en la mayoría de los casos hay un número considerable de proveedores que son estándares de facto para ciertas tareas, como la gestión de precios (en el caso de la venta minorista) o los sistemas APC (en el caso de la producción). Además, como regla general, los algoritmos de optimización que incluyen el aprendizaje automático en tales sistemas ya están implementados.

Hacer algo fundamentalmente nuevo aquí y ganar dinero es extremadamente difícil. Como dice el refrán, "las manzanas que cayeron de un árbol" ya han sido cosechadas. Queda por buscar solo nuevos casos de negocios en los que la analítica tenga un efecto económico. Realmente hay tales ejemplos, y hay cada vez más.

Sin embargo, para encontrar tales ejemplos y ver el efecto de la analítica no es fácil. Para hacer esto, debe ser capaz de comprender profundamente el área temática de un proceso en particular (cuya descripción, a menudo simplemente no lo es). Comprenda qué tipo de datos generalmente se necesitan, comprenda exactamente en qué se hace el negocio. Para comprender si se necesitan análisis aquí, si se necesitan algunos algoritmos predictivos (la mayoría de las veces), si es necesario cambiar el proceso comercial (más a menudo sí), si hay palancas operativas (¿cuál es el punto de predecir el apagado del equipo si todavía no hay formas de evitarlo? ?)

Entonces, en el proceso de implementación de un producto digital de este tipo, surgen muchas preguntas que requieren un enfoque analítico, una cierta cultura de trabajar con datos, la capacidad de formular hipótesis, hacerse preguntas y pensar en términos del propietario de un negocio. El hecho es que esto no se enseña en las Escuelas de Análisis de Datos, no se enseña en Coursera. Sí, los cursos modernos probablemente entrenan a buenos ingenieros y matemáticos, pero no analistas, no lo hacen.

Además, el conocimiento de los métodos de aprendizaje automático y las redes neuronales es más probable que mate la cultura del pensamiento analítico. La mayoría de los científicos de datos modernos, como los niños detrás de un automóvil deportivo, se consideran únicos (saben muchas palabras inteligentes sobre xgboost, redes neuronales, etc.), no saben cómo conducir (pero por qué si el automóvil hace todo por usted), y solo van rápido porque hay mucha potencia (hierro fuerte, aunque aquí es más probable que se vuelva a entrenar).

Como resultado, obtenemos la siguiente imagen: algunas personas inteligentes y queridas vienen, casi no hacen ninguna pregunta, diciendo que los datos nos lo dirán todo. Toman algunos datos, luego vienen: dicen que construyeron algún tipo de modelo, llaman precisión en porcentaje y eso es todo. Tan pronto como comienzas el desafío, dicen en palabras extrañas, aplastan la inteligencia, pero no tienen sentido.

Esto explica que ahora entre los contratistas para la transformación digital o el análisis de datos, dominan principalmente las empresas de consultoría (no TI). Debido a que tienen una cultura de análisis, una cultura de pensamiento empresarial, siempre alivian los dolores de cabeza y ofrecen soluciones. No se limitan a construir un modelo de aprendizaje automático, hacen análisis reales que ayudan a tomar una decisión.

Otra tendencia que está sucediendo en el mundo en este momento es que incluso si el Data Scientist tiene menos éxito, no puede ser universal. En muchas empresas, la estructura centralizada creada inicialmente dedicada al análisis de datos se ha distribuido. La oficina central solo tiene el papel de proporcionar infraestructura, y toda la parte del supermercado, los productos digitales reales ya se fabrican directamente en las unidades de negocios. En esta estructura, respectivamente, el Científico de Datos (siempre que sea "correcto") se convierte en un experto en el área temática: lo funcional se le transfiere, lo que hasta entonces había sido respaldado por los analistas "antiguos" que trabajaron antes que él. En caso de éxito, también se le dan las palancas operativas.

Como resultado, existe una tendencia creciente a dar a los analistas exitosos influencia operativa en sus manos y su responsabilidad está aumentando. Pero solo en un área temática. Predecimos (según lo confirmado por las grandes empresas en el mercado) que no habrá más analistas universales: la exageración ha terminado, es hora de ser responsables del resultado. Aquellos que puedan resolver problemas comerciales con la ayuda de análisis irán a la parte de comestibles, y aquellos que puedan enseñar xgboost volverán a la academia o darán conferencias sobre aprendizaje automático.

Es por eso que hemos revisado completamente nuestros cursos (incluso porque llevamos a muchos de nuestros graduados a nuestro Data Studio ) y ahora:

0. Para empezar, en la entrada vemos en cada estudiante nuestros futuros empleados que navegarán con nosotros en el mismo bote y participarán en grandes proyectos. Por lo tanto, estamos interesados ​​en el hecho de que el estudiante en estos 3.5 meses esté preparado de la manera más eficiente posible. Siempre puede tener tiempo para tomar el próximo curso en Coursera, si es necesario comprender los detalles de un algoritmo en particular. Sin embargo, obtener la experiencia de casos reales es mucho más difícil. Y es por eso:

1. La capacitación se basa en el método del caso. Asumimos la tarea real, primero analizamos el modelo de negocio, la economía de la unidad, entendemos qué calidad, basada en números reales, debemos lograr en esta tarea. Evaluamos el posible efecto económico. Y solo después de eso comenzamos a ocuparnos de la parte técnica, sumergiéndonos gradualmente en métodos analíticos, aprendizaje automático y redes neuronales. Y lo que es importante: lo hacemos solo si es realmente necesario en esta tarea

2. Trabajamos con cada alumno individualmente. A pesar del hecho de que tratamos de reclutar un grupo homogéneo, entendemos que las personas son diferentes, cada una tiene su propio plan de capacitación individual y su tarea. En nuestra opinión, esto no tiene sentido cuando un par de docenas de personas resuelven el mismo problema. Esto no es efectivo incluso en términos de sentido común. Todos los estudiantes reciben las respuestas del maestro en el chat, el estudiante nunca será lanzado uno a uno con la tarea.

Lo único que advertimos de antemano en la entrada es que el entrenamiento requerirá un tiempo considerable, constantemente tendrá que hacer la tarea, sumergirse en los detalles y, a menudo, pasar el fin de semana entrenando.

Entendemos que esta no es una historia masiva. Data Studio ha estado funcionando con éxito durante varios años, incluso porque es difícil entrar en él. Somos conscientes de que, en las realidades actuales, es más fácil aumentar el análisis que tomar cursos posteriores con Coursera. Es por eso que los estudiantes más motivados inicialmente vienen a la Escuela de Datos . Por lo general, el tamaño del grupo no supera las 15-20 personas, lo que le permite hacer que la capacitación sea prácticamente individual.

Sin mencionar el hecho de que pensamos completamente en todo el aspecto técnico: cuadernos Jupyter preparados previamente, un sistema de comunicación efectivo para participantes remotos, transmisiones en línea, todo esto ayuda incluso a los participantes remotos a comunicarse directamente con otros niños en clase.

No enseñamos a los científicos de datos: capacitamos a personas completas que pueden resolver problemas comerciales con la ayuda de análisis.

El comienzo del nuevo curso es el 23 de septiembre. Para preguntas sobre proyectos, contáctenos en Data Studio .

Source: https://habr.com/ru/post/467239/


All Articles