Cómo crear un departamento de ciencia de datos y no arruinarlo



Data Science comenzó a llegar no solo a grandes empresas, sino también a pequeñas e incluso a nuevas empresas. Sin embargo, muy a menudo los altos directivos no comprenden qué se requiere para su aplicación exitosa. Muchas personas piensan que un científico de datos en un mes resolverá todos los problemas de la empresa, y la inteligencia artificial con un solo clic comenzará a funcionar perfectamente en todos los departamentos. Lamentablemente, esto no es así. Mi nombre es Ivan Serov y en esta publicación le diré por qué necesita comenzar a crear un departamento de DS y qué dificultades implica.

Gestión de expectativas


Uno de los más importantes para crear un departamento es establecer de inmediato expectativas y KPI. Con DS, como con cualquier otra innovación, debe pasar por todo el ciclo, que comenzará con pérdidas operativas. En el mejor de los casos, los costos de la arquitectura y los especialistas se pueden recuperar en seis meses, y con mayor frecuencia en un año, dos o tres, dependiendo del tamaño de la empresa. Es necesario estar preparado para esto y no renunciar a todo después de un par de fallas. A menudo, los altos ejecutivos cierran el departamento después de un año, porque no logró obtener ganancias. Debido a esto, se pierde la confianza en el DS. Solo estableciendo las expectativas y objetivos necesarios (preferiblemente por SMART ) se puede crear un departamento exitoso.



Comience pequeño


Es mejor comenzar con el llamado proyecto de prueba de concepto: no es muy complicado y de corta duración, pero puede traer beneficios comerciales. Por ejemplo, aumente los ingresos en un 2% debido al sistema de recomendación. No intentes hacer un conjunto de 5 redes neuronales personalizadas y trabajar en él todo el año. Por ejemplo, incluso para proyectos de clasificación de texto, puede comenzar con algoritmos simples (como bolsa de palabras) y ya crecer. Como resultado, este proyecto piloto será el punto de partida para un mayor desarrollo y le dará a la gerencia un entendimiento de que el dinero se destina a cosas útiles y que DS debe desarrollarse. Esto dará tiempo para trabajar en cosas más complejas. En ausencia de competencias, tiene sentido que un proyecto piloto contrate un equipo externo de consultores de DS. Pueden ayudarlo a cumplir sus deseos con una calidad bastante buena, o comprender qué proyectos puede hacer en su industria, dónde comenzar y cómo debe construir una nueva estrategia de IA.



Recopilar datos


Todo aquí es simple y complicado al mismo tiempo: idealmente, la empresa debería usar todos los datos que tiene. Por ejemplo, si es un minorista en línea, tiene al menos datos sobre las ventas de productos específicos, el comportamiento del cliente en el sitio y los correos de marketing. Ya sobre esto puede construir muchos modelos, por ejemplo, un sistema de correo personal.

De hecho, la recopilación de todos los datos de la empresa en una base de datos suele ser un gran problema debido a la diferencia en las fuentes, la falta de interacción clara entre los departamentos o incluso la falta de especialistas en BI en la empresa. Las organizaciones que tienen todos los datos almacenados en Excel primero deben comenzar a recopilarlos en una base de datos (SQL), y solo luego pensar en DS.

Todos los datos disponibles se deben recopilar en la forma en que sea conveniente para los analistas y científicos de datos (la mayoría de las veces es SQL). Debe acordar de antemano con el departamento de BI sobre cómo desea recibir los datos, procesarlos y utilizarlos en la producción.
Con una pequeña cantidad de datos, puede comprarlos de compañías externas. Por ejemplo, una telecomunicación: conecte estos datos por número de teléfono con los suyos y así enriquecerlos. Pero en cada uno de estos casos, es necesario calcular si hay algún beneficio de esto.



Encontrar analistas


Es importante que la empresa ya tuviera un departamento de análisis en el momento en que se estableció el departamento de DS. Estos son los tipos que ayudarán a los científicos a encontrar los datos, decirles lo que significan, cómo recopilar correctamente las variables necesarias y mucho más. La analítica es el primer paso en el movimiento de una empresa hacia el enfoque de toma de decisiones basado en datos (es decir, cuando todas las decisiones en la empresa se basan en los datos recibidos y no en el deseo de la administración). Ayudarán a capitalizar los datos sin usar modelos, y los informes ayudarán a la administración a tomar las decisiones correctas. Además, en el futuro, son los analistas quienes supervisarán el estado de todos los modelos DS y prepararán informes basados ​​en los resultados.

Recoge un equipo


Ya se han escrito muchos artículos sobre este tema, solo intentaré resumir lo que ya se ha dicho. Por lo tanto, un buen equipo de DS suele consistir en:

  • Gerente de proyecto: administra el proyecto, es responsable de toda la parte comercial;
  • Data Scientist: crea modelos;
  • Ingeniero de datos: recopila datos y prepara tuberías de producción;
  • Desarrollador: presenta una solución DS.

Todos los roles son muy variables y pueden variar según sus deseos. Por ejemplo, a veces un equipo aún puede tener un analista de negocios, a veces puede haber varios científicos de datos a la vez, a veces un ingeniero de datos y un desarrollador pueden ser una sola persona. Hay muchas opciones para el equipo y necesita desarrollar sus necesidades. O pruebe varias opciones y elija la mejor.

Además del equipo estándar, para crear un departamento desde cero, no solo necesita buenos especialistas de la lista anterior, sino también un evangelista que explicará a todos qué es DS y cuáles pueden ser los beneficios para otros departamentos: el mismo Oficial Principal de IA / Oficial Principal de Datos / Director digital (elija su propio nombre). Es importante mencionar que si contrata a un científico de datos y le asigna tareas a él, al analista, al arquitecto y al desarrollador, no debe esperar un resultado rápido, además, esto puede privar a esta persona de motivación, y la compañía tendrá un departamento exitoso en el futuro.

Si la empresa es grande y hay muchas oportunidades para el desarrollo de Big Data, entonces también necesita Data Architect, que configurará la arquitectura, la recopilación de datos multiproceso y desplegará Hadoop o Spark (sistemas para procesar grandes conjuntos de datos), con los que los científicos de datos de la empresa ya trabajarán. .



No te olvides de las comunicaciones internas y la capacitación.


Después del proyecto piloto, es necesario desarrollar activamente el equipo. Una empresa debe organizar al menos dos tipos de capacitación:
Para los científicos de datos: pueden ser talleres sobre diversos temas, reuniones semanales, hackatones, clases magistrales. Además, debe prestar atención a la compra de cursos en línea para el equipo (por ejemplo, con Coursera) e incluso ponerlo en KPI. Esto ayudará a mantener al equipo actualizado en un campo en rápido desarrollo y mejorar la interacción interna.
Para los gerentes de proyecto y los gerentes superiores, también pueden ser talleres en forma de análisis de casos de negocios o estrategias de inteligencia artificial de las empresas, o, por ejemplo, cursos básicos que entienden el aprendizaje automático y las tecnologías de aprendizaje profundo (lo que puede y no puede hacerse, lo básico tecnología). Esto solo ayudará a la gerencia a generar expectativas del DS.

Además, lo más probable es que, incluso antes de la creación del departamento de DS, la compañía ya tenga personas interesadas (estos pueden ser desarrolladores que hayan tomado algunos cursos de DS o personas de negocios que quieran ser gerentes de proyectos de DS), deberían sentirse atraídos por el departamento y ayudar a desarrollar . Por ejemplo, después de haber capacitado a un desarrollador en métodos de aprendizaje automático, puede obtener un especialista bueno y motivado que conozca la estructura interna de la empresa y sea más barato que el científico de datos promedio del mercado, que también necesita tiempo para resolverlo.



Las comunicaciones externas son importantes.


Este artículo a menudo se olvida, pero no es menos importante que el resto. El mercado de especialistas en aprendizaje automático está en una gran escasez de personal (todo ha comenzado a mejorar en los últimos años, pero aún así), todo buen científico de datos comprende su valor y elige la empresa en la que quiere trabajar; por lo tanto, ofrecer un salario grande ahora no es suficiente. necesita involucrarse con proyectos. Para hacer esto, debe construir correctamente sus comunicaciones externas: trabajar con los medios de comunicación, los líderes de opinión, la comunidad, hablar sobre proyectos implementados, escribir artículos en varias publicaciones temáticas, hablar en conferencias, patrocinar eventos industriales como hackatones, etc., esto es solo una pequeña parte de eso qué hacer para atraer talento a la empresa.

Eso es todo, en conclusión, solo diré que no mencioné específicamente las dificultades en el proceso mismo del departamento de Ciencia de Datos, sino que solo dije lo que se necesita para crearlo. Si tiene algo que agregar, bienvenido a los comentarios.

Source: https://habr.com/ru/post/es436052/


All Articles