
"¿Cuántos científicos necesitas para encender una bombilla?"
- Uno, si la selección histórica de bombillas torcidas con éxito es suficiente.
Esto, por supuesto, es una broma, pero cuando en una empresa se trata de manipular grandes datos para mejorar el rendimiento del negocio, no todos entienden quién lo domesticará. La opinión clásica: necesita un científico de datos, un analista de datos que pueda construir modelos, entienda la inteligencia artificial y el aprendizaje automático. Y este hombre decide todo en una cabeza.
Además, existe la tendencia de que cuando se forma una división de Big Data en una empresa, los científicos de datos son los que se contratan principalmente.
En realidad, todo es más complicado. Sin la fecha del científico, por supuesto, no hay trabajo con grandes datos, pero él no es un guerrero solo en el campo. Quién más debería luchar hombro con hombro con él se entiende mejor con ejemplos.
Mediador
Digamos que hay una red de gimnasios que querían usar big data. Data Scientist resuelve el problema de predecir que el cliente, además de la capacitación básica, está inclinado a usar otras personales. El especialista toma datos sobre quién hizo qué antes y construye un modelo de adicción.
Surge la pregunta: ¿qué entrenamiento? ¿Y cómo le propondremos que vaya con ellos? Será necesario dividir claramente el entrenamiento en masculino y femenino. Dividido por la lógica empresarial: si una persona ya está comprometida con un entrenador premium, no deberíamos ofrecer el no premium.
O un ejemplo del sector bancario. Los bancos tienen productos que se venden solos, y hay aquellos que a menudo se venden junto con otros. Compramos una tarjeta o tomamos un préstamo, y al mismo tiempo vendemos seguros. Una historia similar en las compañías de seguros. Podemos comprar un seguro de automóvil, pero al mismo tiempo podemos vender seguros de vida en paralelo.
Entonces, si no conoce el negocio, pero hay una tarea para predecir algún tipo de compra, puede hacer lo siguiente: "Mire, muchos de nuestros clientes están comprando esta capacitación / seguro". Y comience a construir modelos para estimular las ventas. Pero las empresas saben que esta capacitación / seguro solo va con algo. E incluso el modelo puede resultar bueno, pero el producto no funcionará por separado.
Al crear un modelo, siempre hay un conjunto de notas introductorias relacionadas con el funcionamiento del negocio. Y si los formulamos incorrectamente, entonces no tendrá sentido. Por lo tanto, además de los datos reales de Scientist, necesita un propietario del producto, un gerente de producto que haga amigos matemáticos con los negocios.
Estos dos roles son imprescindibles para un equipo de big data. Importante: si tenemos varias líneas de negocio, entonces para cada dirección necesitamos nuestro propio producto. Data Scientist puede ser universal.
Incluso podría decir que el propietario del producto es quien lo inicia todo. A quién se le ocurren los estudios de casos de aprendizaje automático en una empresa determinada y luego impulsa la implementación de estos casos.
Pero como dicen, y eso no es todo.
Programador de excavadoras
Imagine que un banco decidió promocionar una tarjeta especial para clientes que a menudo viajan al extranjero. ¿Qué datos históricos puede orientarse para formar el llamado signo? Lo más obvio es que en algún momento hubo una transacción en el extranjero en la tarjeta del cliente. El síntoma es simple, pero necesita requisitos claros. ¿Cuántas veces al año fueron tales transacciones? ¿En que puntos? Para que periodo Todo esto debe formularse y luego codificarse a partir de datos simples para que el atributo se seleccione correctamente. Esto requiere una persona separada: un ingeniero de datos.
Las tareas de los roles son realmente diferentes. Data Scientist debe construir un buen modelo. La cabeza está preocupada por elegir qué características, casos, algoritmos usar, cómo optimizar para que el modelo funcione rápidamente. Y un ingeniero de datos es más como un programador o desarrollador de bases de datos. Necesita recopilar datos de 10/100/500 tablas y fuentes diferentes, calcular esto, comparar esto, tener esto en cuenta, esto y aquello.
Un punto importante: el ingeniero de datos no se enciende en la primera etapa. Como ya hemos visto, el ciclo de desarrollo consta de etapas experimentales (MVP - producto mínimamente viable) y productivas. Mientras estamos experimentando, es muy difícil describir claramente los datos al ingeniero cada vez que datos cargar. Hay creatividad, se están elaborando hipótesis, los datos están girando de diferentes maneras. Aquí, incluso la más mínima incomodidad entre el científico y el ingeniero retrasa la preparación del MVP durante semanas.
Más precisamente, el ingeniero de datos realiza la primera iteración de la preparación de datos, ya que si no hay datos, el científico de datos no tiene nada con qué trabajar. Además, Data Scientist construye iterativamente características para el modelo. Una vez que el modelo tiene éxito y necesita convertirse en un ingeniero de datos productivo de acuerdo con la especificación de Data Scientist, escribe un código productivo para el cálculo regular del rasgo.
Por lo tanto, la tendencia actual: en la etapa MVP, el científico prepara los datos de forma independiente. Pero luego, cuando se construye el modelo y todos lo aceptan, el Científico de datos describe claramente cómo se forman los atributos que necesita y se lo pasa a una persona capacitada por separado. Los programa para que se utilicen constantemente en el producto.
Por otro lado, esta historia también se puede torcer, si el objetivo comercial aún no se ha determinado, pero la empresa tiene una gran variedad de datos que desea utilizar.
En este caso, intentamos condicionalmente 100 casos, 100 MVP, desde los cuales se puede disparar. Si expande el proceso de construcción de MVP en cada caso individual, el 80% se destina a la preparación de datos, el 20%, al modelo mismo. Cada vez, los datos deben obtenerse de fuentes dispares y multiformato. Reúnalas en signos lógicos y comprensibles: por ejemplo, "una transacción en el punto N" debería convertirse en un "viaje al extranjero tantas veces al año".
Este trabajo lleva mucho tiempo. Si usamos algún tipo de vector de datos y creamos un modelo, y resultó ser malo, volvemos y cargamos los datos nuevamente. Con cada caso de 100. Puede optimizar estas iteraciones de una sola manera, si tenemos un gran "escaparate" de antemano con todos los atributos posibles: miles, decenas de miles. Crear tal "escaparate" es tarea de un ingeniero de citas bajo la dirección de un científico de citas. Los experimentos se aceleran significativamente: los parámetros de entrada para los modelos se pueden seleccionar y cambiar rápidamente.
Orquesta Big Data Conductors
Recolectamos datos, construimos un modelo, nos hicimos amigos de los negocios. ¿Eso es todo?
No todo Esta gran historia de datos debería tener un líder. Parece que esta publicación es la más simple y más comprensible, pero esto no es del todo cierto. El líder debe combinar dos propiedades que generalmente no están muy combinadas.
Si comenzamos grandes datos desde cero en una empresa, necesitamos un estratega y un vendedor como jefe y conductor de la dirección. Explicará a toda la empresa por qué es tan importante trabajar con big data. Está claro que al comienzo de algo innovador es muy difícil pedir un caso de negocios claro, porque se basa en una gran cantidad de suposiciones. Por lo tanto, el estratega explicará: muchachos, planificaremos grandes datos sobre el principio de "arriba hacia abajo" (arriba hacia abajo). Y establezca objetivos de diversos grados de globalidad, como:
- para que después de 5 años, los ingresos de proyectos, productos relacionados con big data sean el 10% de nuestros ingresos
- reducir los riesgos de incumplimiento en un 20%
- reducir el 30% de oficinas ineficientes
Y así sucesivamente.
Por otro lado, este estratega debe poder vender la idea dentro de la organización.
El problema es que si ya se encuentra a esa persona, entonces es difícil para él en cuestiones tácticas. Para encarnar las ideas de un estratega a nivel físico, necesita una persona operativa. Desarrollará procesos comerciales, analistas, gerentes de producto, hará todo lo ágil. Es importante que todo esto funcione rápidamente. Por lo tanto, el liderazgo se divide en dos partes: el estratega es responsable de un futuro brillante, el operador está subordinado al estratega e implementa planes. Ninguno de ellos puede arreglárselas solo.
Todavía puede ver este problema desde un ángulo completamente diferente. Imagine que la implementación de las tecnologías de Big Data está planeada en una gran compañía de producción clásica para la cual estas tecnologías son nuevas. ¿A quién poner a cargo? ¿Una persona de afuera, con una amplia experiencia en la aplicación de big data en diferentes industrias y conocimiento en esta área, o una persona de adentro, que ha estado en la compañía por mucho tiempo, tiene una posición bastante alta, ha implementado muchos proyectos que todos conocen y respetan?
Creo que está claro que una persona desde adentro, que sabe cómo funciona la compañía desde adentro, conoce a las personas y los procesos allí lograrán más. En consecuencia, para ayudarlo, debe poner a una persona externa, con experiencia en la implementación de Big Data, para que indique las instrucciones necesarias y administre el equipo de Big Data.
Colocar en el sol
Nos decidimos por la composición. Queda por subordinar la orquesta de big data al departamento correcto.
Es lógico definirlo en la dirección del negocio que estamos optimizando. Es bueno si la empresa es madura. Entonces puede intentar colocar big data en las ventas objetivo. Necesitamos una sucursal comercial para que funcione. Por ejemplo, para un banco, si queremos retener a los clientes, necesitamos una sucursal que pueda comunicarse con los clientes seleccionados por el modelo y realmente mantenerlos. Si desea utilizar big data para planificar la ubicación de las oficinas bancarias, necesita una sucursal que se ocupe de la apertura de estas oficinas. Queremos optimizar los datos para la calificación bancaria: necesitamos una sucursal responsable de los riesgos. Sin la dirección de la empresa responsable de trabajar con los resultados del modelo, nada resultará de ello.
A nivel mundial, sin el apoyo directo de arriba, el tema simplemente no despegará: necesita la misma estrategia de arriba hacia abajo. Especialmente cuando necesita el apoyo de una dirección que ya está ocupada con sus procesos, y entrecerrando los ojos ante todo tipo de innovaciones.
Quiere aprender más sobre los aspectos de la implementación de Big Data en las empresas, lea nuestras otras publicaciones en nuestro
sitio web o venga a estudiar a la
Escuela de DatosLa publicación fue preparada
por la School of Data sobre la base de la publicación del fundador de la School in the
Business HUB de Kyivstar PJSC