Por qué los equipos de ciencia de datos necesitan universales, no especialistas

imagen
HIROSHI WATANABE / GETTY IMAGES

En The Wealth of Nations, Adam Smith muestra cómo la división del trabajo se convierte en una fuente importante de ganancias de productividad. Un ejemplo es la línea de ensamblaje de una fábrica para la producción de alfileres: "Un trabajador tira del cable, el otro lo endereza, el tercero corta, el cuarto afila el extremo, el quinto muele el otro extremo para que encaje en la cabeza". Gracias a la especialización centrada en ciertas funciones, cada empleado se convierte en un especialista altamente calificado en su tarea limitada, lo que conduce a un aumento en la eficiencia del proceso. La producción por trabajador aumenta muchas veces, y la planta se vuelve más eficiente en la producción de alfileres.

Esta división del trabajo por funcionalidad está tan arraigada en nuestras mentes incluso hoy que organizamos rápidamente nuestros equipos en consecuencia. Data Science no es una excepción. Las complejas oportunidades de negocio algorítmicas requieren muchas funciones laborales, por lo que las empresas generalmente crean equipos de especialistas: investigadores, ingenieros de análisis de datos, ingenieros de aprendizaje automático, científicos involucrados en relaciones de causa y efecto, etc. El trabajo de los especialistas está coordinado por el gerente de producto con la transferencia de funciones de una manera que se asemeja a una fábrica de alfileres: "una persona recibe los datos, el otro los modela, el tercero los realiza, el cuarto mide", etc.

Por desgracia, no debemos optimizar nuestros equipos de ciencia de datos para mejorar el rendimiento. Sin embargo, hace esto cuando comprende lo que está produciendo: pines u otra cosa, y simplemente se esfuerza por aumentar la eficiencia. El propósito de las líneas de ensamblaje es completar la tarea. Sabemos exactamente lo que queremos: estos son pines (como en el ejemplo de Smith), pero puede mencionar cualquier producto o servicio en el que los requisitos describan completamente todos los aspectos del producto y su comportamiento. El papel de los empleados es cumplir estos requisitos de la manera más eficiente posible.

Pero el objetivo de Data Science no es completar tareas. Por el contrario, el objetivo es explorar y desarrollar nuevas oportunidades comerciales sólidas. Los productos y servicios algorítmicos, como los sistemas de recomendación, las interacciones con los clientes, las preferencias de estilo, el tamaño, el diseño de la ropa, la optimización de la logística, la detección de tendencias estacionales y más no se pueden desarrollar de antemano. Deben ser estudiados. No hay dibujos para reproducir, estas son características nuevas con su incertidumbre inherente. Los coeficientes, modelos, tipos de modelos, hiperparámetros, todos los elementos necesarios deben estudiarse utilizando experimentos, prueba y error, y también la repetición. Con los pasadores, la capacitación y el diseño se realizan por adelantado, hasta que se fabrican. Con Data Science, aprende en el proceso, no antes.

En una fábrica de alfileres, cuando la capacitación es lo primero, no esperamos y no queremos que los trabajadores improvisen en ninguna propiedad del producto, además de aumentar la eficiencia de la producción. La especialización de las tareas tiene sentido, ya que conduce a la eficiencia de los procesos y la coordinación de la producción (sin realizar cambios en el producto final).

Pero cuando el producto aún se está desarrollando y el objetivo es la capacitación, la especialización interfiere con nuestros objetivos en los siguientes casos:

1. Esto aumenta los costos de coordinación.

Es decir, los costos que se acumulan durante el tiempo dedicado a comunicarse, debatir, justificar y priorizar el trabajo que debe realizarse. Estos costos aumentan superlinealmente con el número de personas involucradas. (Como nos enseñó J. Richard Hackman, el número de relaciones r crece de manera similar a la función del número de miembros n de acuerdo con esta ecuación: r = (n ^ 2-n) / 2. Y cada relación revela una cierta cantidad de la relación de costo). Cuando los especialistas en análisis de datos se organizan por función, en cada etapa, con cada cambio, cada transferencia de servicio, etc. Se requieren muchos especialistas, lo que aumenta los costos de coordinación. Por ejemplo, los estadísticos que quieran experimentar con nuevas características tendrán que coordinarse con ingenieros de procesamiento de datos que complementen sus conjuntos de datos cada vez que quieran probar algo nuevo. De la misma manera, cada nuevo modelo capacitado significa que el desarrollador del modelo necesitará a alguien con quien coordinar sus acciones para ponerlo en funcionamiento. Los costos de coordinación actúan como pago por la iteración, lo que los hace más difíciles y costosos y es más probable que obliguen a abandonar el estudio. Esto puede interferir con el aprendizaje.

2. Esto complica el tiempo de espera.

Aún más aterrador que el costo de la coordinación es el tiempo perdido entre turnos. Si bien los costos de coordinación generalmente se miden en horas: el tiempo que lleva llevar a cabo reuniones, discusiones, revisiones de proyectos; ¡los tiempos de espera generalmente se miden en días, semanas o incluso meses! Los horarios de los especialistas funcionales son difíciles de alinear, ya que cada especialista debe distribuirse en varios proyectos. Una reunión de una hora para discutir los cambios puede tomar varias semanas para optimizar el flujo de trabajo. Y después de acordar los cambios, es necesario planificar el trabajo en sí mismo en el contexto de muchos otros proyectos que requieren horas de trabajo de especialistas. El trabajo involucrado en la fijación de un código o investigación que lleva solo unas pocas horas o días en completarse puede llevar mucho más tiempo antes de que los recursos estén disponibles. Hasta entonces, la iteración y el aprendizaje están en pausa.

3. Reduce el contexto.

La división del trabajo puede limitar artificialmente el aprendizaje al recompensar a las personas por permanecer en su especialización. Por ejemplo, un científico investigador que debe permanecer dentro del alcance de su funcionalidad enfocará su energía en experimentos con varios tipos de algoritmos: regresión, redes neuronales, bosque aleatorio, etc. Por supuesto, una buena elección de algoritmo puede conducir a mejoras graduales, pero, por regla general, se puede aprender mucho más de otras actividades, como la integración de nuevas fuentes de datos. Del mismo modo, ayudará a desarrollar un modelo que utilice todo el poder explicativo inherente a los datos. Sin embargo, su fuerza puede estar en cambiar la función objetivo o relajar ciertas restricciones. Es difícil de ver o hacer cuando su trabajo es limitado. Como un científico especialista se especializa en la optimización de algoritmos, es mucho menos probable que haga cualquier otra cosa, incluso si trae beneficios significativos.

Pongamos un nombre a los signos que aparecen cuando los equipos de ciencia de datos trabajan como fábricas de pines (por ejemplo, en actualizaciones de estado simples): "esperando los cambios en la tubería de datos" y "esperando los recursos de ML Eng", que son bloqueadores comunes. Sin embargo, creo que un efecto más peligroso es lo que no notas, porque no puedes arrepentirte de lo que aún no sabes. El cumplimiento impecable de los requisitos y la complacencia lograda como resultado de lograr la eficiencia del proceso pueden oscurecer la verdad de que las organizaciones no están familiarizadas con los beneficios del aprendizaje que se pierden.

La solución a este problema, por supuesto, es deshacerse del método de pin de fábrica. Para estimular el aprendizaje y la iteración, los roles de la ciencia de datos deben ser comunes, pero con amplias responsabilidades que son independientes de la función técnica, es decir, organizar especialistas en datos para que estén optimizados para el aprendizaje. Esto significa que es necesario contratar a "especialistas de pila completa", especialistas generales que pueden realizar diversas funciones: desde el concepto hasta el modelado, desde la implementación hasta la medición. Es importante tener en cuenta que no asumo que al contratar especialistas de full-stack, el número de empleados debería disminuir. Lo más probable es que suponga que cuando se organizan de manera diferente, sus incentivos están mejor alineados con los beneficios de la capacitación y la efectividad. Por ejemplo, tiene un equipo de tres personas con tres cualidades comerciales. En la fábrica para la producción de alfileres, cada especialista dedicará un tercio del tiempo a cada tarea profesional, ya que nadie más puede hacer su trabajo. En una pila completa, todos los empleados universales están totalmente dedicados a todo el proceso comercial, la ampliación del trabajo y la capacitación.

Con menos personas apoyando el ciclo de producción, se reduce la coordinación. El vagón se mueve suavemente entre las funciones, expandiendo la tubería de datos, para agregar más datos, probando nuevas funciones en modelos, implementando nuevas versiones en producción para mediciones causales y repitiendo pasos tan pronto como surjan nuevas ideas. Por supuesto, la camioneta realiza diferentes funciones secuencialmente, y no en paralelo. Después de todo, esta es solo una persona. Sin embargo, la tarea generalmente toma solo una pequeña parte del tiempo requerido para acceder a otro recurso especializado. Entonces, el tiempo de iteración se reduce.

Es posible que nuestra camioneta no sea tan hábil como un especialista en una función laboral específica, pero no buscamos la excelencia funcional o pequeñas mejoras incrementales. Más bien, nos esforzamos por estudiar y descubrir nuevos desafíos profesionales con un impacto gradual. Con un contexto holístico para una solución completa, ve oportunidades que un especialista limitado perderá. Tiene más ideas y más oportunidades. Él también falla. Sin embargo, el costo del fracaso es bajo y los beneficios del aprendizaje son altos. Esta asimetría promueve la iteración rápida y recompensa el aprendizaje.

Es importante tener en cuenta que esta es la escala de autonomía y la variedad de habilidades proporcionadas a los científicos que trabajan con pilas completas, depende en gran medida de la fiabilidad de la plataforma de datos en la que puede trabajar. Una plataforma de datos bien diseñada abstrae a los científicos de datos de las complejidades de la contenedorización, el procesamiento distribuido, la transición automática a otro recurso y otros conceptos informáticos avanzados. Además de la abstracción, una plataforma de datos confiable puede proporcionar conectividad sin obstáculos a la infraestructura experimental, automatizar los sistemas de monitoreo e informes y escalar y visualizar automáticamente los resultados algorítmicos y la depuración. Estos componentes están diseñados y creados por ingenieros de la plataforma de datos, es decir, no se transfieren del especialista en ciencia de datos al equipo de desarrollo de la plataforma de datos. Es el especialista en ciencia de datos el responsable de todo el código utilizado para lanzar la plataforma.

También una vez me interesó la división funcional del trabajo utilizando la eficiencia del proceso, pero por prueba y error (no hay mejor manera de aprender), descubrí que los roles típicos contribuyen mejor al aprendizaje y la innovación y proporcionan los indicadores correctos: descubrir y construir muchas más oportunidades de negocios que enfoque especializado (Una forma más efectiva de aprender sobre este enfoque de la organización que el método de prueba y error que utilicé es leer el libro de Amy Edmondson, Interacción en equipo: cómo las organizaciones aprenden, crean innovación y compiten en la economía del conocimiento).

Hay algunos supuestos importantes que pueden hacer que este enfoque de la organización sea más o menos confiable en algunas empresas. El proceso de iteración reduce el costo de prueba y error. Si el costo del error es alto, es posible que desee reducirlo (pero esto no se recomienda para aplicaciones médicas o producción). Además, si se trata de petabytes o exabytes de datos, es posible que se requiera especialización en el diseño de datos. Del mismo modo, si mantener las oportunidades comerciales en línea y su accesibilidad es más importante que mejorarlas, la excelencia funcional puede superar el aprendizaje. Finalmente, el modelo full-stack se basa en las opiniones de las personas que lo conocen. No son unicornios; pueden ser encontrados o preparados por usted mismo. Sin embargo, tienen una gran demanda y atraerlos y retenerlos en la empresa requerirá una compensación financiera competitiva, valores corporativos sostenibles y un trabajo interesante. Asegúrese de que su cultura corporativa pueda proporcionar estas condiciones.

Incluso con todo esto dicho, creo que el modelo full-stack ofrece las mejores condiciones para comenzar. Comience con ellos y luego avance conscientemente hacia la división funcional del trabajo solo cuando sea absolutamente necesario.

Existen otras desventajas de la especialización funcional. Esto puede conducir a una pérdida de responsabilidad y pasividad por parte de los trabajadores. Smith mismo critica la división del trabajo, sugiriendo que conduce a un embotamiento del talento, es decir. los trabajadores se vuelven despistados y retraídos, ya que sus roles se limitan a unas pocas tareas repetitivas. Si bien la especialización puede garantizar la eficiencia del proceso, es menos probable que inspire a los trabajadores.

A su vez, los roles universales proporcionan todo lo que estimula la satisfacción laboral: autonomía, habilidad y determinación. La autonomía es que no dependen de nada para lograr el éxito. El dominio radica en fuertes ventajas competitivas. Y la determinación es la capacidad de influir en el negocio que crean. Si logramos que las personas se dejen llevar por su trabajo y tengan un gran impacto en la empresa, entonces todo lo demás encajará.

Source: https://habr.com/ru/post/450420/


All Articles