👸🏻 🖖🏼 ⛺️ Pourquoi les équipes de science des données ont besoin d'universel, pas de spécialistes 🎅🏻 🚴🏼 🧒🏽

IMAGES SUR «HIROSHI WATANABE / GETTY»

Dans The Wealth of Nations, Adam Smith montre comment la division du travail devient une source majeure de gains de productivité. Un exemple est la chaîne de montage d'une usine pour la production de broches: "Un travailleur tire le fil, l'autre le redresse, le troisième coupe, le quatrième affûte la fin, le cinquième broie l'autre extrémité pour s'adapter à la tête." Grâce à une spécialisation axée sur certaines fonctions, chaque employé devient un spécialiste hautement qualifié dans sa tâche étroite, ce qui entraîne une augmentation de l'efficacité du processus. La production par travailleur augmente de nombreuses fois et l'usine devient plus efficace dans la production d'épingles.

Cette division du travail par fonctionnalité est tellement ancrée dans nos esprits qu'aujourd'hui, nous avons rapidement organisé nos équipes en conséquence. La science des données ne fait pas exception. Les opportunités commerciales algorithmiques complexes nécessitent de nombreuses fonctions de travail, de sorte que les entreprises créent généralement des groupes de spécialistes: chercheurs, ingénieurs d'analyse de données, ingénieurs d'apprentissage automatique, scientifiques impliqués dans les relations de cause à effet, etc. Le travail des spécialistes est coordonné par le chef de produit avec le transfert des fonctions d'une manière qui ressemble à une fabrique de broches: «une personne reçoit les données, l'autre les modélise, la troisième les exécute, les quatrièmes mesures» et ainsi de suite,

Hélas, nous ne devons pas optimiser nos équipes Data Science pour améliorer les performances. Cependant, vous faites cela lorsque vous comprenez ce que vous produisez: des épingles ou autre chose, et vous efforcez simplement d'augmenter l'efficacité. Le but des chaînes de montage est de terminer la tâche. Nous savons exactement ce que nous voulons - ce sont des broches (comme dans l'exemple de Smith), mais vous pouvez mentionner tout produit ou service dans lequel les exigences décrivent pleinement tous les aspects du produit et son comportement. Le rôle des employés est de répondre à ces exigences le plus efficacement possible.

Mais l'objectif de la Data Science n'est pas de terminer des tâches. L'objectif est plutôt d'explorer et de développer de nouvelles opportunités commerciales solides. Les produits et services algorithmiques, tels que les systèmes de recommandation, les interactions avec les clients, les préférences de style, la taille, la conception des vêtements, l'optimisation logistique, la détection des tendances saisonnières, etc. ne peuvent pas être développés à l'avance. Ils doivent être étudiés. Il n'y a pas de dessins à reproduire, ce sont de nouvelles fonctionnalités avec leur incertitude inhérente. Les coefficients, les modèles, les types de modèles, les hyperparamètres, tous les éléments nécessaires doivent être étudiés à l'aide d'expériences, d'essais et d'erreurs, ainsi que de répétitions. Avec des épingles, la formation et la conception sont faites à l'avance, jusqu'à ce qu'elles soient fabriquées. Avec Data Science, vous apprenez dans le processus, pas avant.

Dans une usine de broches, lorsque la formation vient en premier, nous n'attendons pas et ne voulons pas que les travailleurs improvisent sur n'importe quelle propriété du produit, en plus d'augmenter l'efficacité de la production. La spécialisation des tâches a du sens, car elle conduit à l'efficacité des processus et à la coordination de la production (sans apporter de modifications au produit final).

Mais lorsque le produit est encore en développement et que l'objectif est la formation, la spécialisation interfère avec nos objectifs dans les cas suivants:

1. Cela augmente les coûts de coordination.

C'est-à-dire les coûts qui s'accumulent pendant le temps passé à communiquer, discuter, justifier et prioriser le travail qui doit être fait. Ces coûts évoluent de manière superlinéaire avec le nombre de personnes impliquées. (Comme J. Richard Hackman nous l'a enseigné, le nombre de relations r croît de manière similaire à la fonction du nombre de membres n selon cette équation: r = (n ^ 2-n) / 2. Et chaque ratio révèle une certaine quantité du ratio de coût). Lorsque les spécialistes de l'analyse des données sont organisés par fonction, à chaque étape, à chaque changement, à chaque transfert de service, etc. De nombreux spécialistes sont nécessaires, ce qui augmente les coûts de coordination. Par exemple, les statisticiens qui souhaitent expérimenter de nouvelles fonctionnalités devront se coordonner avec les ingénieurs informatiques qui complètent leurs ensembles de données chaque fois qu'ils veulent essayer quelque chose de nouveau. De la même manière, chaque nouveau modèle formé signifie que le développeur du modèle aura besoin de quelqu'un avec qui coordonner ses actions pour le mettre en service. Les coûts de coordination servent de paiement pour l'itération, ce qui les rend plus difficiles et coûteux et plus susceptibles de forcer l'abandon de l'étude. Cela peut interférer avec l'apprentissage.

2. Cela complique le temps d'attente.

Le temps perdu entre les quarts de travail est encore plus effrayant que le coût de la coordination. Alors que les coûts de coordination sont généralement mesurés en heures: le temps nécessaire pour mener des réunions, des discussions, des revues de projet - les temps d'attente sont généralement mesurés en jours, semaines, voire mois! Les horaires des spécialistes fonctionnels sont difficiles à aligner, car chaque spécialiste doit être réparti sur plusieurs projets. Une réunion d'une heure pour discuter des changements peut prendre plusieurs semaines pour rationaliser le flux de travail. Et après s'être mis d'accord sur les changements, il est nécessaire de planifier le travail lui-même dans le contexte de nombreux autres projets qui prennent des heures de travail de spécialistes. Le travail de correction d'un code ou de recherche qui ne prend que quelques heures ou quelques jours peut prendre beaucoup plus de temps avant que les ressources ne soient disponibles. Jusque-là, l'itération et l'apprentissage sont suspendus.

3. Il rétrécit le contexte.

La division du travail peut limiter artificiellement l'apprentissage en récompensant les personnes qui restent dans leur spécialisation. Par exemple, un chercheur qui doit rester dans le cadre de ses fonctionnalités concentrera son énergie sur des expériences avec différents types d'algorithmes: régression, réseaux de neurones, forêt aléatoire, etc. Bien sûr, un bon choix d'algorithme peut conduire à des améliorations progressives, mais, en règle générale, beaucoup plus peut être appris d'autres activités, telles que l'intégration de nouvelles sources de données. De même, cela aidera à développer un modèle qui utilise chaque bit de pouvoir explicatif inhérent aux données. Cependant, sa force peut résider dans le changement de la fonction objective ou l'assouplissement de certaines restrictions. Il est difficile de voir ou de faire quand son travail est limité. Puisqu'un scientifique spécialisé est spécialisé dans l'optimisation des algorithmes, il est beaucoup moins susceptible de faire autre chose, même si cela apporte des avantages significatifs.

Nommons les signes qui apparaissent lorsque les équipes de science des données fonctionnent comme des usines de broches (par exemple, dans de simples mises à jour de statut): «en attente de modifications du pipeline de données» et «en attente de ressources ML Eng», qui sont des bloqueurs courants. Cependant, je pense qu'un effet plus dangereux est ce que vous ne remarquez pas, car vous ne pouvez pas regretter ce que vous ne savez pas encore. La satisfaction irréprochable des exigences et la complaisance obtenue grâce à l'efficacité des processus peuvent obscurcir le fait que les organisations ne connaissent pas les avantages de l'apprentissage qui leur manque.

La solution à ce problème, bien sûr, est de se débarrasser de la méthode des broches d'usine. Afin de stimuler l'apprentissage et l'itération, les rôles de la science des données devraient être communs, mais avec de larges responsabilités indépendantes de la fonction technique, c'est-à-dire organiser les spécialistes des données afin qu'ils soient optimisés pour l'apprentissage. Cela signifie qu'il est nécessaire d'embaucher des «spécialistes de la pile complète» - des spécialistes généraux qui peuvent remplir diverses fonctions: du concept à la modélisation, de la mise en œuvre à la mesure. Il est important de noter que je ne présume pas que lors de l'embauche de spécialistes à plein temps, le nombre d'employés devrait diminuer. Très probablement, je suppose simplement que lorsqu'ils sont organisés différemment, leurs incitations sont mieux alignées avec les avantages de la formation et de l'efficacité. Par exemple, vous avez une équipe de trois personnes avec trois qualités commerciales. A l'usine de production d'épingles, chaque spécialiste consacrera un tiers du temps à chaque tâche professionnelle, car personne d'autre ne peut faire son travail. Dans une pile complète, chaque employé universel est entièrement dédié à l'ensemble du processus métier, à l'échelle du travail et à la formation.

Avec moins de personnes soutenant le cycle de production, la coordination est réduite. Le wagon se déplace en douceur entre les fonctions, élargissant le pipeline de données, pour ajouter plus de données, essayant de nouvelles fonctions dans les modèles, déployant de nouvelles versions en production pour les mesures causales et répétant les étapes aussi rapidement que de nouvelles idées arrivent. Bien entendu, le break remplit différentes fonctions de manière séquentielle et non en parallèle. Après tout, ce n'est qu'une seule personne. Cependant, la tâche ne prend généralement qu'une petite partie du temps requis pour accéder à une autre ressource spécialisée. Ainsi, le temps d'itération est réduit.

Notre break n'est peut-être pas aussi qualifié qu'un spécialiste dans une fonction spécifique, mais nous ne visons pas l'excellence fonctionnelle ou de petites améliorations progressives. Au contraire, nous nous efforçons d'étudier et de découvrir de nouveaux défis professionnels avec un impact progressif. Avec un contexte holistique pour une solution complète, il voit les opportunités qu'un spécialiste étroit manquera. Il a plus d'idées et plus d'opportunités. Il échoue également. Cependant, le coût de l'échec est faible et les avantages de l'apprentissage sont élevés. Cette asymétrie favorise une itération rapide et récompense l'apprentissage.

Il est important de noter qu'il s'agit de l'échelle d'autonomie et de la variété des compétences fournies aux scientifiques travaillant avec des piles complètes, cela dépend en grande partie de la fiabilité de la plate-forme de données sur laquelle vous pouvez travailler. Une plateforme de données bien conçue résume les scientifiques des données des complexités de la conteneurisation, du traitement distribué, du transfert automatique vers une autre ressource et d'autres concepts informatiques avancés. En plus de l'abstraction, une plate-forme de données fiable peut fournir une connectivité sans entrave à l'infrastructure expérimentale, automatiser les systèmes de surveillance et de reporting, et automatiquement mettre à l'échelle et visualiser les résultats algorithmiques et le débogage. Ces composants sont conçus et créés par des ingénieurs de plate-forme de données, c'est-à-dire qu'ils ne sont pas transférés du spécialiste de la science des données à l'équipe de développement de la plate-forme de données. C'est le Data Science Specialist qui est responsable de tout le code utilisé pour lancer la plateforme.

J'ai également été intéressé par la division fonctionnelle du travail en utilisant l'efficacité des processus, mais par essais et erreurs (il n'y a pas de meilleure façon d'apprendre), j'ai trouvé que les rôles typiques contribuent mieux à l'apprentissage et à l'innovation et fournissent les bons indicateurs: découvrir et créer beaucoup plus d'opportunités commerciales que approche spécialisée. (Un moyen plus efficace d'en apprendre davantage sur cette approche de l'organisation que la méthode d'essai et d'erreur que j'ai utilisée consiste à lire le livre d'Amy Edmondson, Team Interaction: How Organizations Learn, Create Innovation, and Compete in the Knowledge Economy.)

Certaines hypothèses importantes peuvent rendre cette approche organisationnelle plus ou moins fiable dans certaines entreprises. Le processus d'itération réduit le coût des essais et erreurs. Si le coût de l'erreur est élevé, vous souhaiterez peut-être le réduire (mais ce n'est pas recommandé pour les applications médicales ou la production). De plus, si vous traitez avec des pétaoctets ou des exaoctets de données, une spécialisation en conception de données peut être requise. De même, si le maintien des opportunités commerciales en ligne et leur accessibilité sont plus importants que leur amélioration, l'excellence fonctionnelle peut surpasser l'apprentissage. Enfin, le modèle full-stack est basé sur les opinions de personnes qui le connaissent. Ce ne sont pas des licornes; ils peuvent être trouvés ou préparés par vous-même. Cependant, ils sont très demandés, et pour les attirer et les conserver dans l'entreprise, il faudra une compensation financière compétitive, des valeurs d'entreprise durables et un travail intéressant. Assurez-vous que votre culture d'entreprise peut fournir ces conditions.

Malgré tout cela, je pense que le modèle full-stack offre les meilleures conditions de démarrage. Commencez avec eux, puis n'allez consciemment vers la division fonctionnelle du travail que lorsque cela est absolument nécessaire.

La spécialisation fonctionnelle présente d'autres inconvénients. Cela peut entraîner une perte de responsabilité et de passivité de la part des travailleurs. Smith lui-même critique la division du travail, suggérant qu'elle conduit à un émoussement des talents, c'est-à-dire les travailleurs deviennent désemparés et retirés, car leurs rôles se limitent à quelques tâches répétitives. Bien que la spécialisation puisse garantir l'efficacité des processus, elle est moins susceptible d'inspirer les travailleurs.

À leur tour, les rôles universels fournissent tout ce qui stimule la satisfaction au travail: autonomie, compétence et détermination. L'autonomie est qu'ils ne dépendent de rien pour réussir. La maîtrise réside dans de forts avantages compétitifs. Et la détermination est la capacité d'influencer l'entreprise qu'ils créent. Si nous parvenons à amener les gens à se laisser emporter par leur travail et à avoir un impact important sur l'entreprise, alors tout le reste se mettra en place.

Pourquoi les équipes de science des données ont besoin d'universel, pas de spécialistes

More articles: