L'auteur du document a eu une série de conversations avec des experts dans le domaine de l'analyse et du traitement des données et a tiré des conclusions sur les perspectives et les orientations du développement des scientifiques des données.La théorie et les méthodes de traitement des données ont simplifié la solution de divers problèmes dans le domaine de la technologie. Cela comprend l'optimisation des résultats de recherche Google, les recommandations sur LinkedIn, la formation de rubriques sur Buzzfeed. Cependant, l'utilisation des données peut affecter de manière significative de nombreux secteurs de l'économie: du commerce de détail, des télécommunications, de l'agriculture aux soins de santé, du fret et des systèmes pénaux.
Néanmoins, les termes «science des données», «théorie et méthodes d'analyse des données» et «scientifique des données» ne sont pas entièrement compris. Dans la pratique, ils sont utilisés pour décrire un large éventail de méthodes de travail avec l'information.
Que font réellement les experts en science des données? En tant qu'hôte du podcast
DataFramed, j'ai eu une excellente occasion d'interviewer plus de 30 experts en analyse de données d'un large éventail d'industries et de disciplines universitaires. Entre autres choses, j'ai toujours demandé en quoi consiste exactement leur travail.
La science des données est un domaine vraiment vaste. Mes invités ont abordé nos conversations de différentes positions et points de vue. Ils ont décrit une variété d'activités, y compris les cadres de développement de produits en ligne à grande échelle sur booking.com et Etsy, les méthodes utilisées par Buzzfeed pour résoudre le problème des bandits à plusieurs bras dans l'optimisation des titres pour les matériaux, et l'impact que l'apprentissage automatique a sur les décisions commerciales d'Airbnb.
Le dernier exemple a été donné par Robert Cheng, spécialiste de l'analyse des données chez Airbnb. Lorsqu'il travaillait sur Twitter, la société se concentrait sur la croissance. Maintenant chez Airbnb, Cheng développe des modèles massifs d'apprentissage automatique.
Les approches de l'application de la théorie de l'analyse et du traitement des données peuvent être très différentes, et le choix d'une solution dépend non seulement de l'industrie, mais aussi du type d'entreprise et de ses tâches.
Cependant, malgré la diversité, un certain nombre de sujets communs sont clairement visibles dans toutes les interviews.
Que font les experts en science des données?
Nous savons comment fonctionne la science des données, du moins dans l'industrie technologique. Les chercheurs établissent d'abord une base solide sous la forme d'informations collectées afin de mener un travail d'analyse approfondi. À l'étape suivante, ils utilisent, entre autres, des expériences en ligne pour progresser de manière durable dans la résolution du problème. En conséquence, des méthodes d'apprentissage automatique et des produits spécialisés sont créés qui traitent les données nécessaires pour mieux comprendre votre entreprise et prendre de meilleures décisions. Autrement dit, l'essence des méthodes de traitement des données dans le domaine de la technologie se résume à la construction d'infrastructures, à la réalisation de tests et à l'apprentissage automatique pour prendre des décisions et créer des produits d'information.
De grandes mesures sont prises dans d'autres secteurs non technologiques.
Lors d'une des réunions, Ben Skrainka, spécialiste de l'informatique chez Convoy, et moi avons examiné l'utilisation efficace des méthodes de traitement de l'information pour innover dans l'industrie du transport de marchandises en Amérique du Nord. Et Sandy Griffith de Flatiron Health a parlé du rôle important que l'analyse des données joue dans l'étude du cancer. Avec Drew Conway, nous avons discuté de sa société Alluvium, qui «utilise l'intelligence artificielle et l'apprentissage automatique pour identifier des modèles utiles basés sur des flux de données à grande échelle générés pendant le fonctionnement de systèmes industriels». Mike Tamir, actuel chef du département de conduite autonome d'Uber, a parlé de travailler chez Takt, où Tamir a aidé les sociétés du Fortune 500 à introduire des méthodes de traitement et d'analyse des données. Il a notamment partagé son expérience dans l'élaboration d'un système de recommandation pour Starbucks.
L'analyse des données n'est pas seulement la perspective des voitures autonomes et de l'intelligence artificielle
De nombreux invités de mon podcast étaient sceptiques quant à la généralisation du fétichisme de l'IA de la part des médias populaires (exemple: l'article de VentureBeat "Un dieu de l'IA sera créé d'ici 2042, qui rédigera sa bible. Allez-vous l'adorer?") Et le battage médiatique entourant la machine et le profond l'apprentissage. Bien sûr, ces deux domaines sont des approches puissantes avec des exemples importants d'applications pratiques. Mais une telle excitation devrait toujours être traitée avec une part de scepticisme sain. Presque tous mes invités ont noté que de vrais chercheurs dans ces domaines gagnaient leur vie en collectant et filtrant des données, en créant des tableaux de bord et des rapports, en effectuant une visualisation des données et une analyse statistique. En outre, ils doivent être en mesure de transmettre l'essence des résultats aux acteurs clés et de convaincre les décideurs.
L'ensemble de compétences exigé par la profession de Data Scientist est en constante évolution et reconstitution (et avoir une expérience de travail avec une formation approfondie n'est pas la principale exigence)
Dans une conversation avec Jonathan Nolis, l'un des principaux analystes de données de Seattle qui travaille avec des sociétés du Fortune 500, nous avons discuté de la question suivante: «Laquelle des deux compétences est la plus importante pour un professionnel des données est la capacité d'utiliser des modèles complexes de formation ou la capacité de dessiner de bonnes diapositives dans PowerPoint? " Nolis a plaidé en faveur de ce dernier, estimant qu'une explication accessible des résultats de l'analyse reste un élément clé du travail avec l'information.
Un autre sujet populaire est la variabilité d'un ensemble de compétences de base. La pertinence de certains d'entre eux pourrait changer dans un avenir prévisible. Le développement rapide d'outils commerciaux et d'analyse des données ouvertes a conduit au fait que nous assistons maintenant à une transition massive vers l'automatisation de nombreuses tâches de routine, telles que le nettoyage des données et leur préparation initiale. Jusqu'à présent, il était
courant que 80% du temps précieux du chercheur soit consacré à la simple recherche, au filtrage et à la structuration des données, et seulement 20% à leur analyse. Mais cet état de choses ne devrait pas perdurer. Aujourd'hui, l'automatisation a même atteint les processus de la machine et du deep learning. En particulier, dans un podcast séparé entièrement consacré à ces questions, Randal Olson, un spécialiste de l'analyse et du traitement des données de Life Epigenetics, en a parlé.
Selon les résultats de l'entretien, l'écrasante majorité de mes invités pense que la capacité de créer et d'utiliser des infrastructures d'apprentissage en profondeur n'est pas du tout la clé. Au lieu de cela, ils indiquent la capacité d'apprendre à la volée et la capacité d'expliquer correctement les calculs analytiques complexes aux principaux participants au processus, loin des problèmes techniques. Par conséquent, des spécialistes déterminés dans le domaine du traitement et de l'analyse des données devraient accorder un peu plus d'attention à la présentation correcte du matériel qu'aux méthodes de traitement de l'information. De nouvelles méthodes vont et viennent, mais la pensée critique et les compétences professionnelles mesurables numériquement seront toujours pertinentes.
La spécialisation devient plus importante
Malgré l'absence de cheminement de carrière clair et l'accompagnement insuffisant des professionnels débutants, on observe déjà l'émergence de certains domaines de spécialisation. Emily Robinson a décrit la différence entre les scientifiques de type A et B. Selon elle, le type A comprend des analystes dont les activités sont proches des statistiques traditionnelles, mais les représentants de type B sont principalement engagés dans la création de modèles d'apprentissage automatique.
Jonathan Nolis divise la science des données en trois composantes. Le premier composant est l'analyse commerciale, qui se résume à «prendre les données de l'entreprise et les fournir aux bonnes personnes» sous la forme de tableaux de bord, de rapports, de courriels. La seconde est la théorie de la décision, qui vise à «prendre des données et aider l'entreprise à prendre la meilleure décision avec son aide». Le troisième volet est l'apprentissage automatique, où les spécialistes cherchent à répondre à la question «Comment pouvons-nous appliquer consciemment des modèles analytiques de l'information dans un projet réel?» Malgré le fait que de nombreux spécialistes avancés dans leurs activités couvrent les trois domaines, des cheminements de carrière concrets ont déjà commencé à prendre forme, comme c'est le cas pour les ingénieurs en apprentissage automatique.
Questions éthiques et morales - un défi sérieux
Vous devinez probablement que les représentants de la profession analytique rencontrent une quantité considérable d'incertitudes sur leur chemin. Lorsque j'ai demandé à Hillary Mason dans le premier épisode de notre conversation s'il y avait d'autres difficultés auxquelles la communauté professionnelle était confrontée, elle a répondu: «Pensez-vous vraiment que nous manquons de directives morales, de pratiques standard et d'une terminologie rationalisée à ce stade de développement? ? "
Les trois points sont vraiment importants, et les deux premiers problèmes préoccupent presque tous les invités du podcast DataFramed. Quel rôle la morale jouera-t-elle dans des conditions où les algorithmes développés par les analystes de l'information nous dictent comment interagir avec le monde extérieur?
Comme Omuju Miller, spécialiste en chef de l'apprentissage automatique chez GitHub, l'a déclaré dans une interview:
Il est nécessaire de formuler une compréhension des valeurs morales de base, d'élaborer un programme de formation de spécialistes et de rédiger quelque chose comme un serment d'Hippocrate. Et nous avons besoin de véritables licences pour punir ou dépouiller la pratique d'un spécialiste qui est allé au-delà de l'éthique. Il doit être clair que nous, en tant qu'industrie, sommes opposés à de tels actes. Et, bien sûr, il faut en quelque sorte aider ceux qui commettent des violations graves et ceux qui ont dérogé aux règles de l'ignorance à contribuer à l'amélioration parce qu'ils n'ont pas suivi la formation nécessaire.
Le sujet actuel est les conséquences graves, néfastes et immorales de l'utilisation de la science des données, comme ce fut le cas avec la notation du risque de récidive COMPAS, «qui a été utilisée pour prédire et identifier les futurs criminels» et, selon
ProPublica , s'est avérée «biaisée contre les Noirs» aux Américains. "
Nous convenons progressivement que les normes éthiques devraient naître au sein de la communauté des analystes professionnels, ainsi que d'obtenir le soutien des législateurs, des mouvements sociaux et d'autres parties intéressées. En partie, un accent particulier est mis sur l'interprétabilité des modèles par opposition aux solutions modernes fonctionnant sur le principe d'une boîte noire. Autrement dit, il est nécessaire de créer des modèles qui peuvent expliquer pourquoi ils ont fait telle ou telle prévision. L'apprentissage en profondeur fait face à de nombreuses tâches, mais est célèbre pour son inexplicabilité. Des chercheurs, des développeurs et des analystes de données dédiés progressent dans cette direction grâce à des projets tels que
Lime pour expliquer le fonctionnement des modèles d'apprentissage automatique.
La révolution massive de l'analyse des données dans les industries humaines et la société vient de commencer. Il n'est pas encore clair si le métier de spécialiste de l'analyse de données restera le
travail le
plus attractif du 21e siècle , s'il deviendra plus ciblé ou se transformera simplement en un ensemble de compétences que les chercheurs devraient posséder. Comme l'a dit Hilary Mason: «La science des données existera-t-elle dans 10 ans? "Je me souviens d'un monde dans lequel elle n'était pas, et je ne serais pas surpris si cette profession subirait le même sort que la profession de webmaster."
