Aujourd'hui, presque toutes les entreprises ressentent le besoin de l'exploration de données. La science des données n'est pas perçue comme quelque chose de nouveau. Cependant, il n'est pas évident pour tout le monde ce que devrait être un spécialiste embauché.
Cet article n'a pas été écrit par un spécialiste des RH, mais une date par un scientifique, donc le style de présentation est très spécifique, mais il y a un avantage - c'est un regard intérieur qui vous permet de comprendre quelles qualités un data scientist est nécessaire pour la profession, afin que l'entreprise puisse s'appuyer sur de telles personne.Prologue
Le temps est venu où le démarrage de la science des données est sorti des couches - le nombre de tâches à analyser a augmenté à une vitesse inattendue, et cette vitesse a immédiatement cessé d'être compensée par l'automatisation. Il est devenu évident que nous avions besoin de nouveaux cerveaux dans l'équipe ...
Comme il me semblait au premier abord, une personne était requise, tout à fait définie: juste un rendez-vous ordinaire quelque chose ... programmeur, analyste, statisticien. Quelle est donc la difficulté de compiler une liste d'exigences?
"En ingénierie, si vous ne savez pas ce que vous faites, vous ne devriez pas le faire."
Richard Hamming
J'ai abordé la question comme d'habitude. Il sortit deux feuilles de papier. L'un intitulé «Compétences techniques», l'autre - «Compétences professionnelles». Après cela, il y avait un désir de grimper sur n'importe quelle ressource, d'y trouver un tas de CV, de rédiger des listes de qualités, de choisir celles que vous aimez. Mais quelque chose m'a arrêté. "Ce n'est pas mon chemin", me dis-je. "Je ne comprends pas ça." Je comprends les tâches .. ”
J'ai essayé de m'éloigner de la tâche. Nos tâches sont simples. Vous recevez un CRM sans réponse de contenu douteux et vous êtes prié de prévoir les ventes pour quelques mois à l'avance. Assez simple. Tout le monde peut gérer ... Avertissement: si vous pouvez comprendre les affaires du client. Idéalement, un groupe de travail est constitué à cet effet, qui résume toutes les autres tâches et se consacre à l'analyse de celle-ci en particulier. A l'entrée - les souhaits du client, à la sortie - une solution qui peut être vérifiée sans entrer dans les détails et sans dupliquer le travail effectué.
À partir de là, je mets en place la première exigence quelque peu formelle - une personne devrait pouvoir assumer une tâche distincte et ne pas tirer sur qui que ce soit avant le moment où la première décision grossière est reçue. Ensuite, cette décision peut être améliorée en attirant des spécialistes pour vous aider. Mais au premier stade, utiliser quelqu'un d'autre revient à mettre un surveillant sur une personne. Et le surveillant peut à tout moment repousser le nouveau venu et commencer à tout faire pour lui, ce qui rend l'embauche absolument dénuée de sens.
Sur la base de cette première exigence, j'ai rapidement rempli la première feuille: connaître python, pouvoir extraire des informations de différentes sources, stocker des informations, utiliser AWS, connaître le serveur et les statistiques, être capable de processus aléatoires. Un peu plus tard, j'y ai ajouté l'économie dans la version de base. Le résultat est une liste de compétences nécessaires pour garantir que la première exigence est satisfaite.
Mais, avec la liste des qualités professionnelles, je n'ai pas réussi. Même sur Google, je n'ai trouvé aucune exigence professionnelle pour un scientifique des données qui semblait appropriée.
Soit des formulations générales de la forme «responsabilité» sont apparues, soit des qualités ont été comprises comme des compétences, qui appartenaient à une autre liste.
Ses propres pensées étaient mélangées à de la bouillie, ce qui était difficile à systématiser. Le global était mélangé au spécifique, applicable uniquement à certaines tâches. Il me semblait très mal de supporter en un seul tas des qualités trop générales, ainsi que des qualités que le candidat ne pourra plus utiliser par la suite.
Quelque part ici, l'idée du problème est née. Cela m'a semblé un moyen bon et élégant de payer le besoin de réfléchir aux listes d'exigences et de collecter en même temps la liste nécessaire, en examinant les erreurs dans les solutions.
Énoncé des tâches
L'entrepreneur a décidé d'ouvrir un magasin sur des terrains de badminton, afin que les visiteurs n'aient pas à se rendre au supermarché pour le volant et la raquette.
Tout au long de l'année, l'entrepreneur a conservé toutes les recettes des achats afin de comprendre par la suite quelles décisions prendre pour augmenter ses bénéfices. Les informations issues des vérifications sont contenues dans le fichier
train_dataset.csv joint.
Il a emballé des volants et des raquettes et a vendu exclusivement en ensembles de trois types:
- Raquette et deux volants
- Raquette et cinq volants
- Dix volants
De temps en temps, l'entrepreneur devait changer les prix en tenant compte des prix des supermarchés et des taux d'imposition.
Le magasin et la cour ont fonctionné sans jours fériés et jours fériés. Le flux de clients a été quelque peu limité en raison du fait que seulement 4 personnes sont autorisées sur le terrain, et le terrain est pré-réservé à l'avance pour une session de deux heures, il n'y a que trois courts dans le stade. Néanmoins, pas une journée ne s'est écoulée sans vente, car de temps en temps soit des gens complètement non préparés venaient au tribunal, soit quelqu'un déchirait une raquette ou perdait des volants.
Un an plus tard, l'entrepreneur a décidé d'organiser une vente, qui devrait durer du 1er janvier au 31 janvier inclus. Il a redistribué des ensembles de marchandises et leur a attribué les prix suivants:
- Une seule raquette - 11 dollars 80 cents
- Cinq volants - 5 dollars 90 cents
- Une raquette et un volant - 12 dollars 98 cents
Il est nécessaire d'établir le montant des revenus de l'entrepreneur en janvier.
Sensibilité de probabilité
"Je crois que les meilleures prédictions sont basées sur la compréhension
impliqués dans le processus des forces fondamentales.
Richard Hamming
La tâche a été élaborée à l'imitation des tâches réelles de la vie, mais d'une manière artificielle qui n'était pas cachée aux candidats. Et, par conséquent, certaines formules ont été appliquées pour créer l'ensemble de données. Supposons, aromatisé avec des variables aléatoires, mais des formules. Dans tous les cas, on a supposé que le data scientist était capable de détecter et d'utiliser ces formules pour la prévision.
Bien sûr, il ne faut pas écarter la possibilité que l'ensemble de données ne fournisse pas une image complète qui permette de restaurer des formules avec la précision nécessaire. Mais pour ce cas dans la vraie vie, nous trouvons quelles informations supplémentaires devraient être et où les obtenir.
En général, le désir de trouver la "loi de l'univers" est de bonne qualité professionnelle. La capacité de comprendre ce qu'il faut rechercher et où chercher est également. M. Hamming savait de quoi il parlait. Et grâce à lui, la première ligne est apparue dans ma liste d'exigences:
La capacité de détecter les relations de cause à effet, de les décrire, de formuler les conditions dans lesquelles les relations peuvent être converties en une formule utile aux entreprises.Ce n'est pas un hasard si j'ai utilisé ici l'expression «utile pour les affaires». Dans ma pratique personnelle, il s'est souvent avéré que ce n'était pas la réponse au problème qui apportait le profit à l'entreprise, mais une sorte de sous-produit obtenu en ouvrant une sorte de dépendances internes. Dans certains cas, cela a apporté de l'argent supplémentaire aux startups, de nouveaux contrats et augmenté la quantité de savoir-faire et de sous-produits.
Par conséquent, en analysant les décisions qui m'ont été envoyées, j'ai regardé attentivement comment le candidat utiliserait les connaissances sur le caractère artificiel de l'ensemble de données, s'il demanderait des informations supplémentaires à un moment donné ou prouverait la suffisance de l'ensemble de données pour terminer la tâche.
Confiance en soi
"Si un événement attire notre attention, la mémoire associative commence à rechercher sa cause, ou plutôt, toute raison déjà stockée en mémoire est activée."
Daniel Kahneman
Je ne dirai pas que la mémoire associative est mauvaise. Elle est la source et le carburant de notre imagination. Fantasy vous permet de générer des hypothèses, de proposer intuitivement des hypothèses, de trouver rapidement les paires de variables entre lesquelles une connexion est possible.
Et elle nous met dans le train sous la forme d'une confirmation de parti pris.
Nous sommes tellement habitués à notre propre expérience et à nos propres connaissances que nous commençons à les diffuser dans de nouvelles situations. Dans le monde vivant, cela est souvent utile. Disons, la croyance que tous les serpents sont toxiques, sauve plus de vies que le doute que ce serpent particulier n'est pas toxique. Mais dans un bureau sûr, ayant suffisamment de temps, il vaut mieux percevoir tout jugement comme une hypothèse.
L'ensemble de données de tâche a été spécialement conçu de telle sorte que l'intervalle de temps ne couvre qu'une année d'observations. Il est bon que les candidats au stade de l'examen des graphiques avancent une hypothèse sur la présence de fluctuations saisonnières. Il est regrettable que rarement personne n'ait déclaré la nécessité de vérifier cela. Et c'est très mauvais que certains, sans vérifier, aient insisté sur la présence de la saisonnalité.
J'ai donc entré ce qui suit dans la liste des qualités:
La criticité de la pensée, y compris par rapport à sa propre expérience.Je voulais vraiment ajouter «et connaissances» ici, mais il m'a alors semblé que ce post-scriptum ouvrait un grand nouveau sujet.
Le neurotisme
"Ayant développé telle ou telle théorie, nous nous tournons à nouveau vers des observations,
pour la vérifier. "
Gregory Mankyu
La littérature sur la science des données examine les moyens d'automatiser les tests d'hypothèse. Cependant, j'ai rarement rencontré des directives pour leur utilisation. Pour cette raison, croyez-le ou non, une fois que je me suis confondu entre deux activités apparemment très différentes - vérifier les hypothèses statistiques et vérifier le modèle.
En même temps, ce qui est encore plus déroutant, la différence entre les concepts de l'hypothèse statistique et l'hypothèse en général est négligée. Pour éviter une telle confusion dans notre article, permettez-moi d'utiliser le terme hypothèse pour le concept général d'une hypothèse.
Dans le paragraphe précédent, une telle hypothèse a été émise concernant l'ensemble de données, à savoir la présence de saisonnalité. Il est tout à fait intuitivement possible de définir une composante saisonnière comme périodiquement récurrente. Et ici, vous devez immédiatement vous poser la question: combien de fois le composant doit-il être répété pour qu'il puisse être considéré comme saisonnier? Par ailleurs, pouvons-nous, sur la base de répétitions périodiques, confirmer la présence d'une composante saisonnière dans l'ensemble de données, dont l'intervalle de temps n'est que d'un an.
Comme déjà mentionné, la longueur de l'intervalle a été spécialement sélectionnée. Je voulais que les candidats aient le besoin et la possibilité de proposer leurs propres moyens de vérifier la disponibilité de la saisonnalité pour la tâche en question. Et j'ai également ajouté cette qualité à la liste des qualités professionnelles requises:
La capacité de tester des hypothèses de manière standard et de trouver de nouvelles façons de vérifier.Probablement «trouver de nouvelles façons» sonne trop fort. Je rencontre rarement le besoin de trouver quelque chose de nouveau. La méthode des considérations simples suivant la question «Et si?» Est tout à fait appropriée.
Dans le bel article
«C'est correct, mais faux», Alexander Chernookiy a donné des exemples de solutions rapides et presque intuitives pour plusieurs problèmes probabilistes. Un mécanisme similaire, me semble-t-il, convient très bien pour tester des hypothèses.
Nous allons d'abord réfléchir au type de saisonnalité que nous voulons trouver. La saisonnalité peut être un facteur externe qui nous est inconnu et qui représente une certaine répétabilité paranormale dans les données. Il est possible de décrire une telle saisonnalité sans aller au-delà de l'ensemble de données en écrivant séparément la composante saisonnière et en montrant le degré de sa stabilité. Et la saisonnalité peut être cachée dans des données connues. Par exemple, si la saisonnalité affecte le nombre d'acheteurs et le nombre d'acheteurs sur le volume des ventes, alors si nous savions à l'avance et quand l'acheteur viendrait, il est peu probable que nous ayons besoin de la saisonnalité comme phénomène distinct. Par conséquent, nous chercherons précisément la saisonnalité paranormale, car nous ne la connaissons pas et nous en avons besoin.
Supposons maintenant qu'une telle saisonnalité n'affecte pas les ventes. Ensuite, toutes les fluctuations des ventes sont aléatoires, ou vous pouvez trouver une relation entre elles et les changements dans d'autres variables. Dans quelle mesure cette dépendance décrit-elle ce qui se passe? Y aura-t-il encore de la place pour la saisonnalité paranormale?
Autrement dit, pour vérifier la présence de la saisonnalité, nous pouvons trouver toutes les dépendances sur les variables connues, et après cela, en soustrayant ces dépendances des fluctuations, regardez le reste. De plus, si la répartition du reste est suffisamment faible, alors il n'y aura peut-être aucun sens dans la recherche de valeurs paranormales.
Nous avons donc obtenu un moyen simple de vérifier la saisonnalité en l'absence d'un intervalle de données suffisamment long.
Attention
"Notre esprit n'est pas prêt à comprendre des événements rares."
Robert Banner
En ce qui concerne la recherche de la relation entre les deux quantités, la première chose que nous essayons de ressentir leur changement mutuel. Et il n'y a peut-être pas de méthode plus simple et plus élaborée que la régression linéaire. Cela peut aider à se forger une opinion sur la relation, même dans les cas où la relation quantitative entre les quantités est inconnue. Eh bien, cela présente un certain nombre d'autres avantages.
Et les défauts.
En fait, la relation entre les deux quantités est loin d'être toujours si simple qu'elle peut être identifiée par des caractéristiques numériques. Quelle que soit la beauté de l'approximation linéaire de la relation entre les deux quantités, il est toujours possible de traiter quelque chose de plus complexe. Le mathématicien anglais
Francis Enscombe a illustré ce phénomène avec quatre exemples, qui devinrent plus tard
le Quatuor Enscombe .
Mettre quelque chose de similaire au quatuor d'Enscomb dans la tâche s'est avéré être une bonne idée et très simple à mettre en œuvre. Malgré la popularité du phénomène, de nombreux candidats ont craqué pour l'appât.
La mise en œuvre du phénomène dans le problème était la suivante. Soit trois groupes de clients, chacun réalisant un certain intérêt lors de l'achat. Les deux groupes se comportent de manière similaire et leur comportement s'exprime dans une relation linéaire entre la demande et le prix. Mais le troisième groupe fait autrement. Avec la transition des prix au-dessus d'un certain seuil, les acheteurs de ce groupe cessent fortement d'acheter plus que le minimum nécessaire.
Ce phénomène, assez courant dans le monde réel, a permis de simuler un des exemples d'Enscomb et de le cacher parmi deux autres distributions.
En fait, «cacher» ne convient pas à la situation. Je viens de mettre cette distribution à côté des autres, plus familière et compréhensible. La différence était évidente sur les graphiques, comme il me semblait, mais tout le monde ne l'a pas remarqué. Et la tentative de l'un des candidats «d'améliorer» l'approximation en passant à un polynôme d'ordre supérieur était particulièrement intéressante.
J'ai donc formulé une autre exigence de qualités professionnelles:
Pour pouvoir isoler des observations significatives, construisez des hypothèses concernant leur signification.Impulsivité
"Le compteur a été largement utilisé pendant cinq ans et a subi trois contrôles."
Timothy Leary
Plus tôt, j'ai décrit une situation où les soldes inexpliqués deviennent si petits que leur influence devient indiscernable dans le contexte des avantages commerciaux fournis par le reste du modèle.
Cependant, vous devez comprendre ce qui peut être caché derrière l'expression «si petit».
Habituellement, le monde est observé et mesuré par nous à l'aide de certains instruments. Simple, comme une règle, ou complexe, comme un microscope électronique. Les appareils complexes incluent un ordinateur sur lequel est installé un environnement de programmation statistique.
En un sens, toute observation ou conclusion que nous faisons peut être perçue comme le résultat d'une mesure. Nous examinons les conditions du problème et mesurons le revenu sur un intervalle de temps qui ne s'est pas encore produit. Ici, j'ai remplacé le mystérieux et magique pour beaucoup le mot «prédire» par le mot «mesurer». Dans le cadre de mon travail quotidien, je peux le dire, car la prévision à un niveau de précision assez élevé est remplacée par un calcul de routine.
Mais aucune mesure ne peut être extrêmement précise. Chaque appareil a une erreur de mesure causée par son imperfection. Et dans les mesures, il est nécessaire d'indiquer leur précision, pour cela, avec le résultat obtenu, un intervalle de confiance est indiqué.
L'indication de l'intervalle de confiance n'est même pas une recommandation, mais une nécessité souvent oubliée. De plus, bien qu'un certain pédantisme retentisse dans mes mots, je pense que le calcul de l'intervalle de confiance est un acte d'estime de soi, et la qualité suivante fait partie des qualités nécessaires pour un data scientist:
Précision dans l'observation des exigences formelles des algorithmes et des méthodes, notamment lorsqu'il s'agit de calculer des intervalles de confiance et de vérifier les conditions nécessaires et suffisantes.Ductilité
"Cette disposition n'est pas tout à fait vraie, mais assez vraie pour une application pratique dans la plupart des cas."
Francis Enscomb
Jusqu'à présent, j'ai évité de discuter des caractéristiques les plus marquantes de cette tâche. L'intervalle prévu se caractérise par une forte variation des biens vendus. Il est maintenant temps d'expliquer pourquoi ce changement apparaît dans la tâche.
Ci-dessus, j'ai déjà exposé mon point de vue sur la possibilité de vérifier diverses hypothèses. La vérification devrait toujours l'être. Si quelque chose ne peut pas être vérifié ou si la méthode de vérification n'est pas connue, diverses options doivent être décrites; ils peuvent servir de motif à de nouvelles recherches. Mais en même temps, il est nécessaire d'essayer de décrire la situation autant que possible, sur la base d'informations connues.
En fait, que savons-nous des ventes? Il y a des gens qui, pour des raisons connues et énumérées, font des achats. Vous pouvez simuler presque complètement l'ensemble du processus, car nous avons trouvé toutes les dépendances et découvert que le résidu inexpliqué est normalement distribué et a une très petite dispersion.
Des questions commencent à apparaître: le volume de marchandises achetées couvre-t-il les besoins des personnes? Que font-ils lorsque le besoin n'est pas satisfait? Par exemple, que font-ils si, à leur avis, le prix d'un produit est trop élevé? D'où vient la dépendance linéaire de la demande?
En fait, ce sont des questions pour les entreprises. Et, bien sûr, ils devraient être demandés au propriétaire de l'entreprise en tant qu'expert dans leur domaine.
Au final, l'ensemble de données initial est loin d'être toujours complet, et l'entreprise, même avec un personnel d'analystes professionnels, ne sait pas tout. En fait, l'entreprise se tourne vers la science des données précisément parce que tout le monde ne le sait pas. Mais que faire si ...Et s'il existe un modèle vérifiable et cohérent qui décrit la situation en utilisant uniquement nos données connues? Cela vaut également la peine d'être vérifié.Épilogue
Permettez-moi de dresser une liste définitive des qualités professionnelles du data scientist que j'ai écrites.- La capacité de détecter les relations de cause à effet, de les décrire, de formuler les conditions dans lesquelles les relations peuvent être converties en une formule utile aux entreprises.
- La criticité de la pensée, y compris par rapport à sa propre expérience.
- La capacité de tester des hypothèses de manière standard et de trouver de nouvelles façons de vérifier.
- , .
- , .
Sous cette forme assemblée, la liste me semble assez évidente. Peut-être parce qu'il répète dans une certaine mesure la liste des biais cognitifs. Ce qui, incidemment, m'amène à l'idée de l'évidence naturelle des observations postérieures. Et pourtant, je me souviens de l'heure de la méditation sur la deuxième feuille de papier vide et je comprends que la liste n'aurait pas été compilée sans le travail accompli.L'idée selon laquelle l'importance d'un fait pour une personne n'est pas nécessairement évidente pour une autre est toujours intéressante. Cela peut être facilement retracé par les solutions au problème que j'ai reçu de dizaines de candidats ...Auteur: Valery Kondakov, Co-fondateur et CTO d'Uninum
Co-auteur: Pavel Zhirnovsky, Co-fondateur et PDG d'UninumPS
Statistiques de la vacance au 25/06/19Date de placement de la vacance: 27/05/19Vues totales de la vacance: 2727Réponses totales: 94- Ils ont envoyé une solution au problème, mais cela s'est avéré faux: 20%
- Ils ont accepté de résoudre le problème, mais n'ont pas envoyé de réponse: 30%
- Refus au stade de l'examen d'un curriculum vitae pour diverses raisons: 45%
- Ils ont envoyé une solution proche de la bonne: 5%