Récemment, dans une conversation avec les RH d'une grande entreprise, «chaque ingénieur de données qui vient nous voir pour une interview veut devenir un data scientist.» Cela m'a alors beaucoup surpris et a été très déçu pour la date de l'ingénieur, pour être honnête.
Ici, nous (et pas seulement) avons déjà publié plusieurs documents sur les ingénieurs de données et leur valeur pour les entreprises - par exemple,
une interview avec Nikolai Markov ou «
4 raisons de devenir ingénieur de données », mais c'était il y a longtemps. Le temps passe, le matériel s'accumule, le monde se développe, donc il y a quelque chose à dire.
Peut-être devrions-nous d'abord rappeler brièvement quelle est la tâche de la date de l'ingénieur (plus ou moins, bien sûr, puisque chaque entreprise peut ajouter quelque chose qui lui est propre, quelque chose de ce qui précède peut être effectué par d'autres employés):
- construire des pipelines stables qui rendent les données accessibles à tous les utilisateurs de l'entreprise;
- collecte, nettoyage et prétraitement des données dans le cadre d'un processus ETL ou ELT;
- Travailler avec DBA pour créer des entrepôts de données;
- l'utilisation de cadres et de microservices pour le service de données;
- suivi de la qualité des données;
- modèles de sortie dans le prod.
Considérez les marchés du travail des États-Unis et de l'Allemagne et discutez avec des ingénieurs de données locaux de Moscou.
Les USAÀ la fin de l'année dernière , Dice a étudié les données de la plate-forme Nova de Burning Glass, qui analyse les positions ouvertes sur le marché du travail américain, et il s'est avéré que par rapport à 2017, la demande pour l'ingénieur de données a augmenté de 96,7%, tandis que pour un data scientist - 51, 1%

La demande pour la date des ingénieurs, bien sûr, est énorme. Aujourd'hui, par exemple, Indeed a ouvert plus de 131 000 postes vacants aux États-Unis seulement, surtout à Seattle, San Francisco et New York. La progression salariale suit généralement le
diagramme ci-dessous . Dans le même temps, il est important de noter que les
salaires des ingénieurs de datation aux États-Unis ne
sont pas inférieurs aux salaires des scientifiques (il existe une opinion selon laquelle les ingénieurs obtiennent moins), mais ils dépendent, par exemple, de la ville: à New York, les ingénieurs peuvent obtenir 132000 $, et San Francisco et 151 mille dollars.

Et à titre de comparaison - au même endroit sur Indeed, seuls 12 000 postes vacants de scientifiques des données ont été publiés avec le même salaire. En général, les chiffres parlent d'eux-mêmes: l'ingénieur des données est devenu le métier le plus recherché et le plus «sexy»!
AllemagneLa demande non satisfaite pour la date des ingénieurs est en Allemagne. En septembre, nous avons mené un programme d'ingénierie des données d'entreprise pour XING. Lorsqu'il n'y a pas assez de personnel sur le marché et que l'entreprise a besoin d'ingénieurs, alors l'une des solutions est de développer et de former vos employés actuels. Martin Shtoev, directeur de l'ingénierie chez XING, a déclaré que ces dernières années, ils ont progressivement recyclé plus d'une douzaine de développeurs et fait leurs ingénieurs de date. Cela a été fait principalement en raison du besoin, mais aussi parce qu'ils apportent une connaissance importante du domaine aux projets.
Les premiers ingénieurs de date ont travaillé en étroite collaboration avec l'équipe DS centrale de l'entreprise sur certains projets et ce fut un ajout très organique. Avec l'avènement d'un nombre croissant d'ingénieurs "développés" à l'intérieur de la date, des difficultés ont été découvertes: l'équipe centrale a investi beaucoup de temps dans la formation, elle a dû préparer plusieurs ingénieurs date pendant des mois à travailler dans différentes équipes. Et au moment où le groupe précédent a obtenu son diplôme, le suivant approchait déjà, mais il n'était pas possible de les réunir tous, car tout le monde a travaillé sur des projets différents, j'ai dû m'entraîner en petits groupes. Il était également impossible d'inclure simplement les nouveaux ingénieurs de date dans les équipes de projet, car pour de nombreuses équipes, c'était le premier ingénieur de date.
La plupart des développeurs qui ont décidé de passer à la date d'ingénierie étaient en juin ou seniors, et ils voulaient tous étudier, donc XING n'avait qu'à fournir des livres, des tutoriels et organiser des ateliers. Des ateliers ont été menés à la fois par des employés et des prestataires externes et ont été consacrés à des technologies de base telles que: Hadoop, Scala et Kafka. Au fil du temps, les ingénieurs de datation n'étaient plus nouveaux dans les équipes, et de moins en moins l'équipe centrale travaillait avec des ingénieurs adultes sur des projets à long terme. Selon Martin, il faut en moyenne 6 mois à un ingénieur recyclé pour commencer à travailler de manière autonome sur des tâches plus complexes, puis après 6 mois supplémentaires, l'entreprise change de poste. Bien sûr, plus l'écart initial entre les compétences et les connaissances de l'employé et les exigences pour un ingénieur de datation est petit, plus le processus de formation est rapide.
Au cours de ces plusieurs années de formation des employés internes, XING a fait plusieurs constats:
- les développeurs backend qui ont déjà travaillé avec des pipelines acquièrent généralement de nouvelles connaissances plus rapidement que, par exemple, les développeurs front-end;
- avec moins de succès, date Les scientifiques recyclent à ce jour les ingénieurs;
- Les tentatives de reconversion des développeurs en data scientists ont également échoué, à moins que la personne ait une bonne base mathématique et une connaissance des méthodes scientifiques ou un très grand désir d'apprendre indépendamment tout cela, car le fossé dans les connaissances requises est trop large.
Il me semble que ce sont des observations très importantes qui peuvent faire économiser beaucoup d'argent et de temps à tout employeur, car il n'y a pas assez d'ingénieurs sur le marché russe et vous devez encore former vos employés. Et les ingénieurs de données qui souhaitent devenir des scientifiques des données devraient considérer que cela ne fonctionne pas comme ça, car la date de l'ingénieur et la date du scientifique sont deux personnes avec des mentalités différentes.
Tout récemment, Alexey Grigoriev a publié un rapport sur le marché de Darwin Recruitment à Berlin sur la chaîne #career dans ODS. Et dans la citation qui ouvre la section sur l'ingénierie des données, elle parle du développement des données d'ingénierie dans un marché déjà établi, et le fait d'un manque d'ingénieurs de données locaux est confirmé: «de plus en plus d'entreprises en Allemagne embauchent des employés d'autres pays, et ces ingénieurs de données expérimentés apportent une excellente outils et technologies. " L'agence indique environ 51% - c'est le nombre de candidats d'autres pays interrogés avec leurs clients. Ainsi, l'ingénierie des dattes est une bonne profession en demande, avec laquelle vous pouvez obtenir une relocalisation. C'est exactement comme cela que Nikolai Rekubratsky, diplômé de Newprolab, a déménagé à Hambourg pour occuper le poste d'ingénieur avec qui nous avons
interviewé l'année dernière. Selon le niveau des salaires à Berlin, l'agence apporte une fourchette de 55 à 70 milliers d'euros par an, mais peut-être dans différentes villes d'Allemagne il y a une différence de salaires et d'avantages sociaux et sociaux supplémentaires (au moins à Hambourg, on nous a dit beaucoup de bonnes choses à ce sujet )
La russieEh bien, en Russie, l'ingénieur n'a commencé à écrire la date sur la profession qu'en 2017 (bien qu'à cette époque, les ingénieurs avaient déjà des dates en direct, et lors de conférences, vous pouviez entendre de bons rapports sur l'ingénierie des dates), mais jusqu'à présent, tout le monde a entendu le data scientist, et on a l'impression que tout le monde ne fait que rêver de "la profession la plus sexy du 21ème siècle". Le Habr n'aide pas non plus, ce qui m'a refusé de faire un hub d'ingénierie des données en septembre 2017: «Pour entamer l'examen d'une demande de création d'un nouveau hub, vous devez spécifier des liens vers au moins 10 documents déjà publiés sur les pages du Habr et pouvant être attribués au hub proposé». Je pense que vous pouvez déjà postuler à nouveau, la condition est remplie.
Mais après tout, de chaque fer, seul le ds est dit, donc nous entendons: "Chaque ingénieur de données qui vient à notre entretien veut devenir un scientifique des données."

Juste au moment où il a été dit, notre programme
Data Engineer 5.0 touchait à sa fin, et j'ai décidé de mettre cette phrase dans une discussion de groupe et d'obtenir l'avis de nos participants. Et donc, quelle discussion s'est déroulée et quelles considérations ont été exprimées:
"Nous recrutons maintenant une équipe pour nous [date des ingénieurs], 30 personnes ont déjà interviewé, et presque tout le monde sans exception veut être des scientifiques ... Cela devient vraiment insultant pour notre direction :("
«Tout le monde veut beaucoup d'argent et en même temps minimise la pression. Et ces experts pensent que les DS-AM paient plus que DE, bien que ce ne soit pas le cas. Le problème ici est que DE doit apprendre à construire des choses sympas en utilisant différentes technologies, parfois à couper les siennes s'il n'y a rien de approprié, et pour DS, presque tous les outils ont été faits, et pour la plupart, ils sont les mêmes pour résoudre différents problèmes (Bibliothèques Python / R + avec diverses implémentations de réseaux ML et neuronaux). En général, le seuil d'entrée est désormais plus bas pour DS que pour DE, et ce type de travail est beaucoup plus facile en raison de la disponibilité d'outils prêts à l'emploi. Je pense que c'est une question de psychologie: tout le monde veut que la reconnaissance soit en vue, et dans la pile Big Data, DS fait toute la magie. DE joue le rôle d'assistants ... Voici quelques analogies que j'ai remarquées:
1) Par exemple, les jeux informatiques - personne ne veut être un support, mais tout le monde veut être Kerry / DD /.
2) Ou le football - tout le monde veut être en avant et peu veulent être des défenseurs.
En communiquant souvent avec DE, j'ai entendu des choses comme ça: personne ne m'apprécie sur le projet, me traite comme un chargeur, prend les données ici, les apporte ici ... Une chose est bonne, maintenant le processus de repenser est en cours et de nombreuses équipes DE commencent à respecter et à aimer. Par exemple, ici chez moi, tout est cool à cet égard, comme tout le monde me traite bien, j'aide DS, ils m'aident, et donc nous vivons en symbiose. »
«Je dirais que DS vivait sans DE) En général, le Big Data ne peut pas vivre sans DE, mais sans DS, au moins, c'est normal. Ne me jette pas de tomates pourries. "
Mais il y avait une opinion alternative: «DE n'est certainement pas une étape initiale. Mais, malheureusement, tout le monde ne connaît que DS et de nombreux supports et cours ont été publiés à ce sujet. C'est ce que les gens apprennent. Et il y a peu de cours pour DE. Nous devons tout étudier et tout, en fonction des projets. Malheureusement, le monde s'oriente vers les conteneurs. Et le fil est susceptible d'être souvent utilisé sur le cuber. Et tout cela à cause de la DS. Il leur est facile de ramasser le conteneur et de partir. C'est moi au fait que tout va faciliter le processus d'intégration et de déploiement vers les ventes, ce qui entraîne une diminution de la zone DE. # en train de mourir »
«Ce que je vois: il y a une course logique au positionnement stratégique. Les dss avancés ne se rasent pas dans l'ingénierie que de et peuvent / veulent faire semblant de se déployer dans la PROM pour réduire le t2m [time to market], mais ils peuvent eux-mêmes attaquer la zone machine via l'automate et entrer dans la zone ds. Si vous choisissez parmi 2, bien sûr, le second est plus proche de moi. Je pense que, dans l'ensemble, ceux qui tentent d'aller au-delà de leur cadre fonctionnel gagneront, car le désir de gradation fonctionnelle caractérise parfaitement l'approche processus, mais à long terme, ce qui gagne de manière transparente. »
Un des intervenants du programme a également rejoint la discussion: «Au contraire, en tant que DS, je suis souvent attiré par les tâches d'ingénierie. Pour moi, le passage au DE est une diminution significative de la note. Il y a eu une période où j'ai essayé de me rendre à DE sur Amazon, je me suis même envolé pour Luxembourg pour une interview de 6 heures, mais cela a été refusé avec la mention «tu n'es pas DE, tu es DS» ».
Mais j'attire votre attention sur cette formulation avec refus, elle confirme une fois de plus qu'il s'agit de personnes différentes. Par conséquent, si parmi vos points forts se trouve une approche systématique, une mentalité d'ingénierie, la capacité de comprendre les nouvelles technologies, la capacité de comprendre la documentation, d'écrire un bon code, de concevoir des solutions stables, puis de se développer davantage et de devenir un ingénieur de données compétent, chercher une équipe et une entreprise en Russie ou à l'étranger, où vous pouvez maximiser votre potentiel en tant qu'ingénieur de datation et ne pas essayer de devenir quelqu'un d'autre.
Et si parmi vous il y a des ingénieurs de date qui ont quelque chose à écrire et à discuter, soyons amis et déplaçons l'ingénierie de date :)