La science des données en Russie: langues, technologies, etc.

En décembre 2017, nous avons mené une enquête auprès de différents groupes d'utilisateurs russes, d'une manière ou d'une autre liée à l'analyse des données. Nous aimerions savoir quels langages de programmation, technologies et outils sont utilisés par des spécialistes dans ce domaine. Ceci est également important pour le développement de PyCharm , qui est déjà très populaire parmi les analystes. Une meilleure compréhension des besoins des spécialistes de l'analyse de données rendra notre produit encore plus pratique.

Plus tard, nous avons mené une étude similaire dans d'autres pays et nous avons eu l'occasion de comparer la situation en Russie avec le monde. Ici, nous partagerons les observations les plus intéressantes, des données plus complètes sur la Russie et des infographies sont publiées sur notre site Web . Les données source sont disponibles ici (toutes les réponses aux questions ouvertes ont été supprimées afin de maintenir la confidentialité). Bientôt, nous publierons également les résultats d'une étude mondiale.

image

Profil de spécialiste en science des données

L'étude a analysé les réponses de 373 Russes et 1965 répondants du monde entier. Par âge, les spécialistes russes dans le domaine de la science des données ne diffèrent pratiquement pas de leurs collègues étrangers, mais les spécialistes étrangers ont un niveau d'éducation formelle plus élevé. Parmi les Russes interrogés, 59% ont un baccalauréat et seulement 20% ont une maîtrise, tandis que dans le monde, 45% des répondants ont un baccalauréat et 36% ont une maîtrise.

Le domaine de la Data Science est relativement jeune, environ la moitié des répondants (46%) y travaillent depuis 1 à 3 ans. Et seulement 18% ont une expérience de 3 à 6 ans. Il est significatif que pour la grande majorité des répondants (ceux ayant une expérience de 0 à 6 ans, et ainsi> 90%), l'âge moyen n'a rien à voir avec l'expérience. Cela est probablement dû à la jeunesse de la sphère et au fait que des personnes de domaines connexes s'y installent activement.

Beaucoup de gens résolvent les tâches d'analyse des données ainsi que la programmation et d'autres responsabilités professionnelles. Seuls 50% des répondants (36% dans le monde, selon notre enquête) ont indiqué que l'analyse des données était leur principale activité professionnelle, 33% des répondants combinent l'analyse des données avec leurs principales responsabilités professionnelles.

Langages de programmation

Python est le langage d'analyse de données dominant en Russie et dans le monde. À l'étranger, la part de l'utilisation de Python et R dans le domaine de l'analyse des données est de 73% et 40%, respectivement, en Russie Python est beaucoup plus populaire que R - 84% contre 25%.

Technologie et outils

Plus de 60% des répondants utilisent d'une manière ou d'une autre des outils d'apprentissage en profondeur. TensorFlowTM est le framework le plus populaire - 49%, Keras en deuxième position avec 39%.

Apache Spark est utilisé par 40% des répondants, dont 92% de ceux qui programment sur Scala. Tout le monde pour qui Scala est la langue principale utilise Apache Spark. La proportion de ceux qui ne programment qu'en Python et utilisent Spark est d'environ 14% (si vous ne tenez pas compte de la possibilité d'utiliser Spark de Lua et Julia, ce pourcentage passera à 20%).

Salaire

La connaissance des technologies des mégadonnées est la clé des salaires élevés. Le salaire moyen d'un spécialiste en dehors de la pile des technologies du Big Data est de 127 000 roubles. Les salaires des spécialistes varient considérablement en fonction des qualifications et de l'expérience, mais en moyenne, ils sont beaucoup plus élevés dans le domaine de l'analyse des mégadonnées. Fait intéressant, malgré la popularité d'Apache Spark, les répondants connaissant cette technologie sont inférieurs en salaires aux spécialistes qui possèdent Apache Pig et Apache Hive - 157 mille roubles contre 177 et 166 mille, respectivement. La connaissance d'Apache Hadoop / MapReduce permet de gagner en moyenne 150 000 roubles.

En termes de dépendance des salaires vis-à-vis du langage de programmation, nous ne sommes pas différents du monde entier: les spécialistes de Scala gagnent plus que les autres - en moyenne 173 000 roubles. Ils sont suivis par les répondants connaissant Java - 158 000 et Python - 143 000. De plus, les salaires des spécialistes utilisant Python sont de 4 à 5% plus élevés que ceux utilisant R (136 000), ce qui est assez cohérent avec la situation dans le monde. .

Plus de détails sur l'état de la sphère de la science des données en Russie peuvent être trouvés dans la version complète du rapport avec infographie . Notre étude ne prétend pas être absolument représentative, puisque nous avons distribué le lien vers l'enquête dans des canaux où une partie assez active de la communauté Data Science est présentée:

  • dans les communautés Slack Open Data Science (ODS),
  • envoyés directement aux entreprises disposant d'unités d'analyse de données,
  • distribué aux participants à la conférence SmartData, distribué dans des groupes d'utilisateurs thématiques, etc.

Cependant, notre examen donne une certaine idée de l'industrie en Russie.

Pour ceux qui souhaitent mener une analyse indépendante et tirer leurs propres conclusions, les données initiales sont disponibles. Toutes les réponses aux questions ouvertes ont été supprimées afin de maintenir la confidentialité.

Nous prévoyons de continuer à surveiller les tendances dans le domaine de la science des données et à mener des enquêtes similaires. Si vous souhaitez participer à nos futures recherches, abonnez-vous à la dernière page de notre rapport . Nous serons heureux de vous voir parmi nos répondants.

Source: https://habr.com/ru/post/fr418113/


All Articles