Analyse des résultats de l'enquête Kaggle ML & DS 2018


Kaggle est une plate-forme bien connue pour l'hébergement de compétitions d'apprentissage automatique où le nombre d'utilisateurs enregistrés a dépassé 2,5 millions. Des milliers de scientifiques des données de différents pays participent aux concours, et Kaggle s'est intéressé à ce qu'est le public. En octobre 2018, la deuxième enquête a été organisée et 23859 personnes de 147 pays y ont répondu.


L'enquête comprenait plusieurs dizaines de questions sur divers sujets: sexe et âge, éducation et domaine de travail, expérience et compétences, langages de programmation et logiciels utilisés, et bien plus encore.


Mais Kaggle n'est pas seulement un lieu de compétition, vous pouvez également publier des recherches de données ou des décisions de compétition (elles sont appelées noyaux et sont similaires au Jupyter Notebook), donc l'ensemble de données avec les résultats de l'enquête était accessible au public, et un concours a été organisé pour la meilleure recherche de ces données. J'ai également participé et je n'ai pas reçu de prix en espèces, mais mon noyau a pris la sixième place du nombre de votes. Je voudrais partager les résultats de mon analyse.


Il y a beaucoup de données et elles peuvent être vues sous différents angles. Je m'intéressais aux différences entre les gens de différents pays, donc la plupart des recherches compareront des gens de Russie (puisque nous vivons ici), d'Amérique (en tant que pays le plus avancé en termes de DS), d'Inde (en tant que pays pauvre avec beaucoup de DS) et d'autres pays.


La plupart des graphiques et des analyses proviennent de mon noyau (ceux qui le souhaitent peuvent y voir le code Python), mais il y a aussi de nouvelles idées.


Revue générale


Je constate tout de suite que ceux qui ont répondu aux questions ne sont pas tout à fait un échantillon représentatif de scientifiques des données. Tout le monde n'est pas intéressé à passer du temps sur les compétitions, quelqu'un n'a tout simplement pas entendu parler de cette plate-forme, enfin, ~ 24 mille répondants - seulement une petite partie de tous les participants à Kaggle. Néanmoins, nous ne disposons que de ces données, donc à l'avenir je considérerai que les informations disponibles sont suffisantes pour tirer des conclusions sur les pays et en général.



Sur cette carte, vous pouvez voir le nombre de personnes interrogées dans différents pays. La majeure partie est l'Amérique et l'Inde. À l'heure actuelle, l'Amérique, peut-être, peut être considérée comme un chef de file de la DS, et ce domaine est devenu populaire auparavant, ce qui explique tant de gens. L'Inde est un pays très peuplé qui s'intéresse depuis longtemps aux TI. Grâce aux cours du Siraj Raval, DS gagne en popularité et attire un grand nombre d'Indiens. La Chine est loin derrière, mais je suppose que cela est dû à la proximité de leur Internet.


En Russie, au Canada, au Brésil et en Europe, il y a aussi pas mal de DS, mais dans ces pays la population est beaucoup plus petite, donc ils ne peuvent pas rivaliser en termes de nombre de participants.



Voyons combien de temps les gens ont passé sur l'enquête. Comme vous pouvez le voir, de nombreuses personnes ont consacré 10 à 20 minutes à l'enquête, ce qui est largement suffisant pour une réponse réfléchie aux questions. Les répondants aux questions en moins de quelques minutes, apparemment, ont immédiatement ou presque immédiatement clôturé l'enquête. Quelqu'un pourrait ne pas aimer l'enquête, quelqu'un pourrait être trop paresseux pour répondre, quelqu'un ne voulait pas répondre à la question sur son sexe (plus de détails ci-dessous). D'une manière générale, il y avait encore des gens qui ont passé des dizaines d'heures sur l'enquête. Ils ont probablement juste oublié l'onglet ouvert :)


Structure par âge et sexe



En général, l'image n'est pas surprenante. Surtout, les jeunes de 22 à 29 ans, voire de 18 à 34 ans, participent à Kaggle. Ce sont des écoliers, des étudiants et des diplômés récents. Très probablement, ils cherchent tous à acquérir des connaissances ou à obtenir des résultats impressionnants afin d'obtenir un avantage lorsqu'ils recherchent du travail. Il y a beaucoup plus d'hommes que de femmes. En général, cela n'est pas surprenant, étant donné que notre domaine combine l'informatique, les mathématiques et d'autres domaines dans lesquels il existe depuis longtemps un déséquilibre entre les sexes. Faut-il agir activement pour corriger ce déséquilibre? Je préfère ne pas discuter de cet article.


Il convient de noter qu'il était également possible de ne pas spécifier le sexe ou de le spécifier vous-même. Regardons les options les plus populaires:



Parmi les réponses sous forme libre:


  • non binaire (adĂ©quat)
  • HĂ©licoptère d'attaque (cool! J'aimerais vraiment voir mes parents)
  • Homme (pourquoi ne pas simplement choisir cette option?)
  • Qui ĂŞtes-vous pour insinuer que j'ai un sexe? (enfin, parce que tu es humain?)
  • Kaggle (enfin, du moins pas kagglosexuel)
  • Votre Altesse (vous n'avez certainement pas confondu cette question avec les autres?)
  • Un peu de soleil. :) (c'est trop mignon!)
  • Double mâle (macho droit!)
  • Les hommes et les femmes sont des sexes et non des sexes. Le genre est un ensemble rĂ©gressif de stĂ©rĂ©otypes associĂ©s Ă  notre sexe. Demandez quel sexe nous sommes Ă  des fins dĂ©mographiques, si c'est ce qui est important. (SWJ dĂ©tectĂ©!)


Il est assez intéressant de regarder les différences dans la structure d'âge et de sexe des différents pays.
En Amérique, la proportion de femmes est plus élevée que dans d'autres pays. En effet, au cours des dernières années, il y a eu une lutte active contre «l'inégalité entre les sexes». Qu'elle en ait besoin ou non est une question, mais les résultats sont visibles.


L'Inde se démarque avec un grand nombre de jeunes DS. Il semble que les gars pensent d'avance à l'avenir et pompent les compétences de l'enfance. Plus tard, nous verrons que le système éducatif en Inde laisse beaucoup à désirer.


La Russie dans son ensemble est similaire Ă  d'autres pays.


L'Ă©ducation





Comme indiqué précédemment, en Inde, il y a une forte proportion d'étudiants ou de célibataires, mais il n'y a pratiquement pas de titulaires d'un doctorat. La Russie se démarque parce que de nombreux DS n'ont pas d'éducation formelle (ou n'ont pas voulu répondre). En général, c'est impressionnant - apparemment, ils ont pu entrer dans la sphère DS avec leur travail acharné et leur persévérance.


Il est intéressant de voir comment, dans différents pays, les DS apparaissent dans des directions différentes. Le CS, l'informatique et les mathématiques / statistiques prévalent dans tous les pays, mais en Inde, il y a un biais dans la direction technique, en Amérique la discipline commerciale (y compris l'économie) est plus importante, et en Russie, la physique est également plus importante.



Dans cette question, on a demandé aux gens leur avis sur la qualité meilleure ou pire des cours sur les plateformes en ligne que l'enseignement traditionnel. Et ici, vous pouvez voir la différence entre les pays. L'éducation en Inde est médiocre. Peut-être qu'il n'y a tout simplement pas assez d'enseignants, peut-être que la qualité de l'éducation est plutôt faible, en tout cas, la plupart des Indiens préfèrent les cours en ligne. L'Amérique a un système éducatif développé, en conséquence, près d'un tiers des personnes pensent que l'enseignement universitaire est de meilleure qualité. En Russie et dans le reste du monde, la qualité de l'enseignement traditionnel n'est pas mauvaise et presque inférieure à celle de ses concurrents.


Titre du poste



Dans le cadre d'une des questions qu'ils ont posées pour indiquer la position, il me semble que pour les tâches de ce rapport, de nombreuses options ne sont tout simplement pas nécessaires. Après réflexion, j'ai formé 7 groupes et obtenu l'image suivante:



Ici, nous voyons une autre confirmation que de nombreux Indiens Huggle sont des étudiants et / ou des représentants de domaines plus techniques. L'Amérique se distingue par son accent sur l'analyse, et la Russie se démarque dans les domaines appliqués.


Mais regardons une image plus détaillée:



Nous voyons ici combien de temps une personne a travaillé dans son poste actuel.


La première chose qui attire votre attention - la grande majorité des personnes dans toutes les positions sont de nouveaux arrivants. Je vois 2 explications à ce fait: soit des diplômés universitaires soit ayant changé de périmètre de travail. Hyp sur DS / ML a commencé récemment et, il me semble, ne fait que se renforcer, en conséquence de plus en plus de gens veulent rejoindre une nouvelle direction et créer leur propre intelligence artificielle (parce que les gens en dehors de DS se rendent rarement compte qu'il n'y aura pas d'IA et ne le seront pas dans le futur) ans).


Un autre phénomène intéressant est une part assez importante d'ingénieurs en données expérimentés. Je suppose que beaucoup de programmeurs expérimentés ont décidé de passer à DS, mais DE était plus proche d'eux - la plupart des compétences disponibles conviennent à la sortie de solutions ML en production. Il est intéressant de noter qu'en Russie, la part de DE de 5 à 10 et 10 à 15 ans d'expérience est assez élevée, apparemment il s'agit de développement senior en Java et dans d'autres langages, qui sont très demandés pour les systèmes à forte charge. Personnellement, je suis séparément surpris par la forte proportion de chercheurs expérimentés en Russie, jusqu'à ce que j'en comprenne les raisons.


L'Amérique se distingue des autres pays avec une forte proportion d'analystes. Vous pouvez trouver plusieurs raisons à cela: le fait qu'en Amérique DS est souvent pris pour des postes analytiques, et le fait que dans un certain nombre de grandes entreprises un analyste de données effectue effectivement un travail DS, et qu'il peut être recyclé en statistiques.


Puisque nous parlons de travail, nous ne pouvons qu'Ă©voquer la question du salaire.



Tout est assez attendu ici: les salaires en Inde sont les plus bas, en Russie un peu plus élevés, et les salaires américains sont les plus élevés.


Confiance en soi




La combinaison des réponses à 2 questions m'a paru très intéressante. La première question est l'expérience en ML, la seconde est de savoir si vous vous considérez comme une DS. Ici, vous pouvez observer soit une différence de vision du monde et de perception de soi, soit une compréhension différente des problèmes.


Dans la plupart des pays, les nouveaux arrivants avec moins de deux ans d'expérience ont une opinion mitigée - quelqu'un est déjà sûr de lui, quelqu'un est très douteux. À mesure que l'expérience grandit, la confiance en soi augmente. En Russie, la grande majorité des débutants se considèrent comme DS, mais avec le gain d'expérience, la confiance en cela diminue.


D'autres questions iront où plusieurs réponses pourraient être indiquées, de sorte que la somme des parts pourrait bien donner plus de 100%


Ressources visitées



Kaggle et Medium respectent tout. En Russie, ils aiment lire des articles sur ArXiV, en Amérique, ils préfèrent https://fivethirtyeight.com (et ils ne le visitent presque jamais dans d'autres pays), et en Inde ils aiment Siraj.



Je voudrais également mentionner ods.ai, qui s'est avéré être la ressource la plus populaire, parmi celles que les gens ont spécifiées manuellement. Qui d'autre n'est pas dans notre communauté, rejoignez :)


IDE et langages de programmation





En termes d'utilisation des IDE, les gens peuvent être divisés en 2 groupes principaux: les IDE avec visualisation intégrée (Jupyter Notebook, RStudio, Spyder) et les IDE classiques (VS Code, Vim).


L'Amérique se démarque avec une forte proportion d'analystes utilisant R et, par conséquent, RStudio. Cependant, des idé tels que Vim ou Atom sont également connus. Pycharm est populaire en Russie non seulement chez DS, mais aussi chez les programmeurs en général, donc le nombre de personnes l'utilisant n'est pas surprenant.


SQl, Java, Bash, C / C ++ sont Ă©galement des langages importants pour DS.


Cadres



Il est quelque peu surprenant pour moi que la part de l'utilisation des frameworks DL ne soit pas beaucoup inférieure à la part de l'utilisation de sklearn. Beaucoup sont peut-être attirés par les réseaux de neurones et veulent les étudier dès le début; peut-être qu'une entreprise commence à utiliser des neurones dans ses tâches; et c'est peut-être juste que de nombreux participants à Kaggle sont intéressés à essayer des compétitions en images et en textes.


Par ailleurs, je voudrais noter la forte proportion de personnes utilisant Pytorch et les bibliothèques de renforcement de gradient en Russie. Les LGB / XGB / catboost sont l'implémentation la plus connue du boost de gradient, et ils affichent une haute qualité sur les données tabulaires. Pytorch est apparu il y a longtemps, mais a commencé à gagner en popularité au cours des 1-2 dernières années.


Visualisation




Quelle analyse de données sans visualisations! En général, l'image n'est pas surprenante. R est ggplot2 et brillant. Le python est matplotlib + seaborn, plotly / bokeh.


D3 vous permet de créer des visualisations sympas, mais c'est assez difficile à travailler.
Altair est une bibliothèque sur Vega-Lite, j'espère qu'à l'avenir elle gagnera en popularité grâce aux visualisations interactives intéressantes qui y sont disponibles.
Tableau et d'autres logiciels de BI continuent de rester populaires, ce qui n'est pas surprenant - ce sont des solutions de haute qualité qui sont prises en charge et peuvent s'intégrer beaucoup à n'importe quoi.


Plateformes pour l'Ă©ducation en ligne




Coursera est un leader du marché des cours de formation en ligne. Vous y trouverez des cours sur presque tous les sujets et niveaux. Un facteur important est que vous pouvez demander une aide financière et suivre des cours gratuitement. Udacity, Udemy et edX sont moins populaires, mais néanmoins, vous pouvez également trouver un grand nombre de cours intéressants sur eux. Kaggle a lancé sa propre initiative éducative il y a quelque temps. La bonne chose est que les cours sont faits sous forme de noyaux, ce qui donne de la pratique dans l'utilisation des capacités de Kaggle. Les cours de DataCamp ont un format unique qui vous permet de donner une pratique ponctuelle sur des sujets spécifiques, mais cette plate-forme est peu susceptible de fournir des connaissances approfondies.


Par ailleurs, il convient de noter que mls.course.ai de ods.ai est la plus populaire des options spécifiées par les utilisateurs. Récemment, la quatrième session du cours s'est terminée au cours de laquelle plus de 7,5 mille personnes ont été enregistrées. En raison du fait que la communication principale se déroule au ralenti, le cours se termine avec une proportion impressionnante de personnes - nettement plus élevée que les autres cours de ML gratuits. Ce cours fournit non seulement des connaissances théoriques et des devoirs complexes, mais aussi la pratique de participer à des compétitions à Kaggle.


Outils d'interprétation



Enfin, voyons comment différentes personnes analysent les résultats des modèles.
Une analyse des prédictions elles-mêmes et une comparaison de leur distribution avec la distribution de la variable cible est une méthode d'analyse fondamentale mais qualitative. L'étude des coefficients des modèles linéaires ou de l'importance des caractéristiques dans les modèles en bois vous permet de trouver les caractéristiques qui affectent le plus les prévisions.


De plus, des cadres spéciaux pour l'analyse de modèles sont récemment devenus populaires: SHAP, LIME et ELI5. Ils nous permettent d'expliquer non seulement des modèles simples, mais même certains de ceux qui sont considérés comme des boîtes noires.


Résumé


Nous avons examiné comment DS diffère les uns des autres dans différents pays du monde, et avons également découvert ce qui les rapproche. Cette analyse ne couvre pas toutes les données disponibles, mais montre celles qui me paraissent les plus intéressantes. Ceux qui le souhaitent peuvent mener leurs recherches sur ces données :)


Merci de votre attention!

Source: https://habr.com/ru/post/fr434134/


All Articles