
O Kaggle é uma plataforma bem conhecida para hospedar competições de aprendizado de máquina em que o número de usuários registrados ultrapassou 2,5 milhões. Milhares de cientistas de dados de diferentes países participam das competições e o Kaggle se interessou pelo que é o público. Em outubro de 2018, a segunda pesquisa foi organizada e 23.859 pessoas de 147 países responderam.
A pesquisa teve várias dezenas de perguntas sobre uma variedade de tópicos: gênero e idade, educação e campo de trabalho, experiência e habilidades, linguagens de programação e software usado e muito mais.
Mas o Kaggle não é apenas um local para competições, também é possível publicar soluções de pesquisa ou competição de dados (elas são chamadas de kernels e semelhantes ao Jupyter Notebook), portanto o conjunto de dados com os resultados da pesquisa foi publicado em domínio público e foi organizada uma competição para a melhor pesquisa desses dados. Também participei e não recebi um prêmio em dinheiro, mas meu núcleo ficou em sexto lugar no número de votos. Eu gostaria de compartilhar os resultados da minha análise.
Existem muitos dados e eles podem ser vistos de diferentes ângulos. Eu estava interessado nas diferenças entre pessoas de diferentes países, então a maioria das pesquisas comparará pessoas da Rússia (já que moramos aqui), da América (como o país mais avançado em termos de DS), da Índia (como um país pobre com muito DS) e de outros países.
A maioria dos gráficos e análises foram retirados do meu kernel (aqueles que desejam podem ver o código Python lá), mas também há novas idéias.
Revisão geral
Percebo imediatamente que aqueles que responderam às perguntas não são uma amostra representativa de cientistas de dados. Nem todo mundo está interessado em gastar tempo em competições, alguém simplesmente não ouviu falar sobre esta plataforma, finalmente, ~ 24 mil participantes - apenas uma pequena parte de todos os participantes do Kaggle. No entanto, temos apenas esses dados, portanto, no futuro, considerarei que as informações disponíveis são suficientes para tirar conclusões sobre os países e em geral.

Neste mapa, você pode ver o número de pessoas pesquisadas em diferentes países. A maior parte são da América e da Índia. Atualmente, a América, talvez, pode ser chamada de líder no DS, e essa área se tornou popular lá antes, o que explica muitas pessoas. A Índia é um país com uma população enorme que há muito tempo presta atenção à TI. Graças aos cursos da Siraj Raval, DS está ganhando popularidade e atraindo um grande número de indianos. A China está muito atrás, mas acho que isso se deve à proximidade da Internet.
Na Rússia, Canadá, Brasil e Europa, também há bastante DS, mas nesses países a população é muito menor, então eles não podem competir em termos de número de participantes.

Vamos ver quanto tempo as pessoas gastaram na pesquisa. Como você pode ver, muitas pessoas gastaram de 10 a 20 minutos na pesquisa, o que é suficiente para uma resposta ponderada às perguntas. Os respondentes às perguntas em menos de alguns minutos, aparentemente, imediatamente ou quase imediatamente fecharam a pesquisa. Alguém pode não gostar da pesquisa, alguém com preguiça de responder, alguém não quer responder à pergunta sobre seu sexo (mais sobre isso abaixo). De um modo geral, ainda havia pessoas que passaram dezenas de horas na pesquisa. Eles provavelmente se esqueceram da aba aberta :)
Estrutura etária e sexual

Em geral, a imagem não é surpreendente. Acima de tudo, jovens de 22 a 29 anos, ou mesmo de 18 a 34 anos, participam do Kaggle. São crianças em idade escolar, estudantes e recém-formados. Provavelmente, todos procuram adquirir conhecimento ou obter resultados impressionantes, a fim de obter uma vantagem ao procurar trabalho. Há significativamente mais homens que mulheres. Em geral, isso não é surpreendente, uma vez que nossa esfera combina TI, matemática e outras áreas nas quais há um desequilíbrio de gênero há muito tempo. Algo precisa ser feito ativamente para corrigir esse desequilíbrio? Prefiro não discutir este artigo.
Vale ressaltar que também foi possível não especificar o sexo ou especificá-lo você mesmo. Vejamos as opções mais populares:

Entre as respostas de forma livre:
- não binário (adequado)
- Helicóptero de ataque (legal! Eu realmente gostaria de ver meus pais)
- Masculino (por que não escolher essa opção?)
- Quem é você para insinuar que eu tenho um sexo? (bem, porque você é humano?)
- Kaggle (bem, pelo menos não kagglosexual)
- Sua Alteza (você definitivamente não confundiu esta pergunta com outras pessoas?)
- Um pouco de sol. :) (isso é tão fofo!)
- Macho duplo (macho hetero!)
- Macho e fêmea são do sexo e não do sexo. Gênero é um conjunto regressivo de estereótipos associados ao nosso sexo. Pergunte que sexo somos para fins demográficos, se é isso que é importante. (SWJ detectado!)

É bastante interessante observar as diferenças na estrutura etária e sexual de diferentes países.
Nos Estados Unidos, a proporção de mulheres é maior do que em outros países. Isso ocorre porque, nos últimos anos, houve uma luta ativa contra a "desigualdade de gênero". Se ela precisa ou não, é uma pergunta, mas os resultados são visíveis.
A Índia se destaca com um grande número de jovens DS. Parece que os caras pensam com antecedência sobre o futuro e desenvolvem habilidades desde a infância. Mais tarde veremos que o sistema educacional na Índia deixa muito a desejar.
A Rússia como um todo é semelhante a outros países.
Educação



Como observado anteriormente, na Índia há uma alta proporção de estudantes ou solteiros, mas praticamente não há doutorado. A Rússia se destaca porque muitos DS não têm educação formal (ou não queriam responder). Em geral, isso é impressionante - aparentemente eles foram capazes de entrar na esfera do DS com seu trabalho duro e perseverança.
É interessante ver como, em diferentes países, o DS aparece de diferentes direções. CS, TI e matemática / estatística prevalecem em todos os países, mas na Índia é visível um viés na direção técnica, na América a disciplina de negócios (incluindo economia) é mais importante, e na Rússia a física também é mais importante.

Nesta pergunta, as pessoas foram questionadas sobre se a qualidade dos cursos nas plataformas online é melhor ou pior que a educação tradicional. E aqui você pode ver a diferença entre os países. A educação na Índia é ruim. Talvez simplesmente não haja professores suficientes, talvez a qualidade da educação seja bastante baixa; de qualquer forma, a maioria dos indianos prefere cursos on-line. Os Estados Unidos têm um sistema educacional desenvolvido, como resultado, quase um terço das pessoas acredita que a educação universitária é de maior qualidade. Na Rússia e no resto do mundo, a qualidade da educação tradicional não é ruim e quase inferior aos concorrentes.
Cargo

Como parte de uma das perguntas que eles fizeram para indicar a posição, parece-me que, para as tarefas deste relatório, tantas opções simplesmente não são necessárias. Depois de pensar um pouco, formei 7 grupos e consegui a seguinte imagem:

Aqui vemos outra confirmação de que muitos índios trouxas são estudantes e / ou representantes de áreas mais técnicas. Os Estados Unidos se destacam por sua ênfase na análise e a Rússia se destaca em áreas aplicadas.
Mas vamos ver uma imagem mais detalhada:

Aqui vemos quanto tempo uma pessoa trabalha em sua posição atual.
A primeira coisa que chama sua atenção - a grande maioria das pessoas em todas as posições são recém-chegados. Vejo duas explicações para esse fato: ou graduados universitários ou que mudaram o escopo do trabalho. O hype no DS / ML começou recentemente e, parece-me, está ficando cada vez mais forte, como resultado, mais e mais pessoas querem aderir a uma nova direção e criar sua própria inteligência artificial (porque pessoas fora do DS raramente percebem que não haverá IA e não virão no futuro) anos).
Outro fenômeno interessante é uma parcela bastante grande de engenheiros de dados experientes. Suponho que muitos programadores experientes decidiram adotar o DS, mas o DE estava mais próximo deles - a maioria das habilidades disponíveis são adequadas para gerar soluções de ML na produção. É interessante que na Rússia a parcela de DE entre 5 e 10 e 10 a 15 anos de experiência seja bastante alta, aparentemente esses são desenvolvimentos seniores em Java e outras linguagens, que são muito procurados por sistemas de alta carga. Pessoalmente, sou surpreendido separadamente pela alta proporção de pesquisadores experientes na Rússia, até entender as razões para isso.
Os Estados Unidos se destacam entre outros países com uma alta proporção de analistas. Há muitas razões para isso: o fato de que, na América, o DS geralmente é usado para posições analíticas, e o fato de que em várias empresas grandes um analista de dados realmente realiza o trabalho no DS, e que pode ser uma estatística reciclada.
Como estamos falando de trabalho, não podemos deixar de abordar a questão do salário.

Tudo é bastante esperado aqui: os salários na Índia são mais baixos, na Rússia, um pouco mais altos e os salários americanos são os mais altos.
Autoconfiança


A combinação de respostas para duas perguntas me pareceu muito interessante. A primeira pergunta é experiência em ML, a segunda é se você se considera um DS. Aqui você pode observar uma diferença na visão de mundo e na autopercepção, ou uma compreensão diferente dos problemas.
Na maioria dos países, os recém-chegados com menos de dois anos de experiência têm uma opinião mista - alguém já é autoconfiante, alguém é muito duvidoso. À medida que a experiência cresce, a autoconfiança aumenta. Na Rússia, a grande maioria dos iniciantes se considera DS, mas com o ganho de experiência, a confiança nisso diminui.
Outras perguntas irão para onde várias respostas podem ser indicadas, portanto a soma das ações pode muito bem dar mais de 100%
Recursos visitados

Kaggle e Medium respeitam tudo. Na Rússia, eles gostam de ler artigos sobre o ArXiV, na América preferem https://fivethirtyeight.com (e quase nunca o visitam em outros países), e na Índia adoram Siraj.

Gostaria também de mencionar o ods.ai, que acabou sendo o recurso mais popular, entre aqueles que as pessoas especificaram manualmente. Quem mais não está em nossa comunidade, participe :)
IDE e linguagens de programação



Em termos de uso de IDEs, as pessoas podem ser divididas em 2 grupos principais: usando IDEs com visualização integrada (Jupyter Notebook, RStudio, Spyder) e usando IDEs clássicos (VS Code, Vim).
Os EUA se destacam com uma alta proporção de analistas usando R e, como resultado, RStudio. No entanto, ide como Vim ou Atom também são conhecidos. O Pycharm é popular na Rússia não apenas entre o DS, mas também entre os programadores em geral, portanto, o número de pessoas que o utilizam não é surpreendente.
SQl, Java, Bash, C / C ++ também são linguagens importantes para o DS.
Frameworks

É um tanto surpreendente para mim que o compartilhamento do uso de estruturas de DL não seja muito menor que o compartilhamento do uso do sklearn. Talvez muitos sejam atraídos por redes neurais e queiram estudá-las desde o início; talvez uma empresa comece a usar neurônios em suas tarefas; e talvez apenas muitos participantes do Kaggle estejam interessados em experimentar competições em imagens e textos.
Separadamente, gostaria de observar a alta proporção de pessoas que usam Pytorch e as bibliotecas de aumento de gradiente na Rússia. LGB / XGB / catboost são a implementação mais famosa do aumento de gradiente e mostram alta qualidade em dados tabulares. Pytorch apareceu há muito tempo, mas começou a ganhar grande popularidade nos últimos 1-2 anos.
Visualização


Que análise de dados sem visualizações! Em geral, a imagem não é surpreendente. R é ggplot2 e brilhante. Python é matplotlib + seaborn, plot / bokeh.
O D3 permite criar visualizações interessantes, mas é muito difícil trabalhar com isso.
O Altair é uma biblioteca do Vega-Lite. Espero que, no futuro, ganhe popularidade graças às interessantes visualizações interativas disponíveis.
O Tableau e outros softwares de BI continuam populares, o que não é surpreendente - são soluções de alta qualidade que são suportadas e podem se integrar muito a qualquer coisa.


A Coursera é líder de mercado em cursos de educação online. Lá você pode encontrar cursos sobre praticamente qualquer tópico e nível. Um fator importante é que você pode solicitar assistência financeira e fazer cursos gratuitamente. Udacity, Udemy e edX são menos populares, mas, no entanto, você também pode encontrar um grande número de cursos interessantes sobre eles. Kaggle lançou sua própria iniciativa educacional há algum tempo. O bom é que os cursos são feitos na forma de kernels, o que dá prática no uso dos recursos do Kaggle. Os cursos do DataCamp têm um formato exclusivo que permite dar uma prática pontual sobre tópicos específicos, mas é improvável que essa plataforma forneça conhecimento aprofundado.
Separadamente, vale ressaltar que mls.course.ai de ods.ai é a mais popular das opções especificadas pelos usuários. Recentemente, terminou a quarta sessão do curso, na qual foram registradas mais de 7,5 mil pessoas. Devido ao fato de a comunicação principal ocorrer com folga, o curso termina com uma proporção impressionante de pessoas - significativamente maior do que em outros cursos gratuitos de ML. Este curso fornece não apenas conhecimento teórico e trabalhos de casa complexos, mas também a prática de participar de competições no Kaggle.
Ferramentas de Interpretação

Por fim, vamos ver como diferentes pessoas analisam os resultados dos modelos.
Uma análise das próprias previsões e uma comparação de sua distribuição com a distribuição da variável-alvo é uma maneira básica, porém qualitativa. Estudar os coeficientes de modelos lineares ou a importância dos recursos em modelos de madeira permite encontrar os recursos que mais afetam as previsões.
Além disso, estruturas especiais para análise de modelos recentemente se tornaram populares: SHAP, LIME e ELI5. Eles nos permitem explicar não apenas modelos simples, mas também alguns que são considerados caixas pretas.
Sumário
Analisamos como o DS difere um do outro em diferentes países do mundo e também descobrimos o que os une. Esta análise não cobre todos os dados disponíveis, mas mostra aqueles que me pareciam mais interessantes. Quem desejar pode realizar suas pesquisas com esses dados :)
Obrigado pela atenção!