As habilidades mais procuradas em ciência de dados

Em termos de conhecimento, os especialistas em ciência de dados esperam muito: aprendizado de máquina, programação, estatística, matemática, visualização de dados, comunicação e aprendizado profundo. Cada uma dessas áreas abrange dezenas de idiomas, estruturas, tecnologias disponíveis para estudo. Então, como é melhor para os profissionais de dados gerenciar seu orçamento de tempo de treinamento para que possam ser avaliados pelos empregadores?

Estudei cuidadosamente os locais de trabalho para descobrir quais habilidades são mais populares entre os empregadores no momento. Eu considerei as disciplinas mais amplas associadas ao trabalho com dados, além de linguagens e ferramentas específicas, como parte de um estudo separado. Para material, eu virei para o LinkedIn , Indeed , SimplyHired , Monster e AngelList , em 10 de outubro de 2018. O gráfico abaixo mostra quantos trabalhos de ciência de dados estão representados em cada um desses recursos.



Estudei muitas descrições de trabalho e pesquisas para entender quais habilidades são mais frequentemente mencionadas. Termos como "gerenciamento" não foram incluídos na análise, pois são usados ​​nos locais de trabalho em uma ampla variedade de contextos diversos.

A pesquisa foi realizada nos Estados Unidos com base nos termos "ciência de dados", "palavra-chave". Para reduzir a saída, selecionei apenas as ocorrências exatas. De uma maneira ou de outra, um método semelhante assegurava que todos os resultados fossem relevantes para a ciência de dados e os mesmos critérios se aplicariam a todas as consultas.

O AngelList não fornece o número total de vagas relacionadas ao trabalho com dados, mas o número total de empresas que oferecem essas vagas. Excluí este site de ambos os estudos, já que seu algoritmo de busca, aparentemente, funciona com base no princípio "OR" e não permite, de alguma forma, mudar para o modelo "E". Você pode trabalhar com o AngelList quando inserir algo no espírito de "cientista de dados" "TensorFlow" - nesse caso, corresponder à segunda consulta implica corresponder à primeira. No entanto, se você usar palavras-chave no espírito de "cientista de dados" "react.js", haverá muitas vagas que não estão relacionadas à ciência de dados.

Os materiais com Glassdoor também tiveram que ser excluídos. O site alegou que eles tinham informações sobre 26.263 vagas de trabalho ao trabalhar com dados, mas, na verdade, foram exibidos no máximo 900. Além disso, parece-me extremamente duvidoso que eles tenham coletado mais de três vezes mais vagas do que qualquer outro site grande.

Para a etapa final do estudo, selecionei palavras-chave para as quais houve um grande retorno no LinkedIn: mais de 400 resultados para habilidades de perfil amplo, mais de 200 para tecnologias privadas. Obviamente, houve algumas ofertas duplicadas. Gravei os resultados dessa etapa em um documento do Google .

Depois baixei os arquivos .csv, carreguei-os no JupyterLab, calculei a prevalência de cada um como uma porcentagem e calculei a média dos valores obtidos em diferentes recursos. Posteriormente, comparei os resultados por idioma com os apresentados no estudo sobre vagas de emprego do setor de ciência de dados da Glassdoor no primeiro semestre de 2017. Se você adicionar a isso as informações da pesquisa sobre o uso do KDNuggets, parece que algumas habilidades estão ganhando popularidade, enquanto outras estão gradualmente perdendo valor. Mas mais sobre isso mais tarde.

No meu Kaggle Kernel, você encontrará gráficos interativos e análises adicionais. Para visualização, usei Plotly. Para trabalhar com o Plotly e o JupyterLab em conjunto, você precisa reproduzir algo, pelo menos no momento em que este artigo foi escrito - as instruções podem ser encontradas no final do meu Kaggle Kernel, bem como na documentação do Plotly .

Habilidades amplas


Aqui está um gráfico que representa as habilidades gerais mais populares que os empregadores desejam que os candidatos vejam.



Os resultados mostram que a análise e o aprendizado de máquina continuam a formar a base do trabalho de especialistas em ciência de dados. O principal objetivo desta especialidade é tirar conclusões úteis com base em matrizes de dados. O aprendizado de máquina visa criar sistemas que possam prever o curso dos eventos, respectivamente, com grande demanda.

O processamento de dados requer conhecimento de estatística e capacidade de escrever código - não há nada para se surpreender. Além disso, estatística, matemática e engenharia de software são especialidades nas quais o treinamento é realizado nas universidades, o que também pode afetar a frequência das solicitações.

Curiosamente, nas descrições de quase metade das vagas, é mencionada a comunicação: os especialistas em dados precisam ser capazes de transmitir suas descobertas às pessoas e trabalhar em equipe.

A menção de IA e aprendizado profundo não é tão regular quanto algumas das outras consultas. No entanto, essas áreas são ramos do aprendizado de máquina. O aprendizado profundo está sendo cada vez mais usado em tarefas para as quais os algoritmos de aprendizado de máquina foram usados ​​anteriormente. Por exemplo, os melhores algoritmos de aprendizado de máquina para problemas que surgem ao processar uma linguagem natural, agora se relacionam especificamente ao campo do aprendizado profundo. Acredito que no futuro se tornará cada vez mais popular, e o aprendizado de máquina gradualmente começará a ser percebido como sinônimo de profundidade.

Quais soluções de software específicas devem ser dominadas por especialistas em ciência de dados, de acordo com os empregadores? Passamos a essa questão na próxima seção.

Competências tecnológicas


Abaixo estão 20 idiomas específicos, bibliotecas e ferramentas tecnológicas com as quais, na opinião dos empregadores, os especialistas em processamento de dados devem ter experiência.



Vamos percorrer os líderes rapidamente.



Python é a opção mais solicitada. O fato de que essa linguagem de código aberto é extremamente popular entre os programadores, muitos observaram. Para iniciantes, esta é uma opção muito conveniente: existem muitos recursos de treinamento. A grande maioria das novas ferramentas de dados é compatível com ela. Com base nisso tudo, o Python pode ser chamado a principal linguagem para especialistas em ciência de dados.



R segue Python por uma pequena margem. Era uma vez, era ele quem era o principal idioma para os especialistas em ciência de dados. Foi uma surpresa para mim que o interesse ativo nele ainda persista. Esse idioma se origina nas estatísticas e, portanto, é muito popular entre os que lidam com ele.

Quase todas as vagas tornam necessário o conhecimento de uma dessas duas linguagens - Python ou R.



SQL também é muito procurado. A abreviação significa Structured Query Language (Structured Query Language), e é essa linguagem que é a principal ferramenta para interagir com bancos de dados relacionais. O SQL na comunidade de ciência de dados geralmente é negligenciado, mas refere-se a habilidades nas quais você deve ser fluente se planeja entrar no mercado de trabalho.




A seguir, vêm o Hadoop e o Spark - ambos ferramentas de código aberto do Apache, projetadas para trabalhar com big data. Muito menos tutoriais e artigos sobre o Medium foram escritos sobre eles. Suponho que o número de candidatos que os possuam seja significativamente menor do que aqueles familiarizados com Python ou R. Se você sabe trabalhar com o Hadoop e Spark ou tem a oportunidade de dominá-los, isso pode ser uma boa vantagem para você em relação aos seus concorrentes.




Em seguida, são Java e SAS . Fiquei surpreso que essas duas línguas foram capazes de subir tão alto. Ambos são uma criação de grandes empresas e, para ambos, uma certa quantidade de materiais gratuitos. No entanto, entre os especialistas em ciência de dados, nem Java nem SAS são de particular interesse.



O próximo no ranking de tecnologias populares é o Tableau . É uma plataforma analítica e ferramenta de visualização que é poderosa e fácil de usar. Sua popularidade está crescendo constantemente. O Tableau tem uma versão pública gratuita, mas se você deseja trabalhar com dados em modo privado, precisa desembolsar. Se você é completamente novo no Tableau, faz sentido fazer um curso breve - digamos, Tableau 10 AZ no Udemy. Eles não me pagam por publicidade, eu apenas fiz esse curso e achei muito útil.

No gráfico abaixo, você encontra uma lista extensa de idiomas populares, estruturas e outras ferramentas para trabalhar com dados.



Comparação histórica


A equipe GlassDoor publicou um estudo das dez habilidades mais populares para especialistas em ciência de dados de janeiro a julho de 2017. No gráfico abaixo, seus dados sobre a frequência dos termos são comparados com os valores médios calculados por mim para os sites LinkedIn, Indeed, SimplyHired e Monster.



No geral, os resultados são semelhantes. Tanto a minha pesquisa quanto a Glassdoor concordam que a demanda por Python, R e SQL é maior. O topo das habilidades também coincide na composição nas nove primeiras posições, embora a ordem exata seja diferente.

A julgar pelos resultados, em comparação com o primeiro semestre de 2017, a demanda por R, Hadoop, Java, SAS e MatLab diminuiu, enquanto o Tableau, pelo contrário, se tornou mais popular. Isso deve ser esperado se você olhar pelo menos os resultados de uma pesquisa com desenvolvedores do KDnuggets. Eles mostram claramente que R, Hadoop, Java e SAS estão em declínio há vários anos, enquanto o Tableau está em constante crescimento.

Recomendações


Diante desses cálculos, gostaria de oferecer uma série de recomendações para especialistas em dados que já entraram no mercado ou estão apenas se preparando para iniciar uma carreira e, apesar de aumentar sua competitividade.

  • Mostre que você sabe analisar dados e não poupe esforços para dominar o aprendizado de máquina corretamente
  • Preste atenção às habilidades de comunicação. Aconselho você a ler o livro " Made to Stick ", que descreve como dar mais peso às suas idéias. Também pratique com o aplicativo Hemmingway Editor para aprender a articular seus pensamentos com mais clareza.
  • Aprenda a estrutura para o aprendizado profundo. Isso está gradualmente se tornando parte integrante do processo de aprendizado do aprendizado de máquina. No meu outro artigo, comparo várias estruturas sobre o quão úteis, interessantes e populares elas são - você pode encontrá-lo aqui .
  • Se você está hesitando entre Python e R, escolha Python. Se você já conhece o Python como a palma da sua mão, considere aprender sobre R. Isso definitivamente o tornará um candidato mais atraente no mercado.

Quando um empregador procura um funcionário que trabalha com Python, ele provavelmente espera que os candidatos se familiarizem com as principais bibliotecas para processamento de dados: numpy, pandas, scikit-learn e matplotlib. Se você deseja dominar este conjunto, recomendo os seguintes recursos:

  • DataCamp e DataQuest - lá e ali, você pode fazer um curso de treinamento em ciência de dados SaaS on-line por pouco dinheiro; Você aprenderá bem no processo de escrever código. Ambos os cursos abrangem uma ampla gama de ferramentas.
  • A Data School oferece uma variedade de recursos diferentes, incluindo uma boa série de vídeos do YouTube que explicam os conceitos básicos da ciência de dados.
  • Python e análise de dados por McKinney. Este é o trabalho do autor da biblioteca de pandas; basicamente trata-se disso, mas também aborda os conceitos básicos de Python, numpy e scikit-learn em relação à ciência de dados.
  • Introdução ao aprendizado de máquina com Python. Um Guia para Profissionais de Dados ”de Muller e Guido. Mueller é responsável por apoiar o scikit-learn. Um ótimo livro para quem estuda aprendizado de máquina em geral e esta biblioteca em particular.

Se você deseja avançar na aprendizagem profunda, aconselho que você comece com Keras ou FastAI e depois vá para TensorFlow ou PyTorch . O “ Deep Learning in Python ” da Scholl é uma grande ajuda para quem está aprendendo a trabalhar com Keras.

Além dessas recomendações, acho que vale a pena focar no estudo do seu interesse, embora, é claro, você possa alocar seu tempo para o treinamento com base em várias considerações.

Se você está procurando um emprego como especialista em processamento de dados em portais on-line, aconselho você a começar pelo LinkedIn - os resultados dele são consistentemente os mais extensos. Além disso, ao pesquisar vagas ou publicar currículos em sites, as palavras-chave desempenham um papel muito importante. Por exemplo, para todos os recursos considerados, a consulta "ciência de dados" gera três vezes mais resultados que a consulta "cientista de dados". Por outro lado, se você estiver interessado apenas e exclusivamente nas ofertas do cientista de dados, é melhor dar preferência a essa solicitação.

Mas, independentemente do recurso que você escolher, recomendo a criação de um portfólio online que demonstre suas habilidades em diferentes áreas demandadas - quanto mais houver, melhor. O seu perfil do LinkedIn deve, idealmente, conter algumas evidências das habilidades de que você está falando.

Talvez eu apresente o restante dos resultados da pesquisa em outros artigos. Se você quiser aprender mais sobre código ou gráficos interativos, convido você ao Kaggle Kernel .

Source: https://habr.com/ru/post/pt426557/


All Articles