Como se tornar um cientista de dados em 2019

O Data Scientist é um especialista em dados analíticos que possui as habilidades técnicas para resolver problemas complexos, além da curiosidade que ajuda a definir essas tarefas. Esses especialistas são os principais responsáveis ​​pela conversão de dados em idéias resultantes, usando modelos preditivos criados automaticamente e análises especiais de acordo com os requisitos da empresa.

Em outras palavras, ser um cientista de dados é um trabalho extremamente importante neste século de dados. Tanto que o artigo da Harvard Business Review chegou a chamá-lo (e isso encoraja a se tornar um deles!). "O trabalho mais sexy do século 21" (e isso leva você a se tornar um deles!).

E também não fará mal que o trabalho do Data Scientist compense muito bem com um salário médio de 1022 mil por ano. É por isso que este artigo é um guia completo para se tornar um cientista de dados em 2019. Este é um roteiro que você pode seguir se quiser aprender mais sobre Data Science.

Mas ainda há muita confusão entre as diferenças nos papéis de analista de dados e cientista de dados; portanto, começaremos com este artigo e passaremos para outros tópicos, como requisitos de educação e habilidades, para nos tornarmos especialistas nesse campo.

Diferença entre analista de dados e cientista de dados


Obviamente, o analista de dados e o cientista de dados têm uma descrição do trabalho relacionada aos dados. Mas quais são as diferenças entre eles? Esta é uma pergunta que muitas pessoas têm sobre as diferenças entre essas especialidades. Então, vamos esclarecer essa dúvida aqui!

O Data Analyst usa dados para resolver vários problemas e obter dados úteis para a empresa. Isso é feito usando várias ferramentas em conjuntos de dados claramente definidos para responder a perguntas corporativas, como "Por que uma campanha de marketing é mais eficaz em determinadas regiões" ou "Por que as vendas de produtos caíram no trimestre atual" e assim por diante. Para fazer isso, as principais habilidades que um analista de dados possui são Data Mining, R, SQL, análise estatística, análise de dados, etc. De fato, muitos analistas de dados adquirem habilidades adicionais necessárias e se tornam cientistas de dados.

Por outro lado, o Data Scientist pode desenvolver novos processos e algoritmos para modelagem de dados, criar modelos preditivos e realizar análises de dados do usuário de acordo com os requisitos da empresa. Portanto, a principal diferença é que o Data Scientist pode usar codificação pesada para projetar processos de modelagem de dados, e não usar os existentes para obter respostas de dados, como o Data Analyst. Para fazer isso, as principais habilidades que o Data Scientist possui são Data Mining, R, SQL, Machine Learning, Hadoop, Análise estatística, Análise de dados, OOPS, etc. Portanto, a razão pela qual os cientistas de dados recebem mais do que os analistas de dados , reside em seus altos níveis de habilidade combinados com alta demanda e baixa oferta.

Requisitos de educação para se tornar um cientista de dados


Existem várias maneiras de atingir seu objetivo, mas lembre-se de que a maioria desses caminhos passa pela faculdade, pois um diploma de quatro anos é um requisito mínimo.

A maneira mais direta é obter um diploma de bacharel em ciência de dados, pois sem dúvida ensinará as habilidades necessárias para coletar, analisar e interpretar grandes quantidades de dados. Você aprenderá tudo sobre estatísticas, métodos de análise, linguagens de programação etc. , o que ajudará apenas em seu trabalho como cientista de dados.

Outra solução alternativa que você pode escolher é obter qualquer diploma técnico que o ajude no papel de cientista de dados. Alguns deles são ciências da computação, estatística, matemática, economia. Depois de obter um diploma, você terá as habilidades de codificação, processamento de dados e resolução quantitativa de problemas. Que pode ser usado na ciência de dados. Depois, você pode encontrar um emprego de nível básico ou obter um mestrado e doutorado para um conhecimento mais especializado.

Requisitos de habilidades para se tornar um cientista de dados


O Data Scientist requer várias habilidades que abrangem diferentes áreas. A maioria deles está listada abaixo:

1. Análise estatística. Como especialista em processamento de dados, sua principal tarefa é coletar, analisar e interpretar grandes quantidades de dados e criar idéias úteis para a empresa. Obviamente, a análise estatística é uma grande parte das descrições de cargo.
Isso significa que você deve estar familiarizado com pelo menos o básico da análise estatística, incluindo testes estatísticos, distribuições, regressão linear, teoria das probabilidades, estimativas de máxima verossimilhança, etc. E isso não é suficiente! É importante entender quais métodos estatísticos são a abordagem apropriada para um determinado problema de dados e é ainda mais importante entender quais não são. Além disso, existem muitas ferramentas analíticas que são muito úteis na análise estatística para o Data Scientist. Os mais populares deles são SAS , Hadoop , Spark , Hive , Pig . Portanto, é importante que você os conheça bem.

2. Habilidades de programação. As habilidades de programação são uma ferramenta essencial em seu arsenal. Isso ocorre porque é muito mais fácil estudar e entender os dados para tirar conclusões úteis se você puder usar determinados algoritmos para atender às suas necessidades.

Em geral, Python e R são as linguagens mais usadas para esse fim. O Python é usado devido à sua capacidade de análise estatística e sua legibilidade. O Python também possui vários pacotes para aprendizado de máquina, visualização de dados, análise de dados etc. (por exemplo, Scikit-learn ) que o tornam adequado para a ciência de dados. O R também facilita muito a solução de praticamente qualquer problema na Data Science com pacotes como e1071, rpart e muitos outros.

3. Aprendizado de máquina. Se você está de alguma forma conectado à indústria de tecnologia, provavelmente já ouviu falar sobre aprendizado de máquina . Isso basicamente permite que as máquinas aprendam tarefas com a experiência sem precisar programá-las especificamente. Isso é feito treinando máquinas usando vários modelos de aprendizado de máquina usando dados e vários algoritmos.

Assim, você deve estar familiarizado com os algoritmos de aprendizado controlado e descontrolado no aprendizado de máquina, como regressão linear, regressão logística, agrupamento de médias K, árvore de decisão, vizinho mais próximo e muito mais. Felizmente, a maioria dos algoritmos de aprendizado de máquina pode ser implementada usando o R ou a Biblioteca Python (mencionada acima), para que você não precise ser um especialista neles. O que você precisa é a capacidade de entender qual algoritmo é necessário, com base no tipo de dados que você possui e na tarefa que você está tentando automatizar.

4. Gerenciamento de dados e processamento de dados. Os dados desempenham um grande papel na vida do Data Scientist. Portanto, você deve ter experiência em gerenciamento de dados, o que inclui extrair, converter e carregar dados. Isso significa que você precisa extrair dados de várias fontes, convertê-los no formato necessário para análise e, finalmente, carregá-los no armazém de dados. Existem várias plataformas para processar esses dados, como Hadoop , Spark .

Agora que você concluiu o processo de gerenciamento de dados, também deve estar familiarizado com o processamento de dados. Processamento de dados - isso basicamente significa que os dados no armazenamento devem ser limpos e unificados de maneira consistente antes que possam ser analisados ​​para obter dados válidos.

5. Intuição de dados. Não subestime o poder dos dados de intuição. De fato, essa é a principal habilidade não técnica que distingue o Data Scientist do Data Analyst. A intuição dos dados envolve principalmente encontrar padrões nos dados onde eles não estão. É quase o mesmo que encontrar uma agulha no palheiro, o que é um potencial real em um enorme heap de dados inexplorado.

A intuição de dados não é uma habilidade que você possa aprender tão facilmente. Pelo contrário, vem da experiência e da prática contínua. E isso, por sua vez, o torna muito mais eficaz e valioso em seu papel de cientista de dados.

6. Habilidades de comunicação. Você deve ter boas habilidades de comunicação para se tornar um especialista no campo do Data Scientist. Isso ocorre porque, embora você entenda os dados melhor do que qualquer outra pessoa, é necessário convertê-los em uma avaliação quantitativa para que a equipe não técnica possa tomar uma decisão.

Isso também pode incluir a narração de dados! Portanto, você deve poder apresentar seus dados em um formato narrativo, com resultados e significados específicos, para que outras pessoas possam entender o que você está dizendo. Isso se deve ao fato de que, no final, a análise dos dados se torna menos importante do que as conclusões práticas que podem ser obtidas com os dados, o que, por sua vez, levará ao crescimento dos negócios.

Source: https://habr.com/ru/post/pt477818/


All Articles