Qual é a diferença entre um pesquisador de dados e um estatístico?

Olá pessoal. O cenário para o novo curso da Otus - "Applied Analytics on R" , que começa já no final deste mês, está aberto. A esse respeito, quero compartilhar uma tradução da publicação sobre a diferença entre um analista de dados e um estatístico, que por sua vez usa R na prática.



1. Introdução


Nos últimos dez anos, o volume de dados e a taxa de aparência aumentaram exponencialmente. Segundo relatos, mais de 3 quintilhões de bytes de dados aparecem todos os dias! Não é de surpreender que uma nova profissão de cientista de dados tenha surgido para trabalhar com eles - um especialista versátil em análise e processamento de dados. No entanto, as pessoas estavam envolvidas em estatísticas antes do advento das ferramentas de processamento de dados digitais. Quais são as diferenças entre essas duas profissões: pesquisador de dados e estatística?


Vamos descobrir.


Quem é um explorador de dados?


Um pesquisador de dados é superior em qualidades profissionais a qualquer engenheiro de software e também é mais versado em desenvolvimento de software do que qualquer estatístico.
Os pesquisadores de dados trabalham com grandes quantidades de dados, que, em regra, estão nos repositórios das organizações ou nos sites, mas ao mesmo tempo são praticamente inúteis em termos de obtenção de vantagens estratégicas ou financeiras. Para fornecer recomendações e sugestões para a tomada de decisões ideais, os pesquisadores de dados se armaram com planos estatísticos e avaliam os dados anteriores e atuais dessas fontes.


Nos sistemas de marketing e planejamento, os pesquisadores de dados preocupam-se principalmente em identificar idéias e indicadores estatísticos que podem ser úteis para preparar, implementar e rastrear políticas de marketing orientadas a resultados.


O que são estatísticas?


Os estatísticos coletam e avaliam informações em busca de padrões de comportamento ou descrições do ambiente. Com base nessas informações, eles constroem modelos. Esses modelos podem ser usados ​​para prever e compreender o universo.


Por exemplo, as estatísticas mostram que é seguro comemorar um aniversário - quanto mais velha a pessoa, mais aniversários ela comemorou.


O pesquisador no campo da estatística cria e usa modelos estatísticos ou matemáticos para ajudar a resolver problemas reais com base em dados úteis coletados e generalizados. Os dados são coletados, analisados ​​e utilizados em vários campos, incluindo engenharia, ciência e negócios. Os dados numéricos acumulados ajudam as empresas e seus clientes a entender indicadores quantitativos e rastrear ou prever tendências que são úteis na tomada de decisões de negócios.


Diferenças de habilidade


Explorador de dados


1. Educação
Os cientistas da computação geralmente têm formação superior - 88% deles têm mestrado e 46% são candidatos a um candidato. Embora existam exceções a essa regra, em geral, para obter o conhecimento e as habilidades necessárias no campo da ciência da informação, geralmente é necessário um treinamento forte.


2. Programação em R
É preferível que os analistas de dados conheçam pelo menos uma dessas ferramentas. R foi criado especificamente para as necessidades da ciência de dados. Usando R, você pode processar qualquer informação para fins científicos. 43% dos pesquisadores de dados usam R para resolver problemas estatísticos. No entanto, R tem um caminho bastante espinhoso de estudo.


3. Programação em Python
O Python, junto com Java, Perl e C / C ++, é uma das linguagens de programação mais populares para ciência de dados. Para os pesquisadores de dados, o Python é uma boa opção.


4. Plataforma Hadoop
Não em todos, mas em muitos casos, a propriedade dessa ferramenta é altamente desejável. O valor de um especialista aumenta se ele também tiver experiência com Hive ou Pig. Ferramentas em nuvem como o Amazon S3 também podem ser úteis.


5. SQL: trabalhando com bancos de dados e programação
Os pesquisadores de dados devem ser proficientes em SQL. Essa linguagem de programação foi projetada especificamente para trabalhar com dados. Ele permite que você obtenha as informações de seu interesse nos bancos de dados usando breves instruções de consulta - rapidamente e sem escrever códigos pesados.


6. Aprendizado de máquina e inteligência artificial
Muitos pesquisadores de dados não conhecem os algoritmos e métodos de aprendizado de máquina, sem entender nada em redes neurais, aprendizado profundo e competitivo e coisas semelhantes. No entanto, se você deseja se destacar do resto dos pesquisadores de dados , entende melhor métodos como aprendizado de máquina com um professor, árvores de decisão, regressão logística etc.


7. Visualização de dados
A quantidade de dados no mundo corporativo é enorme. Eles exigem a conversão para formatos mais fáceis de entender. Como regra, as pessoas percebem melhor os dados na forma de gráficos e tabelas.


8. Dados não estruturados
O explorador de dados deve estar preparado para trabalhar com dados não estruturados. Esses dados estão em um formato arbitrário e não são armazenados em bancos de dados - por exemplo, fotografias, entradas de blog, análises de clientes, publicações em redes sociais, vídeos, arquivos de áudio etc.


9. Conhecimento dos princípios de negócios
Para ser um pesquisador no campo da informação, você precisa entender o setor em que trabalha, bem como as tarefas de negócios que sua empresa enfrenta.


10. Habilidades de comunicação
As empresas que procuram um forte pesquisador de dados precisam de uma pessoa que possa transmitir clara e livremente resultados técnicos a um público não essencial, como profissionais de marketing ou especialistas em vendas.


Estatisticas


  • Profundo conhecimento da teoria das probabilidades e estatística indutiva.
  • A capacidade de trabalhar com números - essa habilidade reflete o nível geral de inteligência e seu desenvolvimento contribui amplamente para a consecução dos objetivos da organização.
  • Habilidades analíticas - a capacidade de coletar e avaliar dados, resolver problemas e fazer escolhas. Essas habilidades ajudarão a resolver os problemas que a empresa enfrenta, aumentam a produtividade do trabalho e alcançam as metas corporativas.
  • Habilidades de escrita e comunicação oral.
  • Boas habilidades interpessoais são características e comportamentos que demonstramos ao interagir com os outros. Eles são considerados uma das habilidades sócio-psicológicas mais relevantes. Nós os usamos em todas as situações de interação verbal e não verbal. De fato, os principais traços de personalidade e a atitude da pessoa em relação ao trabalho têm uma influência decisiva em sua capacidade de ter sucesso em uma determinada posição.

Diferenças da ferramenta


Ferramentas de estatística


1. SPSS
O Statistical Package for the Social Sciences (SPSS) é sem dúvida o software estatístico mais comum no campo da pesquisa de comportamento humano. A interface visual do SPSS permite combinar estatísticas descritivas e os resultados das análises paramétricas e não paramétricas, apresentadas em forma gráfica. O SPSS tem a capacidade de criar scripts para automatizar estimativas ou cálculos estatísticos complexos.


2. R
R é um pacote de software freeware usado ativamente em estudos de comportamento humano e outras áreas. Ferramentas baseadas em R que simplificam as várias etapas do processo de processamento de informações estão disponíveis para vários aplicativos. R é um software de alto desempenho, mas dominá-lo não é tão simples. Além disso, seu uso exigirá habilidades de escrita de código.


3. MATLAB (Mathworks)
O MatLab é uma plataforma de análise e programação amplamente usada por especialistas e pesquisadores técnicos. Como no caso de R, o caminho de desenvolvimento é bastante espinhoso e, em um certo estágio, você precisará escrever seus próprios programas. Uma variedade de ferramentas ajudará a lidar com as tarefas de pesquisa (por exemplo, a ferramenta EEGLab foi projetada para analisar dados de EEG). Embora seja difícil para os iniciantes usar o MatLab, este pacote oferece possibilidades muito amplas, desde que você possa escrever código (ou pelo menos executar as ferramentas necessárias).

4. Microsoft Excel
O Microsoft Excel oferece uma variedade de ferramentas de visualização e funções estatísticas fáceis de usar, embora não seja uma ferramenta completa de análise estatística. É fácil trabalhar com números, calcular totais de resumo e criar gráficos personalizados. Essas são ferramentas úteis para quem deseja ver quais dados estão no centro das informações disponíveis. Como o Excel é usado por muitas pessoas e empresas, ele pode ser considerado uma opção acessível para iniciantes.

5. GraphPad Prism
O GraphPad Prism oferece muitas oportunidades que podem ser aplicadas em uma variedade de campos, especialmente em estatísticas relacionadas à biologia. Como o SPSS, análises e cálculos estatísticos sofisticados podem ser automatizados aqui usando scripts.

6. Minitab
O pacote de software Minitab oferece muitas ferramentas estatísticas básicas e bastante sofisticadas para avaliar informações. Como o GraphPad Prism, graças à sua interface gráfica do usuário e scripts, ele pode ser acessível tanto para iniciantes quanto para usuários que precisam de análises mais complexas.


Ferramentas do Pesquisador de Dados


1. R
R é um pacote de software livre para cálculos estatísticos e sua visualização. R compila e executa em muitas plataformas UNIX, Windows e macOS.


2. Python
Python é uma linguagem de programação popular desenvolvida por Guido van Rossum. O código fonte do idioma foi publicado pela primeira vez em 1991. O Python é usado para desenvolvimento de back-end, fabricação de computadores, matemática e scripts para sistemas.


3. Julia
A linguagem Julia foi criada originalmente para computação de alto desempenho. Para vários sistemas LLVM, os programas Julia são compilados em código nativo eficiente. Julia é uma linguagem de programação de digitação dinâmica que se parece com uma linguagem de script e tem ótimas dicas interativas no ambiente de desenvolvimento.


4. Tableau
O Tableau é uma das ferramentas de visualização de dados que mais cresce no setor de inteligência de negócios. Essa é a melhor maneira de converter dados brutos em formatos fáceis de entender que não exigem conhecimento técnico e habilidades de programação.


5. QlikView
O QlikView é uma das principais plataformas para descoberta de dados corporativos. Difere dos sistemas tradicionais de inteligência de negócios em várias características. Como ferramenta para analisar informações, sempre visualiza o relacionamento entre os dados usando cores e também exibe informações não relacionadas. A pesquisa direta e indireta é implementada inserindo consultas nos cabeçalhos da lista.


6. AWS
Oferecendo poder de computação, recursos de banco de dados e serviços de entrega de conteúdo, o Amazon Web Services (AWS), uma plataforma de nuvem segura, ajuda as empresas a expandir seus negócios. Milhões de clientes já estão usando a AWS e alternativas para desenvolver aplicativos complexos com grande flexibilidade, escalabilidade e confiabilidade.


7. Spark
O Apache Spark é uma estrutura de computação de cluster rápida. Ele suporta APIs de alto nível para Java, Scala, Python e R, bem como um mecanismo de processamento gráfico otimizado.


8. RapidMiner
O RapidMiner é uma plataforma tecnológica para processamento de dados. Inclui funções de preparação de dados, algoritmos de aprendizado de máquina e aprendizado profundo, ferramentas de análise de texto e um ambiente de análise preditiva. O RapidMiner suporta todas as ferramentas de aprendizado de máquina, incluindo a preparação de informações, a visualização de resultados, a verificação da conformidade com os requisitos do projeto e a otimização. O RapidMiner é usado nos negócios, na indústria, para treinamento e ensino, prototipagem rápida e desenvolvimento de software.


9. Databricks
A plataforma Databricks, que combina processamento de dados e suporte à tecnologia de negócios, foi projetada para profissionais, engenheiros e pesquisadores de dados. A plataforma suporta todo o ciclo de vida do aprendizado de máquina: da preparação de informações ao teste e implementação.


Diferenças salariais


A pesquisa de dados não é apenas mais procurada que o trabalho de estatísticos , mas também é mais bem paga. Segundo a Glassdoor, o salário médio de um pesquisador de dados nos Estados Unidos é de US $ 118.709 e as estatísticas são de US $ 75.069. Pesquisador de dados - um especialista versátil para a empresa, capaz de fornecer respostas a perguntas importantes. Geralmente ele recebe uma pergunta em aberto. O especialista descobre quais informações são necessárias, determina o prazo para a tarefa, realiza modelagem e análise e escreve um programa brilhante que permite obter uma resposta.


Oportunidades de carreira


Estatísticas de oportunidades de carreira


Técnico em Estatística
Os especialistas em estatística geralmente analisam as informações sob a supervisão de um estatístico sênior, que também pode ser seu mentor. Depois de algum tempo, muitos desses especialistas saem dos bastidores para postagens mais responsáveis ​​e independentes e assumem tarefas técnicas complexas.


Estatísticas Aplicadas
Os estatísticos aplicados são responsáveis ​​por coletar e preparar dados relevantes para análise de cada questão importante (ou realizar uma análise apropriada) e preparar um relatório com os resultados. Eles trabalham em estreita colaboração com outros especialistas técnicos e gerenciais, sendo parte integrante da equipe do projeto.


Estatístico Sênior
Um estatístico sênior tem uma gama maior de responsabilidades do que as estatísticas aplicadas. Ele explora questões de maneira abrangente para encontrar conexões com os objetivos da organização como um todo. Para oferecer novas idéias que beneficiarão organizações e clientes ao longo do tempo, estatísticos seniores são proativos. Frequentemente, eles se conectam nos estágios iniciais do projeto, ajudam a identificar problemas com base em números e recomendam maneiras de resolvê-los para a gerência sênior. Eles são recrutados para preparar e apresentar os resultados. Em questões estatísticas, elas geralmente são a melhor fonte de informação e experiência.


Chefe de Estatística
Os chefes dos departamentos de estatística, especialmente os mais jovens, estão envolvidos no planejamento do projeto, ajudando a determinar o que deve acontecer. Eles recrutam funcionários, dão conselhos e são responsáveis ​​pelos resultados gerais dos projetos. Eles informam os gerentes seniores sobre as realizações do departamento, ajudam seus funcionários no desenvolvimento de carreira e determinam as direções do desenvolvimento. Suas funções administrativas incluem recrutar e desenvolver funcionários, além de avaliar a eficácia de seu trabalho. Por razões óbvias, menos gerentes são necessários do que trabalhadores comuns.


Consultor Privado de Estatística
Alguns estatísticos aplicados tornam-se consultores privados independentes. Eles realizam estudos especiais, geralmente encomendados por organizações que não possuem estatísticos, ou avaliam o trabalho de outros estatísticos. Os consultores estatísticos são frequentemente envolvidos como especialistas na resolução de questões legais.


Analista de Dados de Oportunidades de Carreira


Explorador de dados
Os pesquisadores de dados trabalham com modelos estatísticos e matemáticos usados ​​para processar informações. A mente brilhante de um especialista em análise de dados será útil ao criar um sistema para avaliar o número de empréstimos que não podem ser reembolsados ​​no próximo mês.


Especialista em processamento de dados
Esses especialistas de base ampla usam sistemas de computação para processar grandes conjuntos de dados, contando com o conhecimento de desenvolvimento de software. Normalmente, cada um deles conhece várias linguagens de programação, como Python e Java. Normalmente, esses funcionários se concentram em escrever código, limpar dados e realizar consultas de pesquisadores de dados . Para converter o modelo preditivo criado pelo pesquisador de dados em código de programa, eles geralmente recorrem aos serviços de um especialista em processamento de dados.


Analista
E, finalmente, existem especialistas que pesquisam os dados, criam relatórios e visualizam o que esses dados carregam. Os analistas ajudam os funcionários da empresa a obter informações sobre questões específicas.


Sumário


Um analista destacado é um especialista valioso; seu estilo de codificação é otimizado em termos de velocidade. Mas ele não é estatístico , nem ruim, porque não tira conclusões finais baseadas em fatos. A principal tarefa do analista é declarar: "É isso que nossos dados contêm. Dizer o que se segue não é minha tarefa. Talvez o tomador de decisão queira obter estatísticas para descobrir. ”


É tudo, estamos esperando por todos no curso .

Source: https://habr.com/ru/post/pt459354/


All Articles