Quelle est la différence entre un chercheur de données et un statisticien?

Bonjour à tous. L'ensemble pour le nouveau cours d'Otus - "Applied Analytics on R" , qui commence déjà à la fin de ce mois, est ouvert. À cet égard, je souhaite partager une traduction de la publication sur la différence entre un analyste de données et un statisticien, qui à son tour utilise R dans la pratique.



Présentation


Au cours des dix dernières années, les volumes de données et leur taux d'apparition ont augmenté de façon exponentielle. Selon les rapports, plus de 3 quintillions d'octets de données apparaissent chaque jour! Il n'est pas surprenant qu'un nouveau métier de data scientist soit apparu pour travailler avec eux - un spécialiste polyvalent de l'analyse et du traitement des données. Cependant, les gens étaient engagés dans les statistiques avant l'avènement des outils de traitement de données numériques. Quelles sont les différences entre ces deux professions: chercheur en données et statistiques?


Voyons cela.


Qu'est-ce qu'un explorateur de données?


Un chercheur de données a des qualités professionnelles supérieures à n'importe quel ingénieur logiciel, et est également mieux versé dans le développement de logiciels que n'importe quel statisticien.
Les chercheurs de données travaillent avec de grandes quantités de données qui, en règle générale, sont dans les référentiels d'organisations ou sur des sites, mais en même temps, elles sont pratiquement inutiles en termes d'obtention d'avantages stratégiques ou financiers. Afin de fournir des recommandations et des suggestions pour prendre des décisions optimales, les chercheurs de données s'arment de plans statistiques et évaluent les données antérieures et actuelles de ces sources.


Dans les systèmes de marketing et de planification, les chercheurs en données se préoccupent principalement d'identifier des idées et des indicateurs statistiques qui peuvent être utiles pour préparer, mettre en œuvre et suivre des politiques de marketing axées sur les résultats.


Que sont les statistiques?


Les statisticiens collectent et évaluent des informations à la recherche de modèles de comportement ou de descriptions de l'environnement. Sur la base de ces informations, ils construisent des modèles. Ces modèles peuvent être utilisés pour prédire et comprendre l'univers.


Par exemple, les statistiques montrent qu'il est prudent de célébrer un anniversaire - plus la personne est âgée, plus il fête d'anniversaires.


Le chercheur dans le domaine de la statistique crée et utilise des modèles statistiques ou mathématiques pour aider à résoudre des problèmes réels sur la base de données utiles collectées et généralisées. Les données sont collectées, analysées et utilisées dans divers domaines, notamment l'ingénierie, les sciences et les affaires. Les données numériques accumulées aident les entreprises et leurs clients à comprendre les indicateurs quantitatifs et à suivre ou prédire les tendances utiles à la prise de décisions commerciales.


Différences de compétences


Explorateur de données


1. Éducation
Les informaticiens sont généralement hautement qualifiés - 88% d'entre eux ont une maîtrise et 46% sont candidats à un diplôme. Bien qu'il existe des exceptions à cette règle, en général, pour obtenir les connaissances et les compétences spécialisées nécessaires dans le domaine des sciences de l'information, une solide formation est généralement requise.


2. Programmation en R
Il est préférable que les analystes de données connaissent au moins un tel outil. R a été créé spécifiquement pour les besoins de la science des données. En utilisant R, vous pouvez traiter n'importe quelle information à des fins scientifiques. 43% des chercheurs de données utilisent R pour résoudre des problèmes statistiques. Cependant, R a un chemin d'étude plutôt épineux.


3. Programmation en Python
Python, avec Java, Perl et C / C ++, est l'un des langages de programmation les plus populaires pour la science des données. Pour les chercheurs de données, Python est une bonne option.


4. Plateforme Hadoop
Pas du tout, mais dans de nombreux cas, l'appropriation de cet outil est hautement souhaitable. La valeur d'un spécialiste augmente s'il a également de l'expérience avec Hive ou Pig. Des outils cloud tels qu'Amazon S3 peuvent également être utiles.


5. SQL: travailler avec les bases de données et la programmation
Les chercheurs en données doivent maîtriser SQL. Ce langage de programmation est spécialement conçu pour travailler avec des données. Il vous permet d'obtenir les informations qui vous intéressent à partir de bases de données à l'aide de brèves instructions de requête - rapidement et sans écrire de code encombrant.


6. Apprentissage automatique et intelligence artificielle
De nombreux chercheurs de données ne connaissent pas les algorithmes et les méthodes de l'apprentissage automatique, sans rien comprendre dans les réseaux de neurones, l'apprentissage profond et compétitif, et des choses similaires. Cependant, si vous voulez vous démarquer du reste des chercheurs de données , vous comprenez mieux des méthodes telles que l'apprentissage automatique avec un enseignant, les arbres de décision, la régression logistique, etc.


7. Visualisation des données
La quantité de données dans le monde de l'entreprise est énorme. Ils nécessitent une conversion vers des formats plus faciles à comprendre. En règle générale, les gens perçoivent mieux les données sous forme de graphiques et de tableaux.


8. Données non structurées
L'explorateur de données doit être prêt à travailler avec des données non structurées. Ces données sont dans un format arbitraire et ne sont pas stockées dans des bases de données - par exemple, des photographies, des entrées de blog, des avis clients, des publications sur les réseaux sociaux, des vidéos, des fichiers audio, etc.


9. Connaissance des principes commerciaux
Pour être chercheur dans le domaine de l'information, vous devez comprendre le secteur dans lequel vous travaillez, ainsi que les tâches commerciales auxquelles votre entreprise est confrontée.


10. Compétences en communication
Les entreprises qui recherchent un chercheur de données solide ont besoin d'une personne capable de transmettre les résultats techniques de manière compréhensible et libre à un public non central, comme les spécialistes du marketing ou les professionnels de la vente.


Statistiques


  • Connaissance approfondie de la théorie des probabilités et des statistiques inductives.
  • La capacité de travailler avec des chiffres - cette compétence reflète le niveau général d'intelligence, et son développement contribue largement à la réalisation des objectifs de l'organisation.
  • Compétences analytiques - la capacité de collecter et d'évaluer des données, de résoudre des problèmes et de faire des choix. Ces compétences aideront à résoudre les problèmes auxquels l'entreprise est confrontée, à augmenter la productivité du travail et à atteindre les objectifs de l'entreprise.
  • Compétences en communication écrite et orale.
  • De bonnes compétences interpersonnelles sont des caractéristiques et des comportements que nous démontrons lorsque nous interagissons avec les autres. Ils sont considérés comme l'une des compétences socio-psychologiques les plus pertinentes. Nous les utilisons dans toutes les situations d'interaction verbale et non verbale. En effet, les principaux traits de personnalité et l’attitude de la personne au travail ont une influence décisive sur sa capacité à réussir dans un poste particulier.

Différences d'outils


Outils statistiques


1. SPSS
Le progiciel statistique pour les sciences sociales (SPSS) est sans doute le logiciel statistique le plus courant dans le domaine de la recherche sur le comportement humain. L'interface visuelle de SPSS vous permet de combiner des statistiques descriptives et les résultats d'analyses paramétriques et non paramétriques, présentés sous forme graphique. SPSS a la capacité de créer des scripts pour automatiser des estimations ou des calculs statistiques complexes.


2. R
R est un progiciel gratuit qui est activement utilisé dans les études du comportement humain et d'autres domaines. Des outils basés sur R qui simplifient les différentes étapes du processus de traitement de l'information sont disponibles pour diverses applications. R est un logiciel performant, mais sa maîtrise n'est pas si simple. De plus, son utilisation nécessitera des compétences en écriture de code.


3. MATLAB (Mathworks)
MatLab est une plateforme d'analyse et de programmation largement utilisée par les experts techniques et les chercheurs. Comme dans le cas de R, le chemin de développement est plutôt épineux, et à un certain stade, vous devrez écrire vos propres programmes. Une variété d'outils aidera à faire face aux tâches de recherche (par exemple, l'outil EEGLab est conçu pour analyser les données EEG). Bien qu'il soit difficile pour les débutants d'utiliser MatLab, ce package offre de très larges possibilités, à condition que vous puissiez écrire du code (ou au moins exécuter les outils nécessaires).

4. Microsoft Excel
Microsoft Excel propose une gamme d'outils de visualisation et de fonctions statistiques faciles à utiliser, bien qu'il ne s'agisse pas d'un outil d'analyse statistique complet. Il est facile de travailler avec des nombres, de calculer des totaux récapitulatifs et de créer des graphiques personnalisés. Ce sont des outils utiles pour ceux qui veulent voir quelles données sont au cœur des informations disponibles. Étant donné qu'Excel est utilisé par de nombreuses personnes et entreprises, il peut être considéré comme une option abordable pour les débutants.

5. Prisme GraphPad
GraphPad Prism offre de nombreuses opportunités qui peuvent être appliquées dans une variété de domaines, en particulier dans les statistiques liées à la biologie. Comme SPSS, l'analyse et les calculs statistiques sophistiqués peuvent être automatisés ici à l'aide de scripts.

6. Minitab
Le progiciel Minitab propose de nombreux outils statistiques de base et assez sophistiqués pour évaluer les informations. Comme GraphPad Prism, grâce à son interface utilisateur graphique et ses scripts, il peut être accessible à la fois aux débutants et aux utilisateurs qui ont besoin d'une analyse plus complexe.


Outils de recherche de données


1. R
R est un progiciel gratuit pour les calculs statistiques et leur visualisation. R compile et s'exécute sur de nombreuses plates-formes UNIX, Windows et macOS.


2. Python
Python est un langage de programmation populaire développé par Guido van Rossum. Le code source de la langue a été publié pour la première fois en 1991. Python est utilisé pour le développement backend, la fabrication d'ordinateurs, les mathématiques et les scripts pour les systèmes.


3. Julia
Le langage Julia a été créé à l'origine pour l'informatique haute performance. Pour divers systèmes LLVM, les programmes Julia sont compilés en code natif efficace. Julia est un langage de programmation de frappe dynamique qui ressemble à un langage de script et propose d'excellents conseils interactifs dans l'environnement de développement.


4. Tableau
Tableau est l'un des outils de visualisation de données à la croissance la plus rapide dans le secteur de l'intelligence d'affaires. C'est le meilleur moyen de convertir des données brutes dans des formats faciles à comprendre qui ne nécessitent pas de connaissances techniques ni de compétences en programmation.


5. QlikView
QlikView est l'une des principales plateformes de découverte de données d'entreprise. Il diffère des systèmes de veille économique traditionnels par un certain nombre de caractéristiques. En tant qu'outil d'analyse des informations, il visualise toujours la relation entre les données à l'aide de la couleur et affiche également des informations non liées. La recherche directe et indirecte est implémentée en entrant des requêtes dans les en-têtes de liste.


6. AWS
Offrant une puissance de calcul, des ressources de base de données et des services de diffusion de contenu, Amazon Web Services (AWS), une plateforme cloud sécurisée, aide les entreprises à développer leurs activités. Des millions de clients utilisent déjà AWS et des alternatives pour développer des applications complexes avec une grande flexibilité, évolutivité et fiabilité.


7. Spark
Apache Spark est un cadre informatique de cluster rapide. Il prend en charge des API de haut niveau pour Java, Scala, Python et R, ainsi qu'un moteur de traitement graphique optimisé.


8. RapidMiner
RapidMiner est une plate-forme technologique pour le traitement des données. Il comprend des fonctions de préparation des données, des algorithmes d'apprentissage automatique et d'apprentissage en profondeur, des outils d'analyse de texte et un environnement d'analyse prédictive. RapidMiner prend en charge tous les outils d'apprentissage automatique, y compris la préparation des informations, la visualisation des résultats, la vérification de la conformité aux exigences du projet et l'optimisation. RapidMiner est utilisé dans les entreprises, l'industrie, pour la formation et l'enseignement, le prototypage rapide et le développement de logiciels.


9. Databricks
La plate-forme Databricks, qui combine le traitement des données et le support des technologies commerciales, est conçue pour les professionnels des données, les ingénieurs et les chercheurs. La plateforme prend en charge l'intégralité du cycle de vie de l'apprentissage automatique: de la préparation des informations au test et à la mise en œuvre.


Différences salariales


La recherche de données est non seulement plus demandée que le travail des statisticiens , mais aussi mieux payée. Selon Glassdoor, le salaire moyen pour un chercheur de données aux États-Unis est de 118 709 $ et les statistiques sont de 75 069 $. Data Researcher - un spécialiste polyvalent pour l'entreprise, capable de répondre aux questions importantes. Habituellement, il reçoit une question ouverte. Le spécialiste découvre les informations nécessaires, détermine la date limite pour la tâche, effectue la modélisation et l'analyse et écrit un programme brillant qui vous permet d'obtenir une réponse.


Opportunités de carrière


Statistiques sur les opportunités de carrière


Technicien en statistique
Les experts en statistique analysent généralement les informations sous la supervision d'un statisticien principal, qui peut également être leur mentor. Après un certain temps, beaucoup de ces spécialistes quittent les coulisses pour des postes plus responsables et indépendants et assument des tâches techniques complexes.


Statistiques appliquées
Les statisticiens appliqués doivent s'assurer que, pour chaque problème important, des données appropriées sont collectées et préparées pour l'analyse (ou qu'une analyse appropriée a été effectuée) et qu'un rapport est préparé avec les résultats. Ils travaillent en étroite collaboration avec d'autres experts techniques et la direction, faisant partie intégrante de l'équipe de projet.


Statisticien principal
Un statisticien principal a un éventail de responsabilités plus large que les statistiques appliquées. Il explore les problèmes de manière approfondie pour trouver des liens avec les objectifs de l'organisation dans son ensemble. Pour proposer de nouvelles idées qui profiteront aux organisations et aux clients au fil du temps, les statisticiens seniors sont proactifs. Souvent, ils se connectent aux premiers stades du projet, aident à identifier les problèmes en fonction des chiffres et recommandent des moyens de les résoudre à la haute direction. Ils sont ensuite recrutés pour préparer et présenter les résultats. En matière statistique, ils sont souvent la meilleure source d'informations et d'expérience.


Chef des statistiques
Les chefs des services statistiques, en particulier les plus jeunes, participent à la planification du projet, aidant à déterminer ce qui doit se passer. Ils recrutent des employés, donnent des conseils et sont responsables des résultats globaux des projets. Ils informent les cadres supérieurs sur les réalisations du département, aident leurs employés dans le développement de carrière et déterminent les orientations de développement. Leurs tâches administratives comprennent le recrutement et le perfectionnement des employés, ainsi que l'évaluation de l'efficacité de leur travail. Pour des raisons évidentes, moins de gestionnaires sont nécessaires que les travailleurs ordinaires.


Consultant privé en statistique
Certains statisticiens appliqués deviennent des consultants privés indépendants. Ils effectuent des études spéciales, souvent commandées par des organisations qui n'ont pas de statisticiens, ou évaluent le travail d'autres statisticiens. Les consultants en statistique sont souvent impliqués en tant qu'experts dans la résolution des problèmes juridiques.


Analyste des données sur les opportunités de carrière


Explorateur de données
Les chercheurs en données travaillent avec des modèles statistiques et mathématiques utilisés pour traiter l'information. L'esprit brillant d'un spécialiste de l'analyse des données sera utile lors de la création d'un système d'évaluation du nombre de prêts qui ne peuvent être remboursés le mois prochain.


Spécialiste informatique
Ces spécialistes de grande envergure utilisent des systèmes informatiques pour traiter de grands ensembles de données, en s'appuyant sur leur connaissance du développement de logiciels. En règle générale, chacun d'eux connaît plusieurs langages de programmation, tels que Python et Java. En règle générale, ces employés se concentrent sur la rédaction de code, la suppression de données et l'exécution de requêtes de chercheurs de données . Pour convertir le modèle prédictif créé par le chercheur de données en code de programme, ils ont généralement recours aux services d'un spécialiste du traitement des données.


Analyste
Et enfin, il y a des experts qui recherchent les données, créent des rapports et visualisent ce que ces données véhiculent. Les analystes aident les employés de l'entreprise à obtenir des informations sur des problèmes spécifiques.


Résumé


Un analyste exceptionnel est un spécialiste précieux; son style de codage est optimisé en termes de vitesse. Mais ce n'est pas un statisticien , pas même un mauvais, car il ne tire pas de conclusions définitives fondées sur des faits. La tâche principale de l'analyste est de déclarer: «C'est ce que contiennent nos données. Dire ce qui en découle n'est pas ma tâche. Le décideur voudra peut-être obtenir des statistiques pour le savoir. »


C’est tout, nous attendons tout le monde sur le parcours .

Source: https://habr.com/ru/post/fr459354/


All Articles