Was ist der Unterschied zwischen einem Datenforscher und einem Statistiker?

Hallo an alle. Das Set für den neuen Kurs von Otus - "Applied Analytics on R" , der bereits Ende dieses Monats beginnt, ist geöffnet. In diesem Zusammenhang möchte ich eine Übersetzung der Veröffentlichung über den Unterschied zwischen einem Datenanalysten und einem Statistiker teilen, der wiederum R in der Praxis verwendet.



Einführung


In den letzten zehn Jahren sind das Datenvolumen und die Häufigkeit ihres Auftretens exponentiell gestiegen. Berichten zufolge erscheinen jeden Tag mehr als 3 Billionen Datenbytes! Es ist nicht verwunderlich, dass ein neuer Beruf eines Datenwissenschaftlers entstanden ist, der mit ihnen zusammenarbeitet - ein vielseitiger Spezialist für Datenanalyse und -verarbeitung. Vor dem Aufkommen digitaler Datenverarbeitungswerkzeuge beschäftigten sich die Menschen jedoch mit Statistiken. Was sind die Unterschiede zwischen diesen beiden Berufen: Daten- und Statistikforscher?


Lass es uns herausfinden.


Wer ist ein Datenexplorer?


Ein Datenforscher ist in seinen beruflichen Qualitäten jedem Softwareentwickler überlegen und kennt sich auch in der Softwareentwicklung besser aus als jeder Statistiker.
Datenforscher arbeiten mit großen Datenmengen, die sich in der Regel in den Repositories von Organisationen oder auf Websites befinden, aber gleichzeitig praktisch nutzlos sind, um strategische oder finanzielle Vorteile zu erzielen. Um Empfehlungen und Vorschläge für optimale Entscheidungen zu geben, rüsten sich Datenforscher mit statistischen Plänen aus und werten frühere und aktuelle Daten aus solchen Quellen aus.


In Marketing- und Planungssystemen befassen sich Datenforscher hauptsächlich mit der Identifizierung von Ideen und statistischen Indikatoren, die für die Vorbereitung, Implementierung und Verfolgung ergebnisorientierter Marketingrichtlinien hilfreich sein können.


Was sind Statistiken?


Statistiker sammeln und bewerten Informationen auf der Suche nach Verhaltensmustern oder Beschreibungen der Umgebung. Basierend auf diesen Informationen erstellen sie Modelle. Diese Modelle können verwendet werden, um das Universum vorherzusagen und zu verstehen.


Zum Beispiel zeigen Statistiken, dass es sicher ist, einen Geburtstag zu feiern - je älter die Person ist, desto mehr Geburtstage hat sie gefeiert.


Der Forscher auf dem Gebiet der Statistik erstellt und verwendet statistische oder mathematische Modelle, um reale Probleme auf der Grundlage gesammelter und verallgemeinerter nützlicher Daten zu lösen. Daten werden in verschiedenen Bereichen gesammelt, analysiert und verwendet, einschließlich Ingenieurwesen, Wissenschaft und Wirtschaft. Die gesammelten numerischen Daten helfen Unternehmen und ihren Kunden, quantitative Indikatoren zu verstehen und Trends zu verfolgen oder vorherzusagen, die für Geschäftsentscheidungen nützlich sind.


Fähigkeitsunterschiede


Datenexplorer


1. Bildung
Informatiker sind in der Regel gut ausgebildet - 88% von ihnen haben einen Master-Abschluss und 46% sind Kandidaten für einen Kandidaten-Abschluss. Obwohl es im Allgemeinen Ausnahmen von dieser Regel gibt, um das erforderliche Fachwissen und die erforderlichen Fähigkeiten auf dem Gebiet der Informationswissenschaft zu erlangen, ist in der Regel eine gründliche Ausbildung erforderlich.


2. Programmierung in R.
Datenanalysten sollten mindestens ein solches Tool kennen. R wurde speziell für die Bedürfnisse der Datenwissenschaft entwickelt. Mit R können Sie alle Informationen für wissenschaftliche Zwecke verarbeiten. 43% der Datenforscher verwenden R, um statistische Probleme zu lösen. R hat jedoch einen ziemlich dornigen Studienweg.


3. Programmieren in Python
Python ist neben Java, Perl und C / C ++ eine der beliebtesten Programmiersprachen für die Datenwissenschaft. Für Datenforscher ist Python eine gute Option.


4. Hadoop-Plattform
Nicht in allen Fällen, aber in vielen Fällen ist der Besitz dieses Tools äußerst wünschenswert. Der Wert eines Spezialisten steigt, wenn er auch Erfahrung mit Hive oder Pig hat. Cloud-Tools wie Amazon S3 können ebenfalls nützlich sein.


5. SQL: Arbeiten mit Datenbanken und Programmieren
Datenforscher müssen sich mit SQL auskennen. Diese Programmiersprache wurde speziell für die Arbeit mit Daten entwickelt. Mithilfe kurzer Abfrageanweisungen können Sie die gewünschten Informationen aus Datenbanken abrufen - schnell und ohne umständlichen Code zu schreiben.


6. Maschinelles Lernen und künstliche Intelligenz
Viele Datenforscher kennen die Algorithmen und Methoden des maschinellen Lernens nicht, ohne etwas in neuronalen Netzen, tiefem und wettbewerbsfähigem Lernen und ähnlichen Dingen zu verstehen. Wenn Sie sich jedoch von den anderen Datenforschern abheben möchten, verstehen Sie Methoden wie maschinelles Lernen mit einem Lehrer, Entscheidungsbäume, logistische Regression usw. besser.


7. Datenvisualisierung
Die Datenmenge in der Unternehmenswelt ist enorm. Sie müssen in leicht verständliche Formate konvertiert werden. In der Regel nehmen Menschen Daten in Form von Grafiken und Diagrammen besser wahr.


8. Unstrukturierte Daten
Der Datenexplorer muss darauf vorbereitet sein, mit unstrukturierten Daten zu arbeiten. Solche Daten haben ein beliebiges Format und werden nicht in Datenbanken gespeichert, z. B. Fotos, Blogeinträge, Kundenbewertungen, Beiträge in sozialen Netzwerken, Videos, Audiodateien usw.


9. Kenntnis der Geschäftsgrundsätze
Um ein Forscher auf dem Gebiet der Information zu sein, müssen Sie den Sektor, in dem Sie arbeiten, sowie die Geschäftsaufgaben Ihres Unternehmens verstehen.


10. Kommunikationsfähigkeiten
Unternehmen, die einen starken Datenforscher suchen, benötigen eine Person, die technische Ergebnisse klar und frei an ein nicht zum Kerngeschäft gehörendes Publikum wie Vermarkter oder Vertriebsspezialisten weitergeben kann.


Statistik


  • Tiefe Kenntnisse der Wahrscheinlichkeitstheorie und der induktiven Statistik.
  • Die Fähigkeit, mit Zahlen zu arbeiten - diese Fähigkeit spiegelt das allgemeine Intelligenzniveau wider und ihre Entwicklung trägt wesentlich zur Erreichung der Unternehmensziele bei.
  • Analytische Fähigkeiten - die Fähigkeit, Daten zu sammeln und auszuwerten, Probleme zu lösen und Entscheidungen zu treffen. Diese Fähigkeiten werden dazu beitragen, die Probleme des Unternehmens zu lösen, die Arbeitsproduktivität zu steigern und die Unternehmensziele zu erreichen.
  • Schreib- und mündliche Kommunikationsfähigkeiten.
  • Gute zwischenmenschliche Fähigkeiten sind Merkmale und Verhaltensweisen, die wir im Umgang mit anderen demonstrieren. Sie gelten als eine der wichtigsten sozialpsychologischen Fähigkeiten. Wir verwenden sie in allen Situationen der verbalen und nonverbalen Interaktion. In der Tat haben die wichtigsten Persönlichkeitsmerkmale und die Einstellung der Person zur Arbeit einen entscheidenden Einfluss auf ihre Fähigkeit, in einer bestimmten Position erfolgreich zu sein.

Werkzeugunterschiede


Statistik-Tools


1. SPSS
Das Statistical Package for the Social Sciences (SPSS) ist wohl die häufigste statistische Software auf dem Gebiet der menschlichen Verhaltensforschung. Über die visuelle Oberfläche von SPSS können Sie beschreibende Statistiken und die Ergebnisse parametrischer und nicht parametrischer Analysen in grafischer Form kombinieren. SPSS kann Skripte erstellen, um Schätzungen oder komplexe statistische Berechnungen zu automatisieren.


2. R.
R ist ein Freeware-Softwarepaket, das aktiv in Studien zum menschlichen Verhalten und in anderen Bereichen verwendet wird. Für verschiedene Anwendungen stehen R-basierte Tools zur Verfügung, die die verschiedenen Schritte des Informationsverarbeitungsprozesses vereinfachen. R ist eine Hochleistungssoftware, aber das Beherrschen ist nicht so einfach. Darüber hinaus erfordert seine Verwendung Fähigkeiten zum Schreiben von Code.


3. MATLAB (Mathworks)
MatLab ist eine Analyse- und Programmierplattform, die von technischen Experten und Forschern häufig verwendet wird. Wie im Fall von R ist der Entwicklungspfad ziemlich schwierig, und zu einem bestimmten Zeitpunkt müssen Sie Ihre eigenen Programme schreiben. Eine Vielzahl von Tools hilft bei der Bewältigung von Forschungsaufgaben (z. B. dient das EEGLab-Tool zur Analyse von EEG-Daten). Obwohl es für Anfänger schwierig sein wird, MatLab zu verwenden, bietet dieses Paket sehr breite Möglichkeiten, vorausgesetzt, Sie können Code schreiben (oder zumindest die erforderlichen Tools ausführen).

4. Microsoft Excel
Microsoft Excel bietet eine Reihe von Visualisierungstools und benutzerfreundlichen statistischen Funktionen, obwohl es sich nicht um ein vollständiges statistisches Analysetool handelt. Es ist einfach, mit Zahlen zu arbeiten, Gesamtsummen zu berechnen und benutzerdefinierte Diagramme zu erstellen. Dies sind nützliche Tools für diejenigen, die sehen möchten, welche Daten den Kern der verfügbaren Informationen bilden. Da Excel von vielen Menschen und Unternehmen verwendet wird, kann es als erschwingliche Option für Anfänger angesehen werden.

5. GraphPad Prism
GraphPad Prism bietet viele Möglichkeiten, die in einer Vielzahl von Bereichen angewendet werden können, insbesondere in Statistiken in Bezug auf Biologie. Wie bei SPSS können hier Analysen und ausgefeilte statistische Berechnungen mithilfe von Skripten automatisiert werden.

6. Minitab
Das Minitab-Softwarepaket bietet viele grundlegende und ziemlich ausgefeilte statistische Tools zur Auswertung von Informationen. Wie GraphPad Prism ist es dank seiner grafischen Benutzeroberfläche und Skripten sowohl für Anfänger als auch für Benutzer zugänglich, die komplexere Analysen benötigen.


Datenforscher-Tools


1. R.
R ist ein kostenloses Softwarepaket für statistische Berechnungen und deren Visualisierung. R wird auf vielen UNIX-, Windows- und MacOS-Plattformen kompiliert und ausgeführt.


2. Python
Python ist eine beliebte Programmiersprache, die von Guido van Rossum entwickelt wurde. Der Quellcode für die Sprache wurde erstmals 1991 veröffentlicht. Python wird für die Backend-Entwicklung, Computerherstellung, Mathematik und Skripterstellung für Systeme verwendet.


3. Julia
Die Julia-Sprache wurde ursprünglich für Hochleistungsrechnen entwickelt. Für verschiedene LLVM-Systeme werden Julia-Programme zu effizientem nativem Code kompiliert. Julia ist eine dynamische Schreibprogrammiersprache, die wie eine Skriptsprache aussieht und großartige interaktive Tipps in der Entwicklungsumgebung bietet.


4. Tableau
Tableau ist eines der am schnellsten wachsenden Datenvisualisierungstools im Business Intelligence-Bereich. Dies ist der beste Weg, um Rohdaten in leicht verständliche Formate zu konvertieren, für die keine technischen Kenntnisse und Programmierkenntnisse erforderlich sind.


5. QlikView
QlikView ist eine der Hauptplattformen für die Erkennung von Unternehmensdaten. Es unterscheidet sich von herkömmlichen Business-Intelligence-Systemen in einer Reihe von Merkmalen. Als Werkzeug zur Analyse von Informationen visualisiert es immer die Beziehung zwischen Daten mithilfe von Farbe und zeigt auch nicht verwandte Informationen an. Die direkte und indirekte Suche wird durch Eingabe von Abfragen in die Listenüberschriften implementiert.


6. AWS
Amazon Web Services (AWS), eine sichere Cloud-Plattform, bietet Rechenleistung, Datenbankressourcen und Dienste für die Bereitstellung von Inhalten und unterstützt Unternehmen dabei, ihr Geschäft auszubauen. Millionen von Kunden verwenden bereits AWS und Alternativen, um komplexe Anwendungen mit großer Flexibilität, Skalierbarkeit und Zuverlässigkeit zu entwickeln.


7. Funken
Apache Spark ist ein schnelles Cluster-Computing-Framework. Es unterstützt High-Level-APIs für Java, Scala, Python und R sowie eine optimierte Grafikverarbeitungs-Engine.


8. RapidMiner
RapidMiner ist eine Technologieplattform für die Datenverarbeitung. Es umfasst Datenvorbereitungsfunktionen, Algorithmen für maschinelles Lernen und tiefes Lernen, Textanalysetools und eine prädiktive Analyseumgebung. RapidMiner unterstützt alle Tools für maschinelles Lernen, einschließlich der Vorbereitung von Informationen, der Visualisierung von Ergebnissen, der Überprüfung der Einhaltung der Projektanforderungen und der Optimierung. RapidMiner wird in Wirtschaft, Industrie, für Schulung und Lehre, Rapid Prototyping und Softwareentwicklung eingesetzt.


9. Databricks
Die Databricks-Plattform, die Datenverarbeitung und Unterstützung für Geschäftstechnologien kombiniert, richtet sich an Datenprofis, Ingenieure und Forscher. Die Plattform unterstützt den gesamten Lebenszyklus des maschinellen Lernens: von der Aufbereitung der Informationen bis zum Testen und Implementieren.


Lohnunterschiede


Datenrecherche ist nicht nur gefragter als die Arbeit von Statistikern , sondern auch besser bezahlt. Laut Glassdoor beträgt das durchschnittliche Gehalt eines Datenforschers in den USA 118.709 US-Dollar und die Statistik 75.069 US-Dollar. Data Researcher - ein vielseitiger Spezialist für Unternehmen, der Antworten auf wichtige Fragen geben kann. Normalerweise bekommt er eine offene Frage. Der Spezialist findet heraus, welche Informationen benötigt werden, legt den Termin für die Aufgabe fest, führt Modellierung und Analyse durch und schreibt ein brillantes Programm, mit dem Sie eine Antwort erhalten.


Karrieremöglichkeiten


Statistiken zu Karrieremöglichkeiten


Statistischer Techniker
Statistische Experten analysieren Informationen im Allgemeinen unter der Aufsicht eines hochrangigen Statistikers, der auch ihr Mentor sein kann. Nach einiger Zeit verlassen viele solcher Spezialisten die Backstage für verantwortungsbewusstere und unabhängigere Positionen und übernehmen komplexe technische Aufgaben.


Angewandte Statistik
Angewandte Statistiker sind dafür verantwortlich, dass für jedes wichtige Problem geeignete Daten gesammelt und für die Analyse vorbereitet werden (oder eine entsprechende Analyse durchgeführt wurde) und ein Bericht mit den Ergebnissen erstellt wird. Sie arbeiten eng mit anderen technischen Experten und dem Management zusammen und sind ein wesentlicher Bestandteil des Projektteams.


Leitender Statistiker
Ein leitender Statistiker hat ein breiteres Verantwortungsspektrum als angewandte Statistiken. Er untersucht Themen umfassend, um Verbindungen zu den Zielen der gesamten Organisation zu finden. Um neue Ideen anzubieten, die Organisationen und Kunden im Laufe der Zeit zugute kommen, sind hochrangige Statistiker proaktiv. Oft verbinden sie sich in der Anfangsphase des Projekts, helfen bei der Identifizierung von Problemen anhand von Zahlen und empfehlen der Geschäftsleitung Möglichkeiten, diese zu lösen. Sie werden dann angeworben, um die Ergebnisse vorzubereiten und zu präsentieren. In statistischen Angelegenheiten sind sie oft die beste Informations- und Erfahrungsquelle.


Leiter Statistik
Die Leiter der Statistikabteilungen, insbesondere der jüngsten, sind an der Projektplanung beteiligt und helfen bei der Festlegung, was geschehen soll. Sie stellen Mitarbeiter ein, beraten und sind für die Gesamtergebnisse der Projekte verantwortlich. Sie informieren Führungskräfte über die Leistungen der Abteilung, helfen ihren Mitarbeitern bei der Karriereentwicklung und legen Entwicklungsrichtungen fest. Zu ihren administrativen Aufgaben gehören die Rekrutierung und Entwicklung von Mitarbeitern sowie die Bewertung der Effektivität ihrer Arbeit. Aus offensichtlichen Gründen sind weniger Manager erforderlich als normale Arbeitnehmer.


Privater Berater für Statistik
Einige angewandte Statistiker werden unabhängige private Berater. Sie führen spezielle Studien durch, die häufig von Organisationen in Auftrag gegeben werden, die keine Statistiker haben, oder bewerten die Arbeit anderer Statistiker. Statistische Berater sind häufig als Experten an der Lösung von Rechtsfragen beteiligt.


Karrieremöglichkeiten Data Analyst


Datenexplorer
Datenforscher arbeiten mit statistischen und mathematischen Modellen, die zur Verarbeitung von Informationen verwendet werden. Der kluge Verstand eines Datenanalysespezialisten wird sich als nützlich erweisen, wenn Sie ein System zur Bewertung der Anzahl der Kredite erstellen, die im nächsten Monat nicht zurückgezahlt werden können.


Datenverarbeitungsspezialist
Diese breit aufgestellten Spezialisten verwenden Computersysteme, um große Datenmengen zu verarbeiten, und verlassen sich dabei auf ihr Wissen über die Softwareentwicklung. In der Regel kennt jeder von ihnen mehrere Programmiersprachen wie Python und Java. In der Regel konzentrieren sich diese Mitarbeiter darauf, Code zu schreiben, Daten zu löschen und Abfragen von Datenforschern durchzuführen. Um das vom Datenforscher erstellte Vorhersagemodell in Programmcode umzuwandeln, greifen sie normalerweise auf die Dienste eines Datenverarbeitungsspezialisten zurück.


Analyst
Und schließlich gibt es Experten, die die Daten recherchieren, Berichte erstellen und visualisieren, was diese Daten enthalten. Analysten helfen Mitarbeitern des Unternehmens, Informationen zu bestimmten Themen zu erhalten.


Zusammenfassung


Ein hervorragender Analyst ist ein wertvoller Spezialist. Sein Codierungsstil ist hinsichtlich der Geschwindigkeit optimiert. Aber er ist kein Statistiker , nicht einmal ein schlechter, weil er keine endgültigen Schlussfolgerungen auf der Grundlage von Fakten zieht. Die Hauptaufgabe des Analysten besteht darin, Folgendes zu erklären: „Dies ist, was unsere Daten enthalten. Zu sagen, was daraus folgt, ist nicht meine Aufgabe. Vielleicht möchte der Entscheidungsträger Statistiken erhalten , um dies herauszufinden. “


Das ist alles, wir warten auf alle auf dem Kurs .

Source: https://habr.com/ru/post/de459354/


All Articles