In Bezug auf Wissen erwarten Data Science-Experten viel: maschinelles Lernen, Programmierung, Statistik, Mathematik, Datenvisualisierung, Kommunikation und Deep Learning. Jeder dieser Bereiche umfasst Dutzende von Sprachen, Frameworks und Technologien, die für das Studium zur Verfügung stehen. Wie ist es für Datenfachleute besser, ihr Schulungszeitbudget so zu verwalten, dass sie von den Arbeitgebern bewertet werden können?
Ich habe die Baustellen sorgfältig studiert, um herauszufinden, welche Fähigkeiten derzeit bei Arbeitgebern am beliebtesten sind. Ich habe sowohl die umfassenderen Disziplinen im Zusammenhang mit der Arbeit mit Daten als auch bestimmte Sprachen und Tools als Teil einer separaten Studie betrachtet. Als Material habe ich mich ab dem 10. Oktober 2018 an
LinkedIn ,
Indeed ,
SimplyHired ,
Monster und
AngelList gewandt . Die folgende Grafik zeigt, wie viele Data Science-Jobs in jeder dieser Ressourcen dargestellt sind.
Ich habe viele Stellenbeschreibungen und Umfragen studiert, um zu verstehen, welche Fähigkeiten am häufigsten erwähnt werden. Begriffe wie „Management“ wurden nicht in die Analyse einbezogen, da sie auf Baustellen in einer Vielzahl unterschiedlicher Kontexte verwendet werden.
Die Suche wurde in den USA basierend auf den Begriffen "Data Science", "Keyword" durchgeführt. Um die Ausgabe zu reduzieren, habe ich nur die genauen Vorkommen ausgewählt. Auf die eine oder andere Weise stellte eine ähnliche Methode sicher, dass alle Ergebnisse für die Datenwissenschaft relevant waren und für alle Abfragen dieselben Kriterien gelten.
AngelList gibt nicht die Gesamtzahl der offenen Stellen im Zusammenhang mit der Arbeit mit Daten an, sondern die Gesamtzahl der Unternehmen, die solche offenen Stellen anbieten. Ich habe diese Seite von beiden Studien ausgeschlossen, da ihr Suchalgorithmus anscheinend auf dem "ODER" -Prinzip basiert und es nicht möglich macht, irgendwie auf das "Und" -Modell umzuschalten. Sie können mit AngelList arbeiten, wenn Sie etwas im Sinne von "Data Scientist" "TensorFlow" eingeben. In diesem Fall bedeutet das Abgleichen der zweiten Abfrage das Abgleichen der ersten. Wenn Sie jedoch Schlüsselwörter im Sinne von "Data Scientist" "react.js" verwenden, gibt es viele offene Stellen, die nicht mit Data Science zusammenhängen.
Materialien mit Glassdoor mussten ebenfalls ausgeschlossen werden. Die Website gab an, Informationen zu 26.263 offenen Stellen bei der Arbeit mit Daten zu haben, tatsächlich wurden jedoch maximal 900 angezeigt. Außerdem scheint es mir äußerst zweifelhaft, dass sie mehr als dreimal so viele offene Stellen wie jede andere große Website gesammelt haben.
Für die letzte Phase der Studie habe ich Keywords ausgewählt, für die es auf LinkedIn eine große Rendite gab: mehr als 400 Ergebnisse für breit angelegte Fähigkeiten, mehr als 200 für private Technologien. Natürlich gab es einige doppelte Angebote. Ich habe die Ergebnisse dieser Phase in einem
Google-Dokument aufgezeichnet.
Dann habe ich die Dateien im CSV-Format heruntergeladen, sie in JupyterLab hochgeladen, den Prävalenzgrad der einzelnen Dateien als Prozentsatz berechnet und die erhaltenen Werte über verschiedene Ressourcen gemittelt. Anschließend habe ich die Ergebnisse nach Sprache mit denen verglichen, die in der
Studie zu Stellenangeboten aus dem Bereich Data Science von Glassdoor im ersten Halbjahr 2017 vorgestellt wurden. Wenn Sie die Informationen aus der
Umfrage zur Verwendung von KDNuggets hinzufügen, scheinen einige Fähigkeiten an Popularität zu gewinnen, während andere allmählich an Wert verlieren. Aber dazu später mehr.
In meinem
Kaggle-Kernel finden Sie interaktive Grafiken und zusätzliche Analysen. Zur Visualisierung habe ich Plotly verwendet. Um mit Plotly und JupyterLab in einem Haufen arbeiten zu können, müssen Sie etwas spielen, zumindest das war zum Zeitpunkt dieses Schreibens - die Anweisungen finden Sie am Ende meines Kaggle-Kernels sowie in der
Plotly-Dokumentation .
Breite Fähigkeiten
Hier ist eine Grafik, die die beliebtesten allgemeinen Fähigkeiten darstellt, die Arbeitgeber den Bewerbern zeigen möchten.
Die Ergebnisse zeigen, dass Analytik und maschinelles Lernen weiterhin die Grundlage für die Arbeit von Data-Science-Experten bilden. Der Hauptzweck dieser Spezialität besteht darin, nützliche Schlussfolgerungen auf der Grundlage von Datenarrays zu ziehen. Maschinelles Lernen zielt darauf ab, Systeme zu schaffen, die den Verlauf von Ereignissen vorhersagen können, und es ist sehr gefragt.
Die Datenverarbeitung erfordert Kenntnisse der Statistik und die Fähigkeit, Code zu schreiben - es gibt nichts, worüber man sich wundern könnte. Darüber hinaus sind Statistik, Mathematik und Softwareentwicklung Fachgebiete, in denen Schulungen an Universitäten durchgeführt werden, was sich auch auf die Häufigkeit von Anfragen auswirken kann.
Interessanterweise wird in den Beschreibungen von fast der Hälfte der offenen Stellen die Kommunikation erwähnt: Datenspezialisten müssen in der Lage sein, ihre Erkenntnisse an Menschen weiterzugeben und in einem Team zu arbeiten.
Die Erwähnung von KI und Deep Learning ist nicht so regelmäßig wie bei einigen anderen Fragen. Diese Bereiche sind jedoch Zweige des maschinellen Lernens. Deep Learning wird zunehmend in Aufgaben eingesetzt, für die zuvor Algorithmen für maschinelles Lernen verwendet wurden. Beispielsweise beziehen sich die besten Algorithmen für maschinelles Lernen für Probleme, die bei der Verarbeitung einer natürlichen Sprache auftreten, jetzt speziell auf das Gebiet des tiefen Lernens. Ich glaube, dass es in Zukunft immer beliebter wird und maschinelles Lernen allmählich als Synonym für die Tiefe wahrgenommen wird.
Welche spezifischen Softwarelösungen sollten laut Arbeitgeber von Data-Science-Experten beherrscht werden? Wir wenden uns dieser Frage im nächsten Abschnitt zu.
Technologische Fähigkeiten
Im Folgenden finden Sie 20 spezifische Sprachen, Bibliotheken und technologische Tools, mit denen nach Ansicht der Arbeitgeber Datenverarbeitungsspezialisten Erfahrung haben sollten.
Lassen Sie uns schnell durch die Führer gehen.
Python ist die am häufigsten nachgefragte Option. Die Tatsache, dass diese Open-Source-Sprache bei Programmierern äußerst beliebt ist, wurde von vielen angemerkt. Für Anfänger ist dies eine sehr bequeme Option: Es gibt viele Trainingsressourcen. Die überwiegende Mehrheit der neuen Datentools ist damit kompatibel. Basierend auf all dem kann Python als Hauptsprache für Data Science-Experten bezeichnet werden.
R folgt Python mit einem kleinen Vorsprung. Es war einmal er, der die Hauptsprache für Data Science-Spezialisten war. Es war eine Überraschung für mich, dass das aktive Interesse an ihm immer noch besteht. Diese Sprache stammt aus der Statistik und ist dementsprechend bei denjenigen, die sich damit befassen, sehr beliebt.
Fast alle offenen Stellen machen es erforderlich, eine dieser beiden Sprachen zu beherrschen - Python oder R.
SQL ist auch sehr gefragt. Die Abkürzung steht für Structured Query Language (Strukturierte Abfragesprache) und diese Sprache ist das Hauptwerkzeug für die Interaktion mit relationalen Datenbanken. SQL in der Data Science-Community wird häufig vernachlässigt, bezieht sich jedoch auf Fähigkeiten, die Sie fließend beherrschen sollten, wenn Sie in den Arbeitsmarkt eintreten möchten.
Als nächstes folgen
Hadoop und
Spark - beides Open Source-Tools von Apache, die für die Arbeit mit Big Data entwickelt wurden. Es wurden viel weniger Tutorials und Artikel auf Medium darüber geschrieben. Ich gehe davon aus, dass die Anzahl der Bewerber, die sie besitzen, erheblich geringer ist als die, die mit Python oder R vertraut sind. Wenn Sie wissen, wie man mit Hadoop und Spark arbeitet oder die Möglichkeit haben, sie zu beherrschen, kann dies ein guter Vorteil für Sie gegenüber Ihren Mitbewerbern sein.
Als nächstes kommen
Java und
SAS . Ich war überrascht, dass diese beiden Sprachen so hoch klettern konnten. Beide sind die Idee großer Unternehmen und für beide gibt es eine Menge freier Materialien. Unter Data-Science-Experten sind jedoch weder Java noch SAS von besonderem Interesse.
Als nächstes steht
Tableau im Ranking der gängigen Technologien. Es ist eine analytische Plattform und ein Visualisierungstool, die leistungsstark und einfach zu bedienen sind. Seine Popularität wächst stetig. Tableau verfügt über eine kostenlose öffentliche Version. Wenn Sie jedoch im privaten Modus mit Daten arbeiten möchten, müssen Sie die Einstellungen ändern. Wenn Sie Tableau noch nicht kennen, ist es sinnvoll, einen kurzen Kurs zu belegen - beispielsweise
Tableau 10 AZ auf Udemy. Sie bezahlen mich nicht für Werbung, ich habe diesen Kurs einfach selbst gemacht und fand ihn sehr nützlich.
In der folgenden Tabelle finden Sie eine erweiterte Liste gängiger Sprachen, Frameworks und anderer Tools für die Arbeit mit Daten.
Historischer Vergleich
Das GlassDoor-Team veröffentlichte von Januar bis Juli 2017 eine
Studie über die zehn beliebtesten Fähigkeiten für Data-Science-Experten. In der folgenden Grafik werden ihre Daten zur Häufigkeit von Begriffen mit den von mir für LinkedIn-, Indeed-, SimplyHired- und Monster-Websites berechneten Durchschnittswerten verglichen.
Insgesamt sind die Ergebnisse ähnlich. Sowohl meine Forschung als auch die Forschung von Glassdoor stimmen darin überein, dass die Nachfrage nach Python, R und SQL am höchsten ist. Spitzen der Fähigkeiten fallen auch in der Zusammensetzung innerhalb der ersten neun Positionen zusammen, obwohl die genaue Reihenfolge unterschiedlich ist.
Gemessen an den Ergebnissen ging die Nachfrage nach R, Hadoop, Java, SAS und MatLab im Vergleich zum ersten Halbjahr 2017 zurück, während Tableau im Gegenteil populärer wurde. Dies ist zu erwarten, wenn Sie sich zumindest die Ergebnisse einer
Umfrage unter Entwicklern von KDnuggets ansehen. Sie zeigen deutlich, dass R, Hadoop, Java und SAS seit mehreren Jahren rückläufig sind, während Tableau stabil auf dem Vormarsch ist.
Empfehlungen
Angesichts dieser Berechnungen möchte ich eine Reihe von Empfehlungen für Datenspezialisten geben, die bereits auf den Markt gekommen sind oder sich gerade auf eine Karriere vorbereiten und gleichzeitig ihre Wettbewerbsfähigkeit steigern möchten.
- Zeigen Sie, dass Sie wissen, wie man Daten analysiert, und sparen Sie keine Mühe, um das maschinelle Lernen richtig zu beherrschen
- Achten Sie auf Kommunikationsfähigkeiten. Ich würde Ihnen raten, das Buch " Made to Stick " zu lesen, in dem beschrieben wird, wie Sie Ihren Ideen mehr Gewicht verleihen können. Üben Sie auch mit der Hemmingway Editor- App, um zu lernen, wie Sie Ihre Gedanken klarer artikulieren können.
- Lernen Sie den Rahmen für tiefes Lernen. Dies wird allmählich ein wesentlicher Bestandteil des Lernprozesses des maschinellen Lernens. In meinem anderen Artikel vergleiche ich verschiedene Frameworks dahingehend, wie nützlich, interessant und beliebt sie sind - Sie finden sie hier .
- Wenn Sie zwischen Python und R zögern, wählen Sie Python. Wenn Sie Python bereits als Handrücken kennen, sollten Sie etwas über R lernen. Dies macht Sie definitiv zu einem attraktiveren Kandidaten auf dem Markt.
Wenn ein Arbeitgeber einen Mitarbeiter sucht, der mit Python arbeitet, erwartet er höchstwahrscheinlich, dass sich die Kandidaten mit den wichtigsten Datenverarbeitungsbibliotheken vertraut machen: Numpy, Pandas, Scikit-Learn und Matplotlib. Wenn Sie dieses Set beherrschen möchten, empfehle ich die folgenden Ressourcen:
- DataCamp und DataQuest - sowohl dort als auch dort können Sie für wenig Geld online an einem SaaS Data Science-Schulungskurs teilnehmen. Sie werden gleich beim Schreiben von Code lernen. Beide Kurse decken eine breite Palette von Werkzeugen ab.
- Data School bietet eine Reihe verschiedener Ressourcen, darunter eine gute Reihe von YouTube-Videos , in denen die grundlegenden Konzepte der Datenwissenschaft erläutert werden.
- Python und Datenanalyse von McKinney. Dies ist die Arbeit des Autors der Pandas-Bibliothek; Im Grunde geht es darum, aber es geht auch um die Grundlagen von Python, Numpy und Scikit-Learn in Bezug auf Data Science.
- „ Einführung in das maschinelle Lernen mit Python. Ein Leitfaden für Datenprofis “von Müller und Guido. Mueller ist verantwortlich für die Unterstützung von Scikit-Learn. Ein großartiges Buch für diejenigen, die maschinelles Lernen im Allgemeinen und diese Bibliothek im Besonderen studieren.
Wenn Sie einen Durchbruch beim Deep Learning
erzielen möchten ,
empfehle ich Ihnen, mit
Keras oder
FastAI zu beginnen und dann zu
TensorFlow oder
PyTorch zu wechseln . Scholls „
Deep Learning in Python “ ist eine große Hilfe für diejenigen, die lernen, mit Keras zu arbeiten.
Zusätzlich zu diesen Empfehlungen halte ich es für sinnvoll, sich auf das zu konzentrieren, woran Sie selbst interessiert sind, obwohl Sie Ihre Zeit für das Training natürlich auf der Grundlage verschiedener Überlegungen einteilen können.
Wenn Sie einen Job als Datenverarbeitungsspezialist auf Online-Portalen suchen, empfehle ich Ihnen, mit LinkedIn zu beginnen - seine Ergebnisse sind durchweg die umfangreichsten. Bei der Suche nach offenen Stellen oder der Veröffentlichung von Lebensläufen auf Websites spielen Schlüsselwörter eine sehr wichtige Rolle. Beispielsweise liefert die Abfrage "Data Science" für alle berücksichtigten Ressourcen dreimal mehr Ergebnisse als die Abfrage "Data Scientist". Wenn Sie jedoch nur und ausschließlich an Angeboten von Data Scientist interessiert sind, ist es besser, dieser Anfrage den Vorzug zu geben.
Unabhängig davon, für welche Ressource Sie sich entscheiden, empfehle ich, ein Online-Portfolio zu erstellen, das Ihre Fähigkeiten in verschiedenen nachgefragten Bereichen demonstriert - je mehr es gibt, desto besser. Ihr LinkedIn-Profil sollte idealerweise einige Beweise für die Fähigkeiten enthalten, über die Sie sprechen.
Vielleicht werde ich den Rest der Forschungsergebnisse in anderen Artikeln präsentieren. Wenn Sie mehr über Code oder interaktive Grafiken erfahren möchten, lade ich Sie zum
Kaggle Kernel ein .