🎅🏼 😤 👃🏽 Die gefragtesten Fähigkeiten im Beruf des Dateningenieurs 🕵🏻 👩🏽‍✈️ 🤚🏿

Laut Statistik von 2019 ist Data Engineer derzeit ein Beruf, dessen Nachfrage schneller wächst als alle anderen. Der Dateningenieur spielt eine wichtige Rolle in der Organisation - er erstellt und verwaltet Pipelines und Datenbanken, die zum Verarbeiten, Transformieren und Speichern von Daten verwendet werden. Welche Kompetenzen benötigen Vertreter dieses Berufs vor allem? Unterscheidet sich die Liste von den Anforderungen der Datenwissenschaftler? Das alles erfahren Sie in meinem Artikel.

Ich habe die offenen Stellen für die Stelle als Dateningenieur in der Form analysiert, in der sie im Januar 2020 ausgeschrieben waren, um zu verstehen, welche technischen Fähigkeiten am beliebtesten sind. Dann habe ich die Ergebnisse mit den Statistiken zu den Stellenangeboten in der Position als Data Scientist verglichen und einige interessante Unterschiede festgestellt.

Auf lange Einführungen kann verzichtet werden - hier sind die Top-Ten-Technologien, die in Jobtexten am häufigsten genannt werden:

Erwähnung der Technologie in Jobs für Data Engineer Position im Jahr 2020

Lass es uns richtig machen.

Verantwortlichkeiten des Dateningenieurs

Heutzutage ist die Arbeit der Dateningenieure für Unternehmen von großer Bedeutung - es sind diese Personen, die für die Speicherung von Informationen verantwortlich sind und diese so bereitstellen, dass andere Mitarbeiter damit arbeiten können. Dateningenieure erstellen Pipelines, um den Empfang von Daten, Streams oder Paketen aus mehreren Quellen zu optimieren. Als Nächstes führen die Pipelines Extraktions-, Transformations- und Ladeoperationen (mit anderen Worten ETL-Prozesse) aus, wodurch die Daten für die weitere Verwendung besser geeignet werden. Danach werden die Daten zur tieferen Verarbeitung an Analysten und Datenwissenschaftler übertragen. Schließlich beenden Daten ihre Reise in Dashboards, Berichten und maschinellen Lernmodellen.

Ich habe nach Informationen gesucht, mit denen wir feststellen können, welche Technologien derzeit in der Arbeit des Dateningenieurs am gefragtesten sind.

Methoden

Ich sammelte Informationen von drei Websites für die Stellensuche - SimplyHired , Indeed und Monster - und schaute mir an, welche Schlüsselwörter der Dateningenieur in Jobtexten für US-Bürger fand. Für diese Aufgabe habe ich zwei Python-Bibliotheken verwendet - Requests und Beautiful Soup . Zu den Stichwörtern zählten sowohl diejenigen, die in der vorherigen Liste für die Analyse von Stellenangeboten für die Position eines Datenwissenschaftlers aufgeführt waren, als auch diejenigen, die ich beim Lesen von Stellenangeboten für Dateningenieure manuell ausgewählt habe. LinkedIn wurde nicht in die Liste der Quellen aufgenommen, da ich dort nach meinem letzten Versuch, Daten zu sammeln, gesperrt wurde.

Für jedes Keyword habe ich den Prozentsatz der Zugriffe aus der Gesamtzahl der Texte auf jeder Website separat berechnet und dann den Durchschnittswert aus drei Quellen berechnet.

Ergebnisse

Im Folgenden finden Sie dreißig Fachbegriffe aus dem Bereich Data Engineering mit den höchsten Punktzahlen auf allen drei Baustellen.

Und hier sind die gleichen Zahlen, aber in Form einer Tabelle gestaltet:

Gehen wir in Ordnung.

Ergebnisübersicht

Sowohl SQL als auch Python erscheinen in mehr als zwei Dritteln der besetzten Stellen. Es sind diese beiden Technologien, die Sinn machen, zuerst zu studieren. Python ist eine sehr beliebte Programmiersprache, die zum Arbeiten mit Daten, Erstellen von Websites und Schreiben von Skripten verwendet wird. SQL steht für Structured Query Language; Es setzt einen Standard voraus, der von einer Gruppe von Sprachen implementiert wird, und wird zum Extrahieren von Daten aus relationalen Datenbanken verwendet. Er ist schon lange aufgetaucht und hat sich als sehr stabil etabliert.

Über Spark sagt etwa die Hälfte der offenen Stellen aus. Apache Spark ist „eine kombinierte Big-Data-Analyse-Engine mit integrierten Modulen für Streaming, SQL, maschinelles Lernen und Grafikverarbeitung“. Es ist besonders beliebt bei Personen, die mit großen Datenbanken arbeiten.

AWS wird in ungefähr 45% der Stellenausschreibungen angezeigt. Dies ist die Cloud-Computing-Plattform von Amazon. Es besitzt den größten Marktanteil unter allen Cloud-Plattformen.
Als nächstes kommen Java und Hadoop - etwas mehr als 40% für den Bruder. Java ist eine weit verbreitete, kampferprobte Sprache, die in der Stack Overflow Developer Survey 2019 den zehnten Platz unter den Sprachen einnimmt, die Programmierer entsetzen. Im Gegensatz dazu erwies sich Python als die am zweithäufigsten geliebte Sprache. In Java wird die Java-Sprache ausgeführt. Alles, was Sie darüber wissen müssen, können Sie auf diesem Screenshot der offiziellen Seite von Januar 2020 nachvollziehen.

Wie eine Zeitmaschine
Apache Hadoop verwendet das MapReduce-Programmiermodell mit Serverclustern für Big Data. Jetzt wird dieses Modell zunehmend verworfen.

Als nächstes sehen wir Hive, Scala, Kafka und NoSQL - jede dieser Technologien wird in einem Viertel der vorgestellten Stellen erwähnt. Apache Hive ist ein Data Warehousing-Programm, das "das Lesen, Schreiben und Verwalten großer Datenmengen in verteilten Speichern mit SQL vereinfacht". Scala ist eine Programmiersprache, die bei der Arbeit mit Big Data aktiv eingesetzt wird. Insbesondere Spark wurde auf Scala erstellt. In der bereits erwähnten Rangfolge der furchterregenden Sprachen befindet sich Scala in der elften Zeile. Apache Kafka ist eine verteilte Plattform zur Verarbeitung von Streaming-Nachrichten. Sehr beliebt als Mittel zum Streaming von Daten.

NoSQL-Datenbanken stehen im Gegensatz zu SQL. Sie unterscheiden sich darin, dass sie nicht relational, nicht strukturiert und horizontal skalierbar sind. NoSQL hat an Popularität gewonnen, aber die fieberhafte Begeisterung für diesen Ansatz, bis hin zu den Prophezeiungen, dass er SQL als das vorherrschende Speicherparadigma ersetzen wird, scheint vorbei zu sein.

Vergleich mit Begriffen in Data Scientist-Stellen

Hier sind die dreißig technologischen Begriffe, die von Arbeitgebern auf dem Gebiet der Datenwissenschaft am häufigsten verwendet werden. Ich habe diese Liste auf die gleiche Weise erhalten, wie ich sie oben für das Data Engineering beschrieben habe.

Erwähnung der Technologie in Jobs für Datenwissenschaftler im Jahr 2020

Wenn wir von der Gesamtzahl sprechen, gab es im Vergleich zu dem zuvor überprüften Satz 28% mehr freie Stellen (12 013 gegenüber 9396). Schauen wir uns an, welche Technologien bei Stellenangeboten für Datenwissenschaftler weniger verbreitet sind als für Dateningenieure.

In der Datentechnik beliebter

Die folgende Grafik zeigt Keywords mit einem durchschnittlichen Unterschied zwischen Werten von mehr als 10% und weniger als -10%.

Die größten Unterschiede in der Häufigkeit von Keywords zwischen Data Engineer und Data Scientist

Die signifikanteste Zunahme wird von AWS festgestellt: Im Bereich Data Engineering tritt sie 25% häufiger auf als im Bereich Data Science (ungefähr 45% bzw. 20% der Gesamtzahl der offenen Stellen). Der Unterschied ist spürbar!

Hier die gleichen Daten in einer etwas anderen Darstellung - in der Grafik sind die Ergebnisse für das gleiche Keyword in den Stellenangeboten für die Positionen Data Engineer und Data Scientist nebeneinander angeordnet.

Die größten Unterschiede in der Häufigkeit von Keywords zwischen Data Engineer und Data Scientist

Der nächste große Sprung, den ich bei Spark bemerkt habe - ein Dateningenieur muss oft mit Big Data arbeiten. Kafka wuchs ebenfalls um 20%, d. H. Fast das Vierfache des Stellenangebots für Datenwissenschaftler. Die Datenübertragung ist eine der Hauptaufgaben eines Dateningenieurs. Schließlich stellte sich heraus, dass die Anzahl der Referenzen im Bereich Data Engineering für Java, NoSQL, Redshift, SQL und Hadoop um 15% gestiegen ist.

In der Datentechnik weniger beliebt

Lassen Sie uns nun sehen, welche Technologien bei Stellenangeboten für Dateningenieure weniger beliebt sind.
Der stärkste Rückgang gegenüber dem Bereich Data Science war bei R zu verzeichnen : Dort trat er bei rund 56% der offenen Stellen auf - hier nur bei 17%. Beeindruckend. R ist eine Programmiersprache, die bei Wissenschaftlern und Statistikern beliebt ist und den achten Platz im Ranking der erschreckenden Sprachen belegt.

SAS tritt auch bei Stellenangeboten für die Data Engineer Position deutlich weniger auf - die Differenz beträgt 14%. SAS ist eine proprietäre Sprache, die für die Arbeit mit Statistiken und Daten entwickelt wurde. Ein interessanter Punkt: Nach den Ergebnissen meiner Forschung zu Stellenangeboten für Datenwissenschaftler zu urteilen, hat er in letzter Zeit viele Positionen verloren - mehr als jede andere Technologie.

Gefragt in Data Engineering und Data Science

Es ist zu beachten, dass acht der zehn ersten Positionen in beiden Sätzen gleich sind. SQL, Python, Spark, AWS, Java, Hadoop, Hive und Scala gehören sowohl für die Data Engineering-Branche als auch für Data Science zu den Top Ten. In der folgenden Grafik sehen Sie die fünfzehn beliebtesten Technologien von Dateningenieur-Arbeitgebern, und daneben die Leerstandsquote für Datenwissenschaftler.

Empfehlungen

Wenn Sie sich mit Data Engineering beschäftigen möchten, empfehle ich Ihnen, die folgenden Technologien zu beherrschen - ich liste sie in der Reihenfolge ihrer ungefähren Priorität auf.

SQL lernen. Ich überzeuge Sie speziell von PostgreSQL, da es Open Source Code hat, in der Community sehr beliebt ist und sich in einer wachsenden Phase befindet. Wie Sie mit der Sprache umgehen, erfahren Sie aus dem Buch My Memorable SQL - die Pilotversion finden Sie hier .

Lerne Python, wenn auch nicht auf höchstem Hardcore-Niveau. Mein unvergesslicher Python ist für Anfänger. Sie können es bei Amazon , als elektronische oder physische Kopie Ihrer Wahl kaufen oder auf dieser Website als PDF oder Epub herunterladen.

Wenn Sie sich mit Python vertraut gemacht haben, wechseln Sie zu pandas, der Python-Bibliothek, mit der Daten bereinigt und verarbeitet werden. Wenn Sie sich auf die Arbeit in einem Unternehmen konzentrieren, das das Schreiben in Python erfordert (und die meisten von ihnen), können Sie sicher sein, dass standardmäßig Kenntnisse über Pandas vorausgesetzt werden. Ich beende jetzt den Einführungsleitfaden für die Arbeit mit Pandas - Sie können ihn abonnieren , um den Release-Moment nicht zu verpassen.

Meister AWS. Wenn Sie Dateningenieur werden möchten, müssen Sie eine Cloud-Plattform im zashnik einrichten. AWS ist die beliebteste davon. Die Kurse der Linux Academy haben mir beim Studium der Datentechnik in Google Cloud sehr geholfen. Ich denke, dass sie auch gute Materialien in AWS enthalten werden.

Wenn Sie die gesamte Liste bereits beherrschen und als Dateningenieur in den Augen der Arbeitgeber wachsen möchten, empfehle ich, Apache Spark für die Arbeit mit Big Data hinzuzufügen. Obwohl meine Forschung zu Stellenangeboten im Bereich Data Science ein rückläufiges Interesse gezeigt hat, blitzt es für Data Engineers bei fast jedem zweiten Job auf.

Am Ende

Ich hoffe, diese Überprüfung der beliebtesten Technologien für Data Engineer erschien Ihnen nützlich. Wenn Sie neugierig sind, wie Analysten arbeiten, lesen Sie meinen anderen Artikel . Erfolgreiches Engineering!