Der Autor des Materials führte eine Reihe von Gesprächen mit Experten auf dem Gebiet der Datenanalyse und -verarbeitung und machte Schlussfolgerungen über die Perspektiven und Richtungen der Entwicklung von Datenwissenschaftlern.Die Theorie und Methoden der Datenverarbeitung haben die Lösung verschiedener Probleme auf dem Gebiet der Technologie vereinfacht. Dies beinhaltet die Optimierung der Google-Suchergebnisse, Empfehlungen auf LinkedIn und die Bildung von Überschriften auf Buzzfeed. Die Arbeit mit Daten kann jedoch erhebliche Auswirkungen auf viele Wirtschaftszweige haben: von Einzelhandel, Telekommunikation, Landwirtschaft bis hin zu Gesundheitswesen, Fracht und Strafvollzug.
Die Begriffe „Datenwissenschaft“, „Theorie und Methoden der Datenanalyse“ und „Datenwissenschaftler“ sind jedoch nicht vollständig verstanden. In der Praxis werden sie verwendet, um eine breite Palette von Methoden zum Arbeiten mit Informationen zu beschreiben.
Was machen Data Science-Experten eigentlich? Als Moderator des
DataFramed- Podcasts
hatte ich die großartige Gelegenheit, mehr als 30 Datenanalyse-Experten aus einer Vielzahl von Branchen und akademischen Disziplinen zu interviewen. Unter anderem habe ich immer gefragt, woraus genau ihre Arbeit besteht.
Data Science ist ein wirklich weites Feld. Meine Gäste näherten sich unseren Gesprächen aus verschiedenen Positionen und Sichtweisen. Sie beschrieben eine Vielzahl von Aktivitäten, darunter umfangreiche Online-Produktentwicklungs-Frameworks auf booking.com und Etsy, die von Buzzfeed zur Lösung des mehrarmigen Banditenproblems bei der Optimierung von Materialüberschriften verwendeten Methoden und die Auswirkungen des maschinellen Lernens auf die Geschäftsentscheidungen von airbnb.
Das jüngste Beispiel wurde von Robert Cheng, Datenanalysespezialist bei Airbnb, geäußert. Als er bei Twitter arbeitete, konzentrierte sich das Unternehmen auf Wachstum. Jetzt bei Airbnb entwickelt Cheng massive Modelle für maschinelles Lernen.
Die Ansätze zur Anwendung der Theorie der Analyse und Datenverarbeitung können sehr unterschiedlich sein, und die Wahl einer Lösung hängt nicht nur von der Branche ab, sondern auch von der Art des Geschäfts und seinen Aufgaben.
Trotz der Verschiedenartigkeit sind in allen Interviews eine Reihe gemeinsamer Themen deutlich sichtbar.
Was machen Data Science-Experten?
Wir wissen, wie Data Science funktioniert, zumindest in der Technologiebranche. Die Forscher legten zunächst eine solide Grundlage in Form von gesammelten Informationen, um eine gründliche analytische Arbeit durchzuführen. In der nächsten Phase nutzen sie unter anderem Online-Experimente, um das Problem nachhaltig zu lösen. Als Ergebnis werden Methoden des maschinellen Lernens und spezielle Produkte erstellt, die die Daten verarbeiten, die erforderlich sind, um Ihr Unternehmen besser zu verstehen und bessere Entscheidungen zu treffen. Das heißt, die Essenz von Datenverarbeitungsmethoden im Bereich der Technologie besteht darin, die Infrastruktur aufzubauen, Tests durchzuführen und maschinelles Lernen durchzuführen, um Entscheidungen zu treffen und Informationsprodukte zu erstellen.
In anderen nichttechnologischen Bereichen werden große Schritte unternommen.
Bei einem der Treffen untersuchten Ben Skrainka, ein Datenverarbeitungsspezialist bei Convoy, und ich den effektiven Einsatz von Informationsverarbeitungsmethoden für Innovationen in der nordamerikanischen Güterverkehrsbranche. Und Sandy Griffith von Flatiron Health sprach über die wichtige Rolle, die die Datenanalyse bei der Untersuchung von Krebs spielt. Gemeinsam mit Drew Conway diskutierten wir über sein Unternehmen Alluvium, das „mithilfe künstlicher Intelligenz und maschinellem Lernen nützliche Muster auf der Grundlage umfangreicher Datenströme identifiziert, die während des Betriebs industrieller Systeme generiert werden“. Mike Tamir, der derzeitige Leiter der autonomen Fahrabteilung von Uber, sprach über die Arbeit bei Takt, wo Tamir Fortune 500-Unternehmen bei der Einführung von Datenverarbeitungs- und Analysemethoden half. Unter anderem teilte er seine Erfahrungen bei der Entwicklung eines Empfehlungssystems für Starbucks.
Datenanalyse ist nicht nur die Aussicht auf autonome Autos und künstliche Intelligenz
Viele Gäste meines Podcasts waren skeptisch gegenüber der Verallgemeinerung des KI-Fetischs seitens der populären Medien (Beispiel: VentureBeats Artikel „Bis 2042 wird ein KI-Gott geschaffen, der seine Bibel schreibt. Wirst du ihn anbeten?“) Und dem Hype um die Maschine und die Tiefe Lernen. Natürlich sind beide Bereiche leistungsstarke Ansätze mit wichtigen Beispielen für praktische Anwendungen. Aber solche Aufregung sollte immer mit einem Teil gesunder Skepsis behandelt werden. Fast alle meiner Gäste stellten fest, dass echte Forscher in diesen Bereichen ihren Lebensunterhalt verdienen, indem sie Daten sammeln und filtern, Dashboards und Berichte erstellen, Daten visualisieren und statistische Analysen durchführen. Darüber hinaus müssen sie in der Lage sein, den wichtigsten Akteuren die Essenz der Ergebnisse zu vermitteln und Entscheidungsträger zu überzeugen.
Die vom Beruf der Datenwissenschaftler geforderten Fähigkeiten ändern sich ständig und ergänzen sich ständig (und Erfahrung in der Arbeit mit eingehenden Schulungen ist nicht die Hauptanforderung).
In einem Gespräch mit Jonathan Nolis, einem der führenden Datenanalysten in Seattle, der mit Fortune 500-Unternehmen zusammenarbeitet, haben wir die folgende Frage erörtert: „Welche der beiden Fähigkeiten für einen Datenprofi wichtiger ist, ist die Fähigkeit, komplexe Deep-Modelle zu verwenden Training oder die Fähigkeit, gute Folien in PowerPoint zu zeichnen? “ Nolis sprach sich für Letzteres aus und war der Ansicht, dass eine leicht zugängliche Erklärung der Ergebnisse der Analyse ein Schlüsselelement für die Arbeit mit Informationen bleibt.
Ein weiteres beliebtes Thema ist die Variabilität einer Reihe von Kernkompetenzen. Die Relevanz einiger von ihnen kann sich in absehbarer Zeit ändern. Die rasche Entwicklung kommerzieller und offener Datenanalysetools hat dazu geführt, dass wir jetzt einen massiven Übergang zur Automatisierung vieler Routineaufgaben wie der Datenbereinigung und ihrer anfänglichen Vorbereitung erleben. Bisher war es
üblich, dass 80% der wertvollen Zeit des Forschers für die einfache Suche, Filterung und Strukturierung von Daten und nur 20% für deren Analyse aufgewendet wurden. Es ist jedoch unwahrscheinlich, dass dieser Zustand anhält. Heute hat die Automatisierung sogar die Prozesse des maschinellen und tiefen Lernens erreicht. Randal Olson, ein führender Spezialist für Datenanalyse und -verarbeitung bei Life Epigenetics, sprach darüber in einem separaten Podcast, der sich ausschließlich solchen Themen widmet.
Nach den Ergebnissen des Interviews ist die überwiegende Mehrheit meiner Gäste der Ansicht, dass die Fähigkeit, Deep-Learning-Infrastrukturen zu erstellen und zu nutzen, überhaupt nicht entscheidend ist. Stattdessen zeigen sie die Fähigkeit, im laufenden Betrieb zu lernen und komplexe analytische Berechnungen den wichtigsten Teilnehmern des Prozesses korrekt zu erklären, weit entfernt von technischen Problemen. Daher sollten zielgerichtete Spezialisten auf dem Gebiet der Datenverarbeitung und -analyse der korrekten Darstellung des Materials etwas mehr Aufmerksamkeit schenken als Methoden zur Verarbeitung von Informationen. Neue Methoden kommen und gehen, aber kritisches Denken und numerisch messbare berufliche Fähigkeiten werden immer relevant sein.
Spezialisierung wird immer wichtiger
Trotz des Fehlens eines klaren Karriereweges und der unzureichenden Unterstützung für Anfänger beobachten wir bereits die Entstehung einiger Spezialisierungsbereiche. Emily Robinson beschrieb den Unterschied zwischen Wissenschaftlern des Typs A und B. Typ A umfasst Analysten, deren Aktivitäten der traditionellen Statistik nahe kommen, aber Vertreter des Typs B befassen sich hauptsächlich mit der Erstellung von Modellen für maschinelles Lernen.
Jonathan Nolis unterteilt die Datenwissenschaft in drei Komponenten. Die erste Komponente ist die Geschäftsanalyse, bei der es darum geht, die Unternehmensdaten in Form von Dashboards, Berichten und E-Mails den richtigen Personen zur Verfügung zu stellen. Die zweite ist die Entscheidungstheorie, die darauf abzielt, „Daten zu erfassen und dem Unternehmen zu helfen, mit ihrer Hilfe die beste Entscheidung zu treffen“. Die dritte Komponente ist das maschinelle Lernen, bei dem Spezialisten versuchen, die Frage zu beantworten: „Wie können wir informationsanalytische Modelle in einem realen Projekt bewusst anwenden?“ Trotz der Tatsache, dass viele fortgeschrittene Spezialisten in ihren Aktivitäten alle drei Bereiche abdecken, haben konkrete Karrierewege bereits Gestalt angenommen, wie dies bei Ingenieuren des maschinellen Lernens der Fall ist.
Ethische und moralische Fragen - Eine ernsthafte Herausforderung
Sie vermuten wahrscheinlich, dass Vertreter des analytischen Berufs auf ihrem Weg auf erhebliche Unsicherheiten stoßen. Als ich Hillary Mason in der ersten Folge unseres Gesprächs fragte, ob es noch andere Schwierigkeiten für die Fachwelt gibt, antwortete sie: „Glauben Sie wirklich, dass uns in dieser Entwicklungsphase die moralischen Richtlinien, Standardpraktiken und die optimierte Terminologie fehlen? ? "
Alle drei Punkte sind wirklich wichtig, und die ersten beiden Probleme betreffen fast alle Gäste des DataFramed-Podcasts. Welche Rolle wird die Moral unter Bedingungen spielen, unter denen von Informationsanalysten entwickelte Algorithmen uns vorschreiben, wie wir mit der Außenwelt interagieren sollen?
Wie Omuju Miller, Chefspezialist für maschinelles Lernen bei GitHub, in einem Interview sagte:
Es ist notwendig, ein Verständnis der moralischen Grundwerte zu formulieren, ein Schema für die Ausbildung von Fachleuten zu entwickeln und so etwas wie einen hippokratischen Eid zu verfassen. Und wir brauchen echte Lizenzen, um die Praxis eines Spezialisten zu bestrafen oder zu streifen, der über die Ethik hinausgegangen ist. Es muss klargestellt werden, dass wir als Industrie gegen solche Handlungen sind. Und natürlich ist es notwendig, denjenigen, die schwerwiegende Verstöße begehen, und denjenigen, die von den Regeln der Unwissenheit abweichen, irgendwie zu helfen, sich zu verbessern, weil sie die erforderliche Ausbildung nicht bestanden haben.
Das aktuelle Thema sind die schwerwiegenden, schädlichen und unmoralischen Folgen des Einsatzes von Data Science, wie dies bei der COMPAS-Risikobewertung für Rückfälle der Fall war, „die zur Vorhersage und Identifizierung zukünftiger Krimineller verwendet wurde“, und die sich laut
ProPublica als „voreingenommen gegen Schwarze“ herausstellte zu den Amerikanern. "
Wir sind uns nach und nach einig, dass ethische Standards innerhalb der Gemeinschaft professioneller Analysten geboren werden sollten und Unterstützung von Gesetzgebern, sozialen Bewegungen und anderen interessierten Parteien erhalten sollten. Zum Teil wird ein besonderes Augenmerk auf die Interpretierbarkeit von Modellen im Gegensatz zu modernen Lösungen gelegt, die nach dem Prinzip einer Black Box arbeiten. Das heißt, es müssen Modelle erstellt werden, die erklären können, warum sie diese oder jene Prognose erstellt haben. Deep Learning bewältigt viele Aufgaben, ist jedoch für seine Unerklärlichkeit bekannt. Engagierte Forscher, Entwickler und Datenanalysten machen durch Projekte wie
Lime Fortschritte in diese Richtung, um zu erklären, wie Modelle für maschinelles Lernen funktionieren.
Die massive Revolution in der Datenanalyse in der menschlichen Industrie und Gesellschaft hat gerade erst begonnen. Es ist noch nicht klar, ob der Beruf eines Datenanalysespezialisten die
attraktivste Arbeit des 21. Jahrhunderts bleiben wird, ob er fokussierter wird oder sich einfach in eine Reihe von Fähigkeiten verwandelt, über die Forscher verfügen sollten. Wie Hilary Mason sagte: „Wird es in 10 Jahren Datenwissenschaft geben? "Ich erinnere mich an eine Welt, in der sie nicht war, und ich bin nicht überrascht, wenn dieser Beruf das gleiche Schicksal erleidet wie der Beruf eines Webmasters."
