
Vor einiger Zeit haben wir unsere alten Materialien gefunden, auf denen wir die ersten Streams in unseren maschinellen Lernkursen an
der Data School unterrichteten, und sie mit den aktuellen verglichen. Wir waren überrascht, wie viel wir in 5 Jahren Training hinzugefügt und verändert haben. Als wir erkannten, warum wir dies getan haben und wie sich der Ansatz zur Lösung der Probleme von Data Science tatsächlich geändert hat, haben wir beschlossen, diese Veröffentlichung zu schreiben.
Wir haben mit den grundlegenden Methoden und Algorithmen des maschinellen Lernens begonnen und erklärt, wie man sie in die Praxis umsetzt, wie man Parameter auswählt, wie man Daten bereinigt und aufbereitet, wie man die Qualität misst. Wir waren der Ansicht (und glauben immer noch), dass die Ausbildung eines vollwertigen Agenten-Wissenschaftlers nicht nur klassische Methoden des maschinellen Lernens umfassen sollte, sondern auch Methoden zur Graphanalyse (soziale Netzwerke, SNA), Textanalyse, Arbeit mit neuronalen Netzen und Big Data (Big Data).
So haben wir am Ausgang einen Experten auf einem weiten Gebiet der Datenwissenschaft gefunden, der in der Lage ist, ein umfangreiches Arsenal an Methoden in der Praxis anzuwenden. Wir haben die gleichen Spezialisten in unser Geschäft aufgenommen. Zuerst in dem Unternehmen, in dem wir gearbeitet und die relevanten Bereiche geleitet haben, und dann in unserem Geschäft für die Entwicklung von Produkten, die auf maschinellem Lernen basieren -
Data Studio .
Später stellten wir jedoch fest, dass dies nicht nur für die erfolgreiche Umsetzung von Data Science-Projekten ausreicht, sondern dass dies nicht einmal die Hauptsache ist.
Der Ansatz zu Beginn der Praxis von Data Science und, um ehrlich zu sein, für viele Analysten bisher lautet wie folgt: Geben Sie mir die Daten, ich werde sie löschen, einen Merkmalsvektor erstellen, sie in Trainings- und Testmuster aufteilen, mehrere ML-Algorithmen ausführen, und hier ist das Ergebnis.
Hat dieser Ansatz ein Recht auf Leben?
Ja, aber wo das Fachgebiet bereits gut studiert ist und bereits gute Erfahrungen mit der Anwendung von Analytik gesammelt wurden. Beispiele? Bankbewertung, Abfluss von Betreibern, Cross-Selling (Next Best Offer) im Einzelhandel, Banken, Telekommunikation, Prognose der Effektivität von Aktien im Einzelhandel, Prognose von Salden. Diese Liste geht weiter.
Stellen wir uns nun andere Bereiche vor: Vorhersage der Ankunftszeit im multimodalen Verkehr (Schiff, Zug, LKW): Welche Zeichen werden Sie verwenden? Art der Ladung, Frachtgewicht, Vorhandensein bestimmter Sortierknoten? Und wenn Sie darüber nachdenken? Vielleicht geben Ihnen einige einfachere und offensichtlichere Zeichen (auch ohne Modelle für maschinelles Lernen) eine signifikante Genauigkeit?
Oder Sie müssen die Empfindlichkeit großer Kunden gegenüber Preisänderungen für bestimmte Produkte vorhersagen. Wie wird die Elastizität bestimmt? Was genau werden Sie vorhersagen?
Aber ist es notwendig, ein Modell zu erstellen, wenn der Produktionsprozess später trotzdem geändert wird?
Es stellt sich heraus, dass Sie in der Lage sein müssen, in neuen Anwendungsbereichen der Analytik zu arbeiten, da es in gut untersuchten Bereichen bereits so viele Entwicklungen gibt und dies der „rote Ozean“ ist.
Was braucht es, um mit Analytics neue Bereiche zu erschließen?
Dazu müssen Sie in der Lage sein, den Themenbereich eines bestimmten Prozesses, dessen Beschreibungen häufig nicht verfügbar sind, genau zu verstehen. Verstehen Sie, welche Art von Daten im Allgemeinen benötigt werden, und verstehen Sie, worauf genau das Geschäft ausgerichtet ist. Müssen Sie die Analyse hier überhaupt verstehen, benötigen Sie einige Vorhersagealgorithmen, müssen Sie den Geschäftsprozess ändern, gibt es betriebliche Hebel (was ist der Sinn der Vorhersage des Herunterfahrens von Geräten, wenn es immer noch keine Möglichkeiten gibt, dies zu vermeiden?).
Zusammenfassend sind folgende Dinge erforderlich:
- Analytischer Ansatz, Fähigkeit, Hypothesen zu formulieren und zu testen
- Verständnis der Prinzipien und Merkmale des Geschäfts und der einzelnen Prozesse
- Prozessökonomie verstehen
- Verständnis von Technologie
- Fähigkeit, Daten an Geschäftsprozesse zu binden
Und wenn Sie sich vom maschinellen Lernen losreißen, welcher Bereich kann dies am besten? Richtig - Unternehmensberatung. Und wo wird dies mit der sogenannten Fallmethode gelehrt (viele Beispiele aus unterschiedlichen Geschäftssituationen) - richtig, bei MBA-Kursen (Master of Business Administration).
Es stellt sich also heraus, dass der ideale Data Scientist ein MBA-Absolvent mit Erfahrung in der Beratung ist, der Kurse zum maschinellen Lernen abgeschlossen hat.
Dies ist natürlich übertrieben, aber es ist wahr, dass unter den Auftragnehmern diejenigen mit den höchsten Prozessen und Standards auf der Ebene der Personalauswahl und -schulung eine Kultur des analytischen Denkens entwickelt haben. In unserem
Data Studio verfolgen wir denselben Ansatz. Und logischerweise haben wir in unserer Ausbildung an der
School of Data den gleichen Ansatz gewählt.
Sie können Einwände erheben. Schließlich gilt das oben Geschriebene eher für die Beratung, bei der Sie jedes Mal nicht im Voraus wissen, aus welchem Themenbereich das Projekt stammen wird. Und was ist mit großen Unternehmen, in denen das Gebiet im Prinzip umrissen ist?
In Unternehmen beachten wir dieselben oben beschriebenen Besonderheiten und die Notwendigkeit, dass ein Analyst und das gesamte Team das Geschäft verstehen, die Notwendigkeit, Verantwortung für das Endergebnis zu übernehmen.
Aus diesem Grund sehen wir in großen Unternehmen jetzt einen Trend in der Spezialisierung von Data Science-Einheiten und der Verlagerung der Analysefunktion von einer zentralen Einheit, eine für das gesamte Unternehmen, zu einer Geschäftsfunktion, die näher am Geschäft liegt. Mit dieser Spezialisierung ist die Fähigkeit eines Analysten, ein neues Geschäft schnell zu verstehen und realistische Lösungen anstelle von Modellen anzubieten, ein Wettbewerbsvorteil.
Was genau hat sich in unserem Lehrplan geändert? Vor uns allen haben wir anhand von praktischen Fällen unterrichtet. Die Struktur und Art der Fälle hat sich geändert. Früher waren unsere Fälle wie Aufgaben bei Kaggle: Hier ist die Aufgabe, hier ist die Zielvariable, hier ist die Qualitätsmetrik, hier sind die Daten.
Jetzt klingt die Aufgabe anders: Hier ist die Aufgabe in Bezug auf den Client, hier ist eine Beschreibung des Client-Prozesses. Formulieren Sie die Analyseaufgabe, schlagen Sie eine Qualitätsmetrik vor, bewerten Sie die Angemessenheit der Verwendung von Analysen, berechnen Sie die wirtschaftlichen Auswirkungen, schlagen Sie Methoden vor und formulieren Sie eine Anforderung für die benötigten Daten. Und dann ist alles wie gewohnt: Bereinigen Sie die Daten, erstellen Sie ein Modell usw. Und wir geben solche Beispiele aus ganz anderen Bereichen. Glücklicherweise erweitert die Präsenz unserer eigenen Beratung in diesem Bereich das Spektrum der verfügbaren Aufgaben, die wir aus eigener Erfahrung gelöst haben, erheblich.
Die Disziplin des analytischen Ansatzes ist jedoch nicht nur die Praxis von Fällen. Wir vermitteln auch die Standard-Frameworks (grundlegende Analysemuster), die in der Beratung verwendet werden. Wir haben der Schulung auch den Entwicklungsprozess des analytischen Produkts hinzugefügt, an dem wir im Klassenzimmer festhalten, von der Geschäftsanalyse über die Präsentation der Ergebnisse für den Kunden bis hin zur Planung der Bereitstellung einer produktiven Lösung, einschließlich der Phasen, Rollen, Schlüsselentscheidungspunkte und Momente der Interaktion mit dem Kunden.
Wir geben Präsentationen eine separate Rolle - zu oft haben wir eine Lücke zwischen den Gedanken der Analysten und der Wahrnehmung dieser Gedanken durch die Mitarbeiter des Kunden gesehen.
Im Allgemeinen glauben wir, dass die Aufgabe der Ausbildung eines Data Scientist nicht darin besteht, einen Spezialisten auf bestehende Bereiche vorzubereiten (es gibt bereits viele Kurse dafür, und dies ist in vielerlei Hinsicht zur Ware geworden), sondern einen Experten auf die Arbeit in neuen Bereichen vorzubereiten, in denen Die Digitalisierung kommt gerade.
Nun, und wie immer - der Beginn eines neuen Kurses an unserer
School of Data am 16. September. Wir akzeptieren ständig Aufträge für neue Projekte bei
Data Studio , genau wie wir Mitarbeiter einstellen (siehe Abschnitt über offene Stellen).
PS Wir haben unsere Seite ein wenig aktualisiert, um sie bequemer zu machen. Seien Sie deshalb nicht überrascht über den neuen Look.