
"Wie viele Datenwissenschaftler brauchen Sie, um eine Glühbirne zu drehen?"
- Erstens, wenn die historische Auswahl erfolgreich gedrehter Glühbirnen ausreicht.
Dies ist natürlich ein Witz, aber wenn es in einem Unternehmen darum geht, Big Data zu zähmen, um die Geschäftsleistung zu verbessern, versteht nicht jeder, wer es zähmen wird. Die klassische Meinung: Sie brauchen einen Datenwissenschaftler - einen Datenanalysten, der Modelle erstellen kann, künstliche Intelligenz und maschinelles Lernen versteht. Und dieser Mann entscheidet alles in einem Kopf.
Es gibt auch einen Trend, dass Data Scientists diejenigen sind, die hauptsächlich eingestellt werden, wenn eine Big Data-Abteilung in einem Unternehmen gebildet wird.
In Wirklichkeit ist alles komplizierter. Ohne das Datum des Wissenschaftlers gibt es natürlich keine Arbeit mit Big Data, aber er ist kein Krieger allein auf dem Gebiet. Wer sonst noch Schulter an Schulter mit ihm kämpfen sollte, wird anhand von Beispielen besser verstanden.
Vermittler
Angenommen, es gibt ein Netzwerk von Fitnessclubs, die Big Data nutzen wollten. Data Scientist löst das Problem der Vorhersage, dass der Kunde zusätzlich zur Grundausbildung dazu neigt, andere persönliche zu verwenden. Der Spezialist nimmt Daten darüber auf, wer was zuvor getan hat, und erstellt ein Suchtmodell.
Es stellt sich die Frage - welche Ausbildung? Und wie werden wir vorschlagen, dass er zu ihnen geht? Das Training muss klar in Männer und Frauen unterteilt werden. Geteilt durch Geschäftslogik - Wenn eine Person bereits mit einem Premium-Trainer beschäftigt ist, sollten wir die Nicht-Premium nicht anbieten.
Oder ein Beispiel aus dem Bankensektor. Banken haben Produkte, die selbst verkauft werden, und es gibt solche, die oft zusammen mit anderen verkauft werden. Wir kaufen eine Karte oder nehmen einen Kredit auf und verkaufen gleichzeitig eine Versicherung. Ähnliches gilt für Versicherungsunternehmen. Wir können eine Kfz-Versicherung abschließen, gleichzeitig können wir aber auch eine Lebensversicherung verkaufen.
Wenn Sie das Geschäft nicht kennen, aber eine Aufgabe zur Vorhersage eines Kaufs haben, können Sie Folgendes tun: "Schauen Sie, viele unserer Kunden kaufen diese Schulung / Versicherung." Und bauen Sie darauf Modelle auf, um den Umsatz anzukurbeln. Aber das Geschäft weiß, dass diese Ausbildung / Versicherung nur mit etwas verbunden ist. Und selbst das Modell mag sich als gut herausstellen, aber das Produkt funktioniert nicht separat.
Beim Erstellen eines Modells gibt es immer eine Reihe von einleitenden Hinweisen zur Funktionsweise des Geschäfts. Und wenn wir sie falsch formuliert haben, hat das keinen Sinn. Daher benötigen Sie zusätzlich zu den tatsächlichen Scientist-Daten einen Product Owner - einen Produktmanager, der Mathematik mit dem Geschäft befreundet.
Diese beiden Rollen sind ein Muss für ein Big-Data-Team. Wichtig: Wenn wir mehrere Geschäftsbereiche haben, benötigen wir für jede Richtung unser eigenes Produkt. Data Scientist kann universell sein.
Man könnte sogar sagen, dass der Product Owner derjenige ist, der alles startet. Wer erstellt die Fallstudien zum maschinellen Lernen in einem bestimmten Unternehmen und treibt dann die Umsetzung dieser Fälle voran?
Aber wie sie sagen, und das ist noch nicht alles.
Digger-Programmierer
Stellen Sie sich vor, eine Bank hat beschlossen, eine spezielle Karte für Kunden zu bewerben, die häufig ins Ausland reisen. Welche historischen Daten kann er sich orientieren, um das sogenannte Zeichen zu bilden? Das offensichtlichste ist, dass zu einem bestimmten Zeitpunkt eine Transaktion im Ausland auf der Karte des Kunden stattfand. Das Symptom ist einfach, aber es müssen klare Anforderungen gestellt werden. Wie oft im Jahr waren solche Transaktionen? An welchen Punkten? Für welchen Zeitraum? All dies muss formuliert und dann aus einfachen Daten codiert werden, damit das Attribut richtig ausgewählt wird. Dazu benötigen Sie eine separate Person - einen Dateningenieur.
Die Aufgaben der Rollen sind wirklich unterschiedlich. Data Scientist muss ein gutes Modell bauen. Der Kopf beschäftigt sich mit der Auswahl der zu verwendenden Funktionen, Fälle und Algorithmen sowie der Optimierung, damit das Modell schnell funktioniert. Und ein Dateningenieur ist eher ein Programmierer oder Datenbankentwickler. Er muss Daten aus 10/100/500 verschiedenen Tabellen und Quellen sammeln, diese berechnen, dies vergleichen und dies, dies und das berücksichtigen.
Ein wichtiger Punkt: Der Dateningenieur schaltet sich nicht in der ersten Phase ein. Wie wir bereits gesehen haben, besteht der Entwicklungszyklus aus einer experimentellen (MVP - minimal lebensfähiges Produkt) und einer produktiven Phase. Während wir experimentieren, ist es sehr schwierig, dem Ingenieur jedes Mal klar zu beschreiben, welche Daten hochgeladen werden sollen. Es gibt Kreativität, Hypothesen werden ausgearbeitet, Daten drehen sich auf unterschiedliche Weise. Hier verzögert selbst das geringste Unbehagen zwischen dem Wissenschaftler und dem Ingenieur die Bereitschaft des MVP um Wochen.
Genauer gesagt führt der Data Engineer die erste Iteration der Datenaufbereitung durch, da der Data Scientist nichts zu tun hat, wenn keine Daten vorhanden sind. Darüber hinaus erstellt Data Scientist iterativ Funktionen für das Modell. Nachdem das Modell erfolgreich ist und gemäß der Spezifikation von Data Scientist in einen produktiven Dateningenieur konvertiert werden muss, schreibt es einen produktiven Code zur regelmäßigen Berechnung des Merkmals.
Daher der aktuelle Trend: In der MVP-Phase bereitet der Wissenschaftler die Daten unabhängig auf. Wenn das Modell erstellt wird und alle es akzeptieren, beschreibt der Data Scientist klar, wie die von ihm benötigten Attribute gebildet werden, und gibt diese an eine separat geschulte Person weiter. Er programmiert sie so, dass sie ständig im Produkt verwendet werden.
Diese Geschichte kann auch auf der anderen Seite verdreht werden - wenn das Geschäftsziel noch nicht festgelegt wurde, das Unternehmen jedoch über eine Vielzahl von Daten verfügt, die Sie verwenden möchten.
In diesem Fall versuchen wir bedingt 100 Fälle, 100 MVP, aus denen man schießen kann. Wenn Sie den Prozess der Erstellung von MVP in jedem Einzelfall erweitern, gehen 80% an die Datenaufbereitung, 20% an das Modell selbst. Jedes Mal müssen Daten aus unterschiedlichen Quellen und Quellen mit mehreren Formaten abgerufen werden. Sammeln Sie sie in logischen und verständlichen Zeichen: Zum Beispiel sollte "eine Transaktion am Punkt N" zu einer "Auslandsreise so oft im Jahr" werden.
Diese Arbeit nimmt viel Zeit in Anspruch. Wenn wir einen Datenvektor verwendet und ein Modell erstellt haben und es sich als schlecht herausgestellt hat, gehen wir zurück und laden die Daten erneut hoch. Mit jedem Fall von 100. Sie können diese Iterationen auf nur eine Weise optimieren - wenn wir im Voraus ein großes „Schaufenster“ mit allen möglichen Attributen haben - Tausende, Zehntausende. Ein solches "Schaufenster" zu erstellen, ist die Aufgabe eines Datumsingenieurs unter der Leitung eines Datumswissenschaftlers. Die Experimente werden erheblich beschleunigt - die Eingabeparameter für Modelle können schnell ausgewählt und geändert werden.
Orchester Big Data Dirigenten
Wir haben Daten gesammelt, ein Modell erstellt und uns mit dem Geschäft angefreundet. Ist das alles
Nicht alle. Diese Big-Data-Story sollte einen Anführer haben. Es scheint, dass dieser Beitrag der einfachste und verständlichste ist, aber das ist nicht ganz richtig. Der Anführer sollte zwei Eigenschaften kombinieren, die normalerweise nicht sehr kombiniert sind.
Wenn wir Big Data in einem Unternehmen von Grund auf neu starten, brauchen wir einen Strategen und einen Verkäufer als Leiter und Treiber der Richtung. Er wird dem gesamten Unternehmen erklären, warum die Arbeit mit Big Data so wichtig ist. Es ist klar, dass es zu Beginn von etwas Innovativem sehr schwierig ist, nach einem klaren Geschäftsmodell zu fragen, da es auf einer Vielzahl von Annahmen basiert. Daher wird der Stratege erklären: Leute, wir werden Big Data nach dem Prinzip "Top Down" (Top Down) planen. Und setzen Sie sich Ziele mit unterschiedlichem Grad an Globalität, wie zum Beispiel:
- Damit nach 5 Jahren der Umsatz mit Projekten und Produkten im Zusammenhang mit Big Data 10% unseres Umsatzes beträgt
- Ausfallrisiken um 20% reduzieren
- 30% der ineffizienten Büros reduzieren
usw.
Andererseits muss dieser Stratege in der Lage sein, die Idee innerhalb der Organisation zu verkaufen.
Das Problem ist, dass wenn eine solche Person bereits gefunden wird, es für sie in taktischen Angelegenheiten schwierig ist. Um die Ideen eines Strategen auf physischer Ebene zu verkörpern, benötigen Sie eine operative Person. Er wird Geschäftsprozesse aufbauen, Analysten, Produktmanager, alles agil machen. Es ist wichtig, dass dies alles schnell funktioniert. Daher ist die Führung in zwei Teile gegliedert: Der Stratege ist für eine glänzende Zukunft verantwortlich, der Betreiber ist dem Strategen untergeordnet und setzt Pläne um. Keiner von ihnen kann alleine zurechtkommen.
Sie können dieses Problem immer noch aus einem ganz anderen Blickwinkel betrachten. Stellen Sie sich vor, die Implementierung von Big Data-Technologien ist in einer großen klassischen Produktionsfirma geplant, für die diese Technologien neu sind. Wer ist verantwortlich? Eine Person von außen mit umfassender Erfahrung in der Anwendung von Big Data in verschiedenen Branchen und Kenntnissen in diesem Bereich oder eine Person von innen, die seit langem im Unternehmen tätig ist, eine ziemlich hohe Position hat und viele Projekte umgesetzt hat, die jeder kennt und respektiert?
Ich denke, es ist klar, dass eine Person von innen, die weiß, wie das Unternehmen von innen arbeitet, die Menschen kennt und die Prozesse dort mehr erreichen werden. Um ihm zu helfen, müssen Sie eine Person von außerhalb mit Erfahrung in der Implementierung von Big Data beauftragen, damit diese die erforderlichen Anweisungen gibt und das Big Data-Team verwaltet.
In die Sonne legen
Wir haben uns für die Komposition entschieden. Es bleibt, das Big-Data-Orchester der richtigen Abteilung unterzuordnen.
Es ist logisch, es in Richtung des Geschäfts zu definieren, das wir optimieren. Es ist gut, wenn das Unternehmen ausgereift ist. Dann können Sie versuchen, Big Data in den Zielverkäufen zu platzieren. Wir brauchen eine Niederlassung, damit es funktioniert. Wenn wir beispielsweise für eine Bank Kunden binden möchten, benötigen wir eine Filiale, die mit den vom Modell ausgewählten Kunden kommunizieren und diese tatsächlich halten kann. Wenn Sie Big Data verwenden möchten, um den Standort von Bankbüros zu planen, benötigen Sie eine Filiale, die sich mit der Eröffnung dieser Büros befasst. Wir wollen die Daten für das Banking Scoring optimieren - wir brauchen eine Filiale, die für Risiken verantwortlich ist. Ohne die Richtung des Unternehmens, das für die Arbeit mit den Ergebnissen des Modells verantwortlich ist, wird nichts daraus.
Ohne direkte Unterstützung von oben wird das Thema global einfach nicht aufgehen - Sie benötigen dieselbe Top-Down-Strategie. Vor allem, wenn Sie die Unterstützung einer Richtung benötigen, die bereits mit ihren Prozessen beschäftigt ist und alle möglichen Innovationen anstarrt.
Möchten Sie mehr über die Aspekte der Implementierung von Big Data in Unternehmen erfahren, unsere anderen Veröffentlichungen auf unserer
Website lesen oder an der
School of Data studieren
?Die Stelle wurde
von der School of Data auf der Grundlage der Veröffentlichung des Schulgründers im
Business HUB von Kyivstar PJSC vorbereitet