Hallo allerseits!
Unter Halloween nahm ich an einer Konferenz in Budapest ( Data Crunch ) teil und hörte mir eine Reihe interessanter Präsentationen an. Einer von ihnen stammte von Uber, der über die Ansätze sprach, auf denen sie ihre Datenverwaltungsplattform organisierten. Dieser Bericht war weniger technisch als vielmehr für Management und Lebensmittel.
Uber nutzt die Daten, die es aufgrund von Interaktionen mit Fahrgästen und Fahrern sammelt, in großem Umfang. Sie berechnen die Reisekosten, bewerten den Personenstrom, ändern die Preisalgorithmen, geben den Fahrern Empfehlungen, wie sie mehr Geld verdienen können, und dies alles auf der Grundlage der gesammelten Daten. In einem solchen Unternehmen kann die gesamte Arbeit mit Daten nicht in den Händen einer Gruppe von Analysten und DS konzentriert werden, weil Andernfalls müssen sie zu viele einstellen, und außerdem sind sie nicht immer in den geschäftlichen Kontext eingebunden.
Von Anfang an hat das Unternehmen den Weg beschritten, eine Datenverwaltungsplattform aufzubauen, die die Verwendung ziemlich fortschrittlicher Analysetools für eine breite Palette von Benutzern ermöglicht. Sie identifizierten 4 Hauptgruppen:
- Normale Benutzer - sie kennen sich mit SQL aus und benötigen im Grunde nur Datentabellen, Dashboards.
- Regionale Manager - sie kennen sich mit etwas mehr SQL aus, sehen sich Daten in verschiedenen Abschnitten an und es besteht ein großer Bedarf an Slice & Dice
- Datenanalysten - Advanced SQL, Erstellen von Dashboards, Recherchieren, Suchen nach Erkenntnissen in Daten
- Data Science - das maximale Verständnis für das Arbeiten mit Daten, das Erstellen von Modellen, das Durchführen von Experimenten, A / B-Tests usw.
Am Rande habe ich auch von ihnen gelernt, dass es tatsächlich eine 5. Ebene gibt - Top-Manager, die hauptsächlich Berichte und Dashboards der Top-Ebene verwenden.
Interessanterweise sollten in Uber Leute, die irgendwie mit Daten arbeiten, SQL zumindest auf dem Mindestniveau kennen.
Als Beispiel für das Produkt, das sie auf der Grundlage ihrer Plattform erstellt haben, haben sie die Automatisierung von A / B-Tests angeführt. Das Unternehmen gibt eine große Menge an A / B aus und teilt sie jedem Data Scientist zu, sodass er ein Experiment organisiert und dann eine Bewertung der Tests abgibt - wiederum kein zulässiger Luxus. Daher möchten sie normalen Benutzern die Möglichkeit geben, A / B korrekt und fehlerfrei zu interpretieren und zu verwenden, ohne den Data Scientist zu laden.
Ihre Konstruktion dieses Produkts begann mit einer intensiven Arbeit mit Data Scientist, as Wenn diese Leute nicht sicher sind, ob alles als korrekt angesehen wird, wird kein Datenprodukt herauskommen. Tatsächlich begannen sie, den Start und die Auswertung von A / B-Tests zu automatisieren, um Data Scientist ein Werkzeug zu geben, das ihnen das Leben erleichtert. Danach bauten sie eine Schnittstelle auf diesem Tool auf, die die Testergebnisse in einer einfachen Form anzeigt (was gestartet wurde, welcher Unterschied, ob der Unterschied signifikant ist). Gleichzeitig versteckten sie die maximale Anzahl von Nuancen, die A / B-Tests innewohnen, „unter der Haube“, sodass der Benutzer nicht tief in Mathematik und Statistik eintauchen musste.
Interessanterweise sagten die meisten Leute, mit denen ich über Kaffeepausen gesprochen habe, dass sie keine A / B-Tests in ihrer Praxis haben, dass sie viel qualitative Forschung und Intuition verwenden, um Entscheidungen zu treffen. Also wie anderswo, wenn Sie einmal denken, müssen Sie schneiden!