Wie man datengetrieben ist. Von Anfang an

Die Zahlen bedeuten uns sehr viel. Wir investieren in Daten, hören zu und verstehen sie. Wir lassen uns bei Entscheidungen von ihnen leiten. Trotz der Tatsache, dass wir in Bezug auf die Infrastruktur für die Arbeit mit Daten noch viel Vorsprung haben, war der datengetriebene Ansatz immer bei uns. In diesem Text - eine Geschichte darüber, welchen Weg wir gegangen sind, welche Lektionen wir gelernt haben und welchen Rechen wir gesammelt haben.

Bild

Mein Name ist Andrey Sytsko, ich bin der Leiter der Produktlinie im Fintech-Unternehmen ID Finance. Wie gesagt, wir haben noch einen langen Weg vor uns, was Methoden und Werkzeuge für die Arbeit mit Daten betrifft. Das mehrfache Wachstum, das das Unternehmen seit seiner Gründung verzeichnet hat, setzt ein unerreichbares Tempo für die analytische Infrastruktur. Es ist jedoch wahrscheinlich, dass die Erwartungen an einen datengetriebenen Ansatz einfach schneller wachsen. Wie wir alle verstehen, sind letztendlich nicht nur bestimmte Werkzeuge und Technologien wichtig, sondern auch der Ansatz, die Kultur und das Weltbild.

Was ist eine datengetriebene Kultur?


Was verstehen wir unter einer datengetriebenen Kultur in einem Unternehmen? Meiner Meinung nach haben wir uns intern darauf geeinigt, dass die Daten im Rahmen eines bestimmten Geschäftsdilemmas eine gute Antwort oder einen guten Rat geben können. Eine solche Anordnung hat mehrere Konsequenzen:

  • Wir sind bereit, in die Arbeit mit Daten zu investieren: Extraktion, Speicherung, Analyse, Interpretation, Visualisierung und mehr. Bereit, Geld und Zeit auszugeben
  • Wir sind bereit, die Daten anzuhören. Das heißt, Wenn Sie eine Geschäftsentscheidung treffen müssen, halten wir an und sagen es uns - schauen wir uns die Zahlen an.
  • Wir können die Daten verstehen. In der Tat ist es erschreckend, einfach die falsche Schlussfolgerung zu ziehen und alle notwendigen Zahlen zur Hand zu haben. Sagen Sie, was Ihnen gefällt, es gibt einige Mindestanforderungen für das analytische Denken von Entscheidungsträgern, um die Bedeutung von Tabellen, Grafiken und Diagrammen zu extrahieren.
  • Wir vertrauen Daten und lassen uns bei Entscheidungen von ihnen leiten. Wenn ein Manager, der sich einen vorbereiteten Analysebericht ansieht, sagt, dass er es besser machen wird, als ihm die Erfahrung sagt, als einen Bericht, dann liegt er nicht unbedingt falsch. Was wäre, wenn die Analysten die Saisonalität, die Ergebnisse der bevorstehenden Wahlen oder etwas anderes nicht berücksichtigen würden? Der Dialog zwischen Managern und Analysten, das gegenseitige Vertrauen ist hier wichtig.

Natürlich ist die datengetriebene Kultur im Unternehmen am einfachsten aufzubauen, wenn die Gründer des Unternehmens bereits seine Träger sind. Die Verwendung von Daten bei der Entscheidungsfindung macht diesen Prozess zeitaufwändiger und teurer. Und ohne ernsthafte Überzeugung, dass dies sinnvoll ist und nicht anders, werden Sie nicht weit kommen. Wir hatten in diesem Fall Glück - der richtige Grundstein für das zukünftige Gebäude wurde bereits gelegt.

Erste Infrastrukturschritte


Das erste, was Sie auf dem Weg zu Ihrer idealen datengesteuerten Entscheidungsfindung feststellen werden, ist, dass Sie nicht über genügend Daten verfügen. Im Allgemeinen werden sie aus objektiven Gründen immer übersehen, aber Sie müssen irgendwo anfangen.

Zunächst erstellen Sie die Infrastruktur zum Sammeln und Speichern von Metriken. In den allermeisten Projekten für Daten-Backends (und wir haben zum Beispiel Informationen über Kunden, deren Kredite und Zahlungen) wird zunächst einfach die Replik der Produktionsbasis verwendet. In diesem Fall müssen Sie die interne Datenstruktur Ihrer Software, die die Entwickler erstellt haben, vollständig nutzen können, ohne die Daten bequem analysieren zu müssen. Aber wir haben sozusagen Informationen aus erster Hand. Am Anfang gibt es normalerweise eine Datenbank, und die Datenstruktur ist relativ einfach, ebenso wie die Fragen, die Sie für diese Daten stellen möchten. Dies ist also eine vollständig funktionierende Option, und es ist nicht sinnvoll, in etwas Komplizierteres zu investieren.

Für Front-End-Daten (Seitenaufrufe, Interaktion mit Steuerelementen, Bildlauf, Klicks, Eingabe) können Sie klassische Tools wie Google Analytics oder Yandex.Metrica und beispielsweise HotJar zum Aufzeichnen von Sitzungen verwenden. Es gibt genügend grundlegende Funktionen für Marketingaufgaben und für Produktberichte zu Trichtern und A / B-Tests haben wir schnell genug auf die Google Reporting-API umgestellt. Wir haben es bereits auf Habré erzählt. Hier und hier .

Bild

Nachdem Sie die Basisinfrastruktur erstellt und mit dem Sammeln grundlegender Statistiken begonnen haben, müssen Sie sicherstellen, dass sich das Produkt synchron mit seinen Metriken entwickelt.

Das heißt, Wenn Sie eine neue Funktion in einem Produkt implementieren möchten, müssen Sie ungefähr die folgenden Fragen beantworten:

  • Welche wichtigen Geschäftskennzahlen werden davon betroffen sein?
  • Welche Änderungen werden an Customer Journey- oder Backend-Algorithmen vorgenommen? Und wie wirkt sich dies auf vorhandene Metriken aus?
  • In welchen Phasen / Komponenten kann ich die neuen Funktionen aufschlüsseln, damit ich durch das Sammeln von Metriken für jede einzelne die Funktionsweise der Funktion überprüfen und analysieren kann

Überlegen Sie nun, ob die Möglichkeit, alle oben genannten Metriken zu erfassen, Teil der Problemstellung ist. Und wie genau werden Sie sie sammeln, wenn die Funktionalität implementiert ist?

Als Nächstes müssen Sie sicherstellen, dass das Subsystem zum Sammeln und Speichern von Statistiken für Ihr Entwicklungsteam und Ihr IT-Team von ausreichender Bedeutung ist. Ihre Bedeutung sollte fast der Bedeutung des Produktionssystems entsprechen. Am Anfang hatten wir beispielsweise ein ständiges Problem damit, dass das Google Analytics-Tracking von verschiedenen Seiten verschwand, bis wir mit Entwicklern über die Bedeutung dieser Dinge diskutierten. Danach erschienen die notwendigen gemeinsamen Bibliotheken, QS-Richtlinien usw.

Analytics für Analysten


Die Verfügbarkeit von Daten bedeutet nicht deren effektive Nutzung. Die folgenden Probleme / Aufgaben treten normalerweise auf:

  • Woher bekommen Sie diese oder jene Metrik? Wie kann ich sie da rausholen?
  • Geht sie richtig (Auf einmal funktioniert nicht mehr alles wie vorgesehen)
  • Welchen Bericht sollte ich zeichnen, damit ich Schlussfolgerungen ziehen kann?
  • Gibt es statistische Signifikanz?
  • Ist es möglich, mehr Daten zu sammeln, um besser zu verstehen, was passiert, oder um die auf eine Weise / an einem Ort gesammelten Metriken durch andere Metriken zu überprüfen.

Bild

Es stellt sich heraus, dass dies eine ziemlich umfangreiche Arbeit ist, die besondere Fähigkeiten und vor allem Zeit erfordert. Daher muss eine Analyseabteilung eingerichtet werden.

Unsere Analyseabteilung ist ziemlich groß, was die Anzahl der Mitarbeiter betrifft, die fast dem mittleren Management entspricht. Es enthält sowohl Studenten von gestern mit guten SQL-Kenntnissen als auch Fachleute, die gut verstehen, wie und welche Daten abgerufen werden müssen, um Geschäftsentscheidungen zu treffen. Der Strom von Anfragen an sie übersteigt traditionell ihre Fähigkeiten.

Seen und Data Warehouses


Eines der Probleme, auf die Sie wahrscheinlich stoßen werden, wenn immer mehr Daten vorliegen, besteht darin, dass sie sich an verschiedenen Orten befinden und einige Analysten mit einigen Repositorys arbeiten können, andere mit anderen. Und bei einigen Datenbanken weiß wahrscheinlich niemand sofort, wie man arbeitet. Es wird auch schwierig, diese Daten miteinander zu vergleichen.
Die Lösung für dieses Problem kann ein System wie Data Warehouse (DWH) sein. In unserem Fall haben wir zum ersten Mal darüber nachgedacht, als wir Daten zum Benutzerverhalten auf der Website und Daten zu seinem Verhalten als Kreditnehmer kombinieren wollten. Die Prinzipien der Konstruktion von DWH gehen weit über den Rahmen dieses Artikels hinaus. Ich werde nur sagen, welche Schwierigkeiten / Merkmale in unserem Fall waren:

  • Bei jedem unserer Projekte (jetzt gibt es 9 in 6 Ländern) unterscheidet sich die Datenstruktur geringfügig, und dementsprechend mussten Grundsätze für ihre Vereinheitlichung entwickelt werden
  • Es musste überlegt werden, wie heterogene Daten in einem Speicher vereint werden können.

Zum Beispiel:

  1. Benutzerverhalten auf der Website - Übergänge zwischen Seiten, Interaktion mit Steuerelementen
  2. kreditpolitisches Arbeitsprotokoll - die Umsetzung der Regeln und deren Ergebnisse, der Übergang entlang der Zweige der Logik
  3. Kreditnehmerverhalten - Kreditzahlungen, Cross-Selling

Nachdem wir mehr oder weniger gelernt haben, Daten miteinander zu integrieren und zu einem Data Lake zusammenzuführen, haben wir Storefronts erstellt - vorbereitete Datensätze, Berichte und Visualisierungen -, um die es ging. Am Ausgang erwarten wir eine deutliche Reduzierung der Anforderungen an die Fähigkeiten und Arbeitskosten unserer Analysten.

Normalerweise erscheint zu diesem Zeitpunkt eine dedizierte Rolle als Dateningenieur im Unternehmen - d. H. Verantwortliche für die Dateninfrastruktur. Sie sind mit der Aufrechterhaltung und Entwicklung des DWH betraut.

Es ist besser, sofort die richtigen Leute einzustellen.


Mit dem Wachstum des Unternehmens stellt sich heraus, dass nicht alle Mitarbeiter die Bedeutung von Daten sofort verstehen und mit ihnen arbeiten können. Es stellen sich zwei Fragen: interne Beförderung und Einstellung der richtigen Mitarbeiter.

Wenn die Gründer des Unternehmens, wie oben erwähnt, Träger einer Datenkultur sind, geht es, wie oben erwähnt, um das Top-Management, das mittlere Management usw. Zum Beispiel fordere ich von meinen Produktmanagern auf, die potenziellen Auswirkungen auf das Geld zu berechnen oder wichtige Kennzahlen vor der Implementierung zu ändern und den Plan nach der Implementierung der neuen Funktionalität zu überprüfen. Oder lassen Sie sich beispielsweise bei der Priorisierung der Arbeit von denselben Bewertungen des „Geschäftswerts“ leiten.

Wir nähern uns der Gründung einer datengetriebenen Kultur von zwei Seiten. Unsere IT-Abteilung kann von Geschäftsführern verlangen, dass sie in der Aufgabenaufstellung eine Schätzung der Auswirkungen auf das Geld festlegen. Dies gilt für alle Abteilungen: Marketing, Support, Buchhaltung. Dazu haben wir kürzlich die Anforderung hinzugefügt, dass das Unternehmen die Metriken explizit beschreibt, anhand derer die Ergebnisse der implementierten Änderungen verfolgt werden, und dass die IT sicherstellen muss, dass auf diese Metriken auf verständliche Weise zugegriffen werden kann.

Es ist natürlich wichtig, bei der Einstellung von Mitarbeitern sofort zu überprüfen, ob sie es gewohnt sind, sich auf die Zahlen in ihrer Arbeit zu konzentrieren oder nicht, ob sie wissen, wie es geht. Meine Lieblingsfragen während des Interviews, wenn wir die Erfahrungen des Kandidaten diskutieren: Wie haben Sie berechnet, welchen Effekt das Feature haben wird, wie haben Sie gemessen, welchen Effekt es tatsächlich hat, und warum sollte dieser Effekt Ihrer Meinung nach diesem Feature zugeschrieben werden und nicht etwas anderes. Ein guter Kandidat wird immer in der Lage sein, logisch zu rechtfertigen, warum er dies getan hat und nicht anders.

Mit dem Wachstum des Geschäfts- und Datenvolumens wird es sinnvoll, fortgeschrittenere statistische Techniken und fortgeschrittenere Anwendungsbibliotheken zu verwenden - einige der heutigen Datenwissenschaften.

Wenn wir über Datenwissenschaft im weiteren Sinne sprechen als über neuronale Netze und maschinelles Lernen, dann haben wir beispielsweise erfolgreiche Erfahrungen mit der Umstellung von klassischen Paketen wie SAS auf logistische Regression auf selbst geschriebene Python-Tools gemacht. Dies reduzierte die Zeit für die Entwicklung des Kredit-Scorings um das Fünffache.

Irgendwann wurde uns klar, dass logistische Regression und Clusteranalyse für bestimmte Volumina ihre Verwendung im Marketing und Produktmanagement für Aufgaben im Zusammenhang mit der Kundensegmentierung und der individuellen Ermittlung der optimalen Produkt- oder Rabattstrategie für jeden Kunden rechtfertigen.

Lernen, die Zukunft vorherzusagen


Die Besonderheit des Kreditgeschäfts besteht darin, dass es nicht ausreicht, ein Produkt zu verkaufen - Geld auf Kredit, Sie müssen den zukünftigen Cashflow verwalten. Dementsprechend tritt die Rolle verschiedener Vorhersagemodelle und ihre Integration in die Prognose der zukünftigen Gewinn- und Verlustrechnung in den Vordergrund. Beispiele für solche Modelle: zukünftige Gebühren basierend auf Daten zu vorzeitigen Zahlungsrückständen, durchschnittliche Rechnung basierend auf Daten zur Kundensegmentierung, Anzahl der Kredite basierend auf Rückgabedaten und dergleichen.

Bild

Dies ist im Allgemeinen sehr inspirierend, wenn es ein Toolkit gibt, mit dem Sie die Auswirkungen Ihrer Funktion auf verschiedene wichtige Geschäftsmetriken bewerten und die Steigerung des Unternehmensumsatzes vorhersagen können.

Um solche Tools zu entwickeln, zu warten und zu implementieren, entwickeln wir jetzt eine Abteilung für Finanzplanung und -analyse (FP & A), deren Aufgabe es sein wird, Geschäftsentscheidungen durch Daten, Analysen und Modellierung noch besser zu unterstützen.

Vor uns liegen noch viele interessante Dinge: die Weiterentwicklung der BI-Infrastruktur, die Schaffung von Abteilungen, die sie unterstützen, und die Prozesse, die sie verwenden.

Zusammenfassend können wir die folgenden Prinzipien für die Entwicklung eines datengetriebenen Ansatzes unterscheiden, an die ich mich halten würde:

  • Der erwartete Return on Investment (z. B. Zeitersparnis für Mitarbeiter, Erhöhung der Genauigkeit / Geschwindigkeit der Entscheidungsfindung usw.) entspricht den aufgewendeten Ressourcen.
  • Internes Produktmanagement: Bei der Erstellung und Entwicklung der Infrastruktur werden „Wunschliste“ und Feedback von internen Kunden untersucht. Und berücksichtigt.
  • Die Infrastrukturentwicklung muss mit der Entwicklung von Prozessen und Methoden Schritt halten. Und alles in allem - nicht zurückbleiben und die Entwicklung des Unternehmens in Bezug auf seine analytischen Anforderungen nicht übertreffen.

Source: https://habr.com/ru/post/de461339/


All Articles