Ein See voller Marketingdaten - von monströsen Tabellen bis hin zu Berichten und Visualisierungen

Hallo! Mit den notwendigen Informationen können Sie viele nützliche (oder viele äußerst schädliche) Dinge tun. Dies hängt davon ab, wer über diese Informationen verfügt und was sie motiviert. Um mit Informationen zu arbeiten, die erforderlichen Uploads durchzuführen, Berichte zu erstellen und diese Informationen irgendwo zu speichern. Also haben wir einen riesigen See mit Marketingdaten erstellt

Mein Name ist Andrey Naumov, ich arbeite im Team für Unternehmensdatenmanagement und mache ein Produkt für Marketing und Vertrieb. Unsere Aufgabe ist es, diesen See mit Daten zu füllen (denn welche Art von Datensee ist es dann ohne Daten), damit sowohl Geschäftsleute als auch direkte Benutzer unter den Mitarbeitern, die detaillierte Analysen erstellen müssen, produktiv damit arbeiten können.


Unter dem Strich - darüber, warum wir überhaupt einen solchen See brauchten, wie wir ihn gebaut haben, wie er dazu beiträgt, neue Absatzmärkte innerhalb und außerhalb des Landes zu erschließen, sowie über unsere Pläne für die Zukunft.

Warum wird es überhaupt gebraucht?


Vor der Erstellung eines einzelnen Datensees ließ die Situation bei der Verarbeitung von Informationen zu wünschen übrig. Nein, alles hat funktioniert, aber es könnte viel besser sein. Zunächst werde ich Ihnen sagen, wie die Jungs in unserem Marketing arbeiten.

Sie arbeiten mit einer enormen Menge an Informationen aus vielen Datenquellen. Dies sind Quellen innerhalb und außerhalb von SIBUR, die frei verfügbar und nur im Abonnement verfügbar, kostenlos und kostenpflichtig sind. Im Allgemeinen ist der Zoo immer noch da. Bei den meisten dieser Informationen handelt es sich um riesige, flache Dateien, für deren Arbeit spezielle Software erforderlich ist. Oft gleichzeitig - für jeden Datentyp eine eigene Software. Es ist klar, dass diese Software oft instabil oder sogar unverblümt funktioniert.

Zum Beispiel ist der größte Teil der Marketingarbeit mit der Untersuchung der Warenströme (einschließlich Import und Export) verbunden. Mit ihrer Hilfe ist es möglich zu verstehen, welche Waren Russland verlassen und welche im Gegenteil kommen. Hier interessieren uns genau die Produkte, die SIBUR direkt oder indirekt verkaufen oder herstellen kann. Die Informationen, die von diesem System verarbeitet werden, werden monatelang in Stapeln geliefert. Es war unmöglich, eine verständliche Analyse zu erstellen, beispielsweise in einem Jahr oder einem Jahrzehnt, da wir uns auf die Einschränkungen der Software gestützt haben - in demselben Excel gibt es ein bestimmtes Maximum an Zeilen. Und wir haben Tabellen für mehr als eine Million Zeilen abgerufen. Arbeits-PCs haben solches Mobbing nicht trivialisiert.

Und dies sind nur Warenströme als eine der Quellen, und es gibt viele solcher Quellen - es gibt auch Eisenbahnstatistiken, Informationen aus internen Systemen über Unternehmensverkäufe, Expertenquellen, Berichte, die von externen Agenturen bestellt wurden, und vieles mehr.

Was tun?


Es gab eine Aufgabe - eine einzelne Version der Dokumentation an einem Ort zu erstellen, damit jeder Benutzer mit einem Visualisierungstool mit Daten arbeiten und Analysen erstellen kann. Bei der Option "Do" hatten wir aufgrund der Phase der Datenaufbereitung den wildesten Defokus der Vermarkter. Es stellte sich de facto heraus, dass unsere Vermarkter viel Zeit als Dateningenieure verbracht haben. Das ist nicht richtig.

Es war sehr schwierig, Daten im Kontext von mehr als einem Jahr zu bearbeiten und zu analysieren. Da selbst bestimmte Daten für das Jahr vorbereitet und hochgeladen wurden, mussten sie gründlich bereinigt werden. Aus Duplikaten, aus Fehlern, aus falschen Namen. Einige Zeilen erforderten eine Vereinheitlichung, zum Beispiel hatte jemand in der Tabelle unser riesiges Heimatland "Russland", jemand - "Russische Föderation", und jemand gab kurz und bündig "RF" ein. All dies musste auf eine Ansicht reduziert werden, und wie Sie wissen, ist das Beispiel mit dem Namen des Landes bei weitem nicht das einzige und nicht das offensichtlichste.

Und die Sache ist, dass wir eine Holdinggesellschaft sind, viele Organisationen haben und nicht jeder das Wort "SIBUR" im Namen hat. Daher war es nicht einfach, die Liste zu durchsuchen und die Namen mit wenigen Klicks zu filtern, sodass nur die Holdinggesellschaft sichtbar ist.

Darüber hinaus, wie viele Menschen - so viele Ansätze zur Lösung von Arbeitsproblemen. Jeder Mitarbeiter hatte seine eigene Methode zum Verarbeiten, Filtern, Zuordnen und Kombinieren von Daten. Das Problem ist, dass diese Technik im Kopf eines Mitarbeiters existierte. Daher war zu dieser Zeit viel an eine bestimmte Person gebunden. Dies ist auch nicht die lustigste Geschichte, weil Sie etwas entladen müssen - und die Person im Urlaub ist. Und setz dich, warte auf ihn. Denn ohne sie werden sie es entweder viel länger machen oder sie werden es falsch machen.

Im Allgemeinen haben wir uns entschlossen, sicherzustellen, dass keine Abhängigkeit von einer bestimmten Person besteht, dass alle Informationen allgemein und für jeden Benutzer, der sie benötigt, auf derselben Ebene zugänglich sind.

Dazu haben wir uns zunächst an die Arbeit gemacht und mit ihnen geklärt, welche der Datenquellen für sie am interessantesten wäre. Wir haben sie ausgewählt und für sie ein Pilot-Data-Warehouse mit Data-Lake-Technologien vorbereitet (wir haben diesen See ausführlich und mit Diagrammen in diesem Beitrag beschrieben ). Und dann haben sie mit einer Reihe von ETL-Tools all diese notwendigen Quellen einmal dort eingegossen: Warenströme, Produktstatistiken usw., und diese sorgfältig in die Datenbank (Vertica) gestellt. Die Aufgabe bestand darin, alles Mögliche zu integrieren, was wir getan haben.

Für die Datenvisualisierung verwenden wir Tableau, die Serverversion wurde mit dem Repository verschraubt und wir haben den Benutzern Zugriff auf alle Daten auf einmal gewährt. Benutzer, muss ich sagen, wurden ermutigt - Sie saßen früher und starrten auf Tische (riesige Tische), aber jetzt haben Sie alles schön und bequem visualisiert.


Produktflussanalyse


Produktanalyse

Wettbewerbsanalyse

Natürlich sehen unsere Analysten keine verschmierten Linien auf dem Bildschirm, sondern ganz reale Zahlen und Namen von Gegenparteien, aber wir können sie nicht anzeigen.

Weiter von den Nutzern ging nützliches Feedback. Wir sollten verstehen, dass Rohdaten (Rohdaten) für sie nicht sehr interessant sind, da jeder von ihnen eine eigene Vorschulung absolvierte. Aus diesem Grund haben wir begonnen, die häufigsten Zuordnungen und Umbenennungen zu erarbeiten, Gegenparteien neu zu schreiben und viele Fehler zu beheben. Es könnten Duplikate und Satzzeichen in Spalten vorhanden sein, jemand könnte seine Gegenstücke neben dem Namen des Unternehmens eingeben. Im Allgemeinen gab es genug Müll.

Sie brachten die Länder zu einer gemeinsamen Ansicht, es half, sie nach Regionen zusammenzubrechen und zu öffnen - Mitarbeiter können mit ein paar Klicks in der GUS, in den Ländern Südamerikas oder Nordamerikas, entladen, was für eine ordnungsgemäße Analyse sehr wichtig ist. Der Zusammenbruch ist eine bequeme Sache, daher haben wir beschlossen, diese Praxis auf juristische Personen auszudehnen - wie bei Ländern nur auf die Skala der Beteiligungen und einzelne juristische Personen.

Warum Analyse für die Arbeit mit dem Markt wichtig ist


Dank der geleisteten Arbeit wurde es möglich, Berichte der letzten 15 bis 20 Jahre in Bezug auf Import und Export anzuzeigen und gleichzeitig nicht verrückt zu werden und nicht ein paar funktionierende PCs zu verbrennen. Jetzt können Sie diesen Zeitraum nutzen und nach Jahr bereitstellen oder nach Monat fehlschlagen.

Also. In den Warenströmen gibt es so etwas wie TNVED, die Warennomenklatur der außenwirtschaftlichen Aktivität. Dies sind maximal 10 Ziffern. Je mehr Zahlen - desto spezifischer die Angabe eines bestimmten Produkts.

Schauen Sie sich das Kaffeebeispiel an.

09 - Kaffee, Tee, Kumpel, paraguayischer Tee, Gewürze. Ziemlich allgemeine Kategorie.
0901 2 - es wird uns bereits mitteilen, dass es sich um gerösteten Kaffee handelt.
0901 21 - gerösteter Kaffee mit Koffein (nicht geröstet und entkoffeiniert hat einen anderen Code).
0901 21 000 2 - die gleichen letzten 10 Ziffern, dies ist bereits Robusta (Coffea canephora).

Gleiches gilt für Produkte, die uns wichtig sind. Das ist - was wir verkaufen und produzieren. Natürlich ist Kaffee auch wichtig, aber bisher konsumieren wir ihn nicht in solchen Mengen, dass Statistiken über Importe entladen werden.

Und die für ihre Herstellung notwendigen Polymere, Kunststoffe und Rohstoffe sind uns wichtig.

Hier sehen die Codes schon so aus.

39-40 - Kunststoffe und Gegenstände davon; Gummi, Gummi und Gegenstände davon.
3901 - Ethylenpolymere in Primärformen
3901 1 - Polyethylen mit einem spezifischen Gewicht von weniger als 0,94
3901 10 100 0 - lineares Polyethylen.

Und so scheitern wir für jedes Polymer oder jede Art von Rohmaterial vom Allgemeinen zum Besonderen. Warum sollte man sich das überhaupt ansehen? Anhand von Daten zu Flüssen kann detailliert verstanden werden, dass im Laufe des Jahres eine bestimmte Menge an Polymeren in die Russische Föderation importiert wurde. Oder Rohstoffe. Das heißt, jemand kauft Produkte außerhalb des Landes, das wir produzieren, einschließlich wir hier in der Russischen Föderation. Dann besteht die Möglichkeit zu sehen, inwieweit es gekauft wird. Mit Hilfe von Mitarbeitern von Advanced Analytics können Sie die richtigen Preise anstreben und es letztendlich ermöglichen, einen solchen Kunden mit demselben Produkt zu erreichen, das wir hier jedoch anbieten, und ihm ein solches Produkt anbieten angemessener Preis. Angesichts der Mittel, die er für Zölle und Transport ausgibt.

Beim Export gleich. Eines der Produkte, an denen wir interessiert sind, wird häufig ins Ausland exportiert. Es besteht also eine sehr konstante und gute Nachfrage danach. Sie können also sehen, was es ist, an wen es geht und wie viel sie dafür bezahlen. Stellen Sie dann unter Berücksichtigung der Logistikkosten fest, ob wir dasselbe tun können, ob dies sinnvoll ist oder nicht.

Außerdem hilft es, die Aktivitäten der Wettbewerber auf demselben Gebiet zu beobachten und gegebenenfalls ihre Anzahl anzupassen.

Aber es wäre zu einfach, wenn die TNVED immer genau klarstellen würde, welche Waren unterwegs waren, oder?

Daher importieren einige Bürger Polyethylen unter einem anderen TNVED-Code, aber hier können unsere Analysten andere Felder in den Daten der Warenströme untersuchen und dann anhand der Gesamtheit der Zeichen verstehen, dass dies genau Polyethylen ist und nicht das, was im Code angegeben ist. Dies hilft dabei, zusätzliche Mengen an Exporten und Importen zu erkennen, die bei den ersten Kontrollen möglicherweise nicht beachtet werden. Basierend auf solchen Daten können wir bereits schätzen - und plötzlich ist es für uns sinnvoll, eine zusätzliche Produktion zu eröffnen, die sich nach Anzahl und Volumen auszahlt.

Wir können solche Berichte zusätzlich mit Hilfe der Analyse und des Fachwissens der Mitarbeiter selbst bereichern - in der Datenbank erscheint ein neues Feld, beispielsweise ein „Produkt“, aus dem es nun auch möglich ist, Muster zu erstellen und Berichte zu erstellen. Und für jedes spezifische Produkt (und dies wird sowohl vom TNVED als auch vom Expertenwissen der Kollegen bestimmt) sehen Sie, dass wir einige potenzielle Kunden innerhalb des Landes und mehrere weitere außerhalb des Landes haben. Daher können Sie Rohstoffe für sie oder sogar das Endprodukt herstellen.

Wir müssen tiefer gehen


Sie können noch weiter gehen - indem Sie solche Empfänger innerhalb des Landes auswählen, können wir sehen, was diese Leute noch für sich selbst aus den Waren bestellen, mit denen wir verwandt sind. Plötzlich interessieren sie sich nicht nur für Polyethylen, sondern auch für Polypropylen sowie einige Arten von BOPP-Filmen? Es stellt sich ein ziemlich umfangreicher Wissensumfang über einen bestimmten Verbraucher heraus, der studiert hat und dem Sie sofort die Waren, den richtigen Preis und komfortable Bedingungen anbieten können.

Was wir jetzt haben

Wir arbeiten weiterhin iterativ - wir geben Daten ein, sammeln Feedback von Benutzern und verfeinern unsere Analyseregeln. Es stellt sich als eine Art Teamarbeit heraus, wir lernen etwas von ihnen, sie von uns, weil sie sehr gutes Expertenwissen haben und wir technisches Wissen haben.

Nachdem wir die wichtigsten Quellen heruntergeladen und diese Daten grundlegend vorbereitet haben, wechseln wir schließlich vom Testspeicher (die ganze Zeit sind wir noch im Test, ja) zum Kampf. Dadurch werden viele Probleme behoben, da kampf = zertifiziert ist und viele Daten gespeichert werden, die nicht dem Test zugeführt werden konnten (Geschäftsgeheimnisse und andere Dinge, die auch für die Analyse wichtig sind). Jetzt wird es tatsächlich ein einziger Datensee mit einer großen Anzahl von Quellen sein. Einschließlich Angebotsdaten - unsere Kollegen von Advanced Analytics können die Preise für ein bestimmtes Produkt vorhersagen, indem sie viele Faktoren analysieren - können dies die Aktien des Unternehmens, Naturkatastrophen in den Produktionsregionen, Gerüchte über Fusionen und Übernahmen und sogar ein erfolgloser Tweet von jemandem sein Führer.

Predictive Analytics verwendet Daten und liefert Prognosen. Dieselben Prognosen werden dem Datensee hinzugefügt, und das Marketing kann sie für seine Berichte und Analysen verwenden.

Es stellt sich ein solcher Datenzyklus innerhalb eines Sees heraus. Bisher sind alle glücklich - das Geschäft, die Bewertungen sind so positiv wie möglich, weil sie verstehen, wie viel Zeit und Mühe dieses Projekt spart, und die Analysten selbst.

Also arbeiten wir daran. Und wer mit uns das Maximum aus den Daten herausholen möchte - willkommen auf der Jobseite unter hh.ru.

Source: https://habr.com/ru/post/de461029/


All Articles