Was macht Big Data in MegaFon und wie kommt man dorthin?

MegaFon ist nicht nur ein Telekommunikationsunternehmen, das mobile Kommunikation anbietet, sondern ein digitales Unternehmen, das Produkte entwickelt, die ein Ökosystem für das Leben eines Kunden bilden: "Eigene Karte", "Eigene Rückerstattung", "MegaFon.TV", "MegaFon.Music" und viele mehr andere. Die MegaFon Big Data Analytics-Abteilung passt die Angebote an die Bedürfnisse jedes Kunden an.

Bild
Rede von MegaFon Big Data Analysten auf der Data Fest-Konferenz im Frühjahr 2019

MegaFon-Datacientists lösen das Problem des Erhalts der Abonnentenbasis, was eine der Prioritäten des Unternehmens angesichts eines langsameren Wachstums auf dem Telekommunikationsmarkt ist. Beispielsweise wurde vor einigen Jahren auf der Grundlage von Big Data eine neue Tariflinie "Einschalten" entwickelt. Es basiert auf den wirklichen Interessen digitaler Nutzer: Sprechen, Chatten in Messenger-Programmen, Musik hören, Chatten in sozialen Netzwerken, Videos ansehen. Die Namen der Tarife entsprechen der Befüllung nach Interessen, und die uneingeschränkte Nutzung vertrauter Anwendungen erfordert keine Berechnung des verbrauchten Verkehrs. Bei der Bildung eines Ökosystems ist es unsere Aufgabe, jedem Kunden ein individuelles Angebot zu unterbreiten.

Big Data löst auch die mit dem Einzelhandel verbundenen Probleme. Mithilfe von Modellen für maschinelles Lernen können wir beispielsweise herausfinden, wo ineffiziente Salons verschoben und neue eröffnet werden. Die Arbeit mit Geodaten hilft uns dabei.

Die Big-Data-Analyse wird auch bei Aufgaben im Zusammenhang mit der Entwicklung der Netzwerkinfrastruktur eingesetzt, bei denen anhand der Analyse der Türme und des Verkehrs aus diesen die optimale Abdeckung ermittelt und vielversprechende Standorte für den Bau prognostiziert werden.

Welche Technologien werden verwendet?

Die Datenmenge, mit der wir arbeiten, beläuft sich auf Millionen von Abonnenten und Milliarden von täglichen Aufzeichnungen. Big Data sind nicht nur Datenbanken wie Oracle, MySQL oder MongoDB. Big Data ist eine ganze Reihe von Software für die Arbeit mit ihnen. Um mit Big Data arbeiten zu können, müssen Sie verstehen, wie Hadoop funktioniert, und die Funktionen der Arbeit mit Spark, Hive und HDFS kennen. Häufig haben Datenanalysten, die zu uns kommen, diese Tools in ihrer Arbeit bisher nicht verwendet. In diesem Fall vermitteln wir die Fähigkeiten, die nicht ausreichen.

Die Fähigkeiten im Umgang mit Big Data werden durch Erfahrung erworben. Daher ist MegaFon an talentierten Analysten interessiert, die bereit sind, alle erforderlichen Tools zu erlernen und diese auf die tatsächlichen Aufgaben des Unternehmens anzuwenden.

Bild
BigDataCamp im Büro von MegaFon, 2019

Wie entwickeln Experten von MegaFon Big Data Modelle?

Die Big-Data-Experten von MegaFon sind in Analysten (Datasaentisten) und Ingenieure unterteilt. Analysten testen Hypothesen und erstellen Modelle für maschinelles Lernen. Ingenieure helfen Analysten dabei, Storefronts zu sammeln, ETL-Prozesse zu optimieren und Modelle in der Produktion einzurichten.

Die Entwicklung des Modells ist wie folgt. Zuerst sammeln wir die notwendigen Daten in Hadoop oder Oracle. Anschließend wird das Modell auf dedizierten Servern mit viel Arbeitsspeicher und CPU-Kernen trainiert. Für das Training neuronaler Netze verwenden wir Server mit GPUs.

Bild
BigDataCamp im Büro von MegaFon, 2019

Die Hauptsprache für die Entwicklung von Modellen ist Python. Um Daten in Python zu verarbeiten, werden normalerweise die Standardbibliotheken Pandas, NamPy und Scikit-learn benötigt. Für Berechnungen in Hadoop werden PySpark und Hive zur Modellierung verwendet - Bibliotheken wie Scikit-Learn, Xgboost, LightGBM, PyTorch und andere. Die Liste hängt von der Aufgabe ab. Warum Python? Ihr Hauptvorteil ist die Einfachheit der Produktivität. Wir können eine Entscheidung treffen, die sofort in die gemeinsame Infrastruktur integriert wird. Die erforderlichen Bibliotheken befinden sich zwar nicht in Python, jedoch in anderen Sprachen. Beispielsweise verfügt R über Statistikbibliotheken, die sich nicht in Python befinden.

Was ist, wenn niemand Hadoop kennt?

Hadoop-Kenntnisse sind wünschenswert, aber keine Voraussetzung, um zu unserem Team zu gelangen. Nicht alle Unternehmen verfügen über die Datenmenge, über die MegaFon verfügt, weshalb Kandidaten nicht die Möglichkeit hatten, an ihrem vorherigen Arbeitsplatz mit Hadoop zusammenzuarbeiten.

Es ist nicht sehr schwierig, die grundlegenden Befehle für die Arbeit mit dem Hadoop-Cluster zu beherrschen. Bei komplexeren Aufgaben ist jedoch ein tiefes Verständnis der Big-Data-Algorithmen, MapReduce- und Abfrageoptimierungsmethoden erforderlich. Im Hadoop-Ökosystem gibt es beispielsweise ein Produkt wie Hive. Es ermöglicht das Schreiben von SQL-ähnlichen Abfragen und läuft auf Hadoop. Es wurde ursprünglich von Facebook entwickelt. Beachten Sie jedoch, dass dies keine Manipulation einer relationalen Datenbank bewirkt, obwohl Sie in SQL schreiben. Hier können Sie einfache Abfragen schreiben. Um jedoch Effizienz, dh Geschwindigkeit und minimalen Einsatz von Clusterressourcen zu erreichen, sollten Sie die Nuancen der Abfrageoptimierung mit MapReduce kennen.

Praktika sind eine Gelegenheit, sich weiterzuentwickeln und Geschäftserfahrung zu sammeln. Gibt es Praktika in
Big Data MegaFon?

In unserer digitalen Welt sammelt anscheinend bereits jeder Stuhl Daten über die Person, die darauf sitzt, ganz zu schweigen vom Internet der Dinge und der Vielzahl der Dienste, die wir alle nutzen.

Der Bedarf an Fachkräften wächst, es gibt eine Vielzahl von Analysen und Prognosen, wie viele in naher Zukunft benötigt werden. Jedes Unternehmen, das mindestens einige Daten sammelt, weiß, dass diese Daten einen Wert haben und eine Vielzahl von Erkenntnissen liefern können. Daher sind Datenanalysten jetzt gefragt.

Bild
BigDataCamp im Büro von MegaFon, 2019

Wir sind froh, große Spezialisten zu haben, aber der Markt ist klein und es gibt nicht viele, die für uns geeignet sind. Deshalb entwickelt MegaFon Praktikumsprogramme. Grundsätzlich laden wir Senior-Studenten und Absolventen aus den Bereichen Programmierung und Mathematik zu Praktika ein. Es gibt Ausnahmen, zum Beispiel gab es eine erfolgreiche Erfahrung im Umgang mit Leuten aus den geografischen Abteilungen. Für uns ist es wichtig, dass der Student Arbeit und Studium harmonisch verbinden, sich im Unternehmen weiterentwickeln und zukünftig zum Analytiker oder Ingenieur wechseln kann.

Wie tippst du ein Team ein?

Unsere Interviews mit Praktikanten unterscheiden sich von Interviews mit erfahrenen Fachleuten. Bei der Suche nach Praktikanten führt der Personalvermittler ein kleines Telefoninterview durch, aus dessen Ergebnissen hervorgeht, ob der Kandidat an unseren Aufgaben interessiert ist und über welchen Wissens- und Erfahrungsstand er aktuell verfügt. Für uns ist es wichtig, ob der Kandidat in der Lage ist, in Python zu programmieren, ob er die grundlegenden Bibliotheken des maschinellen Lernens kennt, ob er Erfahrung in der Lösung von Schulungsproblemen im Zusammenhang mit der Analyse von Big Data hat, ob er zuvor mathematische Modelle erstellt hat und welche Algorithmen er verwendet hat.

Basierend auf den Ergebnissen eines Telefoninterviews wählen wir 5-10 Kandidaten aus, die gleichzeitig für 2-3 Stunden in unser Büro kommen, um die Jungs aus dem Team kennenzulernen und die technische Aufgabe zu lösen. Es ist so nah wie möglich an der Telekommunikationsbranche - es ist notwendig, ein Modell für die Klassifizierung unserer Abonnenten zu erstellen. Als nächstes vergleichen wir die Ergebnisse und laden die Besten zum abschließenden Interview ein, um einen individuellen Arbeitsplan, Aufgaben und andere Bedingungen zu besprechen.

Das Praktikum dauert 3 Monate. Der Praktikant hat echte geschäftliche Aufgaben. In den meisten Fällen sind Aufgaben bereits formalisiert, und eine Person hat ein klares Verständnis dafür, was zu tun ist. Andernfalls können Sie sich jederzeit an Ihren Mentor wenden .

Zusätzlich zu den geschäftlichen Aufgaben werden unsere Praktikanten regelmäßig offline und online geschult. Wir arbeiten mit New Pro Lab, dem Big Data Team, Geek Brains, Data Gym und anderen zusammen. Unsere Experten haben Zugriff auf Coursera.

Wie die Praxis zeigt, reichen drei Monate aus, um zu verstehen, ob wir weiter zusammenarbeiten wollen. Wenn der Praktikant gute Ergebnisse zeigt, bringen wir ihn auf die Position des Junior Data Scientist und entwickeln ihn weiter.

Bild
Egor, MegaFon Big Data Analyst, auf der Data Fest-Konferenz im Frühjahr 2019.

Die Suche nach erfahrenen Fachleuten ist wie folgt:

1. Doppelter Lebenslauf oder Kandidatenprofil mit Teamleitern und Personalvermittlern.

2. Persönliches Interview mit dem Teamleiter, bei dem es um technische und nicht nur um Fragen geht: Wahrscheinlichkeitstheorie, Statistik, maschinelles Lernen, Erfahrung im Umgang mit verschiedenen Hilfsprogrammen, Erwartungen an den Kandidaten selbst.

3. Wenn das Interview für beide Seiten gut verlaufen ist, fragen wir nach dem Portfolio des Bewerbers (persönliche Projekte und Code) oder bitten uns, unsere technische Aufgabe zu lösen, um den Code zu sehen und den Fortschritt bei der Lösung der Probleme herauszufinden. Die technische Aufgabe ist auch mit der Telekommunikation verbunden: Es muss vorhergesagt werden, ob der Teilnehmer über mehrere SIM-Karten verfügt. Die Dauer des Auftrags wird vom Bewerber selbst festgelegt, beträgt jedoch in der Regel nicht mehr als eine Woche. Einer unserer Mitarbeiter löste die Aufgabe an diesem Abend und eine Woche später kam er zu uns, um für uns zu arbeiten. Hallo Artyom;)

4. Treffen mit dem Direktor für Big Data Analytics, Besprechung von Aufgaben und Bedingungen.

Ist die Bürokratie in einem großen Unternehmen stark?

Der Großteil unseres Teams arbeitet in der Zentrale in Moskau, aber wir haben Teams in Nischni Nowgorod und Jekaterinburg. An Projekten können Kollegen aus verschiedenen Städten beteiligt sein, alles hängt von den Aufgaben und Fähigkeiten der Mitarbeiter ab.

Unsere Abteilung ist jung, dynamisch und es ist uns zunächst gelungen, Prozesse für die Interaktion mit anderen Abteilungen korrekt aufzubauen: Wir müssen keine Daten über Kollegen anfordern, sondern hauptsächlich unsere Datenbank Oracle oder Hadoop verwenden und ein Modell erstellen.

Bild
Arbeit im Büro von MegaFon

Unser Workflow ist wie folgt organisiert. Zunächst bespricht der Manager die Anforderungen mit einem Kundenvertreter. In der Regel geht es um die Verbesserung eines Geschäftsprozesses durch maschinelles Lernen und Datenanalyse. Beispielsweise können wir den Verkauf von Smartphones für unseren Einzelhandel optimieren. Anschließend besprechen der Manager, der Teamleiter und der Analyst gemeinsam die Bedingungen und Entwicklungsstadien. Arrangements werden in Jira aufgenommen, wir führen auch Confluence aus, dies ist unser internes Wiki. Natürlich verwenden wir Gitlab.

In diesem Jahr haben wir den Codeüberprüfungsprozess für alle wichtigen Phasen des Data Science-Projekts eingeführt und sehen bereits die Ergebnisse: Die Codequalität vieler Mitarbeiter hat sich erheblich verbessert. Weitere Pläne zur Verbesserung des Entwicklungsprozesses sind die Implementierung des DVC-Tools (Data Version Control), mit dem das gesamte Projekt einschließlich der Datensätze versioniert werden kann.

Die Projektdauer kann zwischen mehreren Monaten und sechs Monaten liegen. Der Analyst ist an allen Phasen des Projekts beteiligt, von der Formalisierung der Anforderungen über die Bestimmung des Zielereignisses des Modells bis hin zur Überwachung der Stabilität des Ergebnisses in der Produktion.

Wir sind sehr ergebnisorientiert, wir unternehmen niemals eine Entwicklung ohne ein klares Verständnis dafür, welche Vorteile wir für MegaFon bringen können.
Nach der Erstellung des Modells starten wir Testkampagnen, die auf den Ergebnissen seiner Arbeit basieren. Bei Erfolg rollen wir unsere Lösung an Millionen von MegaFon-Abonnenten aus. Zukünftig analysieren wir die Ergebnisse nicht nur unter dem Gesichtspunkt von Modellmetriken wie Genauigkeit oder Vollständigkeit des Zielsegments, sondern setzen uns auch ernsthaft mit der Analyse von Geschäftsindikatoren auseinander. Unsere Business Analysten helfen uns dabei.

Team und Entwicklung

Das größte Plus in dieser Abteilung ist ein Team von wirklich klugen Jungs und interessanten Aufgaben. Das Büro, das Einkaufszentrum darin, Boni, Entschädigung sind natürlich auch gut, aber es ist auf dem dritten Platz. MegaFon für Analysten ist ein echtes Datenlager. Nicht jeder hat die Möglichkeit, mit einer solchen Art und Menge von Daten zu arbeiten, dass Sie bei der Analyse Erkenntnisse gewinnen und Entscheidungen treffen können, die letztendlich viel Geld bringen. Dies ist für den Analysten am interessantesten. Sie haben an der Universität studiert, einen neuen Algorithmus geschrieben, ihn codiert, wissenschaftliche Methoden angewendet, der Algorithmus hat begonnen zu funktionieren und wirklich einen Nutzen gebracht. Das ist es, was die meisten Emotionen hervorruft.

Wir sind Menschen mit Zahlen, umgeben von Menschen mit Kommerz, und wenn unsere Einsichten dazu führen, Geld zu verdienen, ist das großartig!

Das Interview wurde gemeinsam mit dem My Circle Career Service vorbereitet.

Source: https://habr.com/ru/post/de479384/


All Articles