Im Jahr 2008 war BigData ein neuer Begriff und Modetrend. Im Jahr 2019 ist BigData ein Verkaufsobjekt, eine Gewinnquelle und ein Anlass für neue Rechnungen.
Im vergangenen Herbst hat die russische Regierung ein Gesetz zur Regulierung von Big Data verabschiedet. Es ist verboten, Personen anhand von Informationen zu identifizieren, dies ist jedoch auf Ersuchen der Bundesbehörden zulässig. Verarbeitung von BigData für Dritte - erst nach Benachrichtigung von Roskomnadzor. Unternehmen mit mehr als 100.000 Netzwerkadressen unterliegen dem Gesetz. Und natürlich ohne Register - es soll eines mit einer Liste von Datenbankoperatoren erstellt werden. Und wenn diese BigData vorher nicht von allen ernst genommen wurde, muss jetzt damit gerechnet werden.
Ich kann die Datenbank nicht ignorieren und ich als Direktor eines Abrechnungsentwicklerunternehmens, das dieselben BigData verarbeitet. Ich werde über Big Data durch das Prisma der Telekommunikationsbetreiber nachdenken, über deren Abrechnungssysteme täglich Informationen über Tausende von Abonnenten fließen.
Der Satz
Beginnen wir wie im mathematischen Problem: Zuerst beweisen wir, dass die Daten von Kommunikationsoperatoren BigDat heißen können. Standardmäßig sind große Datenmengen durch drei Anzeichen von VVV gekennzeichnet, obwohl in freien Interpretationen die Anzahl von "V" sieben erreichte.
Lautstärke Allein das MVNO von Rostelecom bedient mehr als eine Million Abonnenten. Wichtige Host-Betreiber verarbeiten Daten von 44 bis 78 Millionen Menschen. Der Verkehr wächst jede Sekunde: Für das erste Quartal 2019 haben Abonnenten bereits 3,3 Milliarden GB von Mobiltelefonen erhalten.
Geschwindigkeit Niemand kann die Dynamik besser beurteilen als Statistiken, daher werde ich die Prognosen von Cisco durchgehen. Bis 2021 werden 20% des IP-Verkehrs in den mobilen Verkehr fließen - er wird in fünf Jahren fast dreimal wachsen. Ein Drittel der mobilen Verbindungen wird über M2M hergestellt - die Entwicklung des Internet der Dinge wird zu einer Vervierfachung der Verbindungen führen. Das Internet der Dinge wird nicht nur rentabel, sondern auch ressourcenintensiv, sodass sich einige Betreiber nur darauf konzentrieren werden. Und diejenigen, die IoT als separaten Dienst entwickeln, erhalten doppelten Datenverkehr.
Vielfalt Vielfalt ist ein subjektives Konzept, aber Telekommunikationsbetreiber wissen wirklich fast alles über ihre Abonnenten. Von den Namen- und Passdaten bis zum Telefonmodell, Einkäufen, besuchten Orten und Interessen. Mediendateien nach dem Frühlingsgesetz werden sechs Monate lang gespeichert. Nehmen wir also als Axiom, dass die gesammelten Daten unterschiedlich sind.
Software und Methodik
Anbieter sind einer der Hauptverbraucher von BigData, daher sind die meisten Big-Data-Analysetechniken auf die Telekommunikationsbranche anwendbar. Eine andere Frage ist, wer bereit ist, in die Entwicklung von ML, AI, Deep Learning, in Rechenzentren und Data Mining zu investieren. Die vollständige Arbeit mit der Datenbank besteht aus der Infrastruktur und dem Team, deren Kosten sich nicht jeder leisten kann. Wetten auf BigData kosten Unternehmen, die bereits über ein Unternehmens-Repository verfügen oder die Data Governance-Methodik entwickeln. Für diejenigen, die nicht bereit sind, langfristig zu investieren, empfehle ich Ihnen, die Softwarearchitektur schrittweise aufzubauen und die Komponenten nacheinander zu platzieren. Schwere Module und Hadoop können am Ende gelassen werden. Nur wenige Menschen kaufen eine vorgefertigte Lösung für Aufgaben wie Data Quality und Data Mining. Hauptsächlich Unternehmen passen das System an ihre Besonderheiten und Bedürfnisse an - entweder selbst oder mithilfe von Entwicklern.
Es kann jedoch nicht jede Abrechnung geändert werden, um mit BigData zu arbeiten. Vielmehr kann nicht nur jeder etwas ändern. Nur wenige können das.
Drei Anzeichen dafür, dass ein Abrechnungssystem die Chance hat, ein Datenbankverarbeitungstool zu werden:
- Horizontale Skalierbarkeit. Software muss flexibel sein - wir sprechen von Big Data. Eine Erhöhung der Informationsmenge sollte mit einer proportionalen Erhöhung des „Eisens“ im Cluster behandelt werden.
- Fehlertoleranz. Seriöse Prepaid-Systeme sind normalerweise standardmäßig fehlertolerant: Die Abrechnung wird in einem Cluster in mehreren geografischen Standorten bereitgestellt, sodass sie sich automatisch gegenseitig versichern. Computer im Hadoop-Cluster sollten auch für den Fall ausreichen, dass einer oder mehrere von ihnen ausfallen.
- Lokalität. Daten müssen auf demselben Server gespeichert und verarbeitet werden, da Sie sonst bei der Datenübertragung pleite gehen können. Eines der beliebtesten Map-Reduce-Ansätze: HDFS-Speicher, Spark-Prozesse. Idealerweise sollte sich die Software nahtlos in die Rechenzentrumsinfrastruktur integrieren lassen und drei Aufgaben in einem ausführen können: Sammeln, Organisieren und Analysieren von Informationen.
Das Team
Was, wie und zu welchem Zweck das Programm Big Data verarbeitet - entscheidet das Team. Oft besteht es aus einer Person - einem Datenwissenschaftler. Meiner Meinung nach umfasst das Mindestpaket an Mitarbeitern für BigData einen Produktmanager, einen Dateningenieur und einen Manager. Der erste versteht Dienstleistungen, übersetzt eine Fachsprache ins Menschliche und umgekehrt. Data Engineer erweckt Modelle mit Java / Scala zum Leben und experimentiert mit maschinellem Lernen. Der Leiter koordiniert, setzt Ziele, kontrolliert die Stufen.
Die Probleme
Gerade seitens des BigData-Teams treten normalerweise Probleme beim Sammeln und Verarbeiten von Daten auf. Das Programm muss erklären, was gesammelt und wie es verarbeitet werden soll. Um dies zu erklären, müssen Sie es zuerst selbst verstehen. Und Anbieter sind nicht so einfach. Ich spreche von Problemen am Beispiel der Aufgabe, die Abwanderung von Abonnenten zu verringern - genau die Telekommunikationsbetreiber versuchen zunächst, sie mit BigData zu lösen.
Aufgabenstellung. Richtig geschriebenes TK und ein anderes Verständnis der Begriffe sind nicht nur für Freiberufler jahrhundertealter Schmerz. Sogar die "abgefallenen" Abonnenten können auf unterschiedliche Weise interpretiert werden - als würden sie die Dienste des Betreibers für einen Monat, sechs Monate oder ein Jahr nicht nutzen. Um MVP für historische Daten zu erstellen, müssen Sie die Häufigkeit der Teilnehmer verstehen, die aus dem Abfluss zurückkehren - diejenigen, die die Kommunikation anderer Betreiber versucht haben oder die Stadt verlassen und eine andere Nummer verwendet haben. Eine weitere wichtige Frage: Wie lange vor dem erwarteten Abflug des Abonnenten sollte der Anbieter dies feststellen und Maßnahmen ergreifen? Für ein halbes Jahr - früh, für eine Woche - ist es zu spät.
Substitution von Konzepten. In der Regel identifizieren die Betreiber den Kunden anhand der Telefonnummer. Daher ist es logisch, dass die Schilder darauf entladen werden müssen. Was ist mit einem persönlichen Konto oder einer Dienstanwendungsnummer? Es muss entschieden werden, welche Einheit für den Kunden verwendet werden soll, damit sich die Daten im System des Bedieners nicht unterscheiden. Die Bewertung des Kundennutzens ist ebenfalls fraglich: Welcher Abonnent ist für das Unternehmen wertvoller, um zu behalten, welcher Benutzer mehr Anstrengungen benötigt und welcher auf jeden Fall „abfällt“, und es macht keinen Sinn, Ressourcen für ihn zu verschwenden.
Mangel an Informationen. Nicht alle Mitarbeiter des Anbieters können dem BigData-Team erklären, was genau den Abonnentenabfluss beeinflusst und wie die möglichen Faktoren bei der Abrechnung berücksichtigt werden. Selbst wenn Sie einen von ihnen - ARPU - genannt haben, können Sie ihn auf verschiedene Arten berechnen: entweder durch regelmäßige Zahlungen des Kunden oder durch automatische Abrechnung. Und im Laufe der Arbeit stellen sich eine Million weiterer Fragen. Ob alle Kunden vom Modell abgedeckt sind, wie hoch der Preis für die Kundenbindung ist, ob es sinnvoll ist, alternative Modelle zu entwickeln und was mit Kunden zu tun ist, die fälschlicherweise künstlich gehalten wurden.
Zielsetzung. Ich kenne drei Arten von ergebnisbezogenen Fehlern, die die Bediener von der Datenbank enttäuschen.
- Der Anbieter investiert in BigData, verarbeitet Gigabyte an Informationen, erhält jedoch ein Ergebnis, das noch günstiger erzielt werden könnte. Es werden einfache Schemata und Modelle sowie primitive Analysen verwendet. Die Kosten sind um ein Vielfaches höher, aber das Ergebnis ist das gleiche.
- Der Bediener empfängt am Ausgang vielfältige Daten, versteht diese jedoch nicht. Es gibt Analytik - hier ist sie verständlich und umfangreich, und der Sinn daraus ist Null. Das Endergebnis, das nicht aus dem Ziel „Daten verarbeiten“ bestehen kann, wurde nicht durchdacht. Um ein wenig zu verarbeiten - Analytics sollte die Grundlage für die Aktualisierung von Geschäftsprozessen werden.
- Hindernisse für die Verwendung von BigData-Analysen können veraltete Geschäftsprozesse und unangemessene Software für neue Zwecke sein. Sie haben also in der Vorbereitungsphase einen Fehler gemacht - sie haben den Algorithmus der Aktionen und die Phasen der Einführung von BigData in die Arbeit nicht durchdacht.
Warum
Apropos Ergebnisse. Ich werde die Methoden zur Verwendung und Monetarisierung von BigData erläutern, die bereits von Telekommunikationsbetreibern verwendet werden.
Anbieter prognostizieren nicht nur den Abfluss von Teilnehmern, sondern auch die Belastung der Basisstationen.
- Die Informationen über die Bewegung von Teilnehmern, Aktivitäts- und Frequenzdiensten werden analysiert. Ergebnis: Reduzierte Überlastung durch Optimierung und Modernisierung problematischer Infrastrukturabschnitte.
- Informationen über die Geolokalisierung und Flussdichte der Abonnenten werden von Telekommunikationsbetreibern bei der Eröffnung von Verkaufsstellen verwendet. Daher wird BigData Analytics bereits von MTS und Vimpelcom verwendet, um den Standort neuer Büros zu planen.
- Anbieter monetarisieren ihre eigenen Big Data, indem sie sie Dritten anbieten. Die Hauptkunden der BigData-Betreiber sind Geschäftsbanken. Mithilfe der Datenbank verfolgen sie die verdächtigen Aktivitäten der SIM-Karte des Teilnehmers, an die die Karten angeschlossen sind, und nutzen die Dienste der Risikobewertung, Überprüfung und Überwachung. Laut BigData hat die Moskauer Regierung Tele2 2017 nach der Bewegungsdynamik für die Planung der technischen Infrastruktur und der Verkehrsinfrastruktur gefragt.
- BigData Analytics ist eine Goldmine für Vermarkter, die auf Wunsch personalisierte Werbekampagnen für bis zu Tausende von Abonnentengruppen erstellen können. Telekommunikationsunternehmen aggregieren soziale Profile, Verbraucherinteressen und Verhaltensmuster von Abonnenten und verwenden dann die gesammelten BigData, um neue Kunden zu gewinnen. Für eine umfassende Planung von Werbung und PR verfügt die Abrechnung jedoch nicht immer über genügend Funktionen: Das Programm muss gleichzeitig viele Faktoren parallel zu detaillierten Informationen über Kunden berücksichtigen.
Während jemand BigData immer noch als leere Phrase betrachtet, verdienen die Big Four bereits Geld damit. Für sechs Monate verdient MTS 14 Milliarden Rubel durch die Verarbeitung von Big Data, während Tele2 seinen Projektumsatz um das Dreieinhalbfache steigerte. BigData verwandelt sich von einem Trend in ein Muss, unter dem die gesamte Struktur der Telekommunikationsbetreiber neu aufgebaut wird.