
Anfang November wurde die von der Mail.Ru Group und MegaFon organisierte
Meisterschaft für maschinelles Lernen und Datenanalyse mit dem Codenamen
Telecom Data Cup ins Leben gerufen.
Der Wettbewerb wird auf der bereits bekannten
ML Boot Camp Plattform gestartet. Wir versuchen, die meisten Datenanalyse-Wettbewerbe darauf durchzuführen. Dieser Wettbewerb ist der zweite in Folge in diesem Jahr und der siebte für die gesamte Existenz des Projekts. Frühere Meisterschaften sind im Sandbox-Modus geöffnet, sodass Sie zu jeder Tages- und Nachtzeit in der Lösung vergangener Aufgaben trainieren können.
Über 2500 Benutzer haben sich für den aktuellen Wettbewerb registriert, 1700 Personen haben den Datensatz heruntergeladen, 7800 verschiedene Lösungen wurden hochgeladen und die
Chat- Community hat die Marke von 1600 Teilnehmern überschritten. Der Wettbewerb endet am 16. Dezember, es ist also Zeit, dem Kampfclub beizutreten, wenn Sie noch nicht dabei sind. Wir begrüßen und helfen allen. Kaffee oder etwas Eigenes und belebend, um dir zu helfen :)
In der Fußzeile des Artikels finden Sie nützliche Links und Materialien zu diesem und früheren Wettbewerben. Die Hauptsache ist, dass Sie jetzt in die Welt der Telecom Data Cup-Aufgabe eintauchen, die es Ihnen ermöglicht, sich schnell in den Prozess einzubringen und echte Forschung zu genießen.
Kurz über die Aufgabe
Wer bereits weiß, was in der Meisterschaft passiert, kann mit dem nächsten Abschnitt fortfahren.
Wir alle haben die obsessiven Telefon- und Internetumfragen von „Vermarktern“ satt. Stellen Sie sich vor, wie sie Sie anrufen und fragen, ob Sie gerade fernsehen, welchen Kanal, wie viele Geräte derzeit eingeschaltet sind und welche Art von Fernsehsendungen laufen. Gott, ich möchte wirklich das Telefon fallen lassen (wir machen das oft). Die Benutzer sind empört und zögern sehr, Feedback zu teilen, was sich negativ auf die Qualität der angebotenen Dienste auswirkt. Das Problem braucht eine Lösung.
Bei diesem Wettbewerb müssen Sie in die Welt der Telekommunikation eintauchen, um anhand anonymisierter Benutzerdaten, die vom MegaFon-Telekommunikationsbetreiber bereitgestellt und bei Umfragen unter realen Kunden erhalten wurden, vorherzusagen, ob die Teilnehmer mit der Qualität der Kommunikation zufrieden sind.
9443 Abonnenten wurden befragt. Das Ergebnis der Umfrage ist ein Zufriedenheitsindex für jeden Teilnehmer, der gleich Null (0 - zufrieden) oder Eins (1 - nicht zufrieden) ist. Es ist notwendig, unzufriedene Kunden mit größtmöglicher Genauigkeit zu identifizieren.
Die Metrik, die Ihre Entscheidungen bewertet, ist ROC AUC. Die Vorhersage muss für 5221 Abonnenten in derselben Reihenfolge wie in der Datei
subs_csi_test.csv erfolgen . Daten können von der Plattform-Website heruntergeladen werden. Vorläufige Ergebnisse werden durch Antworten für 2088 Abonnenten und endgültige Ergebnisse durch Antworten für 3133 Abonnenten (40/60) generiert. Die maximale Anzahl von Lösungsdownloads pro Tag beträgt 5 und die Anzahl der ausgewählten Lösungen 2.
Graal
Die Herausforderung weckte die Neugier der Gemeinde. Die Teilnehmer wählen verschiedene Lösungen. Einige generieren N Modelle, sehen sie an, fließen nach unten und nach unten und ... voila, du bist fertig. Andere generieren Features, studieren die Disziplin "Informationssysteme und Technologien" durch Vorlesungen im
Repository und alles scheint auch in Ordnung zu sein. Und einige verlassen sich auf Zufall mit gutem Samen.
Damit die Rangliste am Ende des Wettbewerbs schöner wird, möchten wir Ihnen einige Graals zu dieser Aufgabe mitteilen.
Grals Nummer 0.

Achten Sie auf den
Chat und das
Github- Repository mit Vorträgen. Es gibt viele nützliche Informationen. Viele von uns haben keine Ahnung, wie das Netzwerk funktioniert. Wer sucht, wird immer finden! Dem Repository wurde eine kurze Präsentation mit einer Beschreibung der Funktionsweise der BS und einer Datei mit der Verteilung der Funktionen nach Diensten hinzugefügt.


In einem Chat foltern die Teilnehmer die Organisatoren. Ich versuche mich zurückzuhalten, aber hart.

Gral Nummer 1
In den vorgeschlagenen Daten gibt das Feld
cell_lac_id eine Zelle an. Jede Zelle gehört nur zu einer Kommunikationsgeneration: 2G, 3G, 4G (LTE). Wir empfehlen, für jede Zelle zu bestimmen, zu welcher Generation sie gehört.
Gral №2
Jedes Telefon verfügt über die maximale Datenübertragungstechnologie, die es unterstützt: 2G, 3G, 4G. Informationen hierzu finden Sie im Feld INTERNET_TYPE_ID der Tabelle
subs_features . Das Feld ist codiert. Überlegen Sie, wie Sie bestimmen können, welcher der Werte in diesem Feld welcher Technologie entspricht.
Gral Nummer 3
Bitte beachten Sie: Wenn ein Kunde ein Telefon mit 4G-Unterstützung hat, aber aus der Historie hervorgeht, dass er häufig Datenverkehr über 3G- oder sogar 2G-Zellen herunterlädt, wie kann sich diese Tatsache auf seine Wahrnehmung der Kommunikationsqualität auswirken?
Gral №4
Kunden haben Waben, die sie häufig und regelmäßig besuchen (Haus, Arbeit, Straße, Geschäft usw.), und Waben, auf denen sie selten und selten sind. Was denkst du, welche Qualität welche Zellen für den Kunden wichtiger sein können? Wie können Sie wichtige Zellen identifizieren?
Gral №5
Die Tabelle
subs_bs_consumption für den Internetverkehr enthält Informationen sowohl zur übertragenen Datenmenge (SUM_DATA_MB) als auch zur dafür aufgewendeten Zeit (SUM_DATA_MIN). Welche Informationen über das Kundenerlebnis in der Zelle können aus diesen Daten extrahiert werden?
Gral №6
In den Tabellen
bs_avg_kpi und
bs_chnn_kpi finden sich Informationen über eine große Anzahl von Zellmerkmalen sowohl im Durchschnitt pro Tag als auch zur geschäftigen Stunde (CNN) mit einer mehrmonatigen Vorgeschichte. Versuchen Sie, Gruppen von Zellen auszuwählen, die hinsichtlich dieser Eigenschaften einander ähnlich sind. Vielleicht gibt es Zellen, die sich sehr von der Gesamtmasse unterscheiden? Was passiert mit Kunden, die diese Zellen häufig besuchen?
Auf diesem Gral endeten die Organisatoren. Wir sind sicher, dass sie Ihnen dabei helfen werden, ein besseres privates Gespräch zu führen. Es funktioniert nicht - zufällig laden, Sie wissen nie, wird auf einem T-Shirt hochfliegen. Alles Interessante voraus. Am Ende der Meisterschaft brennt die Rangliste :) Erinnere dich an die Top 5!

Zeitplan
Die Meisterschaft läuft am 16. Dezember aus und wird am 22. Dezember im MegaFon-Büro vergeben.
Geschenke
1. Platz: 400.000 Rubel;
2. Platz: 200.000 Rubel;
3. Platz: 100.000 Rubel.
Traditionell erhalten die Top 200 T-Shirts mit den Symbolen der Meisterschaft.
Darüber hinaus gibt es spezielle Nominierungen:
- Für die meisten "vkhuh" auf privat - SSD Kingston 120 Gb.
- Jeder Teilnehmer, der ein Vielfaches von 50 nimmt, erhält ein T-Shirt mit einem Aufkleber aus dem Community-Paket.
Gemeinschaft
Treten Sie unserer Community per Telegramm bei. Sie können jederzeit Fragen stellen und sich auf dem Gebiet der Datenwissenschaft kompetent beraten lassen. Die Mail.Ru Group Championship Community ist ein Netzwerk, in dem es leicht ist, Gleichgesinnte zu finden.
Nützliche Links
- ML Boot Camp I ( Maschinelles Lernen Boot Camp - wie es war ... )
- ML Boot Camp II ( ML Boot Camp 2016. Neu in den Top 10 , "Leistungsbewertung". Sehr einfach ... )
- ML Boot Camp III. Binärdaten ( Wie wir ML Boot Camp III , Gewinner des ML Boot Camp I ... -Wettbewerbs , ML Boot Camp III: Vorhersage, die Hälfte zu verlassen ... )
- ML Boot Camp IV. Geheime Aufgabe ( ML Boot Camp IV. Viertens. Secret. T ... , ML Boot Camp IV. Von 1 in der Öffentlichkeit bis 35 in ... , Stabilisierungs- und Dirichlet-Prozesse in Lösung ... )
- ML Boot Camp V. Vorhersage von CVDs ( AgeHack - der erste Online-Hackathon für verlängerte ... , ML Boot Camp V, 3-monatige Entscheidungshistorie ... , Meetup basierend auf den Ergebnissen der ML Boot Camp-Meisterschaft )
- ML Boot Camp VI. Vorhersage der Publikumsreaktion auf Online-Umfrage ( ML Boot Camp VI. Vorhersage der Publikumsreaktion ... , Verlauf des ersten Platzes in ML Boot Camp VI ).