Kompetisi Piala Data Grail Telecom. Terpanas datang



Pada awal November, Machine Learning dan Analisis Data Championship , diberi nama Telecom Data Cup , diluncurkan, diselenggarakan oleh Mail.Ru Group dan MegaFon.

Kompetisi ini diluncurkan pada platform Boot Camp ML yang sudah terkenal. Kami mencoba melakukan sebagian besar kontes analisis datanya. Kompetisi ini adalah yang kedua berturut-turut tahun ini dan ketujuh untuk seluruh keberadaan proyek. Kejuaraan sebelumnya terbuka dalam mode kotak pasir, yang memungkinkan Anda berlatih menyelesaikan tugas-tugas sebelumnya kapan saja, siang atau malam hari.

Lebih dari 2.500 pengguna terdaftar untuk kompetisi saat ini, 1.700 orang mengunduh dataset, 7800 solusi berbeda diunggah, dan komunitas obrolan melewati 1.600 peserta. Kompetisi akan berakhir pada 16 Desember, jadi sekarang saatnya untuk bergabung dengan klub pertarungan, jika Anda belum memilikinya. Kami menyambut dan membantu semua orang. Kopi atau sesuatu milik Anda sendiri dan menyegarkan untuk membantu Anda :)



Di bagian bawah artikel Anda akan menemukan tautan dan materi yang bermanfaat pada kompetisi ini dan sebelumnya. Hal utama adalah bahwa sekarang Anda akan terjun ke dunia tugas Telecom Data Cup, yang akan memungkinkan Anda untuk dengan cepat terlibat dalam proses dan menikmati penelitian nyata.

Secara singkat tentang tugas


Mereka yang sudah mengetahui apa yang terjadi di kejuaraan dapat beralih ke bagian selanjutnya.

Kita semua bosan dengan telepon yang obsesif dan jajak pendapat "pemasar" internet. Bayangkan bagaimana mereka memanggil Anda dan bertanya apakah Anda sedang menonton TV sekarang, saluran mana, berapa banyak perangkat yang saat ini dihidupkan dan acara TV seperti apa yang sedang terjadi. Ya Tuhan, aku benar-benar ingin menjatuhkan telepon (kami sering melakukan ini). Pengguna marah, sangat enggan untuk berbagi umpan balik, yang secara negatif mempengaruhi kualitas layanan yang diberikan. Masalahnya butuh solusi.

Dalam kompetisi ini, Anda perlu terjun ke dunia telekomunikasi, sehingga berdasarkan data pengguna anonim yang disediakan oleh operator telekomunikasi MegaFon dan diperoleh selama survei pelanggan langsung, untuk memprediksi apakah pelanggan puas dengan kualitas komunikasi.

9443 pelanggan disurvei. Hasil survei adalah indeks kepuasan untuk setiap pelanggan, sama dengan nol (0 - puas) atau satu (1 - tidak puas). Penting untuk mengidentifikasi pelanggan yang tidak puas dengan akurasi setinggi mungkin.

Metrik yang mengevaluasi keputusan Anda adalah ROC AUC. Prediksi ini perlu dilakukan untuk 5221 pelanggan dalam urutan yang sama seperti pada file subs_csi_test.csv . Data dapat diunduh dari situs web platform. Hasil awal akan dihasilkan oleh tanggapan untuk 2088 pelanggan, dan hasil akhir oleh jawaban untuk 3133 pelanggan (40/60). Jumlah maksimum unduhan solusi per hari adalah 5, dan jumlah solusi yang dipilih adalah 2.

Graal




Tantangan itu membangkitkan rasa ingin tahu masyarakat. Peserta memilih solusi yang berbeda. Beberapa menghasilkan model N, melihatnya, mengalir ke bawah dan mengalir ke bawah, dan ... voila, Anda sudah selesai. Yang lain menghasilkan fitur, mempelajari disiplin "Sistem dan Teknologi Informasi" melalui kuliah yang diposting di repositori , dan semuanya tampak baik-baik saja. Dan beberapa mengandalkan acak dengan benih yang baik.

Agar leaderboard menjadi lebih indah di akhir kontes, kami ingin berbagi beberapa tugas Graals dengan Anda.

Nomor cawan 0.




Perhatikan chat dan repositori Github dengan kuliah. Ada banyak informasi berguna. Banyak dari kita tidak tahu bagaimana jaringan bekerja. Dia yang mencari akan selalu menemukan! Presentasi singkat ditambahkan ke repositori dengan deskripsi operasi BS dan file dengan distribusi fitur berdasarkan layanan.





Dalam obrolan, peserta menyiksa panitia. Mencoba menahan, tetapi sulit.



Cawan nomor 1


Dalam data yang diusulkan, bidang cell_lac_id menunjukkan satu sel. Setiap sel hanya milik satu generasi komunikasi: 2G, 3G, 4G (LTE). Kami menyarankan Anda mencoba menentukan untuk setiap sel dari generasi mana sel itu berasal.

Cawan β„–2


Setiap telepon memiliki teknologi transfer data maksimum yang didukungnya: 2G, 3G, 4G. Informasi tentang ini terkandung dalam bidang INTERNET_TYPE_ID dari tabel subs_features . Bidang ini disandikan. Pertimbangkan bagaimana Anda dapat menentukan nilai mana di bidang ini yang sesuai dengan teknologi mana.

Cawan nomor 3


Harap perhatikan: jika beberapa klien memiliki ponsel dengan dukungan 4G, tetapi dari sejarah kami melihat bahwa ia sering mengunduh lalu lintas melalui sel 3G atau bahkan 2G, bagaimana fakta ini dapat memengaruhi persepsi tentang kualitas komunikasi?

Cawan β„–4


Pelanggan memiliki sarang lebah yang sering mereka kunjungi dan secara teratur (rumah, tempat kerja, jalan, toko, dll.), Dan sarang madu di mana mereka jarang dan sedikit. Bagaimana menurut Anda, kualitas sel mana yang lebih penting bagi klien? Bagaimana Anda bisa mengidentifikasi sel-sel penting?

Cawan β„–5


Tabel subs_bs_consumption untuk lalu lintas Internet berisi informasi tentang jumlah data yang ditransfer (SUM_DATA_MB) dan waktu yang dihabiskan untuk itu (SUM_DATA_MIN). Informasi apa tentang pengalaman pelanggan pada sel yang dapat diekstraksi dari data ini?

Cawan β„–6


Dalam tabel bs_avg_kpi dan bs_chnn_kpi ada informasi tentang sejumlah besar karakteristik sel rata-rata per hari dan pada jam sibuk (CNN), apalagi, dengan riwayat beberapa bulan. Cobalah untuk memilih kelompok sel yang mirip satu sama lain dalam hal karakteristik ini. Mungkin ada sel yang sangat berbeda dari massa total? Apa yang terjadi pada pelanggan yang sering mengunjungi sel-sel ini?

Pada Grail ini dari penyelenggara berakhir. Kami yakin mereka akan membantu Anda mencapai percakapan pribadi yang lebih baik. Itu tidak bekerja - memuat secara acak, Anda tidak pernah tahu, akan terbang dengan T-shirt. Semua yang paling menarik di depan. Di akhir kejuaraan, papan peringkat akan menyala :) Ingat lima teratas!



Jadwalkan


Kejuaraan ini berakhir pada 16 Desember, dan pada 22 Desember, diberikan di kantor MegaFon.

Hadiah


Tempat pertama: 400.000 rubel;
Posisi Kedua: 200.000 rubel;
Posisi Ketiga: 100.000 rubel.

Secara tradisional, 200 teratas akan menerima T-shirt dengan simbol kejuaraan.
Selain itu, ada nominasi khusus:

  • Untuk yang paling "vkhuh" turun di pribadi - SSD Kingston 120 Gb.
  • Setiap peserta yang mengambil kelipatan 50 akan menerima T-shirt dengan stiker dari paket komunitas.



Komunitas


Bergabunglah dengan komunitas kami di Telegram. Anda selalu dapat mengajukan pertanyaan, mendapatkan saran ahli di bidang Ilmu Data. Komunitas Kejuaraan Grup Mail.Ru adalah jejaring di mana mudah ditemukan orang yang berpikiran sama.

Tautan yang bermanfaat


  1. ML Boot Camp I ( Boot Pembelajaran Mesin - bagaimana rasanya ... )
  2. ML Boot Camp II ( ML Boot Camp 2016. Baru di Top 10 , "Evaluasi Kinerja." Sangat sederhana ... )
  3. ML Boot Camp III. Data biner ( Seperti yang kami lakukan ML Boot Camp III , Pemenang kontes ML Boot Camp I ... , ML Boot Camp III: prediksi meninggalkan setengah ... )
  4. ML Boot Camp IV. Tugas rahasia ( ML Boot Camp IV. Keempat. Rahasia. T ... , ML Boot Camp IV. Dari 1 di depan umum hingga 35 di ... , proses Stabilisasi dan Dirichlet dalam solusi ... )
  5. ML Boot Camp V. Prediksi CVD ( AgeHack - hackathon online pertama untuk perpanjangan ... , ML Boot Camp V, riwayat keputusan 3 bulan ... , Meetup berdasarkan hasil kejuaraan ML Boot Camp )
  6. ML Boot Camp VI. Prediksi respons audiens terhadap survei online ( ML Boot Camp VI. Prakiraan respons audiens ... , Sejarah tempat pertama di ML Boot Camp VI ).

Source: https://habr.com/ru/post/id432046/


All Articles