Kejuaraan Baru ML Boot Camp VI. Prediksi respons audiens terhadap survei online



Hari ini, 25 Juni, ML Boot Camp VI dimulai dengan tugas "Meramalkan respons audiens terhadap survei online" (jika Anda tiba-tiba mendengar untuk pertama kalinya apa itu ML Boot Camp, pergilah ke bawah spoiler).

Spoiler
ML Boot Camp adalah kejuaraan pembelajaran mesin. Skema kerja: kami memberikan tugas, dan para peserta menyelesaikannya dalam waktu satu bulan dan mengirimkan solusi. Penulis solusi terbaik menerima hadiah. Terakhir kali kami memberikan MacBook Pro tempat pertama, NVIDIA 1080ti - yang kedua, NVIDIA 1060 - yang ketiga, dan WD My Cloud 6 TB untuk 4-6 tempat. Secara tradisi, kami mengirim kaus dengan simbol kejuaraan kepada 50 peserta terbaik.

Dengan setiap kompetisi baru, pemirsa Boot Camp ML tumbuh secara signifikan (saat ini 7.000 peserta dari lebih dari 20 negara sudah terdaftar).

Pada awalnya, peserta menerima kondisi tugas dan deskripsi verbal dari data yang tersedia - sampel pelatihan. Sampel terdiri dari contoh berlabel - deskripsi vektor masing-masing objek dengan jawaban yang diketahui. Peserta, menggunakan metode pembelajaran mesin yang mereka kenal, melatih komputer dan menguji sistem yang terlatih pada sampel uji, yang dibagi menjadi dua bagian: peringkat dan final. Pemenangnya adalah orang yang mendapatkan hasil terbaik pada data akhir.

Pada hari terakhir kejuaraan, peserta dapat memilih dua keputusan yang akan mewakilinya di final. Yang terbaik dari mereka akan diperhitungkan dalam leaderboard.

Anda dapat menemukan aturan dan materi yang bermanfaat di situs web kejuaraan .

Kali ini kami menawarkan Anda untuk terjun ke dalam jurang gelap pemasaran: sebagai bagian dari kompetisi Boot Camp ML berikutnya, Anda dapat memprediksi perilaku pengguna di salah satu studi pemasaran berskala besar.

Kami menawarkan tugas dengan level yang sesuai, sementara kami mencoba membuatnya menarik bagi pro dan pemula. Dalam kejuaraan ini Anda akan menemukan karya penelitian nyata.

Format kompetisi tidak berubah: kejuaraan akan berlangsung selama satu bulan, dari 25 Juni hingga 25 Juli 2018. Baca lebih lanjut tentang hadiah dan tugas di bawah ini.

Tugas "Meramalkan respons audiens terhadap survei online"


Ada hasil survei online. Diketahui bahwa sebagian dari audiens lulus survei dengan lengkap dan benar. Bagian lain menyelesaikan survei sebagian, dengan kesalahan, atau sepenuhnya menolak untuk berpartisipasi. Hal ini diperlukan untuk memprediksi dengan akurasi setinggi mungkin yang mana dari responden yang termasuk kelompok pertama, yaitu, telah lulus studi sepenuhnya dan tanpa kesalahan.

File data utama berisi 19 528 597 baris (10 GB) dan terdiri dari 6 kolom:

1 . cuid adalah pengidentifikasi. File dapat berisi beberapa entri untuk satu pengidentifikasi;
2 . cat_feature adalah beberapa variabel kategori. Rentang nilai: {0,1,2,3,4,5};
3-5 meter dikumpulkan berdasarkan perilaku manusia di Internet. Format: {w_1: c_1, w_2: c_2, ...}, di mana w_i adalah token yang disandikan, dan c_i adalah frekuensi token ini;
6 . dt_diff - jumlah hari sebelum tanggal ketika nilai variabel target diterima.



Sepotong kecil data sebagai contoh:

00000d2994b6df9239901389031acaac 5 {"809001":2,"848545":2,"565828":1,"490363":1} {"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2} {} 39

Prediksi harus dibuat untuk 181 ribu pengguna. Set data untuk pelatihan model berisi tabel dengan pengidentifikasi dan nilai-nilai variabel target (427 995 catatan).

Metrik tugas adalah ROC AUC. Ini berarti bahwa jawabannya adalah penilaian keanggotaan kelas yang berada dalam kisaran [0; 1] untuk setiap cairan. Metrik ini, pada kenyataannya, mengevaluasi kebenaran pemesanan oleh pengelompokan objek relatif terhadap salah satu kelas. Dalam hal ini, kami tidak tertarik pada label kelas khusus yang akan diberikan algoritma, atau probabilitas spesifik untuk setiap objek. Kami tertarik pada kebenaran pemesanan itu sendiri.

Tentu saja, itu terjadi bahwa dalam konteks aplikasi tertentu, dengan roc_auc yang sama, satu solusi mungkin menjadi lebih baik daripada yang lain, tetapi kami memutuskan untuk tidak menyulitkan tugas.

Hadiah


Distribusi enam hadiah kali ini terlihat seperti ini:

Top1: Apple MacBook Pro 13
Top2: Apple MacBook Air 13
Top3: Western Digital My Cloud Mirror
Top4-5-6: Western Digital My Passport 4 TB

Seperti biasa, 50 peserta teratas akan menerima kaus dengan simbol kejuaraan, dan peserta dengan solusi paling menarik akan diundang untuk wawancara di Mail.Ru Group di posisi Data Scientists.

MLBootCamp Komunitas


Bergabunglah dengan komunitas kami di Telegram. Anda selalu dapat mengajukan pertanyaan, mendapatkan saran ahli di bidang Ilmu Data. Selain itu, komunitas kejuaraan Mail.Ru Group berjejaring di tempat yang mudah ditemukan orang yang berpikiran sama.

Pendaftaran


Kejuaraan dimulai hari ini, pukul 19.00 waktu Moskow. Pendaftaran terbuka. Kami menunggu semua orang dan semoga sukses!

Source: https://habr.com/ru/post/id415191/


All Articles