Bagaimana siswa dari Perm berhasil mencapai final kejuaraan penambangan data internasional, Piala Penambangan Data 2019

Halo semuanya. Dalam artikel ini, saya akan berbicara tentang pengalaman kami dalam berpartisipasi dalam kompetisi analisis data Piala Data Penambangan 2019 (DMC) dan bagaimana kami berhasil memasuki tim TOP 10 dan mengambil bagian dalam final kejuaraan penuh waktu di Berlin.

gambar

Saya akan menceritakan atas nama tim kami, yang saya masukkan (Alexander Perevalov), serta rekan saya Sergey Bobkov. Kami adalah mahasiswa pascasarjana dari Universitas Politeknik Perm , di waktu luang kami dari pekerjaan dan studi kami terlibat dalam menyelesaikan kontes Ilmu Data.

Apa itu DMC dan bagaimana kami mengetahuinya


Piala Data Mining adalah kejuaraan analisis data siswa global yang diadakan setahun sekali. Sejarahnya dimulai 20 tahun yang lalu, jauh sebelum Kaggle , dapat dikatakan bahwa DMC mengadakan kompetisi analisis data sebelum menjadi arus utama .

DMC diselenggarakan oleh perusahaan Jerman PrudSys , perusahaan intelijen ritel . Sebelumnya, hanya partisipasi satu tangan diizinkan dalam kejuaraan, maka para peserta diizinkan untuk bersatu dalam tim dari universitas, dengan cara, jumlah maksimum tim dari universitas hanya 2. Keanggotaan di universitas juga dikontrol ketat, untuk partisipasi perlu mengirim surat dengan domain siswa Anda institusi, serta mengirim salinan kartu pelajar Anda.

Hari ini, jika kita membandingkan tingkat peserta di DMC dan Kaggle, tentu saja, tingkat Kaggle jauh lebih tinggi. Hal ini disebabkan oleh pembatasan pada siswa di DMC dan popularitas Kaggle. Fitur khas DMC adalah tidak adanya papan peringkat , yang menghilangkan masalah pemasangannya.

Saya belajar tentang Data Mining Cup pada saat kami pergi dengan grup dari universitas kami untuk magang di Jerman, setibanya di rumah, teman dan rekan satu tim mengundang saya untuk berpartisipasi, saat itu pertengahan April. Jujur, saya skeptis dengan ide ini, bagaimanapun, setelah mengetahui bahwa tahun ini data dan tugasnya cukup sederhana - kami masih mulai menyelesaikannya.

Bagaimana kami menyelesaikan tugas


Pada 2019, tugasnya terletak di bidang deteksi penipuan checkout sendiri. Tentunya Anda telah menemukan konter checkout swalayan di supermarket. Perangkat ini berfungsi baik di bawah pengawasan karyawan toko dan sepenuhnya otomatis. Mesin kas swalayan memungkinkan Anda untuk mengoptimalkan biaya staf dan meminimalkan antrian di supermarket. Namun, ada satu masalah, sifat manusia sedemikian rupa sehingga dalam satu atau lain cara ada keinginan untuk "tidak menerobos" barang yang ingin kita lihat di lemari es kita. Untuk menghindari ini, kontrol diperlukan, tetapi sedemikian rupa sehingga tidak mempermalukan atau mengganggu pelanggan.

Dengan demikian, berdasarkan pada data yang ditandai pada transaksi self-checkout, perlu untuk mengembangkan model matematika yang secara otomatis akan mengklasifikasikan transaksi tertentu sebagai penipuan atau non-penipuan. Jadi, kami memecahkan masalah klasifikasi biner.

Data adalah sebagai berikut:

gambar

Ukuran sampel pelatihan hanya ~ 1800 contoh, sedangkan sampel uji adalah 499000 contoh. Juga, sampel pelatihan tidak seimbang : hanya 4% dari transaksi yang curang, jelas bahwa akurasi (bagian jawaban yang benar) tidak berguna di sini. Anehnya, tidak ada nilai yang hilang dalam data, dan beberapa atribut didistribusikan secara merata. Berdasarkan ini, kita dapat menyimpulkan bahwa data dihasilkan secara buatan.

Juga, penyelenggara mengusulkan metrik mereka dalam bentuk Matriks Kebingungan, yang diukur dalam satuan moneter:
Nilai aktual
PenipuanBukan penipuan
Penipuan5 Euro (TP)-25 Euro (FP)
Bukan penipuan-5 Euro (FN)0 Euro (TN)

Setelah menganalisanya, menjadi jelas bagi kami bahwa Presisi lebih penting dalam hal ini, karena kami menanggung kerugian maksimum jika kami secara keliru menyebut pembeli yang jujur ​​sebagai penipu.

Kursus solusi kami terdiri dari tahapan klasik:

  • Analisis data dasar
  • Analisis tanda-tanda, statistik deskriptif dan distribusinya
  • Penghapusan lebih awal
  • Generasi Karakter
  • Membangun model dan mengatur parameter
  • Validasi dan Prakiraan Akhir

Slide dengan konten solusi kami dapat ditemukan di: www.docdroid.net/2XEDfYg/dmc-2019-1.pdf
Repositori di GitHub ada di sini: github.com/Perevalov/dmc2019 (semuanya tersebar di cabang yang berbeda, sampai ada waktu untuk mengatur semuanya)

Final Organisasi


Setelah kami mengirim keputusan akhir pada awal Mei, kami mulai mengharapkan hasil. Kondisi penyelenggara sedemikian rupa sehingga 10 tim teratas diundang ke final secara langsung di Berlin , yang diadakan sebagai bagian dari konferensi puncak intelijen Retail 2019: Keputusan Cerdas untuk Smart Retail.

Untuk referensi, pada 2019, 149 tim dari 114 universitas yang berlokasi di 28 negara berpartisipasi dalam DMC.

Sejujurnya, kami bahkan tidak berharap untuk sampai ke final , tetapi sekarang, pada akhir Mei, surat undangan yang berharga itu datang. Selain itu, semua finalis diminta untuk membayar biaya hingga 500 Euro, dan mereka juga menawarkan akomodasi di hotel selama satu malam, di mana acara tersebut diadakan.

Tanpa ragu, kami membeli tiket ke Berlin dan pergi untuk mendapatkan visa. Menjadi siswa miskin, jumlah pengeluaran untuk perjalanan 2 hari ternyata cukup besar bagi kami. Biaya tiket Perm-Berlin-Perm dan pemrosesan visa mencapai sekitar 40.000 rubel. per orang, ini sedikit lebih dari 500 euro.

Karena kami mewakili universitas kami di acara tersebut, kami memutuskan untuk mendapatkan dukungan materi darinya. Selain itu, Universitas Perm Polytechnic mengimplementasikan program untuk pengembangan hubungan Rusia-Jerman dan sangat mendukung siswa inisiatif (menurut kami begitu). Dengan persetujuan dan tanda tangan dari kepala departemen tempat kami belajar, kami pergi ke departemen sains dan inovasi. Di sana dimulai sebuah epik birokrasi selama sebulan, yang berakhir dengan yang berikut: "Tidak ada uang, tetapi Anda bertahan . " Tentu saja kami sedikit kesal, tetapi tidak berkecil hati. Sekarang konyol untuk membaca berbagai pernyataan oleh manajemen puncak universitas kami tentang "kebutuhan untuk mendukung ilmuwan muda" dan omong kosong lainnya. Yah itu, sebuah penyimpangan.

Kami mendapat visa hanya dalam 2 minggu. Pada saat yang sama, kami menyiapkan laporan untuk pidato dan pada 2 Juli di malam hari kami pergi ke bandara.

Kinerja di final Piala Data Mining dan pemberian penghargaan


Tiba di Berlin pada 3 Juli pagi, kami pergi ke nHow Hotel, tempat konferensi diadakan. Tingkat organisasi, tentu saja, tinggi. Memang, biaya partisipasi di dalamnya adalah 1.000 euro per orang (bagi kami gratis). Dan seperti inilah hotel itu:

gambar

Penampilan kami dijadwalkan pukul 16:30. Itu terjadi di ruang konferensi utama, tentu saja dalam bahasa Inggris. Ngomong-ngomong, kinerja itu sendiri tidak diperhitungkan dalam peringkat akhir, itu hanya dihitung berdasarkan tingkat akhir, yang mana hanya penyelenggara yang memiliki data.

Di antara 10 tim pertama adalah universitas seperti: Universitas George Washington (AS), Universitas Jenewa (Swiss), Universitas Teknologi Chemnitz (Jerman), Universitas Iowa (AS), dll. Dan tentu saja, Universitas Politeknik Riset Perm Nasional kami.

Seperti inilah ruang konferensi itu:

gambar

Sedikit malu adalah kenyataan bahwa saya harus berbicara bukan dengan slide, tetapi dengan satu poster yang ditampilkan di layar. Oleh karena itu, kinerja para peserta tidak cukup informatif. Namun, ada kesempatan untuk mendekati dan melihat poster kertas masing-masing peserta di ruang konferensi. Pada dasarnya, kebanyakan orang menggunakan susun, pencampuran, dan ansambel (kami termasuk di antara mereka), juga, beberapa peserta menggunakan ambang peningkatan untuk model klasifikasi, beberapa tim berhasil untuk tidak menghasilkan fitur sama sekali dan membangun model pada sumbernya.

Ngomong-ngomong, kami adalah tim terkecil - hanya 2 orang.

Setelah pertunjukan, gala dinner dan hadiah dimulai. Kami berharap mendapatkan hadiah, tetapi menyadari bahwa ini tidak mungkin, jadi keinginan duniawi kami adalah "setidaknya tidak menjadi 10". Ternyata persis seperti yang kita inginkan - kita mengambil tempat ke-9 yang terhormat. Tentu saja, itu agak menjengkelkan, tetapi fakta bahwa kami berada di final di antara universitas-universitas yang serius sudah mengatakan banyak hal. Pemenangnya adalah peserta dari University of Iowa (AS), meskipun Anda tidak dapat mengatakan bahwa mereka berasal dari negara bagian (lihat foto):

gambar

Hadiah untuk posisi 1, 2 dan 3 masing-masing adalah 2.000, 1.000 dan 500 euro. Peringkat akhir adalah sebagai berikut:

gambar

Kesimpulan


Kami tidak menyesali seberapa besar kami berpartisipasi dalam kompetisi ini. Paling tidak, ini adalah pencapaian +1 dalam portofolio, di kontak paling bermanfaat dengan orang-orang dan kesempatan untuk mewakili kota dan negara kita di acara internasional.

Saya menyarankan semua Ilmuwan untuk mengambil bagian dalam acara seperti itu, itu keren!

Source: https://habr.com/ru/post/id458930/


All Articles