Saya seorang Ilmuwan Data di tim Platform Data Lake di Raiffeisenbank. Tiga tahun lalu, bank tidak memiliki jalur Big Data, dan sekarang kami memiliki platform terpisah untuk bekerja dengan big data dan komunitas yang aktif berkembang. Seiring berkembangnya budaya yang didorong data, kami menghadapi banyak pertanyaan: teknis, komunikasi, dan lainnya.
Dalam artikel ini saya ingin memberi tahu bagaimana komunitas kami Raiffeisen Data University membantu menyelesaikannya.

Masalah skalabilitas
Beberapa tahun yang lalu, semua Ilmuwan Data hidup terpisah, masing-masing dalam tugas mereka sendiri - tidak ada yang memikirkan komunitas mana pun. Ada semakin banyak ide yang membutuhkan pengetahuan di bidang analisis data, serta unit dengan Ilmuwan Data di negara bagian.
Berbagai kesulitan mulai muncul:
- Komunikasi antar DS:
- tidak diketahui dengan kasus bisnis apa rekan kerja sekarang bekerja;
- masing-masing tim menggergaji sepeda sendiri untuk mengimplementasikan fungsi yang sama.
- Sisi teknis:
- pencarian data input untuk pemodelan tidak jelas;
- kode tidak diputar pada data baru;
- sumber daya cluster tidak digunakan secara optimal;
- proses mengeluarkan model ke suatu produk tidak disatukan.
- Interaksi dengan pelanggan bisnis:
- tidak semua pelanggan memiliki gagasan tentang apa yang bisa diselesaikan
pembelajaran mesin, apa saja batasannya dan cara mengatur tugas.
Di sisi mana untuk mendekati masalah ini dan memulai jalur pengembangan untuk perusahaan yang didorong oleh data yang matang? Anda dapat menemukan strategi yang berbeda: kumpulkan semua Ilmuwan Data dalam satu departemen besar atau tambahkan Kepala ke semua tim dan pekerjakan Kepala Kepala lain yang akan membangun vektor pengembangan. Kami memutuskan untuk pergi ke arah lain.
Maka lahirlah gagasan Raiffeisen Data University - RDU. Ini bukan universitas dalam pemahaman standarnya, ini adalah mekanisme fleksibel yang membantu Data Scientists menyelesaikan masalah mereka melalui organisasi berbagai kegiatan. Bagaimana dia berhasil?
Semua cerdik itu sederhana
Pertama, perlu memperkenalkan dan menyinkronkan orang-orang dari berbagai divisi bisnis. Hal paling sederhana yang terlintas dalam pikiran adalah mengatur pertemuan.
Yang pertama terjadi sekitar dua tahun yang lalu, ia bertemu Data Scientists dari departemen yang berbeda, yang kemudian tidak tahu tentang keberadaan satu sama lain. Sekarang mitaps sudah menjadi hal biasa. Kami bertemu kolega baru di sana, berbagi kasus yang dipecahkan atau apa yang sedang dalam proses. Anda dapat melemparkan ide-ide Anda kepada pembicara, mengajukan pertanyaan rumit tentang metrik atau kualitas data. Atau Anda dapat mengatur lokakarya tentang alat-alat langsung yang termasuk dalam proyek mereka. Berbagai topik spesifik diangkat: bagaimana model CI / CD diatur dalam produk, arsitektur model dari kasus yang diselesaikan, pernyataan masalah dari bisnis dan kompleksitas solusi, dan banyak lainnya. Sebelumnya, semuanya diadakan di audiensi rahasia, di mana mereka hanya mengizinkan mereka yang telah melewati ritual peralihan.
Sekarang kami telah mengumpulkan pengalaman yang bermanfaat yang dapat dibagikan. Mitaps internal membantu kita menyelesaikan kesulitan komunikasi dan teknis. Dan bersama dengan proyek
ML REPA ,
pertemuan terbuka pertama
diadakan untuk semua orang.
"Caffe" yang kuat untuk sarapan
Mitapas membutuhkan persiapan dan terjadi kira-kira sebulan sekali atau dua. Dan sesuatu yang baru dan menarik terjadi setiap saat, itu sebabnya kami bertemu saat sarapan Ilmu Data untuk menjaga komunikasi. Jumlah peserta bervariasi
yang bangun tepat waktu .
Saat sarapan, selain barang dan emosi positif dari berbicara dengan orang-orang yang berpikiran sama, Anda mendapatkan banyak informasi berguna tentang perpustakaan dan algoritma baru, Anda memecahkan masalah Anda dengan arsitektur aplikasi, atau mencari tahu sumber daya apa yang akan segera dibuang ke dalam cluster. Keuntungan dari pertemuan singkat seperti itu terkadang tidak kurang dari dari mitaps besar.
Peningkatan tingkat pembelajaran
"Bahkan lebih banyak untung, bahkan lebih banyak pengetahuan!" Kami secara terbuka berharap. Jadi ada elemen kompetitif - kesenjangan, seperti yang kita sebut. Mereka terinspirasi oleh ide pelatihan pembelajaran mesin di Yandex, menyesuaikan dengan kebutuhan dan kemampuan mereka. Kompetisi data terbuka dimulai sekitar tiga minggu:
- pada minggu pertama kita semua bertemu dan memunculkan ide-ide yang mungkin untuk solusi (sangat mirip dengan lokakarya olahraga DMIA);
- di minggu kedua - sebuah pertemuan sementara: kami menganalisis siapa yang memiliki colokan seperti apa, kami termotivasi untuk memutuskan lebih lanjut;
- diikuti dengan tanya jawab, pengumuman pemenang, diskusi tentang apa yang terjadi dan apa yang tidak.
Dalam kerangka satu kompetisi, kami mencoba berkonsentrasi pada satu topik: data kotor, seri waktu, analisis teks. Semua orang memilih alat yang dia tertarik untuk dicoba, tetapi masih ragu, atau apa yang harus membawa hasil maksimal pada papan peringkat. Bagian paling keren adalah tentang pembelajaran Penguatan - Anda harus melatih agen Anda untuk berinteraksi dengan lingkungan Atari. Singkatnya, penyelenggara kompetisi memberi kami pertempuran antara bot dan orang-orang dalam tiga pertandingan - Packman, Break out, Space Invaders.
Akibatnya, orang menang di Packman dengan selisih yang lebar, sisanya - manusia kalah dari Skynet.

Temukan Ilmuwan Data
Manajer juga tidak dibiarkan sendirian. Hackathon internal satu hari untuk semua orang yang terhubung dengan analytics, tetapi memiliki pemahaman yang buruk tentang bagaimana data diorganisasikan adalah kesempatan yang baik untuk dengan cepat terjun ke dapur tugas-tugas Ilmu Data. Pada awal hari, kuliah ulasan tentang konsep, algoritma, dan metrik yang paling umum dalam masalah klasifikasi dan regresi diadakan. Setelah ini, kasus nyata dipertimbangkan, dimana peserta diundang untuk menyelesaikan data kami. Waktu untuk solusi adalah sekitar 4 jam, oleh karena itu, untuk menyelesaikan masalah, satu Data Scientist dikirim untuk membantu setiap tim.
Saya berada di salah satu hackathon ini sebagai tangan yang akan mengimplementasikan ide-ide yang diusulkan oleh para manajer, serta mengarahkan penalaran ke arah yang konstruktif. Tugas yang diperlukan untuk membangun model arus keluar pelanggan berdasarkan data nyata selama enam bulan (kondisi arus keluar ditentukan), serta memperkirakan dampak ekonomi yang akan ditimbulkan oleh model ini. Segala sesuatunya salah dengan kami selama pengambilan keputusan, potongan kode pecah dari awal hingga awal - ini memungkinkan tim untuk merasakan seluruh kerumitan pembuatan fitur, tetapi ada banyak gagasan yang mungkin tidak dapat diprediksi langsung oleh Data Scientist karena kurangnya pengalaman bisnis .
Berkat peristiwa seperti itu, manajer belajar untuk lebih objektif mengevaluasi tenggat waktu untuk menyelesaikan tugas DS, belajar tentang jebakan dan pentingnya metrik kualitas yang awalnya ditetapkan. Dan Data Scientist memungkinkan Anda untuk memahami visi tugas melalui mata manajer, untuk menentukan poin apa yang harus disorot segera di awal kolaborasi.
Yang terkuat akan bertahan
Tetapi hal yang paling menarik biasanya terjadi pada bulan September, ketika tim DS berangkat ke hackathon dua hari di alam, di tempat yang sangat indah dengan infrastruktur yang nyaman. Panitia mengundang mentor berpengalaman eksternal ke hackathon. Tahun lalu, Emeli Dral dan Alexander Gushchin menyiapkan tugas untuk menentukan genre film dari dialognya. Hampir 40 ribu dialog sampel pelatihan, 20 genre berbeda dari 438 film - ini tentang film dengan subtitle bahasa Inggris.
Kami mendengarkan kunjungan singkat tentang topik NLP: metode preprocessing teks, pendekatan pembelajaran sederhana dan lebih rumit menggunakan DL; Kami secara terpisah berbicara tentang kerja tim dalam proyek-proyek ML - bagaimana mengatur kode dan bagaimana menghemat waktu. Saat mendengarkan presentasi, yang paling aktif telah mengunduh fasttext dan emblem sarung tangan ke laptop mereka.
Setelah kuliah, sebuah kompetisi dimulai dalam format kaggle inclass dengan papan publik / pribadi. Kami masuk ke tim - pengocokan maksimum sehingga tim bahkan tidak memiliki dua orang dari departemen yang sama. Ada 24 jam untuk segalanya tentang segalanya.
Seseorang memulai server rumah jarak jauh, seseorang bergegas untuk menyebarkan lingkungan di awan, bahkan ada yang menyeret unit sistem dengan mereka - mereka berusaha sebaik mungkin! Pada siang hari, tim menghasilkan berbagai macam ide untuk dipecahkan: mulai dari menggunakan Pencarian Elastis untuk menemukan teks yang mirip dengan hasil mengkilap dari ansambel model yang tidak dapat direproduksi dengan tenang pada hari berikutnya.
Untuk meringkas dan membandingkan pekerjaan model, selain mencetak pada leaderboard pribadi, kami memutuskan untuk mengatur demo interaktif - lihat bagaimana model yang dibungkus dengan layanan bekerja. Penyelenggara mendekati ini dengan humor dan memasukkan sebuah fragmen dari film "The Fifth Element", di mana teks tersebut tampaknya menjadi sesuatu yang mengerikan, tetapi sebenarnya ada adegan lucu dengan
Chris Tucker . Sebagian besar model membuat kesalahan dalam hal ini dan memperkirakan film thriller, drama, tetapi tidak komedi.

Akibatnya, ansambel model linier, peningkatan dengan fitur kerajinan tangan berdasarkan pengelompokan dan transformasi perdukunan lainnya dimenangkan, neuron hadir dalam solusi 2 dan 3 dari tempat itu. Selain hadiah keren (hadiah utama adalah perjalanan ke NIPS atau konferensi keren lainnya), Anda kembali dari hackathon dengan teman-teman baru yang telah Anda uji dalam pertempuran, yang akan berbagi pengetahuan dan keterampilan dengan Anda. Pada akhirnya, saya bahkan tidak ingin meninggalkan tempat ini dengan alam yang indah dan perusahaan yang nyaman.
Alih-alih sebuah kesimpulan
Dalam artikel ini, saya berbagi tantangan menjadi budaya Ilmu Data di perusahaan dan bagaimana Raiffeisen Data University membantu Ilmuwan Data di sepanjang jalan.
Tentu saja, tidak semua masalah telah diselesaikan, tetapi sekarang kami memiliki komunitas data yang lebih kohesif dan matang daripada yang kami lakukan beberapa tahun yang lalu, dan kami siap untuk menyelesaikan tantangan baru yang menghadang kami.
Sangat menarik apakah ada masalah serupa dalam pekerjaan Anda, siapa yang memecahkannya dan bagaimana?
Mungkin seseorang akan membagikan hacks kehidupan dari pengalaman mereka? ;)