Apa yang dilakukan Big Data di MegaFon dan bagaimana menuju ke sana?

MegaFon bukan hanya perusahaan telekomunikasi yang menyediakan komunikasi seluler, itu adalah perusahaan digital yang menciptakan produk yang membentuk ekosistem untuk kehidupan pelanggan: "Kartu sendiri", "Cashback sendiri", "MegaFon.TV", "MegaFon.Music" dan banyak lagi lainnya. Departemen Analisis Data Besar MegaFon mempersonalisasi penawaran untuk kebutuhan setiap klien.

gambar
Pidato Analis Data Besar MegaFon pada Konferensi Data Fest di Musim Semi 2019

Datacientists MegaFon sedang memecahkan masalah pelestarian basis pelanggan, yang merupakan salah satu prioritas bagi perusahaan di tengah pertumbuhan yang lebih lambat di pasar layanan telekomunikasi. Misalnya, beberapa tahun yang lalu, berdasarkan data besar, garis tarif "Nyalakan" yang baru dikembangkan. Itu dibangun di atas kepentingan nyata pengguna digital: berbicara, mengobrol di messenger, mendengarkan musik, mengobrol di jejaring sosial, menonton video. Nama-nama tarif sesuai dengan pengisian sesuai dengan minat, dan penggunaan aplikasi akrab yang tidak terbatas tidak memerlukan perhitungan lalu lintas yang dikonsumsi. Saat membentuk ekosistem, tugas kami adalah membuat penawaran individual untuk setiap klien.

Big Data juga memecahkan masalah yang terkait dengan ritel. Misalnya, dengan bantuan model pembelajaran mesin, kami memahami ke mana harus memindahkan salon yang tidak efisien dan ke mana harus membuka yang baru. Bekerja dengan geodata membantu kita ke arah ini.

Analitik data besar juga digunakan dalam tugas-tugas yang berkaitan dengan pengembangan infrastruktur jaringan, di mana, dengan menggunakan analisis menara dan lalu lintas dari mereka, kami menentukan cakupan optimal dan memprediksi lokasi yang menjanjikan untuk konstruksi.

Teknologi apa yang digunakan?

Jumlah data yang kami kerjakan adalah jutaan pelanggan dan miliaran catatan harian untuk mereka. Big Data bukan hanya basis data seperti Oracle, MySQL atau MongoDB. Big Data adalah seluruh jajaran perangkat lunak untuk bekerja dengannya. Untuk bekerja dengan data besar, Anda perlu memahami cara kerja Hadoop, untuk mengetahui fitur bekerja dengan Spark, Hive, HDFS. Seringkali, analis data yang datang kepada kami belum pernah menggunakan alat ini dalam pekerjaan mereka. Dalam hal ini, kami mengajarkan keterampilan yang tidak cukup.

Keterampilan bekerja dengan data besar diperoleh dengan pengalaman, oleh karena itu MegaFon tertarik pada analis berbakat yang siap untuk mempelajari semua alat yang diperlukan dan menerapkannya pada tugas nyata perusahaan.

gambar
BigDataCamp di kantor MegaFon, 2019

Bagaimana para pakar di Big Data MegaFon mengembangkan model?

Pakar Data Besar MegaFon dibagi menjadi analis (ahli data) dan insinyur. Analis menguji hipotesis dan membangun model pembelajaran mesin. Insinyur membantu analis mengumpulkan etalase, mengoptimalkan proses ETL, dan bertanggung jawab untuk menyiapkan model dalam produksi.

Pengembangan model adalah sebagai berikut. Pertama, kami mengumpulkan data yang diperlukan dalam Hadoop atau Oracle. Kemudian model ini dilatih pada server khusus dengan sejumlah besar memori dan inti CPU. Untuk melatih jaringan saraf, kami menggunakan server dengan GPU.

gambar
BigDataCamp di kantor MegaFon, 2019

Bahasa utama untuk mengembangkan model adalah Python. Untuk memproses data dengan Python, pustaka standar Pandas, NamPy, Scikit-learn biasanya diperlukan. Untuk perhitungan di Hadoop PySpark dan Hive digunakan, untuk pemodelan - perpustakaan Scikit-belajar, Xgboost, LightGBM, PyTorch dan lainnya. Daftarnya tergantung pada tugasnya. Mengapa python Keuntungan utamanya adalah kesederhanaan produktivitas. Kita dapat membuat keputusan yang akan segera diintegrasikan ke dalam infrastruktur bersama. Meskipun terjadi bahwa perpustakaan yang diperlukan tidak dalam Python, mereka berada dalam bahasa lain. Misalnya, R memiliki pustaka statistik yang tidak menggunakan Python.

Bagaimana jika tidak ada yang tahu Hadoop?

Keterampilan Hadoop diinginkan, tetapi mereka bukan prasyarat untuk sampai ke tim kami. Tidak semua perusahaan memiliki jumlah data yang dimiliki MegaFon, dan sebagai hasilnya, para kandidat tidak memiliki kesempatan untuk bekerja dengan Hadoop di tempat kerja mereka sebelumnya.

Tidak terlalu sulit untuk menguasai perintah-perintah dasar untuk bekerja dengan cluster Hadoop, tetapi ketika datang ke tugas-tugas yang lebih kompleks, diperlukan pemahaman mendalam tentang algoritma data besar, MapReduce, dan metode optimisasi kueri. Misalnya, di ekosistem Hadoop ada produk seperti Hive. Ini memungkinkan Anda untuk menulis query seperti SQL dan berjalan di atas Hadoop. Awalnya dikembangkan oleh Facebook. Tetapi Anda perlu ingat bahwa ini bukan memanipulasi database relasional, meskipun Anda menulis dalam SQL. Di sini Anda dapat menulis pertanyaan sederhana, tetapi untuk mencapai efisiensi, yaitu, kecepatan dan penggunaan sumber daya cluster yang minimal, Anda harus memahami nuansa pengoptimalan kueri menggunakan MapReduce.

Magang adalah kesempatan untuk mengembangkan dan mendapatkan pengalaman bisnis. Apakah ada magang di
Big Data MegaFon?

Di dunia digital kita, tampaknya sudah ada bangku mengumpulkan data tentang orang yang duduk di atasnya, belum lagi Internet hal-hal dan sejumlah besar layanan yang kita semua gunakan.

Kebutuhan akan spesialis semakin meningkat, ada sejumlah besar analisis dan perkiraan tentang berapa banyak yang akan dibutuhkan dalam waktu dekat. Setiap perusahaan yang mengumpulkan setidaknya beberapa data memahami bahwa data ini dapat memiliki nilai dan sejumlah besar wawasan. Oleh karena itu, analis data sekarang dalam permintaan seperti itu.

gambar
BigDataCamp di kantor MegaFon, 2019

Kami senang memiliki spesialis hebat, tetapi pasarnya kecil, dan tidak banyak yang cocok untuk kami. Karena itu, MegaFon sedang mengembangkan program magang. Pada dasarnya, kami mengundang siswa senior dan lulusan baru yang terlibat dalam pemrograman dan matematika untuk melakukan magang. Ada pengecualian, misalnya, ada pengalaman sukses dalam berinteraksi dengan orang-orang dari departemen geografi. Penting bagi kita bahwa siswa dapat secara harmonis menggabungkan pekerjaan dengan belajar, mengembangkan lebih lanjut di perusahaan dan di masa depan pindah ke posisi analis atau insinyur.

Bagaimana Anda mengetik sebuah tim?

Wawancara kami dengan pekerja magang berbeda dari wawancara dengan profesional yang berpengalaman. Saat mencari pekerja magang, perekrut melakukan wawancara telepon kecil, yang hasilnya memperjelas apakah kandidat tertarik dengan tugas kami dan tingkat pengetahuan dan pengalaman apa yang saat ini ia miliki. Penting bagi kita apakah kandidat dapat memprogram dalam Python, apakah dia tahu perpustakaan dasar pembelajaran mesin, apakah dia memiliki pengalaman dalam memecahkan masalah pelatihan yang terkait dengan analisis data besar, apakah dia sebelumnya telah membangun model matematika dan algoritma apa yang dia gunakan.

Berdasarkan hasil wawancara telepon, kami memilih 5-10 kandidat yang secara bersamaan datang ke kantor kami selama 2-3 jam untuk mengenal orang-orang dari tim dan menyelesaikan tugas teknis. Sedekat mungkin dengan industri telekomunikasi - perlu untuk membangun model klasifikasi untuk pelanggan kami. Selanjutnya, kami membandingkan hasilnya dan mengundang yang terbaik ke wawancara akhir untuk membahas jadwal kerja, tugas, dan kondisi lainnya.

Magang berlangsung 3 bulan. Magang terlibat dalam tugas bisnis nyata. Paling sering, tugas sudah diformalkan, dan seseorang memiliki pemahaman yang jelas tentang apa yang perlu dilakukan, jika tidak, Anda selalu dapat beralih ke mentor Anda .

Selain tugas-tugas bisnis, karyawan magang kami secara teratur menjalani pelatihan offline dan online. Kami bekerja dengan New Pro Lab, Tim Big Data, Geek Brains, Data Gym dan lainnya, para ahli kami memiliki akses ke Coursera.

Seperti yang ditunjukkan oleh latihan, tiga bulan sudah cukup untuk memahami apakah kita ingin terus bekerja bersama. Jika peserta magang menunjukkan hasil yang baik, kami membawanya ke posisi ilmuwan data junior dan mengembangkan lebih lanjut.

gambar
Egor, Analis Data Besar MegaFon, pada konferensi Data Fest pada musim semi 2019.

Pencarian untuk profesional berpengalaman adalah sebagai berikut:

1. Daftar riwayat hidup atau profil kandidat dengan pemimpin tim dan perekrut.

2. Wawancara pribadi dengan pemimpin tim, di mana ada pertanyaan teknis dan tidak hanya: teori probabilitas, statistik, pembelajaran mesin, pengalaman dalam menggunakan utilitas yang berbeda, harapan kandidat sendiri.

3. Jika wawancara berjalan baik untuk kedua belah pihak, kami meminta portofolio kandidat (proyek dan kode pribadi) atau meminta kami untuk menyelesaikan tugas teknis kami untuk melihat kode dan mencari tahu perkembangan penyelesaian masalah. Tugas teknis juga terkait dengan telekomunikasi: perlu diprediksi apakah pelanggan memiliki beberapa kartu SIM. Jangka waktu penugasan ditentukan oleh kandidat sendiri, tetapi biasanya tidak lebih dari seminggu. Salah satu karyawan kami menyelesaikan tugas malam itu dan seminggu kemudian datang untuk bekerja untuk kami. Hai Artyom;)

4. Pertemuan dengan direktur analitik data besar, diskusi tugas dan ketentuan.

Apakah birokrasi kuat dalam perusahaan besar?

Sebagian besar tim kami bekerja di kantor pusat di Moskow, tetapi kami memiliki tim di Nizhny Novgorod dan Yekaterinburg. Kolega dari berbagai kota dapat terlibat dalam proyek, semuanya tergantung pada tugas dan keterampilan karyawan.

Departemen kami masih muda, dinamis, dan kami awalnya berhasil membangun proses untuk berinteraksi dengan departemen lain: kami tidak perlu meminta data melalui kolega, kami terutama menggunakan database kami, Oracle atau Hadoop, dan membangun model.

gambar
Bekerja di kantor MegaFon

Alur kerja kami diatur sebagai berikut. Pertama, manajer mendiskusikan persyaratan dengan perwakilan pelanggan. Sebagai aturan, kita berbicara tentang meningkatkan proses bisnis menggunakan pembelajaran mesin dan analisis data, misalnya, kita dapat mengoptimalkan penjualan smartphone untuk ritel kita. Kemudian manajer, pemimpin tim, dan analis bersama-sama mendiskusikan syarat dan tahapan pengembangan. Pengaturan dicatat dalam Jira, kami juga menjalankan Confluence, ini adalah Wiki internal kami. Tentu saja, kami menggunakan Gitlab.

Tahun ini kami memperkenalkan proses peninjauan kode untuk semua tahap kunci dari proyek ilmu data dan sudah melihat hasilnya: kualitas kode banyak orang telah meningkat secara signifikan. Rencana selanjutnya untuk meningkatkan proses pengembangan adalah penerapan alat DVC (Data Version Control), yang akan memungkinkan versi seluruh proyek, termasuk kumpulan data.

Durasi proyek bisa dari beberapa bulan hingga enam bulan. Analis terlibat di semua tahapan proyek, dari memformalkan persyaratan dan menentukan target acara model, berakhir dengan memantau stabilitas hasil dalam produksi.

Kami sangat berorientasi pada hasil, kami tidak pernah melakukan pengembangan tanpa pemahaman yang jelas tentang manfaat apa yang dapat kami bawa ke MegaFon.
Setelah membangun model, kami meluncurkan kampanye uji berdasarkan hasil pekerjaannya. Jika berhasil, kami meluncurkan solusi kami untuk jutaan pelanggan MegaFon. Di masa depan, kami menganalisis hasil tidak hanya dari sudut pandang metrik model, seperti akurasi atau kelengkapan pada segmen target, tetapi juga secara serius mendekati analisis indikator bisnis. Analis bisnis kami membantu kami dalam hal ini.

Tim dan Pengembangan

Kelebihan terbesar dari pekerjaan di departemen ini adalah tim yang sangat cerdas dan tugas yang menarik. Kantor, pusat perbelanjaan di dalamnya, bonus, kompensasi, tentu saja, juga bagus, tetapi di tempat ketiga. MegaFon untuk analis adalah gudang data yang nyata. Tidak semua orang memiliki kesempatan untuk bekerja dengan tipe dan jumlah data sedemikian rupa sehingga ketika dianalisis, Anda dapat menangkap wawasan dan membuat keputusan yang pada akhirnya akan menghasilkan banyak uang. Ini yang paling menarik bagi analis. Anda belajar di universitas, menulis algoritma baru, mengkodekannya, menerapkan metode ilmiah, algoritma mulai bekerja dan benar-benar membawa beberapa manfaat. Inilah yang paling banyak menyebabkan emosi.

Kami adalah orang-orang nomor, dikelilingi oleh orang-orang perdagangan, dan ketika wawasan kami menghasilkan uang - itu hebat!

Wawancara disiapkan bersama dengan layanan karir My Circle.

Source: https://habr.com/ru/post/id479384/


All Articles