Habr, halo! Kami melanjutkan serangkaian wawancara dengan alumni Newprolab di mana mereka berbicara tentang kisah mereka tentang pindah ke ilmu data. Cerita-ceritanya berbeda dan akan menarik bagi mereka yang berpikir untuk mengubah jalur karier mereka atau tentang bagaimana pengetahuan baru dapat membantu memecahkan masalah saat ini. Kami baru-baru ini bertemu dengan Yana Charuyskaya, Pemilik Produk di MTS. Yana menceritakan bagaimana dia sampai pada data besar, bagaimana dia tumbuh secara profesional, mengingat proyek favoritnya, yang memberi teman-temannya, di samping pengetahuan dan pengalamannya. Dia berbicara tentang suasana kerja di MTS, tentang proyek yang dilakukan oleh timnya, tentang mimpinya, rencana untuk masa depan, dll.
- Yana, ceritakan sedikit tentang dirimu dan latar belakangmu.- Nama saya Yana Charuyskaya, Saya Pemilik Produk di MTS. Saya tertarik pada bidang Big Data dan telah melakukannya selama dua tahun. Jika singkat tentang kisah saya: Saya lulus dari Sekolah Tinggi Ekonomi dalam Informatika Bisnis, belajar selama 6 tahun, kemudian belajar selama satu tahun sebagai psikolog. Selama empat tahun saya bekerja di konsultan IT, tiga dari mereka terlibat dalam pergudangan data, data mart, pelaporan manajemen gedung terutama untuk bank-bank besar. Tahun terakhir dalam konsultasi adalah dalam pembelajaran mesin dan analitik prediktif. Sekarang saya bekerja di MTS sebagai manajer produk, saya memiliki tim yang terdiri dari 6 orang, dan terus bertambah, saya akan mempekerjakan 7 orang lagi dalam waktu dekat. Secara umum, perusahaan ini juga berkembang, sekarang MTS memiliki lebih dari 150 spesialis Data Besar dan banyak lagi lowongan terbuka (kami berencana untuk meningkatkan staf hampir 2 kali!). Tim saya dan saya sedang mengembangkan beberapa produk pada saat yang sama, saat ini mereka berada pada tahap implementasi yang berbeda: ada produk yang berada dalam tahap R&D, beberapa ada dalam tahap produksi.
- Mengapa dan pada titik apa Anda memutuskan untuk menghubungkan pekerjaan Anda dengan data besar?- Pada titik tertentu itu menjadi mode dan menarik, tetapi bagi saya itu adalah daerah yang sulit dan tidak bisa dipahami. Tentu saja, saya pergi ke universitas bahasa pemrograman C # dan sedikit memahami dasar teoretisnya, tetapi saya tidak pernah memprogram diri saya. Setelah saya mendapatkan pekerjaan di bidang konsultasi TI, saya menulis banyak skrip dalam SQL. Tapi apa itu Python, jaringan saraf, apa yang menulis program dalam beberapa bahasa pemrograman atau membangun model prediksi - semua ini bagi saya adalah serangkaian kata-kata aneh yang benar-benar ingin saya pahami. Itu adalah tantangan bagi saya, dan saya ingin mencoba. Semuanya dimulai dengan fakta bahwa saya menemukan di internet beberapa situs di Python, saya mulai melatih dan memecahkan masalah sederhana. Saya memutuskan, sepertinya entah bagaimana ternyata, tetapi ada sesuatu yang hilang. Saya menemukan diri saya seorang tutor Python, dengan siapa kami menulis kode untuk memecahkan sistem persamaan linear sewenang-wenang menggunakan metode Gauss. Saya ingat, kami memecahkan masalah ini selama sekitar satu bulan; Benar, itu ternyata buruk bagi saya, mungkin gurunya tidak terlalu, saya tidak tahu, tetapi saya, pada akhirnya, memutuskannya sendiri.
Setelah pengalaman les yang tidak berhasil, saya mulai mempertimbangkan pilihan dengan menghadiri kursus, menemukan program
"Spesialis Data Besar" di Internet, saya sangat senang bahwa ini adalah apa yang saya butuhkan: selama tiga bulan untuk melakukan pembelajaran mesin dan peluang besar untuk berkenalan dengan sejumlah besar sistem untuk menyebarkan data besar. Bagi saya, pelatihan online jelas bukan pilihan yang paling cocok, penting bagi saya untuk tidak duduk di rumah sendirian di depan komputer, tetapi untuk berada di perusahaan orang-orang yang terlibat dalam satu tugas, harus ada beberapa elemen kompetisi sehingga Anda dapat melakukan lebih baik dari pekerjaan Anda. kolega. Karena itu, saya memilih Newprolab untuk diri saya sendiri dan saya tidak menyesalinya.
Pada saat itu saya sedang mengembangkan gudang data, bagi saya itu agak membosankan, saya ingin pindah ke daerah baru, tetapi kepala mengatakan bahwa pada saat itu tidak ada kemungkinan seperti itu, namun, dia menyarankan agar saya sepenuhnya menutup analitik di bank besar. Selama berlalunya program, saya menyadari bahwa saya masih ingin melakukan pembelajaran mesin, saya seperti wawancara, mencari pekerjaan, saya mendapat dua penawaran. Saya datang kepada pemimpin bersama mereka dan mengatakan bahwa saya akan pergi karena saya ingin belajar Ilmu Data. Maka hanya dia yang memberi saya kesempatan seperti itu dalam perusahaan. Salah satu syarat untuk pindah ke area lain adalah pengabaian tim analisnya. Saya ditinggalkan sendirian, itu sulit. Sebagian besar, saya terlibat dalam presales, yaitu, untuk membuat model, saya harus terlebih dahulu menemukan klien, menjual model ini, membuatnya, melindunginya, dan mendapatkan bayaran untuk itu. Tetapi ini adalah beberapa kegiatan satu kali, Anda tidak akan mendapatkan tim untuk itu, tidak ada banyak keahlian. Produk-produknya sebagian besar komersial, kami praktis tidak menggunakan solusi open source, jadi saya tidak memerlukan Python atau Spark, model dibangun terutama menggunakan solusi komersial untuk membangun model respons klasik. Karena saya ingin mendapatkan lebih banyak keahlian di bidang Ilmu Data, membuat produk yang menarik dan bekerja dalam tim spesialis yang besar, saya memutuskan untuk mencari kerja lagi.
- Kami akan berbicara lebih banyak tentang bagaimana Anda terlibat dalam MTS. Katakan bagaimana Anda bisa dan harus tetap menjadi spesialis yang baik dan apakah itu layak untuk dilakukan?- Tentu saja, itu layak, dan bahkan lebih baik tidak menahannya, tetapi untuk membuat semua kondisi untuk
mereka ingin tinggal! Tidak ada banyak spesialis yang baik di pasar data besar, jadi saya mencurahkan banyak waktu untuk menjaga suasana persahabatan di dalam tim. Kami banyak berkomunikasi, berbagi ide, tayangan. Kami juga pergi ke konferensi bersama dan bermain game intelektual (misalnya, "Apa? Di mana? Kapan?"). Saya mencoba memberikan semua teka-teki yang menarik kepada semua orang dan menonton unduhan mereka sehingga tidak ada pekerjaan yang berlebihan.
- Dan kesulitan apa yang Anda hadapi secara profesional di awal, tantangan apa yang harus Anda atasi?- Tantangan terbesar adalah bahasa pemrograman, karena saya lebih banyak ahli matematika, dan pemrogramannya adalah logika yang berbeda: menugaskan variabel, membangun kelas, pewarisan, polimorfisme, dan sebagainya. Fakta bahwa pemrograman bukan milik saya, saya memutuskan untuk diri saya kembali di HSE. Salah satu kesulitan terbesar adalah untuk mengatasi hambatan psikologis yang saya dapat juga menulis kode, dan ini bukan masalah bagi saya. Secara umum, tidak terlalu banyak kesulitan, ada banyak pertanyaan. Adalah baik bahwa saya memiliki banyak teman yang menjawab semua pertanyaan ini: baik teman sekelas saya di Newprolab, dan teman masa depan yang saya temui di berbagai konferensi tentang Ilmu Data dan Data Besar. Dan juga Open Data Science di Slack, di mana Anda dapat mengajukan pertanyaan, dan sarapan Ilmu Data, di mana Anda dapat datang dan mendiskusikan masalah apa pun. Secara umum, bagi saya tampaknya kesulitan, jika ada, mudah diatasi, karena Ilmu Data sekarang aktif berkembang, dan orang-orangnya sangat terbuka dan siap membantu.
Saya banyak berbicara dengan orang-orang, termasuk pendatang baru di bidang Ilmu Data, yang ragu apakah akan masuk ke lapangan atau tidak. Mereka telah bekerja di beberapa bidang sepanjang hidup mereka, mereka tertarik pada Ilmu Data, tetapi mereka ragu apakah itu layak untuk mengubah sesuatu, mereka takut. Saya percaya bahwa jika Anda ingin mengubah hidup Anda dan pergi ke impian Anda, maka ini cukup nyata. Saya mulai dengan seorang promotor, bekerja di Auchan, mengiklankan yoghurt, kemudian saya menjadi guru matematika, saya terlibat dalam bimbingan belajar selama tiga tahun (dan mungkin lebih), tetapi saya menyadari bahwa itu membawa semacam pendapatan, tetapi tidak selalu. Saya pergi bekerja di perusahaan leasing sebagai ekonom, tidak ada IT di sana, Excel ada di sana, kami juga tidak menulis makro, pekerjaan itu membosankan bagi saya, dan saya sangat khawatir bahwa itu merendahkan. Saya mencoba menemukan diri saya di daerah lain (pada kenyataannya, lebih terkait dengan pendidikan saya) - saya pergi ke konsultasi, terlibat dalam fasilitas penyimpanan. Kemudian repositori lelah, dan sekali lagi aku menghadapi pilihan ke mana harus pergi berikutnya. Dengan langkah bertahap seperti itu, terhubung dengan perubahan dalam aktivitas profesional saya, saya sampai pada Big Data, yang sama sekali tidak saya sesali. Saya siap untuk menghabiskan sumber daya saya, waktu saya, untuk memahami bidang ini. Saya pikir jika ada motivasi, maka Anda dapat dengan mudah mengatasi semua hambatan dan mencapai apa yang Anda inginkan. Sekali lagi, tidak perlu takut.
- Posisi hidup yang sangat baik dan kisah Anda adalah contoh yang bagus dari kenyataan bahwa segala sesuatu mungkin terjadi jika diinginkan. Kembali ke mereka yang ingin pergi ke Ilmu Data, apa yang Anda pikirkan, selain rasa takut, apa lagi yang bisa berhenti? Anda banyak berbicara dengan orang, mungkin mereka berbagi dengan Anda.- Hal utama - "Saya tidak punya pengalaman, saya belum siap, saya tidak tahu apa-apa." Saya akan segera memberi tahu Anda dari pengalaman saya sendiri: Saya pergi ke kursus Newprolab, belajar di sana selama dua minggu dan saya sudah memiliki dua penawaran di bidang Ilmu Data untuk gaji yang bagus. Dua penawaran, dan saya masih belajar! Saya bahkan tidak bekerja di daerah ini, saya hanya mengajar sedikit Python dan baru saja saya mulai mengambil kursus. Saya datang ke majikan dan mengatakan bahwa saya sedang belajar sekarang di program, saya akan selesai pada 8 Juni, saya termotivasi untuk berkembang di bidang ini, saya memiliki pengalaman yang relevan di gudang data. Perusahaan sudah siap untuk membawa saya. Sekarang pasarnya sangat sempit, hanya ada sedikit ilmuwan data, jadi perusahaan biasanya membawa orang untuk tumbuh. Jika mereka melihat potensi dalam diri Anda, mereka siap mengembangkannya.
Lagi pula, ada begitu banyak sumber pelatihan yang berbeda:
Coursera ,
EdX ,
Udacity , untuk memompa pengetahuan Anda. Bahkan jika Anda tidak tahu statistik, Anda tidak tahu aljabar linier, matematika, bahasa pemrograman, Anda tidak tahu apa-apa, untuk setiap ketidaktahuan Anda ada kursus tertentu yang dapat Anda dengarkan dengan cepat dan cepat mencari tahu segalanya, keinginan dan keinginan utama ada di sini. Dan tidak ada yang namanya "Saya tidak punya pengalaman", yang utama adalah motivasi, sumber daya dan energi. Dan saya pikir akan ada waktu jika Anda menginginkannya.
Menurut Data Science, sekarang banyak kursus online telah bercerai, di mana-mana iklan kontekstual muncul untuk saya pada beberapa kursus, kemudian pada yang lain. Dan biayanya agak besar, tetapi saya melihat dan mendengar perusahaan pemasok kursus untuk pertama kalinya. Secara umum, ini, tentu saja, adalah hype, dan saya pikir ada banyak kursus berkualitas rendah yang praktis tidak memberikan apa-apa.
- Dari pengamatan Anda: keterampilan lunak dan keras apa yang sering tidak cukup untuk pemula dan ilmuwan data berpengalaman untuk menjadi spesialis yang benar-benar berkualifikasi tinggi? Apa yang harus saya cari?- Sangat sering tidak ada keterampilan praktis yang cukup untuk menerapkan model pada basis perusahaan, penting untuk memahami bidang subjek dan memprioritaskan pekerjaan dengan benar. Anda seharusnya tidak menghabiskan banyak waktu untuk suatu tugas, yang hasilnya tidak akan membawa efek positif bagi perusahaan. Para ilmuwan data juga didorong untuk mengembangkan keterampilan komunikasi mereka untuk mempresentasikan hasil produk mereka baik secara internal kepada kolega maupun eksternal. Mengenai keterampilan keras, saya ingin para kandidat lebih memahami terminologi, memahami dasar-dasar matematika pembangunan model dan mengetahui kasus-kasus menggunakan model untuk berbagai jenis tugas pembelajaran mesin. Kreativitas dan imajinasi juga sangat penting untuk mengembangkan pendekatan baru untuk memecahkan masalah (baik itu menambahkan metrik ke penyimpanan data, mengubah strukturnya dengan cara tertentu, atau menggunakan kelas model lain).
- Ceritakan lebih banyak tentang proyek-proyek di bidang Ilmu Data yang telah Anda lakukan.- Pertama, saya akan secara singkat memberi tahu Anda apa yang saya lakukan dalam berkonsultasi. Kami memiliki proyek di berbagai bidang, departemen tidak terlalu besar, dan kami terlibat dalam berbagai tugas. Tugas pertama saya terkait dengan model respons untuk produk pinjaman di bank besar Rusia. Model itu berhasil, itu memberikan hasil positif, saya melakukannya dengan menggunakan solusi komersial; berkat penerapan model ini, saya dapat melalui seluruh jajaran pekerjaan pada koordinasi persyaratan bisnis, konstruksi dan produksi model, serta menilai kualitasnya dan memasukkannya sesuai jadwal. Karena perusahaan saya di masa lalu mengkhususkan diri terutama di sektor perbankan, kami terutama membangun model untuk bank, tetapi kami juga mencoba bidang lain (misalnya, asuransi dan ritel). Pada saat itu, saya tidak hanya berpartisipasi dalam proyek-proyek ini sebagai ilmuwan data, tetapi juga sebagai manajer. Sepertinya bagi saya bahwa area subjek tidak dapat dibatasi, dalam area subjek apa pun Anda dapat dengan cepat mengetahuinya. Saya sangat senang bahwa konsultasi TI memberi saya fleksibilitas.
- Mungkin ada beberapa proyek atau beberapa proyek yang Anda sangat senang ingat?- Ya, ada satu - proyek pertama saya di sebuah bank besar Rusia, kami memiliki tim yang sangat ramah, kami membangun gudang data dari awal, terlibat dalam pengembangannya, didukung, membuat laporan tentang itu. Itu adalah produk yang sangat keren. Kami memperoleh banyak pengalaman, kami telah membentuk tim yang sangat baik. Kami telah lama tersebar di berbagai perusahaan, tetapi kami masih aktif menjaga hubungan. Kami mungkin menemukan diri kami di bank ini.
- Bagus Mari kita beralih ke MTS. Kenapa tepatnya mereka? Apa yang ditawarkan untuk melakukan itu begitu menarik? Tugas apa yang Anda dan tim Anda hadapi sekarang?- Pertama, saya tertarik pada MTS oleh tim besar Big Data, sekelompok spesialis yang dapat Anda konsultasikan kapan saja, yang tidak ada dalam konsultasi TI, tetapi saya sangat kurang. Kami memiliki pemimpin yang sangat berpengalaman dan beberapa ilmuwan data, jelas bahwa pengalaman mereka tidak cukup untuk menyelesaikan masalah. Secara kasar, kami memiliki seperangkat tugas standar yang kami lakukan, dan kami berusaha untuk tidak menyimpang dari serangkaian tugas ini, karena kami tidak memiliki keahlian. Saya sangat senang bahwa saya memilih MTS, kami sekarang memiliki lebih dari 150 orang dan kami masih ingin tumbuh sebesar 70% pada akhir tahun. Ini sangat keren, saya suka berkomunikasi dan berbagi pengalaman, saya pikir darah baru pasti tidak akan sakit.
Kedua, di sini ada banyak teknologi, kami menggunakan Open Source: Python, Spark, Hive, Kafka - semua kata kunci populer di bidang Big Data. Kami bahkan memiliki solusi komersial, tetapi kami tidak menyentuhnya dan kami tidak membuat model di sana. Sangat bagus bahwa saya berhasil berkenalan dengan tumpukan ini pada program Newprolab dan mengkonsolidasikan pengetahuan saya selanjutnya di MTS.
Plus, tentu saja, tugas yang menarik, produk yang menarik. Pelanggan sebagian besar domestik, tetapi beberapa produk dibawa keluar. Tim kami memiliki beberapa bidang: strategis, terkait dengan penerapan model yang saat ini tidak membawa kami uang; ada proyek komersial yang tahun ini harus menunjukkan hasil keuangan. Saya bekerja di tim R&D, kami terlibat dalam penjualan produk yang di masa depan akan membantu MTS menjadi lebih baik.
Tim saya dan saya memiliki tiga produk sekarang. Yang pertama adalah penilaian kualitas layanan untuk pelanggan kami di berbagai titik kontak, termasuk perkiraan NPS (indeks loyalitas pelanggan - catatan penulis) di tingkat masing-masing pelanggan. Kami memiliki polling yang kami lakukan setiap bulan untuk semua pelanggan kami untuk memahami apakah mereka siap untuk merekomendasikan merek MTS atau tidak. 0 - tidak siap untuk merekomendasikan kepada siapa pun, 10 - siap dan aktif melakukannya. Kami mengumpulkan estimasi ini dan memperkirakan peringkat yang akan diberikan pelanggan jika ia telah lulus survei, dan juga melihat alasan yang dapat memengaruhi peringkat ini; Kami dapat dengan cepat membantu memperbaikinya. Ini adalah produk pertama.
Produk kedua terkait dengan analitik suara. Di sini, sejauh ini hanya R&D, salah satu tugas analitik suara adalah mengenali ucapan menjadi teks melalui panggilan ke pusat kontak untuk menganalisis dan secara otomatis mengklasifikasikan panggilan. Saat ini, hal ini dilakukan oleh operator, dan pokok permasalahan dari pesan tersebut mungkin tidak selalu cukup akurat.
Saya mungkin akan memberi tahu Anda tentang produk ketiga nanti di beberapa konferensi Big Data.
Tim ini sangat keren, kami mencoba mempertahankan suasana kerja di rumah untuk membuat semua orang nyaman. Saya mencoba mendengarkan setiap anggota tim, semua orang berbagi ide. Bagi saya, gagasan tim adalah yang paling penting ketika mengembangkan suatu produk. Secara umum, kami juga mencoba menerapkan ide-ide paling gila.
- Berikan contoh ide gila.- Sepertinya saya bahwa produk kami dengan suara mulai begitu. Kami melakukan NPS, menganalisis peringkat pelanggan kami, dan kemudian seseorang bertanya: "Mengapa kita tidak bisa menganalisis panggilan suara ke pusat panggilan?" Memang kenapa tidak? Kami memperingatkan pelanggan kami bahwa kami dapat merekam dan menganalisis. Kami sendiri tidak mendengarkannya, tetapi berkat pemrosesan mesin, kami dapat menarik keluar topik panggilan dari sana untuk meningkatkan kualitas layanan pelanggan.
Sulit bagi saya untuk memberikan contoh spesifik - setiap momen kerja ketika orang-orang ingin menguji sesuatu, mencoba mengimplementasikan sesuatu, dan mengoptimalkan suatu tempat. Kami juga mencoba berbagai solusi, banyak pemasok datang kepada kami, menawarkan teknologi terbaru. Kami menghabiskan waktu bersama pilot, lihat hasilnya.
- Anda pasti selain MTS mempertimbangkan beberapa opsi lain. Apa yang penting bagi Anda ketika memilih majikan?- Keterbukaan perusahaan penting bagi saya; Saya suka bahwa saya dapat berkonsultasi dengan kolega saya, dengan pemimpin saya, berbagi ketakutan saya, saya tahu bahwa dia akan mengerti dan dapat memberikan saran praktis. Reputasi perusahaan penting bagi saya. Tentu saja, saya siap untuk memulai startup jika mereka memiliki ide yang menarik, tetapi, secara umum, reputasi perusahaan itu penting bagi saya. Saya suka bekerja di MTS, kami adalah operator terbesar di Rusia. Saya pikir peluang pengembangan juga penting, dan MTS mendorong partisipasi dalam berbagai konferensi baik sebagai pembicara maupun sebagai pendengar. , , .
. , , Confluence Jira. , - , , , . , , .
— « » , «Deep Learning» – . : / , , , / / ?— , . , . ; , , , , , . , , , - , - . , , , ( , ). , , , , . , , . , , , , , , ( ).
«Deep Learning», , . , , — . , . Keras , . , Xception, , . - , , , Python, . , , , . .
— ? ? ?— Product Owner, . -, . , , , , . . . , , , - , - , . , . , , . , .
-, . , .
Newprolab :
«Data Engineer» , «Deep Learning», « ». , , ; ; , . , , .
— , Big Data / Data Science , . , , ?— . , , , : , . ,
arxiv.org . Data Science , , . , , , , , , , , : Newprolab, , , , data scientist' data engineer'.
— - ?— , , . . , , , - , . , , . , , .
— . , - , -, ?— Data Science , . ODS , , Slack. , – , , . . -, github,
stackoverflow , arxiv.org.