Habr, halo! Kami melanjutkan serangkaian wawancara dengan alumni Newprolab di mana mereka berbicara tentang kisah mereka pindah ke bidang bekerja dengan data besar. Cerita-ceritanya berbeda dan akan menarik bagi mereka yang berpikir untuk mengubah jalur karier mereka atau tentang bagaimana pengetahuan baru dapat membantu memecahkan masalah saat ini. Temui Oleg Khomyuk, Kepala Litbang di Lamoda.
Oleg berbicara tentang jalur kariernya, nilai-nilai, mengapa ia memilih Lamoda, dan bukan perusahaan di Lembah, tentang proyek saat ini, timnya, tentang proyek yang paling sukses dan paling gagal, tentang sikap terhadap ilmu data dan banyak lagi.
- Oleg, bagaimana jalur profesional Anda menuju Kepala Litbang di Lamoda?- Tampak bagi saya bahwa setiap jalur profesional adalah hasil dari beberapa alasan dan terkadang kecelakaan. Di antara alasan-alasan ini, beberapa yang utama dapat dibedakan: ciri-ciri pemikiran, nilai-nilai kehidupan dan, secara umum, bagaimana seseorang memahami apa kesuksesan itu. Pemahaman tentang kesuksesan ini adalah vektor yang kami gunakan sebagai kompas, memilih jalur profesional.
Dalam hal ini, semuanya ternyata cukup sederhana bagi saya: sekolah jelas menunjukkan kemampuan untuk ilmu eksakta, terus-menerus berpartisipasi dalam kompetisi, bahkan berhasil mengambil tempat ke-3 di kelas 9 di Olimpiade matematika regional di antara anak-anak sekolah. Dan secara keseluruhan, selalu sangat menarik untuk memecahkan teka-teki, mencari pola, saya masih menyukai tugas tentang kecerdikan.
Saya juga suka belajar di universitas: Saya lulus dari MSTU. N.E. Bauman dengan pujian di "Instrumentasi Optoelektronik", kami diajarkan untuk mendesain cukup canggih, dari sudut pandang fisika dan mikroelektronika, peralatan: pencitra termal, kamera digital, teleskop, bahkan pemandangan sniper, sistem pelayaran dan perangkat penglihatan malam. Saya harus mengatakan bahwa ini adalah profesi yang sangat menarik, dan staf pengajar kami sangat luar biasa. Rekayasa nyata semacam itu ada di persimpangan beberapa bidang pengetahuan. Terkadang sedikit disayangkan bahwa itu tidak berhasil pada topik ini.
- Kenapa tidak?- Dalam kursus terakhir saya sedikit kecewa dengan apa yang saya lakukan. Ternyata permintaan akan profesi di negara ini rendah, semuanya sangat lokal, yang terbaik dari para insinyur terbaik bekerja terutama di laboratorium lembaga, pabrik langka dapat melaksanakan proyek-proyek teknik, peralatan usang, dan sebagainya. Tentu saja ada beberapa keberhasilan, tetapi cakupannya tidak sama dengan yang saya bayangkan di awal studi saya. Faktor ini ditambah dengan rendahnya biaya bagi para peneliti, adalah mungkin untuk terlibat dalam transportasi pribadi dan menghasilkan lebih banyak. Tentu saja, masih ada opsi untuk mendapatkan uang, bekerja tidak cukup resmi untuk perusahaan Jepang, tentu saja tanpa hak kekayaan intelektual.
Pada titik tertentu, teman-teman saya mengundang saya untuk bekerja di penyedia Internet yang agak besar di dekat Moskow, dan saya setuju. Saya cukup siap untuk mempelajari hal-hal baru, pendidikan teknis memberikan banyak ruang lingkup dalam hal ini.
Di sana saya memperoleh keterampilan teknis baru, berkenalan dengan topik manajemen kualitas dan umumnya menyentuh praktik-praktik dunia dalam hal ini. Ada standar manajemen kualitas seperti itu, bahkan serangkaian standar ISO 9000, yang menawarkan beberapa praktik untuk mengatur proses dalam suatu perusahaan, mengambil sebagai aksioma hubungan antara kualitas produk akhir dan seberapa baik perusahaan secara internal mengelola prosesnya. Gagasan utamanya adalah jika Anda melakukan segala sesuatu dalam kerangka standar, maka kualitas produk Anda terus meningkat, karena Anda mengukur, berpikir, merencanakan, melakukan, dan sekali lagi mengukur setiap proses yang dapat memengaruhi kualitas ini. Aktivitas siklus perbaikan berkesinambungan ini bahkan memiliki nama - siklus Deming. Entah bagaimana saya ditangkap oleh topik ini, seperti manajemen, tetapi sangat matematis.
Akibatnya, saya bekerja di sana selama sekitar 2 tahun, melakukan berbagai hal, termasuk mengelola departemen kecil, proses pembangunan, banyak berbicara dengan departemen kualitas.
Berikutnya adalah Yandex. Pada titik tertentu, saya melihat bahwa mereka mempekerjakan manajer proyek di departemen kualitas pencarian. Kekosongan itu sendiri tidak begitu terpikat, tugas tes lebih tertarik: menggambarkan masalah pencarian Yandex yang ada dan mencari cara untuk menyelesaikannya. Yah, pemicu di kepala saya untuk kata "kualitas" berhasil, mungkin. Saya mengerjakan tugas selama 10 jam berturut-turut, ternyata beberapa halaman. Hasilnya, mereka menghubungi saya, meminta wawancara dan mengajukan tawaran, yang dengan senang hati saya terima.
Sementara saya bekerja di Yandex, khusus untuk saya, semuanya jatuh ke tempatnya, saya melihat seberapa besar data, matematika, algoritma, fokus pada pengguna, kebutuhannya bekerja bersama sebagai satu mekanisme tunggal dan memungkinkan Anda membuat produk terobosan di satu sisi, dan menghasilkan uang di sisi lain Tampaknya bagi saya bahwa saya mengambil dari Yandex keinginan yang terbentuk untuk membuat produk berdasarkan data dan terlibat dalam pembelajaran mesin. Sejak itu, ia mulai aktif berkembang ke arah ini.
- Saat itu tahun 2011, topik big data belum terlalu populer, tidak ada program. Di mana Anda belajar, baca semuanya?- Tentu saja, konten yang tersedia tidak cukup, dan kami semua sangat haus akan pengetahuan. Tapi Coursera sudah ada di sana, dan omong-omong, ShAD juga. Saya mendengarkan ceramah Vorontsov 15 kali dan tidak mengerti apa-apa. Banyak yang melewati ini, itu adalah era yang menarik.
Secara umum, saya mulai menjauh dari topik pencarian informasi, saya suka bekerja dengan data, saya tertarik dengan bidang baru yang terkait dengan pembelajaran mesin, dan pada tahun 2012 saya meninggalkan perusahaan.
- Dan bagaimana setelah Yandex?Setelah Yandex adalah "Consultant Plus." Sudah lebih sadar memilih arah yang terkait dengan analisis data. Hanya data tindakan pengguna yang baru mulai dikumpulkan dalam skala besar, jadi saya bergabung dengan kegiatan ini dan mulai membuat proyek.
Secara umum, itu adalah waktu yang menarik, sekarang ada banyak perpustakaan yang tersedia untuk pembelajaran mesin, misalnya, xgboost, dan kami menulis gradien kami meningkatkan pohon di C ++, sekarang, tentu saja, tidak setiap tim dapat membelinya, dan tidak perlu - semuanya sudah terwujud. Cerita seperti itu.
- Apakah Anda menulis sendiri atau sudah memiliki tim?- Tim sudah, ya, selain bakat. Pada tahun kedua pekerjaan saya di Consultant Plus, seorang siswa berbakat dari VMK bergabung dengan kami, yang dalam beberapa bulan menulis implementasinya untuk meningkatkan dan mulai melatih model.
Pada saat itu, kami sudah bertujuan untuk membentuk seluruh tim ilmuwan data, kami merasa bahwa ada banyak peluang baru dalam data. Kemudian, kesempatan untuk mengambil dua lulusan ShAD, yang mungkin tahu lebih banyak daripada saya, dan pengembang untuk membangun repositori, muncul dengan sangat sukses. Semua orang mencobanya, terutama bekerja pada cluster Hadoop, meskipun menurut standar modern tidak ada banyak data.
Di puncak kami, mungkin, ada 9 orang di semua, mereka memecahkan masalah yang baik. Sebagai contoh, mereka mencari semburan minat pengguna dalam berbagai topik, ini membantu penulis untuk lebih optimal mendekati pilihan orang-orang yang masuk akal untuk menulis materi baru.
Setelah itu saya bekerja untuk Ezhome, sebuah startup di Palo Alto. Ngomong-ngomong, Mitya Kataev merekomendasikan saya ke sana, dengan siapa kami belajar bersama
pada program Spesialis Data Besar . Kenalannya, Kirill Klokov, yang bekerja di Ezhome sebagai direktur pengembangan, hanya mencari seorang ilmuwan data di tim. Gagasan utama perusahaan adalah penciptaan pengalaman Uber untuk layanan rumah; sebagai titik awal, layanan untuk perawatan area lokal dipilih - mulai dari memotong rumput, berakhir dengan pembersihan, penanaman tanaman dan pohon. Sebagai hasilnya, saya mulai bekerja di sana sebagai Data Scientist, saya benar-benar ingin mencoba tangan saya di startup, dan saya ingin bekerja dengan tangan saya. Saya secara berkala mengalami gatal analitis ini, saya ingin melakukan sesuatu yang bermakna sendiri, walaupun untuk beberapa waktu saya terutama berfokus pada proses organisasi. Saya dulu berharap bahwa suatu hari rasa gatalnya akan mereda, tetapi tidak, sampai hari ini saya mencoba untuk "duduk di dua kursi", yaitu, untuk mengembangkan baik sebagai manajer maupun sebagai spesialis.
- Bahkan sekarang?"Bahkan sekarang." Walaupun saat ini, tentu saja, tidak ada cukup waktu untuk banyak hal: tim besar, banyak tugas manajemen, saya terlambat pada akhir pekan, karena sekarang ada banyak peluang untuk ini - kaggle, misalnya. Saya ingin melakukan sesuatu dengan tangan saya sendiri juga, tetapi saya memiliki orang-orang di tim saya yang jelas lebih baik daripada saya di bidang mereka. Tetapi, menurut pendapat saya, untuk manajemen proyek yang efektif di bidang analisis data, manajer harus memiliki keterampilan keras. Saya terus belajar. Saat ini, misalnya, saya memutuskan untuk menjalani spesialisasi dalam pemrograman, supaya tidak melupakan apa yang terjadi.
- Kembali ke Ezhome: mengapa mereka membutuhkan ilmuwan data? Tugas apa yang Anda hadapi?- Ini pertanyaan yang bagus. Pada awalnya saya bertanya apa hasil yang diharapkan dari saya. Jawabannya ada dalam semangat: "kita sendiri belum mengerti, mari kita coba." Tetapi dengan cepat sebuah tugas yang bagus ditemukan: pada saat itu ada hambatan dalam menarik pelanggan baru, karena setiap aplikasi baru diproses oleh seseorang, mengukur situs dari citra satelit, mencoba memahami berapa biaya untuk melayani situs tersebut. Ada model linier ahli yang berurusan dengan penilaian ini. Jelas bahwa kualitas perkiraan ingin ditingkatkan, dan bagaimana cara memperhitungkan sejumlah besar parameter secara ahli, Anda tidak bisa menentukan. Di sinilah pembelajaran mesin berguna. Kami mulai memprediksi waktu yang akan dihabiskan tukang kebun menggunakan parameter situs. Parameter situs diambil dari sumber terbuka, dan "guru" diambil dari data historis. Kemudian sudah ada basis kecil pelanggan aktif berlangganan layanan mingguan.
Akibatnya, tugas dipecat, data tersedia untuk sebagian besar panggilan masuk, dimungkinkan untuk merumuskan harga individual dengan cepat. Otomatisasi klasik - robot berfungsi, orang santai. Kemudian saya diundang untuk datang ke kantor pusat di Lembah untuk sementara waktu, sekitar satu setengah bulan.
Sebelum itu, saya bekerja dari jarak jauh, di sana hampir seluruh tim jauh: Amerika Serikat, India, Yunani, Polandia, Rusia. Tim itu sangat keren, itu menyenangkan untuk bekerja. Saya berhasil melakukan banyak tugas keren, pada akhirnya saya ditawari posisi analytics pemimpin tim. Kami membuat beberapa perbaikan dalam infrastruktur, yang memungkinkan kami meningkatkan jumlah proyek yang kami lakukan sesekali. Kemudian mereka mengusulkan untuk bersatu dengan tim lain yang sedang mengembangkan perangkat lunak untuk membangun rute bagi karyawan: 5 ribu pelanggan, 150 tukang kebun, cara menyiasati mereka secara optimal. Itu sangat menarik, dan sekarang bagi saya tampaknya tugas yang lebih banyak tentang ilmu komputer daripada tentang data juga sangat menarik.
- Sejalan dengan Lamoda, Anda mempertimbangkan beberapa proposal, mengapa pilihan dibuat untuk Lamoda? Apa yang penting bagi Anda?- Ya, ada beberapa proposal. Apa yang menghubungkan saya di Lamoda? Strategi yang jelas, harapan yang jelas dari saya, kepercayaan dan rencana sumber daya yang realistis dalam keuangan, yaitu, mereka menetapkan tugas yang jelas bagi saya: "kita di sini sekarang, kita perlu datang ke sini, kita ingin mengembangkan R&D, kita siap berinvestasi X, kita mengharapkan efek ekonomi ini dan itu" . Itu saja. Tidak ada alasan tentang bagaimana pesawat ruang angkasa akan membajak hamparan alam semesta atau bahwa robot akan menggantikan semua orang. Ditambah cerita yang jujur ββtentang bagaimana kinerja perusahaan. Semuanya transparan, jelas, dan ini, secara umum, menyuap saya karena saya memiliki perasaan yang lengkap bahwa saya bergabung dengan tim orang-orang yang benar-benar berorientasi pada hasil dan memahami apa yang mereka inginkan. Selain itu, mereka memberi saya carte blanche untuk mengembangkan daerah ini. Bagi saya itu adalah semacam tantangan pribadi, saya tidak pernah memiliki kesempatan untuk membentuk tim sebesar itu. Sekarang 17 orang, dan kami masih terus berkembang.
- Ini bukan perusahaan pertama di mana Anda membangun departemen R&D dari awal, membentuk tim. Apa 5 langkah pertama yang Anda ambil saat bergabung dengan perusahaan?- Departemen R&D ada di Lamoda dan sebelum saya, dalam 7 tahun bahkan beberapa tim dan pemimpin diganti. Selain itu, kami mengumpulkan sekitar setengah dari tim saat ini di dalam. Jadi tidak benar-benar dari awal.
Lima langkah pertama di perusahaan baru? Algoritme, saya pikir, tidak spesifik untuk R&D, pada prinsipnya, ini bisa menjadi kasus jika Anda datang ke perusahaan baru untuk setidaknya beberapa jenis posisi kepemimpinan.
Pertama, Anda perlu memahami strategi perusahaan saat ini, untuk memahami apa tujuan perusahaan, apa KPI yang akan mengukur pencapaian.
Yang kedua adalah untuk menggambarkan bagaimana, dengan mempertimbangkan kompetensi atau peran Anda di perusahaan, Anda dapat memengaruhi KPI ini, harus ada seperangkat alat dan gagasan yang tersedia. Jelaskan kebutuhan bisnis dan negara target, yaitu, apa yang umumnya ingin kita tuju, dan kemudian evaluasi alat yang tersedia. Pembelajaran mesin hanyalah salah satunya, dan tidak optimal untuk setiap tugas.
Poin ketiga - Anda perlu mengaudit keadaan saat ini - orang, kompetensi, proses, data, produk, infrastruktur, terutama infrastruktur.
Secara umum, hanya pada langkah ke-4 setelah audit keadaan saat ini, menjadi mungkin untuk menggambarkan strategi lebih lanjut untuk transisi dari keadaan saat ini ke target. Pada dasarnya, ini banyak pekerjaan, termasuk banyak konsultasi dengan pihak-pihak yang berkepentingan, para pemangku kepentingan, yang didasarkan pada beberapa skenario pembangunan yang mungkin perlu dikembangkan. Dalam praktik saya, itu berguna untuk membuat setidaknya 3 - konservatif, realistis dan agresif dalam hal biaya sumber daya. Maka itu semua lebih mudah: setelah memilih strategi, kami membuat peta jalan, menentukan estimasi sumber daya dan mulai bekerja.
- Apa ilmu data untuk Anda?- Ilmu Data adalah alat favorit saya. Ini adalah bidang yang sangat menarik, seperti matematika dan fisika, cara lain untuk menjelajahi dunia di sekitar Anda. Ini adalah pertama kalinya saya merasakannya dengan sangat jelas di Yandex, ketika kami terlibat dalam analisis permintaan pencarian, kami memahami apa yang dibutuhkan pengguna, bagaimana mereka menyelesaikannya, apa yang terjadi di dunia. Artinya, Anda dapat melihat dunia melalui klik kecil data yang Anda gunakan. Ini menarik dan, menurut saya, tidak berbeda dari cara-cara lain untuk mengetahui, hanya "saluran" lain, menganggap ini sebagai perasaan ke-7. Hal yang sama terjadi di "Consultant Plus": kami melihat pengguna mana yang memecahkan masalah ketika mereka mencari keputusan pengadilan, yaitu, apa yang secara spesifik menggairahkan orang, perselisihan apa yang mereka miliki yang perlu diselesaikan di pengadilan. Jika kita berbicara tentang data yang kita analisis di Lamoda, maka ini tidak kalah menarik. Terutama ketika Anda mengetahui bahwa blus dan rok dibeli dalam warna berbeda daripada yang sama. Sebuah pengamatan ingin tahu yang dengannya Anda bisa melangkah lebih jauh dalam kehidupan. Anda dapat belajar banyak tentang dunia di sekitar Anda melalui data. Karena itu, saya katakan bahwa ini adalah alat favorit saya. Dan di sini dia, di satu sisi, alat kognitif, dan di sisi lain, alat aktif, dengan bantuan itu Anda dapat membuat sesuatu yang baru.
- Jika Anda menjalankan bisnis, peran apa yang Anda tetapkan untuk data dalam bisnis?- Yang paling penting di sini adalah tidak menyerah pada hype. Jika kita berbicara tentang bisnis, maka data, tentu saja, harus berfungsi. Hasil analisis data harus menguntungkan atau mengurangi biaya. Jika tidak, maka ada sesuatu yang salah di suatu tempat. Pada saat yang sama, budaya berbasis data tidak perlu diambil secara harfiah, kita dapat membuat keputusan tanpa mengandalkan data, ini normal. Terlebih lagi, dalam beberapa kasus ini adalah satu-satunya hal yang dapat dilakukan.
- Katakan padaku, proyek apa yang kamu lakukan di Lamoda? Apa proyek paling sukses yang dilaksanakan oleh tim Anda?- Mungkin hal pertama yang perlu disebutkan adalah platform untuk pengujian A / B - pada dasarnya layanan yang membagi pengguna ke dalam kelompok dan mengelola on / off fitur eksperimental. Mengapa ini penting bagi kami? Karena secara umum bidang ini sendiri, terkait dengan pembelajaran mesin, tidak dapat ada tanpa pengujian terus-menerus dari berbagai hipotesis dan ide. Kami tidak dapat mengetahui sebelumnya bahwa pengguna kami akan menyukainya kurang lebih. Setiap ide baru harus diuji. Amazon menyediakan statistik yang menarik, mereka mengatakan bahwa 70% dari gagasan yang mereka uji kalah dalam tes. Ini harus diperlakukan dengan tenang, bahkan jika indikatornya lebih tinggi. Ini berarti bahwa untuk merilis 5 proyek yang berhasil per kuartal, perlu dilakukan Β± 17. Oleh karena itu, platform yang dapat diandalkan untuk melakukan eksperimen terkontrol adalah dasar yang tanpanya mustahil untuk bergerak maju dalam hal pengembangan produk. Mengingat rencana ambisius kami, perlu dilakukan peningkatan pada sistem ini. Versi pertama dibuat sebelum saya, kami memperbaruinya secara signifikan: sekarang Anda dapat menjalankan lebih banyak percobaan pada saat yang sama, sebelum ada beberapa batasan dalam pengertian ini.
- Apa arah lainnya?- Cari, dan di sini ada perbedaan dari pemain besar seperti Yandex dan Google, karena kami dapat mengerjakan area subjek kami dengan sangat baik, itu agak sempit dibandingkan dengan "pencarian universal di Internet". Mustahil untuk membuat ontologi segalanya, untuk menggambarkan semua hubungan, tetapi dalam area spesifik kecil Anda dapat membuat keputusan yang sangat baik yang akan berhasil. Kami sedang melakukan linguistik kami untuk mesin pencari yang dapat memperhitungkan beberapa hubungan implisit antara entitas yang berbeda. , , , , , , . , Tommy Hilfiger Tommy Jeans, . , β , β - . , , Lamoda.
, , , β . . , , , , .
, , , .
β , .β . , . , , , , β . , , . , . , , .
β ? ? ?β , : , , , , -. , -, . , . -, , , . .
4-6 . , . , - . . - , , β .
β Amazon 70% , Lamoda?β , . , , . , β success, learning. . β . , , , , . - .
β , ? learning'e, .β , . , . , , , . , , learning, , . ( , ) , , , . , , , .
β ? , , , . , ?β , : , , . , , , . , , .
β , , Newprolab Lamoda, . , , , ?β , , , , , , . ( Newprolab β . .), , - . . , Newprolab , . - , , , . , . 3 10 , , . . , , , , , .
β , , , , , , , .β , , 4 , , Coursera, , . , , , . , , , , , , .
β Β« Β» , , . , ?β β - . , , - , . - , . , . ? : - , . , . , , , , , , . , . , , , , - . , , .
β , -. , ? ?β , «» «», , , , - . , - , . . , , , . , Lamoda . - , .
β , ?β Slack ODS, , , . , , , , , , .
β , , . , , ?β , : , . , , data science, . , , - .
β , , .β , . . , , . , , - - , . β , , , , . , - - . , , , , , , , - , .
, β , , , . , , . : , , , . Ezhome β : data scientist, -, , . , - . , . , .
, , , .