Yandex telah melatih para pakar sains data sejak 2007. Siswa menghargai Sekolah Analisis Data untuk relevansi program pelatihan dan kursus, tetapi mereka tidak selalu mengerti apa yang menunggu mereka setelah selesai. Bekerja dengan data di Yandex atau di perusahaan besar lainnya? Tapi yang mana?

Awalnya, Sekolah memiliki dua departemen: ilmu komputer dan analisis data. Pada tahun 2014, ketika big data muncul, sebuah spesialisasi ketiga muncul - big data. Tahun ini, untuk membuat siswa segera memahami prospek mereka, kami melakukan reformasi departemen: sekarang pelatihan akan berlangsung dalam kerangka empat jalur profesional. Prioritas pertama kami adalah memberi tahu siswa tentang kemungkinan jalur pengembangan dan membantu memahami kursus mana yang akan membantu mencapai tujuan.
Jalur profesional tidak disorot secara kebetulan - ini adalah empat cara yang paling sering dimasuki lulusan setelah lulus dari ShAD (dan beberapa sudah ada selama masa studi mereka). Untuk masing-masing dari empat jalur ini, kami menemukan satu lulusan yang memilihnya dan berbicara dengan mereka untuk memahami program mana yang paling berguna untuk pekerjaan di masa depan dan bagaimana mereka memilih pekerjaan profesional mereka.
Ilmuwan data (Nikita Popov, 2016 lulusan):
"Ilmuwan data - sebagai analis dari semua garis sekarang disebut. Kami di Yandex terbiasa meyakini bahwa ilmuwan data adalah orang yang fasih dalam pembelajaran mesin dan statistik dan, yang paling penting, dalam praktiknya dapat mengekstraksi informasi berguna dari sejumlah besar data.
Saat ini saya sedang bekerja di tim metrik Penelusuran. Kami berupaya mengevaluasi kualitas pencarian kami, memilih arah mana yang akan dipindahkan dan mana dari banyak eksperimen yang sedang berlangsung yang benar-benar akan meningkatkan "kebahagiaan pengguna". Saya masuk ke tim melalui magang tepat setelah akhir SHAD. Sekolah analisis data telah memberi saya basis yang sangat baik: pembelajaran mesin dan kursus model probabilistik adalah persis apa yang saya gunakan setiap hari kerja.
Sesampainya di SHAD, saya masih tidak mengerti apa yang ingin saya lakukan, dan saya memasuki perusahaan dengan teman sekelas saya, tetapi sudah dari seminar pertama menjadi jelas bahwa SHAD itu sangat menarik. Di sanalah saya menyadari apa yang ingin saya lakukan. Saya pikir bahwa setiap ilmuwan data harus berpengalaman dalam berbagai metode pembelajaran mesin, mengetahui pro, kontra, dan ruang lingkup mereka, dapat menemukan dependensi dalam data dan menarik kesimpulan yang tepat berdasarkan pada mereka. Terlepas dari kenyataan bahwa saya bekerja sebagai analis, sangat sering saya harus berurusan dengan pengembangan. Baru-baru ini saya menambahkan layanan yang saya kembangkan baik frontend, backend, dan algoritma sendiri - seorang ilmuwan data harus dapat melakukan segalanya. "
Pengembang Pembelajaran Mesin (Zhenya Zakharov, lulusan 2018):
βBahkan di universitas, saya paling menyukai tugas itu, di mana matematika memainkan peran penting, tetapi hasilnya bisaβ disentuh β. Pekerjaan saya saat ini cukup memenuhi dua kondisi ini: kami menerapkan berbagai algoritma, secara simultan memodifikasi mereka untuk bekerja lebih cepat, lebih tinggi, lebih kuat dengan data kami. Salah satu indikator utama bagi kami adalah produktivitas. Ada banyak data, dan algoritma harus dapat dengan cepat memprediksi dan belajar dalam jumlah waktu yang wajar.
Saya memiliki banyak pemrograman di universitas, tetapi kursus ShAD dibedakan oleh tugas-tugas algoritmik yang lebih kompleks, penekanan yang lebih besar pada kinerja dan kebersihan kode.
SHAD memberi saya satu set keterampilan dasar yang baik yang saya gunakan setiap hari: pembelajaran mesin dalam berbagai bentuknya, statistik terapan, algoritme, dan gagasan tentang bagaimana kode industri seharusnya terlihat. Proyek kursus Big Data ternyata sangat relevan, di mana orang-orang dan tim menulis peningkatan gradien, mencoba menangkap LigthGBM dalam kecepatan, yang tidak kami tangkap, tetapi masih berhasil mencapai waktu yang sebanding. β
Spesialis Infrastruktur Data Besar (Vlad Bidzila, 2017 lulusan):
βDari sekolah menengah, saya ingin terlibat secara profesional dalam pemrograman. Saya memasuki SHAD ketika saya berada di tahun ketiga saya di universitas. Dia membuka di hadapan saya sebuah dunia baru yang berani dalam pembelajaran mesin dan penambangan data, sistem yang sangat efisien dengan banyak algoritma di persimpangan matematika terapan dan pemrograman.
Selama beberapa tahun, saya bekerja di Yandex di tim kualitas peringkat pencarian video. Kursus C ++ dan Python canggih ShAD membantu saya dengan cepat terlibat dalam alur kerja - mulai dari menulis program akademik di universitas hingga kode produksi serius di perusahaan.
Baru-baru ini, saya telah bekerja dalam layanan teknologi komputasi terdistribusi. Kami sedang mengembangkan sistem YT MapReduce:
habr.com/company/yandex/blog/311104 . Di sini, pengetahuan dan keterampilan yang diperoleh di ShAD juga ternyata sangat berguna: kursus tentang algoritma klasik dan struktur data menanamkan budaya algoritmik, mengembangkan kemampuan untuk dengan cepat menulis kode yang efisien dan bersih dengan jumlah bug minimum dan struktur yang dapat dipahami, untuk memahami solusi algoritmik yang kompleks; kursus tentang algoritma untuk bekerja dengan volume data yang besar menunjukkan kesulitan yang timbul saat memproses array data yang tidak sesuai dengan memori komputer, dan metode untuk mengatasi kesulitan ini, memberikan pemahaman tentang pola dasar untuk membangun algoritma dalam memori eksternal dan algoritma streaming, dan mengembangkan dasar praktis keterampilan menulis; Kursus tentang komputasi paralel dan terdistribusi memperkenalkan konstruksi dasar pemrograman multithreaded dan terdistribusi, diterapkan di mana-mana dan di mana-mana dalam sistem yang dikembangkan.
Selain itu, perlu dicatat bahwa, berkat ShAD, saya dapat berkenalan secara mendalam dengan program matematika terapan, yang sering kali tidak disertakan dalam program universitas klasik: teori informasi dan kompleksitas komputasi, matematika diskrit canggih, analisis statistik, optimasi kombinatorial dan cembung. Pengetahuan ini menggabungkan matematika teoretis dan industri TI berteknologi tinggi. "
Spesialis Analisis Data dalam Ilmu Pengetahuan Terapan (Nikita Kazeev, 2015 lulusan):
βSaya sedang mengerjakan aplikasi metode pembelajaran mesin untuk masalah fisika dasar di CERN sebagai mahasiswa pascasarjana di HSE dan Universitas Sapienza di Roma.
Dia gemar fisika dari sekolah, adalah pemenang hadiah Olimpiade All-Rusia, pergi ke FOPF MIPT. Sebagian besar karena pertimbangan idealis - jika Anda tidak melakukan sains, lalu apa? Namun selalu tertarik pada komputer. Pekerjaan Sarjana dikhususkan untuk pemodelan komputer plasma non-ideal, dan memiliki banyak algoritma dan C ++.
Pada tahun keempat, saya memasuki SHAD, dan setahun kemudian saya diundang ke kelompok proyek pendidikan dan ilmiah internasional yang sedang berkembang di Yandex. Sekarang telah berubah menjadi laboratorium bersama Yandex dan HSE - LAMBDA. Kami tidak hanya melakukan sesuatu dengan tangan kami, tetapi juga mengajarkan pembelajaran mesin fisika, jadi saya agak mengajar di Oxford. Di sekolah musim panas kami, tapi tetap saja;)
Manakah dari ShAD yang berguna? Banyak hal.
- Algoritma saja: budaya pemrograman umum dan, tiba-tiba, algoritma. Itu menyenangkan dalam dua jam untuk mempercepat simulator fisik sepuluh kali lipat, cukup menambahkan pohon kd bukannya pencarian lengkap.
- Pembelajaran mesin, pembelajaran mendalam: roti dan mentega, terutama, tiba-tiba, bagian teoretis. Dalam fisika energi tinggi, kita harus berurusan dengan masalah non-standar di mana impor xgboost tidak cukup.
- Adaptasi domain: bagaimana menggabungkan pertimbangan fisik dan pembelajaran mesin untuk membuat algoritma yang akan dilatih tentang data simulasi, dan diterapkan secara nyata? Bagaimana jika sampel pelatihan kotor, tetapi ada bobot negatif yang membersihkannya? Bagaimana mengukur keakuratan pengembalian distribusi GANom?
- Pemrosesan data besar: Saya harus menggunakan Hadoop.
- Kursus produk terbaru: kami bekerja sebagai bagian dari kolaborasi 1.000 orang, dan banyak dari hasil kami bukanlah penemuan ilmiah murni, tetapi alat yang dirancang untuk orang lain. Misalnya, proyek yang saya mulai dengan sebagai peserta pelatihan - indeks pencarian untuk peristiwa-peristiwa yang didaftarkan detektor - pada akhirnya tidak diperlukan, tidak seperti sistem pemantauan yang memantau kualitas data dari detektor dipantau sekarang.
Secara umum, Anda akan berada di Jenewa, datang berkunjung, ini menarik di sini :) ".