Program residen Yandex, atau How to back-end yang berpengalaman menjadi insinyur-ML



Yandex membuka program pembelajaran mesin penduduk untuk pengembang backend yang berpengalaman. Jika Anda telah banyak menulis dalam C ++ / Python dan ingin menerapkan pengetahuan ini dalam ML, maka kami akan mengajari Anda cara melakukan penelitian praktis dan memilih kurator yang berpengalaman. Anda akan bekerja pada layanan Yandex utama dan memperoleh keterampilan di bidang-bidang seperti model linier dan peningkatan gradien, sistem rekomendasi, jaringan saraf untuk menganalisis gambar, teks dan suara. Anda juga akan belajar cara mengevaluasi model dengan benar menggunakan metrik offline dan online.

Durasi program adalah satu tahun, di mana para peserta akan bekerja di Departemen Intelijen Mesin dan Studi Yandex, serta menghadiri kuliah dan seminar. Partisipasi dibayar dan mengasumsikan pekerjaan penuh: 40 jam seminggu, mulai 1 Juli tahun ini. Aplikasi sudah terbuka dan akan berlangsung hingga 1 Mei.

Dan sekarang secara lebih rinci - tentang jenis audiens apa yang kita tunggu, apa yang akan menjadi alur kerja dan secara umum, bagaimana seorang spesialis backend beralih ke karir di ML.

Direktivitas


Banyak perusahaan memiliki program residensi, termasuk, misalnya, Google dan Facebook. Mereka terutama ditujukan untuk spesialis tingkat menengah dan menengah yang mencoba melangkah ke arah penelitian ML. Program kami adalah untuk audiens yang berbeda. Kami mengundang pengembang backend yang telah memperoleh pengalaman yang cukup dan tahu pasti bahwa dalam kompetensi mereka, mereka perlu bergerak menuju ML, mendapatkan keterampilan praktis - dan bukan keterampilan ilmuwan - dalam memecahkan masalah industri pembelajaran mesin. Ini tidak berarti bahwa kami tidak mendukung peneliti muda. Bagi mereka, kami menyelenggarakan program terpisah - Hadiah Ilya Segalovich, yang juga memungkinkan Anda bekerja di Yandex.

Di mana penduduk harus bekerja


Kami, dalam manajemen intelijen mesin dan penelitian, mengembangkan ide-ide proyek. Sumber utama inspirasi adalah literatur ilmiah, artikel, dan tren dalam komunitas penelitian. Rekan-rekan saya dan saya menganalisis apa yang kami baca, melihat bagaimana mungkin untuk meningkatkan atau memperluas metode yang diusulkan oleh para ilmuwan. Pada saat yang sama, kita masing-masing memperhitungkan bidang pengetahuan dan minat kita, merumuskan masalah berdasarkan bidang yang kita anggap penting. Di persimpangan hasil penelitian eksternal dan kompetensi mereka sendiri, ide proyek biasanya lahir.

Sistem seperti itu bagus karena sebagian besar memecahkan masalah teknologi layanan Yandex bahkan sebelum mereka muncul. Ketika masalah muncul sebelum layanan, perwakilannya mendatangi kami untuk kemungkinan besar mengambil teknologi yang sudah kami siapkan, yang hanya bisa diterapkan dengan benar dalam produk. Jika ada sesuatu yang tidak siap, kami setidaknya akan dengan cepat mengingat di mana Anda dapat "mulai menggali", di mana artikel mencari solusi. Seperti yang Anda tahu, pendekatan ilmiah adalah untuk berdiri di atas bahu raksasa.

Apa yang harus dilakukan


Di Yandex - dan bahkan secara khusus dalam manajemen kami - semua arahan ML saat ini sedang berkembang. Tugas kami adalah untuk meningkatkan kualitas berbagai produk, dan ini berfungsi sebagai insentif untuk menguji segala sesuatu yang baru. Selain itu, layanan baru muncul secara berkala. Jadi dalam program perkuliahan ada semua bidang kunci (mapan) pembelajaran mesin dalam pengembangan industri. Dalam menyusun bagian kursus saya, saya menggunakan pengalaman mengajar di Sekolah Analisis Data, serta bahan dan perkembangan guru SHAD lainnya. Saya tahu bahwa rekan-rekan saya melakukan hal yang sama.

Pada bulan-bulan pertama, pelatihan pada program kursus akan sekitar 30% dari waktu kerja Anda, kemudian sekitar 10%. Namun, penting untuk dipahami bahwa bekerja dengan model ML sendiri akan terus memakan waktu sekitar empat kali lebih sedikit dari semua proses yang terkait. Ini termasuk menyiapkan backend, menerima data, menulis pipa untuk preprocessing mereka, mengoptimalkan kode, beradaptasi dengan perangkat keras tertentu, dll. Seorang insinyur ML, jika Anda mau, seorang pengembang fullstack (hanya dengan penekanan besar pada pembelajaran mesin), mampu melakukan pecahkan masalah dari awal hingga akhir. Bahkan dengan model yang sudah jadi, Anda tentu perlu melakukan sejumlah tindakan: memparalelasikan pelaksanaannya di beberapa mesin, menyiapkan implementasi dalam bentuk pena, perpustakaan, atau komponen layanan itu sendiri.

Pilihan siswa
Jika Anda memiliki kesan bahwa lebih baik pergi ke insinyur ML dengan terlebih dahulu bekerja sebagai pengembang backend, ini tidak begitu. Untuk memasuki SHAD yang sama tanpa pengalaman nyata dalam mengembangkan layanan, belajar dan menjadi sangat populer di pasar adalah pilihan yang sangat baik. Banyak ahli di Yandex berada di posisi mereka saat ini dengan cara ini. Jika ada perusahaan yang siap menawarkan pekerjaan kepada Anda di bidang ML segera setelah lulus, ada baiknya Anda menerima tawaran itu. Cobalah masuk ke tim yang baik dengan mentor yang berpengalaman dan bersiaplah untuk belajar banyak.

Apa yang biasanya mengganggu ML


Jika pendukung ingin menjadi insinyur ML, ia - tanpa memperhitungkan program residen - dapat memilih dari dua arah pengembangan.

Pertama, belajar sebagai bagian dari kursus pendidikan. Pelajaran di Coursera akan membawa Anda lebih dekat untuk memahami teknik-teknik dasar, tetapi untuk membenamkan diri dalam profesi dengan cukup, Anda perlu mencurahkan lebih banyak waktu untuk itu. Misalnya, selesaikan SHAD. Pada tahun-tahun yang berbeda, ada sejumlah kursus yang berbeda secara langsung dalam pembelajaran mesin di ShAD - rata-rata, sekitar delapan. Masing-masing dari mereka benar-benar penting dan bermanfaat, termasuk menurut lulusannya.

Kedua, Anda dapat berpartisipasi dalam proyek pertempuran di mana diperlukan untuk menerapkan satu atau lain algoritma ML. Namun, ada beberapa proyek seperti itu di pasar pengembangan TI: pembelajaran mesin tidak digunakan dalam sebagian besar tugas. Bahkan di bank yang secara aktif menjajaki peluang terkait ML, sedikit yang melakukan analisis data. Jika Anda tidak dapat bergabung dengan salah satu tim ini, Anda juga harus memulai proyek Anda sendiri (di mana, kemungkinan besar, Anda akan menetapkan tenggat waktu sendiri, dan ini tidak ada hubungannya dengan tugas-tugas produksi pertempuran), atau mulai berkompetisi di Kaggle.

Memang, bekerja sama dengan anggota masyarakat lainnya dan mencoba diri sendiri dalam kompetisi relatif mudah - terutama jika Anda memperkuat keterampilan Anda dengan pelatihan dan kursus yang disebutkan di Coursera. Setiap kompetisi memiliki tenggat waktu - kompetisi akan berfungsi sebagai insentif bagi Anda dan mempersiapkan sistem serupa di perusahaan IT. Ini adalah cara yang baik - yang, bagaimanapun, juga sedikit bercerai dari proses nyata. Di Kaggle Anda diberikan pra-pemrosesan, meskipun tidak selalu data sempurna; Jangan menyarankan untuk memikirkan kontribusi pada produk; dan yang paling penting, mereka tidak memerlukan solusi yang cocok untuk produksi. Algoritme Anda mungkin akan terbukti bisa dikerjakan dan akan memiliki akurasi tinggi, tetapi model dan kode Anda akan terlihat seperti dijahit dari berbagai bagian Frankenstein - dalam proyek pertempuran, seluruh konstruksi ini akan bekerja terlalu lambat, sulit untuk diperbarui dan diperluas (misalnya, algoritma bahasa dan suara selalu sebagian sesuai dengan perkembangan bahasa). Perusahaan tertarik pada kenyataan bahwa tidak hanya Anda dapat melakukan pekerjaan di atas (jelas bahwa Anda, sebagai penulis solusi, dapat melakukannya), tetapi juga rekan kerja Anda. Banyak yang telah dikatakan tentang perbedaan antara olahraga dan pemrograman industri, dan Kaggle mendidik secara tepat "atlet" - bahkan jika ia melakukannya dengan sangat baik, memungkinkannya untuk mendapatkan beberapa pengalaman.

Saya menggambarkan dua kemungkinan jalur pengembangan - pelatihan melalui program pendidikan dan pelatihan "dalam pertempuran", misalnya tentang Kaggle. Program penduduk adalah kombinasi dari dua metode ini. Ceramah dan seminar di tingkat SHAD sedang menunggu Anda, serta proyek-proyek tempur yang sesungguhnya.

Source: https://habr.com/ru/post/id446554/


All Articles