Sense Data oktech # 3: Pembicara wawancara singkat



Kira-kira proyek Tech Data Tolk lahir sebagai platform diskusi untuk spesialis yang terlibat dalam pemrosesan dan analisis data besar. Setiap kali kami menekankan bahwa tugas utama pertemuan kami bukanlah laporan, meskipun mereka juga sangat penting, tetapi diskusi terbuka audiensi dengan pembicara, di mana para peserta memiliki waktu untuk membahas masalah apa pun dalam lingkup acara. Kami percaya bahwa dalam situasi ini, ketika jumlah masalah dan masalah yang belum terpecahkan di bidang Ilmu Data berkembang pesat, dialog terbuka sangat penting.

Kami mengadakan 2 pertemuan, pada awalnya kami membahas keuntungan dan kerugian dari berbagai pendekatan untuk penyimpanan data dan bagaimana pendekatan ini mempengaruhi kerja tim yang berbeda, dan juga menyentuh evolusi gudang data. Pertemuan kedua dikhususkan untuk pendidikan dalam Ilmu Data, perwakilan dari berbagai pendapat yang bertemu di situs, pembicara berbicara tentang pentingnya pendidikan universitas, berbagai kursus online dan fitur-fiturnya, serta keterampilan apa yang Anda butuhkan untuk menjadi pusat data yang keren dan dicari.

Untuk mengantisipasi pertemuan ketiga , yang akan diadakan pada 6 November di Moskow dan akan dikhususkan untuk sistem rekomendasi, kami berbicara dengan para pembicara tentang jalur mereka untuk mengembangkan sistem rekomendasi, tentang bagaimana mereka melihat masa depan mereka dalam arah ini dan meminta kami untuk merekomendasikan apa yang harus dilakukan sekarang sehingga pengetahuan dan keterampilan tetap relevan bahkan setelah beberapa tahun. Kami juga bertanya apa yang akan mereka bicarakan di pertemuan itu dan mengapa ada baiknya menghadiri acara ini.

Daftar untuk Data Explore # 3

Ceritakan sedikit tentang dirimu?


Andrey Kuznetsov, Teman Sekelas
Hai, saya seorang insinyur telekomunikasi dengan pelatihan. Setelah lulus, ia pergi untuk menulis disertasi dan pada saat yang sama mengajar. Pada titik tertentu, tampaknya bagi saya bahwa di tempat lama saya melakukan semua yang saya inginkan dan mulai bekerja di Ilmu Data. Saya telah berurusan dengan rekomendasi di perusahaan belum lama ini, tetapi saya mendapatkan pengalaman utama dalam bidang ini dari kursus online dan DS kompetitif.

Vladislav Grozin, Joom
Dia memasuki dunia sistem rekomendasi di ujung Alexei Natekin, dari siapa dia belajar di DataMining Lab. Saya memiliki sedikit pemahaman tentang apa yang akan saya lakukan, tetapi pada akhirnya saya menjadi jauh lebih baik daripada menulis driver jaringan untuk Linux di laboratorium di universitas (yang saya lakukan sebelumnya).

Evgeny Frolov, SkolTech
Perjalanan saya ke sistem rekomendasi dimulai dengan cukup sederhana. Pada 2014, saya adalah seorang mahasiswa Skoltech, mencari peluang untuk melakukan penelitian terapan di bidang pembelajaran mesin yang menarik minat saya. Saya menginginkan sesuatu yang berhubungan dengan asisten intelektual. Tepat pada saat itu, pengawas masa depan saya, Ivan Oseledets, mengumumkan sebuah proyek baru dengan satu kantor Jerman yang tertarik untuk meneliti penerapan metode matematika canggih untuk sistem rekomendasi. Bintang-bintang bersatu, jadi saya mulai membuat gelar Ph.D.

Ceritakan tentang peluncuran pertama Anda dalam produksi?


Andrey Kuznetsov, Teman Sekelas
Peluncuran pertama dalam produksi terkait dengan rekomendasi kelompok di OK dan, tentu saja, itu adalah pengalaman yang menyenangkan. Tetapi kehadiran kolega yang berpengalaman dan alat debugged dan proses dalam tim sangat menyederhanakan kehidupan. Hipotesisnya, omong-omong, bekerja dan jalur pipa berubah, tetapi setelah 3 bulan kami menggantinya dengan solusi yang lebih efektif.

Vladislav Grozin, Joom
Model pertama, yang saya luncurkan di prod, bukan benar-benar tentang rekomendasi, tetapi tentang pencarian. Saya benar-benar ingat saat ketika lalu lintas langsung mengalir di atasnya. Lalu lintas kecil, setiap detik atau dua permintaan pengguna masuk, membuat baris lain di layar (saya melihat log). Itu mengasyikkan: saya bertanggung jawab atas model dan infrastruktur di sekitarnya, dan mengharapkan sesuatu akan pecah dan membutuhkan intervensi segera. Tetapi semuanya berjalan lancar, dan setelah sekitar lima belas menit saya tenang dan pergi untuk minum kopi.

Evgeny Frolov, SkolTech
Dalam produksi, saya pribadi tidak meluncurkan model. "Aku seorang peneliti." Tugas saya sejauh ini terutama terkait dengan pengembangan pendekatan dan metode baru dan tidak melampaui implementasi prototipe.

Menurut Anda apa yang lebih penting: algoritma keren atau pemahaman domain?


Andrey Kuznetsov, Teman Sekelas
Dalam bidang rekomendasi, tampaknya, ini adalah dua paus yang sama di mana semua proyek besar diadakan. Mengetahui spesifik data itu sendiri, bagaimana ia dikumpulkan dan bagaimana fungsi sistem (terutama di bawah beban yang sebanding dengan milik kami) membantu banyak untuk mengevaluasi terlebih dahulu apakah algoritma ini atau itu akan bekerja dan apakah sepadan dengan waktu yang dihabiskan. Nah, Anda perlu mengetahui algoritma dan alat yang mengimplementasikannya agar dapat dengan cepat mencobanya pada tugas Anda dan meluncurkan beberapa bukti konsep untuk pengujian A / B.

Vladislav Grozin, Joom
Penting untuk mengambil algoritma paling keren yang sesuai dengan tugas dan batas waktu untuk pengembangan dan sumber daya, dan jangan takut untuk meluncurkannya di prod.

Evgeny Frolov, SkolTech
Jika kita berbicara secara khusus tentang bidang sistem rekomendasi, maka, seperti yang ditunjukkan oleh praktik (dan bukan tanpa gangguan dari penelitian), pemahaman tentang area subjek lebih penting. Ada pendapat mapan yang dengannya saya lebih setuju bahwa algoritme berperan 5% dari keberhasilan sistem rekomendasi. Sekarang area tersebut telah mencapai tahap pengembangan sehingga cukup mudah untuk menemukan perpustakaan atau paket perangkat lunak yang nyaman, menggulungnya menjadi produksi dan mulai mendapatkan keuntungan. Ya, mungkin saja pilihannya tidak akan optimal, tetapi untuk permulaan ini sudah cukup, dan akan memungkinkan Anda untuk fokus pada tugas-tugas bisnis yang penting.

Di area baru mana sistem rekomendasi akan diterapkan?


Andrey Kuznetsov, Teman Sekelas
Masa depan yang paling ambisius, menurut saya, menunggu sistem rekomendasi dalam pendidikan, ketika sistem pendidikan itu sendiri (terutama yang Rusia) siap untuk ini :). Memang, pada kenyataannya, kita sudah cukup dimanjakan oleh rekomendasi komersial, tetapi memiliki beberapa "panduan karir tentang steroid" sangat berharga.

Vladislav Grozin, Joom
Tampaknya segera sistem rekomendasi akan dibangun ke dalam polisi robot untuk memberi mereka rekomendasi tentang relevansi penerapan metode dampak fisik kepada subyek aturan hukum dengan pandangan untuk moralisasi konstruktif.

Evgeny Frolov, SkolTech
Metode sistem rekomendasi dapat digunakan untuk memecahkan banyak masalah di mana ada masalah data yang hilang. Sebagai contoh, ahli kimia telah menemukan bahwa dengan cara ini senyawa anorganik baru, yang sebelumnya tidak diketahui dapat diprediksi berdasarkan kombinasi berbagai ion / kation. Tugas lain adalah identifikasi obat yang efektif terhadap virus berdasarkan protein dengan sifat penghambatan khusus. Sangat sulit untuk mengetahui protein mana yang akan efektif dalam menangkal jenis virus tertentu jika tidak ada tes sebelumnya yang dilakukan. Ada banyak opsi yang memungkinkan untuk keduanya, virus juga berkembang dengan cepat, Anda tidak dapat mengukur semuanya. Tetapi berdasarkan beberapa pola umum dalam reaksi virus, Anda dapat mencoba memprediksi hasil di mana belum ada tes. Hampir seperti di ritel online, tetapi dengan efek sebaliknya - virus seharusnya tidak terlalu menyukai "produk".

Sekarang ini adalah langkah-langkah yang malu-malu, tetapi, saya pikir, kita akan melihat semakin banyak penetrasi metode sistem rekomendasi di luar bidang perdagangan, hiburan, dan periklanan yang biasa. Setidaknya saya ingin berharap demikian. Tampaknya secara bertahap akan ada pergeseran dari sekadar memberikan kenyamanan menuju perubahan kualitatif dalam standar hidup dengan membantu membuat keputusan yang kompleks, seperti menyusun jalur pembelajaran individu untuk pendidikan yang baik, memilih profesi yang menarik dan dicari atau mendapatkan layanan obat pribadi.

Buku atau artikel apa yang harus dibaca oleh siapa saja yang bekerja dengan sistem rekomendasi?


Andrey Kuznetsov, Teman Sekelas
Sulit untuk merekomendasikan buku tertentu, karena bidangnya cukup diterapkan. Saya akan merekomendasikan kursus online, misalnya, spesialisasi dalam analisis data dari MIPT di Coursera sangat baik.

Vladislav Grozin, Joom
Tampak bagi saya bahwa semua ilmuwan harus membaca GroupLens: Arsitektur Terbuka untuk Penyaringan Kolaborasi Netnews. Artikel ini menjelaskan salah satu sistem rekomendasi yang digunakan pertama kali, seperti yang kita ketahui sekarang. Artikel ini sangat berbeda dari yang sering kita baca sekarang, karena tidak hanya memengaruhi algoritma itu sendiri, tetapi juga lingkungan tempat ia akan bekerja.

Evgeny Frolov, SkolTech
Tidak ada begitu banyak buku di bidang ini, dan jika Anda mau, Anda dapat membaca setidaknya semuanya, setidaknya pada tingkat fasih. Melihat berapa banyak pemula mengikuti jalur yang sama yang mengarah ke "rake" yang sama, saya akan menyebutkan artikel 2010 tentang pendekatan PureSVD oleh Paolo Cremonesi, Yehuda Koren dan Roberto Turrin. Bukan kebetulan bahwa ia adalah kutipan ketiga dalam koleksi makalah Konferensi ACM tentang Sistem Rekomendasi dalam seluruh sejarah konferensi ini. Pada suatu waktu, dia membantu saya melihat tumpukan artikel yang merangkak di bagian atas hasil pencarian, jika permintaan dirumuskan terlalu luas.

Pustaka sumber terbuka terbaik untuk rekomendasi?


Andrey Kuznetsov, Teman Sekelas
Itu tergantung pada masalah yang dipecahkan, jumlah data dan platform di mana sistem rekomendasi akan dibangun. Tampaknya beberapa LightFM dapat direkomendasikan sebagai garis dasar untuk hampir semua rekomendasi tugas.

Vladislav Grozin, Joom
PyTorch?

Evgeny Frolov ^ SkolTech
Dalam kasus saya, jawabannya jelas - perpustakaan Polara yang saya kembangkan.

Apa laporan Anda tentang oktech Data Dijelaskan # 3, dan mengapa Anda harus mendengarkannya


Andrey Kuznetsov, Teman Sekelas
Laporan ini akan menjadi sejarah pengembangan sistem rekomendasi untuk tim proyek di OK. Saya akan berbicara tentang mengapa ini merupakan kasus yang menarik dalam dirinya sendiri dan bagaimana hal ini berbeda dari rekomendasi klasik, misalnya, produk dalam e-commerce. Saya akan menyebutkan secara terpisah tonjolan mana yang kami dapatkan selama pengembangan, kesimpulan apa yang dibuat, dan mengapa tidak pernah ada cukup data dan algoritma universal.

Vladislav Grozin, Joom
Saya akan memberi tahu Anda apa yang dapat Anda harapkan di konferensi. Banyak orang ingin pergi, karena terlihat keren dan keren, tetapi mereka ragu untuk menginvestasikan waktu dan uang, karena detail dan manfaat praktis dari perjalanan tidak jelas. Saya berharap dapat mengklarifikasi masalah ini dengan cerita saya.

Evgeny Frolov, SkolTech
Saya akan berbicara tentang pengembangan kami - model baru yang disebut HybridSVD - yang baru-baru ini saya presentasikan di konferensi ACM RecSys. Ini adalah generalisasi langsung dari model PureSVD untuk sistem rekomendasi hybrid yang memperhitungkan informasi tambahan tentang pengguna dan produk. Model ini menarik karena tidak melampaui perhitungan dekomposisi singular, yang berarti bahwa ia mewarisi semua keunggulan komputasi dan kemudahan penggunaan. Saya akan membicarakan hal ini, juga membahas lebih detail pada aspek teknis.

Kawan, terima kasih banyak telah meluangkan waktu untuk menjawab pertanyaan!

Kami menunggu semua orang yang ingin berbicara dengan para ahli di bidang sistem rekomendasi pada pertemuan 6 November di kantor Moskow mereka.

Ayo, ini akan menarik!

Daftarkan untuk acara tersebut .

Source: https://habr.com/ru/post/id472032/


All Articles