Kami menggunakan data dalam praktik

Sering ada celah antara algoritma pembelajaran mesin yang ideal dalam ruang hampa dan penerapannya pada data nyata. Tampaknya mengambil artikel: ada algoritma, ada konvergensi untuk data jenis ini atau itu - ambil dan terapkan. Tetapi untuk beberapa alasan ternyata data Anda tidak cukup untuk pelatihan, dan mereka berbeda dari model dari artikel, karena yang asli tidak sintetis.

Hal yang biasa dalam memperkuat algoritma adalah membuat asumsi tentang kemurnian data dan distribusinya, yang tidak akan Anda temukan dalam kehidupan nyata. Sebagai contoh, penulis artikel bereksperimen pada foto-foto selebriti dewasa, dan semuanya sangat dikenali dan diklasifikasikan dengannya, dan dalam contoh nyata kita ada juga anak-anak dan karakter kartun, dan semuanya tiba-tiba dipecah pada mereka. Tetapi ada orang yang dapat mengatasi hal ini, sedemikian rupa sehingga kesenjangan antara teori dan praktik berhenti tampak tak tertembus, dan ada baiknya untuk menunjukkan bagaimana orang lain yang ingin mengatasinya segera ditemukan.



Kami telah melihat kasus-kasus seperti itu di HighLoad ++, tetapi di sana mereka ada laporan terpisah, apalagi, dekat dengan tugas memastikan pekerjaan pada beban tinggi. Oleh karena itu, sekarang kami ingin mengadakan konferensi terpisah untuk mereka yang memecahkan masalah praktis menggunakan metode pembelajaran mesin. Dan mendekati perencanaannya sangat sederhana - kami ingin mengadakan konferensi tentang pembelajaran mesin dan analisis data yang kami inginkan .

Saya setuju, kedengarannya naif, tetapi bukankah "seperti untuk diri sendiri" bukan motivasi terbaik? Selain itu, kami memiliki pengalaman hebat dalam mengorganisasi konferensi dan tampaknya kami memiliki gagasan yang bagus tentang seberapa baik seharusnya. Tentu saja, Anda dapat memiliki pendapat Anda sendiri, jadi saya akan memberi tahu Anda apa sebenarnya dan bagaimana kami berencana untuk membahasnya di UseData Conf pada 16 September .

Ontiko dan saya mengadakan konferensi teknik di mana praktisi memainkan biola pertama. Untuk semua konferensi: HighLoad ++ (ketiga contoh), Moscow Python Conf ++, PHP Russia dan banyak lainnya, kami menemukan orang-orang yang melakukan sesuatu yang berguna menggunakan teknologi yang terkait dengan tema konferensi dan siap untuk membagikannya.

Selama beberapa tahun terakhir, saya telah membantu para pembicara mempersiapkan pidato, jadi saya memiliki keterampilan untuk mengajukan pertanyaan yang tepat. Seperti untuk menarik ke permukaan apa yang hanya bisa dipelajari dari pembicara. Agar laporan tidak hanya berisi resep (kami telah mengambil video dari kamera selama seminggu terakhir, melatihnya di jaringan ujung ke ujung dan semuanya berfungsi), tetapi semua poin kunci yang mengarah ke hasil akhir. Jika Anda tahu apa yang Anda coba, apa yang masuk, apa yang tidak, dan karena itu ternyata menyelesaikan masalah, maka Anda dapat menarik kesimpulan sendiri dan mempertimbangkan solusi seperti itu atau tidak.

Tidak ada konferensi pembelajaran mesin yang akan dibangun berdasarkan prinsip ini sekarang. Ada konferensi besar dan terlalu akademis di mana praktisi membuat sebagian kecil dari semua laporan dan berdekatan dengan hasil ilmiah murni dan materi pelatihan untuk pemula. Selain itu, ada banyak konferensi tentang kecerdasan buatan. Biasanya mereka memiliki terlalu banyak hype dan terlalu sedikit sesuatu yang berfungsi, kami mencoba untuk mem-bypass ini.

Sangat mudah untuk membedakan satu dari yang lain: jika dilakukan dengan Python, maka ini adalah pembelajaran mesin, dan jika pada PowerPoint itu adalah kecerdasan buatan. Kami tertarik pada apa yang ada tidak hanya di PowerPoint.

UseData Conf di bagian


Berdasarkan gagasan bahwa setiap presentasi di konferensi kami harus berisi pengalaman produksi nyata, kami memilih beberapa blok topik yang ingin kami ungkapkan. Ini tidak berarti bahwa kita tidak akan bahagia dan tidak akan menerima aplikasi yang tidak sesuai dengan blok ini, hanya saja inilah yang ditransmisikan dengan baik dari praktisi ke praktisi.

Pembelajaran mesin dan analisis data dalam tugas komersial . Segala sesuatu yang berkaitan dengan peramalan permintaan, perkiraan pengadaan, rekomendasi, dan perhitungan diskon individu. Di sini, cerita akan relevan, karena metode ML membantu mengembangkan bisnis dan meningkatkan keuntungan dalam e-commerce dengan lebih baik.

Visi komputer . Jika Anda telah mengajarkan robot untuk mengambil bagian-bagian tertentu dari conveyor, bor lubang dan pasang kembali - ini adalah apa yang harus Anda bicarakan di bagian ini. Bagaimanapun, detail bisa berbeda, mereka dapat tersebar di ban berjalan, mungkin tidak ada bagian jadi tunggal untuk pelatihan, tetapi hanya model CAD, dan banyak faktor lain yang membedakan tugas akademik yang ideal dengan ban berjalan steril dari apa yang sebenarnya terjadi .

Pemrosesan teks dalam bahasa alami . Beri tahu kami tentang penggunaan NLP dalam tugas-tugas yang tidak standar atau tunjukkan mengapa metode yang ada tidak cocok dan Anda harus mengembangkan pendekatan Anda sendiri. Terjemahan mesin dan asisten suara adalah pesaing pertama untuk bagian ini.

Sistem pengambilan keputusan . Ini tidak hanya tugas mendiagnosis penyakit, tetapi juga sistem di mana seseorang bergantung pada keputusannya pada opsi yang diusulkan oleh algoritma, hingga dan termasuk pertahanan rudal. Jika seseorang tidak diperlukan, misalnya, sistem itu sendiri menunjuk pengemudi untuk memesan taksi (kecuali, tentu saja, generasi solusi tidak terbatas pada algoritma serakah), maka ini bahkan lebih baik.

Kerangka kerja dan alat pembelajaran mesin . Untuk memperluas topik ini, kami ingin mengundang pengembang kerangka secara langsung. Kami mengambil pendekatan ini pada HighLoad ++ - untuk mempelajari seluk-beluk alat dari pengembang alat - dan mencoba menerapkannya di UseData Conf. Karena itu, jika Anda hanya mengembangkan CatBoost, XGBoost, TensorFlow, PyTorch, LightGBM, Keras - silakan tulis kepada kami. Jika Anda yakin bahwa Anda tahu tentang kerangka kerja populer yang tidak diketahui oleh banyak ilmuwan data, dan ini akan membuat hidup mereka lebih mudah, kami juga menunggu aplikasi untuk laporan.

Kontes pembelajaran mesin dibagi menjadi dua blok: teknik penyelenggaraan kontes pembelajaran mesin, serta strategi untuk memenangkannya. Meskipun kontes seperti Kaggle lebih dari alat merekrut daripada alat untuk memecahkan masalah nyata, beberapa aspek akan berguna bagi para praktisi. Pada akhirnya, dengan bantuan kontes, Anda dapat dengan sukses berganti pekerjaan - juga bagus.

Pengujian, pemantauan, interpretasi, persiapan data . Kami memahami bahwa model yang dilatih mesin cenderung melakukan pelanggaran. Banyak orang yang akrab dengan situasi ketika mereka dilatih, diluncurkan ke produksi, dan secara harfiah sebulan kemudian algoritma menghasilkan hasil yang tidak diinginkan. Anda harus dapat melihat dalam waktu bahwa model tidak berfungsi, dan melatihnya tepat waktu. Jika terjadi kesalahan, penting untuk dapat menginterpretasikan hasil, dan Anda harus dapat menyiapkan data. Totalitas solusi untuk masalah-masalah khusus ini dan memungkinkan penggunaan ML dalam pertempuran.

Panggilan untuk surat-surat


Jika Anda mengenali tugas pekerjaan Anda di salah satu topik ini dan berpikir bahwa pengalaman Anda dapat membantu seseorang, maka ajukan permohonan untuk membuat laporan. Jika pembelajaran mesin adalah bagian dari tugas harian Anda, tetapi Anda meragukannya, maka ada cara yang dapat diandalkan untuk memahami apakah topik tersebut sesuai - tulis ke Komite Program, dan kami akan mengklarifikasi detailnya dan membantu menjadikan laporan bermanfaat.

Namun demikian, ada rekomendasi umum. Jika Anda memiliki tugas khusus yang hanya diselesaikan oleh raksasa industri, atau sebaliknya startup kecil namun sangat terspesialisasi, dan sekilas tampaknya pengalaman ini tidak akan berguna bagi orang lain, ini tidak sepenuhnya benar. Karena jarang mungkin untuk mengambil dan mengulangi keputusan seseorang, jika kita berbicara tentang kasus yang rumit, tetapi untuk menghasilkan ide untuk mencoba pendekatan yang berbeda, pergi dari sisi lain, itu mungkin dengan pengalaman yang sangat berbeda.

Selain itu, seseorang selalu dapat beralih dari masalah tertentu ke pendekatan umum . Misalnya, jika kita berbicara tentang pemfilteran lalu lintas jaringan yang tidak normal (terima kasih kepada pemirsa dari Moskow, Pavel, yang mengajukan pertanyaan pada pertemuan Zoom dengan komite program), maka masalah yang serupa dengan sampel pelatihan yang heterogen dan persentase kecil anomali muncul di area yang berbeda, dan generalisasi dapat disarankan.

Menurut kami, yang paling berharga dalam laporan terapan adalah jalan menuju solusi, dan bukan solusi itu sendiri . Ketika mereka mengambil metode perpustakaan dan semuanya sudah siap, tentu saja, sangat keren, tetapi tidak banyak gunanya. Lebih menarik ketika mereka mencoba ini, yang lain, menemukan keterbatasan, berlari menyapu, menemukan sesuatu, dan mereka membicarakannya.

Di sisi lain, jika Anda memecahkan masalah yang dikaitkan industri dengan pembelajaran mesin tanpa pembelajaran mesin, Anda dapat menunjukkan bagaimana itu menguntungkan, dan bahkan lebih baik untuk memberikan resep ketika Anda dapat mengikuti contoh Anda - ini sangat bagus, kami membutuhkan laporan seperti itu.

Call For Papers buka hingga 16 Juli, pada 16 Agustus kami akan mencoba merumuskan seluruh program, dan pada 16 September, konferensi UseData Conf akan diadakan di Infospace.

Sangat mudah untuk mengirimkan laporan - Anda memerlukan topik perkiraan dan tesis selama 2-3 paragraf, aplikasi dapat ditambahkan dengan banding ke komite program, di mana rinciannya tidak diungkapkan untuk publikasi. Lebih baik mengirimkan beberapa laporan daripada tidak satu laporan, maka kita akan memiliki lebih banyak makanan untuk pertanyaan.

Sudah ada dalam program


Kami tidak menunggu penerimaan laporan untuk mulai memilih laporan dalam program. Karena itu, pertama-tama, jangan tarik keluar aplikasi, jika Anda tidak ingin masuk ke persaingan yang meningkat di antara pembicara setelah batas waktu. Kedua, Anda dapat merencanakan untuk menghadiri konferensi sebagai pendengar.

Bagian pertama tentang penggunaan komersial ML telah mengadopsi dua laporan. Alexander Alekseytsev akan berbicara tentang penggunaan pembelajaran mesin untuk memprediksi penjualan toko online OZON.RU. Dia akan menyajikan pendekatan untuk optimasi harga menggunakan model prediksi permintaan, menunjukkan bagaimana menerapkan teori probabilitas dalam proses pengisian gudang, dan menggambarkan siklus pengembangan solusi ML untuk produksi. Versi pertama disajikan dalam HighLoad ++ dan menyebabkan minat yang besar.

Joom Alexandra Lomakina akan memberi tahu Anda cara berhasil menyelesaikan masalah mengoptimalkan iklan TV. Tugas ini sangat menarik karena merupakan kesenangan mahal yang hampir tidak memberikan umpan balik - Anda tidak akan menghitung RKT. Tetapi Anda masih bisa mengukur sesuatu, tetapi kami akan mencari tahu bagaimana dan bagaimana menggunakannya nanti di bulan September.

Dalam hal visi komputer, sejauh ini kami hanya mengadopsi sedikit laporan akademik oleh Guido Montufar . Guido berencana untuk berbicara tentang pendekatan untuk mengatur model yang kuat sehubungan dengan input data, dan kami berharap untuk mendapatkan lebih banyak latihan dari itu.

Selain itu, kami menerima Grigory Sapunov ke dalam program dengan laporan tentang perkembangan terbaru dalam arsitektur jaringan saraf. Dan ini adalah kasus yang jarang terjadi ketika laporan ulasan sesuai, karena Gregory pasti akan mengisinya dengan saran praktis berdasarkan pengalaman kolosalnya.

Kami juga setuju dengan Eduard Tyantov pada laporan manajemen proyek pembelajaran mesin. Khusus untuknya, kami memulai bagian "Lainnya", karena topik ini menurut kami sangat diperlukan. Jika seseorang dapat memberi tahu Anda apa yang spesifik dari proyek dengan banyak pembelajaran mesin, bagaimana mengembangkan produk dan memimpinnya dalam produksi, bagaimana menjualnya kepada orang-orang dan pengembang, maka ini mungkin Edward dengan backend peluncuran artiso dan manajemen antispam dan kelompok pembelajaran mesin di Mail .ru.

Panggilan untuk ide


Jika Anda membaca sampai di sini, maka, pertama, terima kasih, kami menunggu Anda di konferensi. Kedua, jika ada sesuatu yang tidak cukup, maka tulis di komentar. Beri tahu kami topik apa yang paling relevan bagi Anda secara pribadi, beri tahu saya jenis laporan apa yang Anda butuhkan, pendekatan mana yang tidak dapat Anda lewatkan (dalam arti apa pun, dan apa yang harus dilompati ke dalam program). Apa nama yang ingin Anda dengar di konferensi semacam itu - kemungkinan besar kami telah menghubungi spesialis ini, tetapi jika tidak, kami pasti akan melakukannya. Ada orang yang sama di Komite Program - kami memiliki banyak pengalaman, tetapi kami masih bisa melupakan sesuatu.
UseData Conf adalah konferensi bagi mereka yang memecahkan masalah praktis menggunakan metode pembelajaran mesin. Kirim laporan, daftar, dan sampai jumpa pada 16 September.

Source: https://habr.com/ru/post/id455644/


All Articles