Apa yang akan terjadi pada konferensi UseData Conf 2019?

Hore! Kami telah menyelesaikan pembentukan program konferensi UseData Conf 2019 ! Konferensi ini adalah untuk mereka yang memecahkan masalah praktis menggunakan metode pembelajaran mesin. Sering ada celah antara algoritma ideal dalam ruang hampa dan penerapannya pada data nyata. Kami ingin mereka yang dapat menjembatani jurang ini untuk bertemu dan bertukar pengalaman.



Keajaiban pembelajaran mesin bagi para manajer, sejarah penggunaan ML untuk menganalisis efektivitas iklan di TV, mobil mainan tanpa awak, angka oli dan mobil hanyalah beberapa laporan di UseData 2019. Lebih banyak tentang ini dan topik lainnya ada di bawah kucing.

Dalam program ini, kami telah membentuk 5 bagian. Bagian laporan dikelompokkan berdasarkan arahan tugas yang mereka selesaikan.

  • Pembelajaran mesin dan analisis data dalam perdagangan.
  • Visi komputer.
  • Pemrosesan teks dalam bahasa alami.
  • Sistem pengambilan keputusan.
  • Kerangka kerja dan alat pembelajaran mesin.

Pada masing-masing topik ini, sesuatu yang menarik ditemukan.

Pembelajaran Mesin dan Analisis Data dalam Perdagangan


Efek iklan TV: evaluasi dan optimisasi
Alexandra Lomakin, JOOM


Setengah dari anggaran iklan saya terbuang sia-sia. Masalahnya adalah saya tidak tahu yang mana.

Ini adalah kutipan dari John Wanamaker, seorang pengusaha Amerika yang membuka department store pertama dan menerapkan label harga terlebih dahulu. Dia mengerti sesuatu dalam perdagangan.

Joom juga berpikir tentang berapa banyak anggaran untuk iklan TV yang terbuang dan ditetapkan untuk mengukur efektivitasnya sebelum data Ilmuwan. Bagaimana memahami bahwa pengguna berasal dari iklan di TV, alat apa yang harus dilacak dan data apa yang diperlukan untuk ini?

Alexandra telah menempuh jalan ini sampai akhir dan siap untuk membagikan jawaban . Spoiler: Ruang untuk optimasi sangat besar.

Pembelajaran mesin untuk memprediksi penjualan toko online OZON.RU. Optimalisasi harga dengan model prediksi permintaan.
Alexander Alekseytsev, OZON.RU


OZON.ru adalah toko yang sangat besar dengan sejumlah besar barang, logistik kompleks, dan harga. Model ini bekerja pada pengisian gudang dan perkiraan permintaan. Toko besar adalah banyak data yang dapat dipelajari model. Di satu sisi, itu bagus, nyaman untuk membuat perkiraan. Di sisi lain, pada skala seperti itu kesalahan dengan cepat dimanifestasikan, jika ada.

Misalnya, suatu produk tidak tersedia untuk waktu yang lama, dan kemudian muncul dan modelnya salah dengan ramalan. Tidak apa-apa untuk satu produk, tetapi di OZON.ru ada ratusan produk seperti itu setiap hari. Karena kesalahan, gudang mungkin kehabisan barang atau itu akan penuh.

Alexander akan memberi tahu Anda cara menangani perkiraan dan kesalahan pasokan, dan cara memastikan terhadap kesalahan. Laporannya tidak hanya merupakan studi kasus yang berhasil dalam pembelajaran mesin, tetapi juga sebuah perjalanan yang menarik ke dalam bidang studi. Jika Anda membuat model untuk prakiraan penjualan, Anda akan menemukan banyak hal untuk diri Anda sendiri.

Visi komputer


Di bagian ini, kita akan berbicara tentang pengakuan negara. angka, masalah sumber daya dan dengarkan laporan ilmiah.

Memori 512 KB sudah cukup untuk semua orang! Identifikasi seseorang secara langsung pada mikrokontroler dengan kamera
Alexander Smorkalov, Xperience.ai


Kebetulan Anda perlu mengenali wajah pada perangkat yang lemah komputasi yang menggunakan daya baterai. Mereka memiliki sedikit memori, tetapi mereka belum pernah mendengar tentang GPU sama sekali. Alexander akan membagikan kisah keberhasilan transfer model ke perangkat tersebut. Pengalaman mentransfer model ke perangkat non-standar sangat memperluas cakrawala. Gagasan bisa berguna dalam situasi di mana perangkat ini standar, tetapi sumber daya yang dikonsumsi tidak dapat diterima.

Regulasi Wasserstein untuk Pembelajaran Generatif dan Diskriminatif
Guido Montufar, Institut Max Planck


Kami sangat senang bahwa Vanya Yamshchikov membujuk rekannya Guido untuk datang ke konferensi kami. Ini adalah satu-satunya laporan ilmiah di konferensi, tetapi penerapan praktis masih pasti. Perjuangan ada di sekitar mengenali atau menghasilkan kelas dengan penyebaran besar di dalam, misalnya, gambar. Ingat tugas klasik kucing-anjing di mana anjing dari jenis yang berbeda tidak sama? Jadi, perbedaan-perbedaan ini mengoceh dibandingkan dengan apa yang terjadi.

Saya bukan ahli dalam topik ini, tetapi bagi saya tampaknya tugas-tugas seperti itu memaksa penciptaan jaringan saraf dengan sejumlah besar lapisan. Ini memperparah masalah redaman gradien, dan perjuangan tanpa akhir dari armor dan shell mengkonsumsi ratusan minyak sumber daya komputasi tanpa tujuan. Metode yang dieksplorasi Guido memungkinkan pemecahan masalah dengan penyebaran besar di setiap kelas lebih murah dan lebih cepat.

Cara menemukan dan menutup negara. nomor pada foto mobil dan mencegah menyalin konten menggunakan serangan permusuhan
Ilya Sergeev, Avito


Sekali waktu, saya bekerja di Yandex, dan Y. Maps membuat panorama jalanan, bersama dengan tim visi komputer. Dalam panorama, itu perlu untuk menutupi wajah dan plat nomor mobil yang secara tidak sengaja jatuh ke bingkai. Tidak ada solusi yang siap pakai untuk ini, saya harus melihatnya sendiri.

Di Avito, untuk tugas serupa, mereka juga membuat keputusan. Pada 2019, tugas ini tidak lagi terlihat menarik. Tampaknya sekarang ada orang yang bisa belajar cara menutup negara. angka per jam di lutut. Tapi sepertinya begitu. Ternyata bagi beberapa perusahaan lebih mudah untuk menyalin gambar dari Avito, mengganti tanda pada gambar dengan mereka sendiri, karena lebih mudah untuk mendeteksi daripada nomor. Avito harus melakukan upaya khusus untuk membawa pencuri konten ke tempat terbuka.

Beberapa bagian dari kisah ini telah dipublikasikan di Habré, tetapi pada konferensi kami Ilya akan menyajikannya sepenuhnya dalam bentuk cerita, bukan artikel.

Bagaimana jaringan saraf dapat membantu membangun gambaran tentang apa yang terjadi di bawah tanah dan menentukan di mana mencari minyak
Darima Mylzenova, Gazprom Neft


Siapa di masa kecil yang memecahkan masalah model dari visi komputer tentang pengenalan angka tulisan tangan? Siapa yang menulis angka-angka di selembar kertas, memindainya dan memeriksa apakah ia melihat modelnya (tidak ada)? Orang-orang mengalami kira-kira perasaan yang sama ketika dihadapkan dengan tugas-tugas dari dunia nyata.

Kami benar-benar menyukai tugas dari sektor riil, karena perbedaan antara data yang digunakan orang untuk belajar dan data dari kehidupan terlihat jelas pada mereka: tidak akurat, dengan kesalahan dan keterbatasan, dengan resolusi berbeda, dengan ruang. Darima akan memberi tahu tidak hanya tentang apa model jaringan saraf yang mampu di bidang analisis interior bumi, tetapi juga tentang berapa banyak mereka masih tidak tahu bagaimana, tetapi ingin.

Pemrosesan Bahasa Alami


Bisakah mesin memahami lelucon dan lelucon? Bagaimana cara mengajar model untuk memahami nama-nama aneh? Dan mengenali kodenya?

Cari anomali dalam data pribadi dengan contoh nama lengkap
George Shushuev, CFT


Beberapa pengguna sulit menuliskan nama mereka dalam bahasa Rusia, dan nama mereka tidak biasa. Butnaru dari Iuria, Sashka Sedlay Konya Hati-hati, Eyide Lucky, Pulotov Aslam Akhmat Zhon Ugli, Bebalau IonTidak, saya sudah lelah Ilyasovich - siapa nama itu? Ada beberapa nama dalam rangkaian surat ini, tetapi Anda berpikir, bukan? Di sini kesulitan muncul - untuk mengajarkan model mengenali nama, bahkan jika seseorang tidak selalu berhasil.

Kami suka cerita tentang keberhasilan belajar tanpa guru, dan ini hanya salah satunya. George akan berbicara tentang evolusi detektor anomali dalam data pribadi dari model Markov ke jaringan saraf dan berbagi peretasan kehidupan mengembangkan detektor tersebut untuk set teks pendek.

Pembelajaran mesin untuk kode
Egor Bulychev, sumber {d}


Ini adalah ikhtisar perkembangan terbaru di bidang bekerja dengan kode. Bagaimana cara menemukan repositori yang memiliki tugas serupa? Bagaimana menemukan pengembang dengan pengalaman serupa di GitHub? Bagaimana cara memformalkan kesamaan ini? Dan bagaimana cara mengoptimalkan semuanya agar bekerja dengan semua GitHub sekaligus? Egor terlibat dalam tugas-tugas ini dan akan berbagi pengalamannya.

Apakah mungkin untuk mengajarkan mobil rasa humor?
Vladislav Blinov, Valeria Baranova, Tinkoff


Vladislav dan Valeria mengajarkan mobil untuk memahami lelucon dalam bahasa Rusia. Bukankah itu sempurna? Tidak ada yang perlu dibicarakan - hanya harus datang dan mendengarkan .

Dari sudut pandang praktis, semuanya seperti yang kita sukai: hampir tidak ada set data yang ditandai, tidak ada air, tidak ada vegetasi, dihuni oleh robot. Pekerjaan serius pada topik yang menyenangkan.

Cara menerapkan pencarian semantik yang cepat dan efektif dalam proyek Anda berdasarkan clickstream, transformer, dan perkiraan pencarian (JST)
Vladimir Bugay, Knoema


Bagaimana melakukan pencarian normal dalam situasi di mana ada banyak angka dan sedikit teks? Knoema adalah agregator data analitik, yang hampir semuanya berbentuk deret waktu. Jika karena alasan tertentu Anda ingin mengetahui perkiraan terbaru cadangan minyak Venezuela atau volume produksi berlian di Kongo, maka ini adalah tempat dengan data terbaru. Satu-satunya pertanyaan adalah bagaimana menemukannya.

Beberapa data terkandung dalam database secara langsung, beberapa dapat dihitung. Untuk mencari dengan baik, Anda harus membangun model hubungan antara data. Sekarang sudah model jaringan saraf berdasarkan USE. Vladimir akan berbicara tentang beberapa langkah penting dalam mengembangkan pencarian menggunakan data non-standar: cara relatif cepat mengumpulkan pencarian seperti itu dari komponen yang sudah jadi, bagaimana melatihnya menggunakan informasi tambahannya, misalnya, klik, cara mengurangi ukuran indeks dan mengoptimalkan hambatan lainnya.

Sistem pengambilan keputusan


Arsitektur Neural Net Modern / Tahun 2019 versi
Grigory Sapunov, Intento


Gregory, tampaknya, tidak perlu diperkenalkan. Dia adalah salah satu pendiri Intento, pembicara reguler dan pemimpin seksi di konferensi pembelajaran mesin, seseorang yang mengawasi dan menggerakkan industri. Dari regalia terbaru yang belum semua orang dengar, adalah dimasukkannya Google Developer Expert dalam kategori Machine Learning dalam daftar. Pada saat penulisan ini, hanya ada 109 orang dalam daftar, dan hanya satu dari mereka yang berasal dari Rusia. Grisha, selamat!

Ini persis tingkat keahlian di mana Anda dapat membuat ulasan yang menarik tentang produk baru di dunia jaringan saraf selama beberapa tahun terakhir. Apa tugas baru yang dipelajari jaringan untuk dipecahkan? Apa yang harus kamu lakukan untuk ini? Di arah mana kita menunggu terobosan berikutnya?

Apa yang baik dan apa yang buruk: metrik untuk sistem rekomendasi
Irina Pchelintseva, Yandex


Bagaimana mengukur efektivitas sistem rekomendasi untuk film? Memprediksi peringkat apa yang akan diberikan oleh pemirsa tertentu pada film tertentu, dan menawarkan untuk menontonnya hanya jika peringkatnya tinggi. Namun ada nuansa.

Sebagian besar pasti akan mengatakan bahwa The Godfather atau Schindler's List adalah film yang bagus, walaupun dia sendiri belum melihatnya. Tapi bayangkan bagaimana Anda kembali dari pekerjaan. Hari itu sulit: proyek tidak bertahan, bos memakan seluruh otak, dan besok akan sama. Di negara bagian ini, kecil kemungkinan dia akan ingin menonton film yang cerdas dan mendalam, dan film aksi bodoh, yang harganya enam dari sepuluh, akan turun. Karena itu, sistem rekomendasi harus menawarkan apa yang Anda lihat , dan bukan apa yang biasa dipuji .

Ini hanya salah satu sisi tugas yang tidak terduga, dan ada banyak sisi seperti itu. Untuk mempelajari tentang mereka, datanglah ke pidato Irina.

Pengembangan dan implementasi agen cerdas
Andrey Ivanov, Tinkoff


Agen cerdas adalah bagian dari sistem yang menyelesaikan tugas intelektual untuk seseorang. Agen dikembangkan oleh spesialis pembelajaran mesin, beberapa tugas yang akan diambil alih oleh agen tersebut. Misalnya, untuk bank, ini adalah sistem rekomendasi yang dapat menawarkan pinjaman, setoran, kartu atau produk lain, tergantung pada apa yang diketahui tentang pengguna.

Andrei memiliki presentasi yang sangat praktis: bagaimana agen intelektual digunakan di Tinkoff (misalnya, "cerita"), kesulitan apa yang muncul dalam pengembangan mereka dan alat apa yang membantu dalam hal ini.

Prediksi insiden pengeboran
Ivan Isaev, Altarix


Sekali lagi tentang sektor riil dan minyak. Ivan akan menceritakan kisah praktis yang baik tentang cara mendapatkan sedikit data dari pelanggan, membuat model yang berguna berdasarkan itu, mendapatkan lebih banyak data setelah itu, dan mendapatkan hasil yang layak pada mereka.

Algoritma Mengemudi Mobil Berbasis Algoritma Mengemudi Mobil
Saloni garg


Kisah ini bukan seperti apa kelihatannya. Saloni kebetulan memecahkan masalah, keberadaan yang sebagian besar dari kita tidak sadari.

Di daerah yang miskin, bahan bakar untuk bus adalah sumber daya yang berharga. Driver menyimpannya dengan bantuan banyak teknik luar biasa: mereka tidak menyalakan lampu depan, mengemudi pada netral, dan tidak mengikuti garis. Bagaimana, dalam kondisi seperti itu, memaksanya mengemudi dengan aman?

Tidak ada banyak uang di sekitar, sehingga perangkat keras untuk menyelesaikan masalah adalah yang paling primitif, sebagian besar perkiraan perlu dibangun secara lokal, video dari kamera ke server tidak dapat ditransfer. Cara bekerja dalam kondisi seperti itu, dan memberi tahu Saloni Garg.

Kerangka Kerja dan Alat Pembelajaran Mesin


Tambahkan kontrol data ke pipa ML
Artyom Seleznev, Megaphone


Anda mengharapkan dari MegaFon baik sistem rekomendasi dengan layanan dan tarif baru, atau cerita tentang Elena. Tapi tidak, kali ini Artyom akan menceritakan tentang pengalaman mengimplementasikan alat DVC dan lonceng dan peluit tambahan yang dibuat di atasnya. Lonceng dan peluitnya menarik dan tidak sepele. Jika Anda menginginkan reproduksi eksperimen pembelajaran mesin, datanglah ke pembicaraan.

AWS DeepRacer: Mempelajari Tantangan Melalui Game
Alexander Patrushev, AWS


Benar, akan menarik untuk melatih model balap di mobil tak berawak? Namun untuk istirahat dengan minimum mobil. Idealnya, saya ingin memiliki lingkungan virtual yang dekat dengan kenyataan, di mana untuk menangkap sebagian besar bug. Salah satu opsi untuk lingkungan seperti itu adalah penggunaan model. Mobil mainan, dalam skala 1 hingga 18, digunakan untuk melatih algoritma. Alexander akan berbagi kisah menciptakan AWS DeepRacer dan kesulitan yang muncul saat mengembangkan lingkungan belajar virtual dan ketika mentransfer model ke peralatan nyata.

Laporan Manajemen Luar Bagian


Manajemen Proyek 2.0: Transformasi AI
Eduard Tyantov, Grup Mail.ru


Dunia sedang berubah dan model ML semakin menembus produk kami, dan terkadang mereka menjadi bagian sentralnya. Pernahkah Anda marah "Kenapa? !!" dari pihak berwenang, bersalah menjawab "Ya, modelnya sudah disetel ..."? Para bos, yang tumbuh dalam praktik pengembangan perangkat lunak pada akhir abad terakhir, sering tidak mengerti apa yang diharapkan dari pembelajaran mesin dan berapa harga keajaiban ini.

Edward dalam laporannya akan melihat masalah dari kepemimpinan tim dan produk. Apa perubahan dalam siklus pengembangan, dalam pengaturan tugas, dalam kontrol kualitas? Dia hanya orang yang bisa mengatakan banyak hal tentang ini, karena selama bertahun-tahun dia telah berhasil melakukan proyek berdasarkan pembelajaran mesin di Mail.ru. Proyek yang paling terkenal, menurut saya, adalah Artisto, aplikasi penataan video.

Track bonus


Dan kami juga akan memiliki lokakarya langsung selama tiga jam dari Yandex untuk mengumpulkan data menggunakan Yandex.Tolki! Ini akan dipimpin oleh orang-orang yang mengembangkan Toloka, dan mereka yang menggunakannya secara berkelanjutan: Alexei Druta dan Olga Megorskaya.

Anda akan mendapatkan gambaran umum tentang bagaimana mekanisme crowdsourcing seperti Toloka atau Mechanical Turk bekerja. Kemudian Anda dapat memilih salah satu dari beberapa tugas yang diusulkan untuk menandai data, membuat tugas untuk toloker, menyiapkan tugas uji dan "jebakan" untuk curang. Pada akhirnya, Anda akan mencoba menentukan perkiraan sebenarnya dari markup yang dihasilkan dan tokers mencurigakan menggunakan algoritma yang ditawarkan sistem.

Lokakarya ini akan bermanfaat bagi mereka yang berpikir untuk mengumpulkan data melalui Toloka, tetapi tidak berani karena bahaya menghabiskan seluruh anggaran tanpa persiapan.

Untuk mengatasi kesenjangan antara algoritma dalam ruang hampa dan yang nyata, kami menunggu 16 September. Laporan, rapat, komunikasi, pembelajaran mesin, dan studi kasus sepanjang hari - kecantikan! Kenaikan harga berikutnya dan terakhir untuk UseData Conf 2019 sudah 9 September, jadi pesan tiket Anda sekarang untuk memperbaiki harganya. Sampai jumpa di Infraspace!

Source: https://habr.com/ru/post/id464637/


All Articles