Ke seperseratus terdekat: Top 10 SmartData 2017 laporan



Peserta konferensi SmartData adalah orang yang suka bekerja dengan data. Harus diasumsikan bahwa mereka memberikan penilaian atas laporan setelah konferensi tahun lalu dengan sangat bijaksana.

Dan sekarang, menurut perkiraan ini, kami telah mengumpulkan 10 video teratas. Dan pada saat yang sama, untuk menyenangkan para penggemar data, mereka menunjukkan semua angka terkait untuk masing-masing dari sepuluh laporan: tempat di bagian atas, peringkat pemirsa yang akurat, jumlah pemirsa.

Secara umum, peringkat di posisi teratas seringkali tidak jauh berbeda. Jadi, mungkin, Anda tidak harus mementingkan “siapa yang mengikuti siapa” - lebih penting bahwa semua laporan ini mendapat nilai tinggi. Namun di sisi lain, bagaimana mungkin ia tidak terlalu memperhatikan angka ketika itu begitu mengasyikkan!



Neurona: mengapa kita mengajar jaringan saraf untuk menulis puisi dalam semangat Kurt Cobain?


Pembicara: Ivan Yamshchikov
Lokasi: 1
Peringkat: 4,51 ± 0,08
Jumlah pemirsa: ~ 200
Presentasi laporan

Pemimpin yang jelas dari konferensi ini adalah keynote penutup dari pencipta proyek Neural Defense dan Neurona. Ini adalah kinerja yang dapat diakses yang tidak memerlukan persiapan luar biasa dari pemirsa - tetapi pada saat yang sama itu bukan hanya penjelasan keseribu ribu tentang "cara kerja jaringan saraf". Ini tampaknya merupakan format "menghibur" (tidak mungkin bahwa apa yang Anda dengar segera akan mempengaruhi proyek kerja Anda) - tetapi dalam jangka panjang, semua ini tidak hanya sangat menarik, tetapi juga bermanfaat. Secara umum, tidak mengherankan bahwa kami mengundang Ivan untuk berpartisipasi dalam SmartData 2018 mendatang.




Dari klik ke perkiraan dan sebaliknya: Jalur pipa Ilmu Data di Odnoklassniki


Pembicara: Dmitry Bugaychenko
Tempat: 2
Peringkat: 4,36 ± 0,08
Jumlah pemirsa: ~ 140
Presentasi laporan

Dan ini kebalikannya. Pertama, ini bukan umum "mesin pembelajaran apa yang bisa memberi kita", tetapi spesifik "bagaimana kita menerapkan semuanya." Dan laporan itu bukan tentang ML itu sendiri (personalisasi feed berita diberikan hanya sebagai contoh), tetapi tentang segala sesuatu yang terkait: "apa yang perlu dilakukan untuk membuat semua keindahan ML ini bekerja." Secara umum, jika sebuah pidato oleh Yamshchikov bahkan mungkin menarik minat khalayak luas, maka itu akan menarik hanya secara pribadi terhubung dengan pembelajaran mesin, tetapi mereka dapat menanggung banyak untuk diri mereka sendiri.




CatBoost - Generasi Gradient Boosting Selanjutnya


Pembicara: Anna Veronika Dorogush
Lokasi: 3
Peringkat: 4,32 ± 0,12
Jumlah pemirsa: ~ 100
Presentasi laporan

Jika peningkatan gradien bukan spesialisasi Anda, dan topik laporan membangkitkan perasaan "mungkin ada nuansa bagi mereka yang sudah melakukan ini dengan kekuatan dan utama," menghilangkan ketakutan. Laporan ini ramah untuk pemula dan tidak langsung menyelam ke kolam dengan kepalanya, tetapi pertama-tama menjelaskan hal-hal dasar. Dan mengingat bahwa selama setahun terakhir, perpustakaan Yandex CatBoost menjadi lebih indah dan lebih populer daripada yang sebelumnya, sangat berguna untuk memiliki gagasan tentang hal itu, bahkan jika Anda tidak harus menghadapinya sekarang, dan laporan itu bisa menjadi pengantar yang bagus.




Kembali ke masa depan sistem perbankan modern


Pembicara: Vladimir Krasilshchik
Lokasi: 4
Peringkat: 4,31 ± 0,17
Jumlah pemirsa: ~ 80
Presentasi laporan

Apa yang harus dilakukan jika, karena pada akhirnya konsisten, data laporan triwulanan Anda berbeda dengan data bulanan, dan auditor dan regulator memiliki pertanyaan? Vladimir Krasilshchik menjelaskan bahwa bitemporalitas menjadi konsep kunci: ada "ketika peristiwa itu terjadi", dan ada "ketika sistem mengetahuinya," Anda perlu bekerja dengan kedua skala ini dan menunjukkan keduanya kepada penguji pihak ketiga. Laporan ini tidak terbatas pada ini, ada lebih banyak - misalnya, apakah Anda berpikir bahwa pada konferensi TI Anda akan mendengar ungkapan "tidak ada keadilan, dan Anda tidak boleh mencoba untuk membuatnya"?




Namanya adalah fitur


Pembicara: Vitaly Khudobakhshov
Lokasi: 5
Peringkat: 4,28 ± 0,08
Jumlah pemirsa: ~ 280
Presentasi laporan

Presentasi konferensi yang paling paradoksal, memaksa Anda untuk menggaruk-garuk kepala dengan bingung. Di satu sisi, itu sangat jelas bagi setiap orang yang rasional: tidak ada alasan nyata untuk korelasi nama seseorang (jika kita berbicara tentang nama Rusia populer) dan apakah orang ini akan menjalin hubungan. Di sisi lain, Vitaly menyajikan data yang menunjukkan yang sebaliknya. Dia sendiri tidak memiliki penjelasan yang pasti, tetapi tidak ada yang benar-benar menemukan keberatan yang meyakinkan. Anda dapat mencoba mencari sendiri.




Tidak ada data? Tidak masalah! Belajar mendalam di CGI


Pembicara: Ivan Drokin
Lokasi: 6
Peringkat: 4,26 ± 0,18
Jumlah pemirsa: ~ 40
Presentasi laporan

Seperti yang Anda ketahui, algoritma tidak cukup untuk pembelajaran mendalam - kami membutuhkan data awal untuk pembelajaran. Akibatnya, kumpulan data yang baik telah menjadi sumber daya yang berharga. Tetapi bagaimana jika Anda tidak memilikinya sekarang, dan Anda bukan Google dan tidak dapat menginvestasikan sumber daya raksasa? Ternyata tidak selalu perlu untuk mengambil data "nyata" dari dunia nyata, dan dalam kondisi tertentu mereka dapat dihasilkan secara harfiah. Laporan ini berkaitan dengan kasus spesifik semacam ini.




Jaringan convolutional yang mendalam untuk deteksi objek dan segmentasi gambar


Pembicara: Sergey Nikolenko
Lokasi: 7
Peringkat: 4,24 ± 0,17
Jumlah pemirsa: ~ 80
Presentasi laporan

Jika Anda masih jauh dari pembelajaran mesin / mendalam secara umum, maka 20 menit pertama dari laporan ini mungkin cocok: ada pengantar menyeluruh untuk topik dengan perjalanan sejarah dimulai pada 1950-an. Dan jika Anda memahami semuanya tentang hal itu secara keseluruhan, tetapi Anda tidak memahami sub-topik dari jaringan konvolusi yang mendalam, maka Anda dapat langsung melewatkan pengantar dan memperhatikan bagian kedua dari laporan, di mana ia pergi ke jaringan saraf yang berbelit-belit.




Hadoop ketersediaan tinggi: Pengalaman Badoo


Pembicara: Alexander Krashennikov
Lokasi: 8
Peringkat: 4,22 ± 0,14
Jumlah pemirsa: ~ 100
Presentasi laporan

Tampaknya, selain konsep "data besar", "menumbuhkan data" juga akan bermanfaat, karena pertumbuhan menentukan spesifiknya sendiri. Setelah Badoo memiliki pesanan data yang lebih kecil dan satu pendekatan untuk mereka, maka volume tumbuh dan perubahan diperlukan - dan harus diingat bahwa besok semuanya bisa tumbuh lebih kuat, melakukan segalanya "dengan margin".

Perusahaan menjadi tertarik pada kombinasi "Hadoop" dan "real time" bahkan ketika mereka biasanya menulis "tidak kompatibel" antara dua kata ini, dan sekarang mereka berbicara tentang pengalaman mereka dengan Hadoop dan menyediakan ketersediaan tinggi dalam kasusnya. Bonus: sedikit kreativitas Vasily Lozhkin pada slide.


Kami mengelompokkan 600 juta pengguna secara real time setiap hari


Pembicara: Artyom Marinov
Lokasi: 9
Peringkat: 4,21 ± 0,09
Jumlah pemirsa: ~ 120
Presentasi laporan

Di sini proyek ini sangat berbeda dari Badoo: bukan kencan, tetapi DMP (platform manajemen data), di mana Anda ingin menyoroti segmen seperti “ibu rumah tangga dengan mobil yang lebih tua dari lima tahun” di antara para penonton. Tapi, pertama, ada juga skala besar (sekitar seratus ribu peristiwa per detik). Dan kedua, di sini Anda harus lebih siap untuk pertumbuhan: "di antara sumber data - instalasi piksel, jika besok situs super-populer menempatkan piksel Anda sendiri - akan ada aliran besar yang perlu ditangani." Teknologi apa yang mereka atasi dan bagaimana tepatnya mereka digunakan? Jawaban dalam laporan.




ML terdistribusi pada data besar: pengalaman dalam membangun sistem rekomendasi di ivi


Pembicara: Boris Schminke
Lokasi: 10
Peringkat: 4,21 ± 0,09
Jumlah pemirsa: ~ 100
Presentasi laporan

Akhirnya, laporan terakhir juga "tentang infrastruktur, bukan algoritma", dan juga didasarkan pada pengalaman produk besar. Sekali waktu, ivi mulai menerapkan rekomendasi menggunakan layanan pihak ketiga yang menyediakan "rekomendasi sebagai layanan". Kemudian mereka "tumbuh" darinya dan mulai membuat sistem mereka sendiri. Di Habré, perusahaan menulis tentang hal itu kembali pada tahun 2014, dan dari laporan tersebut Anda dapat mengetahui tentang keadaan saat ini.


Jika laporan ini menarik, harap dicatat: SmartData 2018 akan diadakan musim gugur ini. Speaker terpisah dari 10 teratas ini akan kembali dengan laporan baru, akan ada nama yang sepenuhnya baru. Informasi terkini tentang program selalu dapat dilihat di situs web , Anda juga dapat membeli tiket di sana - dan harganya semakin meningkat, jadi Anda harus berpikir sekarang.

Source: https://habr.com/ru/post/id416985/


All Articles