Untuk program master tanpa ujian: arah baru "Big Data" di Olimpiade "I am a Professional"

Kami melanjutkan kisah tentang olimpiade untuk para bujangan, master, dan spesialis " Saya seorang profesional ". Didukung oleh universitas-universitas terkuat. Hari ini kita akan berbicara tentang arah kompetitif baru, yang diawasi oleh Universitas ITMO - "Big Data".

Mitra umum Olimpiade di bidang Universitas ITMO adalah "Programming and IT", "Information and Cybersecurity", " Big Data " - Sberbank.


Christoph Scholz / Flickr / CC BY-SA

Beberapa kata tentang Olimpiade "Saya seorang Profesional"


Olimpiade ini diadakan untuk siswa dari berbagai spesialisasi.

Tahun ini 54 bidang telah didaftarkan: ada matematika, kecerdasan buatan, rekayasa perangkat lunak, Internet hal-hal, fotonik dan banyak lainnya.

Mengapa berpartisipasi ? Pemenang mendapatkan kesempatan untuk memasuki universitas-universitas Rusia tanpa ujian dan mengikuti magang di perusahaan-perusahaan mitra utama Olimpiade: Yandex, Sberbank, MRG, dan sebagainya. Siswa yang menunjukkan hasil yang baik akan memiliki kesempatan untuk menghadiri sekolah musim dingin . Di sana Anda dapat bertemu pakar industri.

Format partisipasi . Pendaftaran - hingga 22 November. Dari 24 November hingga 9 Desember, babak kualifikasi online akan diadakan. Ini dapat dilewatkan oleh mereka yang telah menyelesaikan setidaknya dua kursus online dari daftar yang disetujui oleh penyelenggara. Pada bulan Februari 2019, tahap akhir akan dimulai.

Mereka akan diadakan secara langsung di berbagai universitas di negara ini. Universitas ITMO mengawasi lima area Olimpiade. Kami berbicara tentang beberapa dari mereka, khususnya, tentang Robotika sebelumnya. Hari ini, bayangkan arah Big Data. Ini adalah hal baru dari Olimpiade tahun ini.

Arah Big Data: Yang Perlu Anda Ketahui


Dunia menyelenggarakan banyak acara dan seminar tentang Big Data.

Perlu disebutkan konferensi internasional SIGMOD , SIGKDD atau ICML . Semakin banyak acara seperti itu terjadi di negara kita. Misalnya, DataFest , Konferensi Data Besar dari Rusbase dan banyak mitaps tentang manajemen Big Data dan teknologi analisis.

Universitas ITMO juga berpartisipasi dalam berbagai acara dan mengadakan sendiri. Seperti serangkaian konferensi YSC ( Young Science Conference ), kuliah oleh German Gref dan lokakarya tertutup baru-baru ini diadakan di MRG. Big data menempati tempat penting dalam pengembangan sistem dan solusi TI baru di bidang kegiatan lainnya. Universitas ITMO secara aktif bekerja dengan aplikasi dan pengembangan teknologi Big Data di semua bidang.
Misalnya, karyawan di Departemen Komputasi Kinerja Tinggi Universitas ITMO telah menciptakan gudang data terdistribusi semantik Exarch. Ini memberikan akses cepat ke data, mengoptimalkan pemrosesan mereka. Exarch memungkinkan Anda untuk membagi dua waktu yang diperlukan untuk menyelesaikan tugas-tugas sederhana dibandingkan dengan alat-alat seperti HDFS dan Cassandra.
Mengingat pengalaman dan minat ilmiah universitas dalam bidang bekerja dengan data besar, kami tidak dapat melewatkan kesempatan untuk membuka arah seperti itu dalam kerangka kerja proyek "Saya seorang profesional". Alexander Valerievich Bukhanovsky , dokter ilmu teknis, direktur megafaculty teknologi informasi broadcast di ITMO University, mengawasi jalur Olimpiade ini. Sekarang dia dan tim, yang termasuk mahasiswa pascasarjana universitas, sedang mempersiapkan tugas.

Garis Besar Data meliputi Analisis Data, Statistik dan Pembelajaran Mesin plus Teknologi Komputer Terdistribusi dan Sistem. Arah pertama terkait dengan matematika dan pendekatan untuk memproses sejumlah besar data. Yang kedua dibangun di sekitar pemrograman dan komputasi kinerja tinggi yang bertujuan mengoptimalkan proses analitis.

Peserta akan menggunakan platform Yandex.Conest dan bahasa pemrograman paling populer untuk bekerja dengan Big Data. Ini adalah Java, Scala, dan Python.

Java dan Scala lebih umum digunakan oleh spesialis yang disebut Data Engineer untuk ETL dan ELT dan untuk implementasi algoritma dasar. Python lebih sering bertindak sebagai alat di tangan mereka yang disebut Data Scientist. Pada saat yang sama, semua bahasa ini didukung oleh Apache Spark, solusi paling luas dan populer untuk memproses data besar saat ini.

Perhatikan bahwa pada tahap korespondensi, tugas pemrograman tidak akan ditawarkan. Ini karena beberapa batasan situs Yandex.Contest - tidak ada cara untuk menghubungkan array data nyata untuk diproses. Pada tahap penuh waktu kompetisi, momen ini akan diselesaikan.

Mempersiapkan Olimpiade


Program khusus telah disiapkan untuk para peserta, yang mencakup tiga webinar di bidang khusus. Kuliah diberikan oleh guru-guru dari universitas terkemuka, menjelaskan dan menganalisis contoh-contoh tugas olimpiade.

Berikut adalah contoh dari salah satu pertanyaan big data dasar.
Sejumlah besar gambar foto raster berbeda dalam format bmp 64-bit didistribusikan secara merata di 1000 node penyimpanan independen dalam satu jaringan lokal. Untuk menyorot gambar wajah pada file-file ini, sebuah cluster digunakan yang memiliki 100 node komputasi.

Dengan satu awal proses pemrosesan pada semua node, dibandingkan dengan satu node, akselerasi pemrosesan hanya 52 kali. Apakah ini berarti:

  • A. Cluster terlalu kecil, lebih banyak node komputasi diperlukan untuk meningkatkan efisiensi;
  • B. Ukuran gambar berbeda, dan karena ini, secara objektif, tidak mungkin untuk mencapai efisiensi yang lebih besar;
  • A. Saluran komunikasi antara penyimpanan dan cluster terlalu lemah;
  • G. Belum jelas. Diperlukan untuk melakukan serangkaian percobaan tambahan dalam berbagai konfigurasi.

Jawaban: G. Atas dasar satu pengukuran, tidak mungkin untuk menentukan penyebabnya, karena tergantung pada kondisinya, bisa ada opsi A dan B.

Ceramah yang disampaikan oleh Alexander Bukhanovsky:


Kuliah kedua adalah tentang aspek teknologi pemrosesan data besar. Dilakukan oleh seorang peneliti senior di Lembaga Penelitian NKT Universitas ITMO Alexander Viseratin:


Secara umum, untuk menyelesaikan tugas-tugas Olimpiade, perlu untuk mempelajari mekanisme khas yang mendasari operasi dasar pemrosesan Big Data. Kita berbicara tentang pola dalam kerangka Apache Spark dan Apache Flink (misalnya, operasi acak atau siaran). Akan menyenangkan untuk mempelajari operasi algoritma iteratif yang digunakan untuk pembelajaran mesin pada data besar, seperti Ekspektasi - Maksimalisasi . Pengetahuan tentang struktur data dan prinsip-prinsip organisasi penyimpanan data yang digunakan dalam penyimpanan Cassandra atau Clickhouse modern tidak ada ruginya.

Kami juga menyarankan agar Anda memperhatikan kursus dari Yandex pada pemrosesan Big Data:


Ngomong-ngomong, melewati dua kursus ini akan memungkinkan Anda untuk melewati babak kualifikasi ke arah "Big Data" dan langsung menuju tahap penuh waktu Olimpiade.

Source: https://habr.com/ru/post/id429346/


All Articles