Nous continuons l'histoire de l'olympiade pour les célibataires, les maîtres et les spécialistes «
Je suis un professionnel ». Il est soutenu par les universités les plus fortes. Aujourd'hui, nous allons parler de la nouvelle direction concurrentielle, qui est supervisée par l'Université ITMO - «Big Data».
Le partenaire général de l'Olympiade dans les domaines de l'Université ITMO est «Programmation et informatique», «Information et cybersécurité», « Big Data » - Sberbank.
Christoph Scholz / Flickr / CC BY-SAQuelques mots sur les JO "Je suis un professionnel"
L'Olympiade est organisée pour les étudiants de différentes spécialités.
Cette année,
54 domaines ont été enregistrés: il y a les mathématiques, l'intelligence artificielle, le génie logiciel, l'Internet des objets, la photonique et bien d'autres.
Pourquoi participer . Les gagnants
ont la possibilité d'entrer dans les universités russes sans examen et de suivre un stage dans les principales entreprises partenaires de l'Olympiade: Yandex, Sberbank, MRG, etc. Les élèves qui obtiennent de bons résultats auront la possibilité de fréquenter
les écoles d'hiver . Là, vous pouvez rencontrer des experts de l'industrie.
Format de participation .
Inscription - jusqu'au 22 novembre. Du 24 novembre au 9 décembre, un tour de qualification en ligne aura lieu. Il peut être manqué par ceux qui
ont suivi au moins deux cours en ligne parmi la
liste approuvée par les organisateurs. En février 2019, les étapes finales commenceront.
Ils auront lieu en personne dans différentes universités du pays. L'ITMO University supervise cinq domaines de l'Olympiade. Nous avons parlé de certains d'entre eux, en particulier, de la
robotique plus tôt. Imaginez aujourd'hui la direction du Big Data. C'est la nouveauté de l'Olympiade de cette année.
Direction du Big Data: ce que vous devez savoir
Le monde accueille de nombreux événements et séminaires sur le Big Data.
Il convient de mentionner les conférences internationales
SIGMOD ,
SIGKDD ou
ICML . De plus en plus de tels événements ont lieu dans notre pays. Par exemple,
DataFest ,
Big Data Conference de Rusbase et de nombreuses mitaps sur les technologies de gestion et d'analyse des Big Data.
L'ITMO University participe également à divers événements et tient ses propres portes. Comme une série de conférences YSC (
Young Science Conference ), une
conférence de German Gref et un récent atelier fermé tenu au MRG. Le big data occupe une place importante dans le développement de nouveaux systèmes et solutions informatiques dans d'autres domaines d'activité. L'ITMO University travaille activement à l'application et au développement des technologies Big Data dans tous les domaines.
Par exemple, les employés du département de calcul haute performance de l’université ITMO ont créé l’entrepôt de données distribué sémantique d’Exarch. Il fournit un accès rapide aux données, optimise leur traitement. Exarch vous permet de réduire de moitié le temps nécessaire pour effectuer des tâches simples par rapport à des outils tels que HDFS et Cassandra.
Compte tenu de l'expérience et des intérêts scientifiques de l'université dans le domaine du Big Data, nous ne pouvions pas manquer l'occasion d'ouvrir une telle direction dans le cadre du projet «Je suis un professionnel».
Alexander Valerievich Bukhanovsky , docteur en sciences techniques, directeur de la mégafaculté des technologies de l'information de diffusion à l'Université ITMO, supervise cette piste de l'Olympiade. Maintenant, lui et l'équipe, qui comprend des étudiants diplômés de l'université, préparent des tâches.
La gamme Big Data comprend l'analyse des données, les statistiques et l'apprentissage automatique ainsi que les technologies de calcul et de systèmes distribués. La première direction est liée aux mathématiques et aux approches de traitement de grandes quantités de données. Le second est construit autour de la programmation et du calcul haute performance visant à optimiser les processus analytiques.
Les participants utiliseront la plateforme Yandex.Conest et les langages de programmation les plus populaires pour travailler avec le Big Data. Ce sont Java, Scala et Python.
Java et Scala sont plus couramment utilisés par des experts appelés Data Engineer for
ETL et ELT et pour la mise en œuvre d'algorithmes de base. Python agit plus souvent comme un outil entre les mains de ceux appelés Data Scientist. Dans le même temps, toutes ces langues sont prises en charge par Apache Spark, la solution la plus répandue et la plus populaire pour le traitement des mégadonnées à l'heure actuelle.
Notez qu'au stade de la correspondance, les tâches de programmation ne seront pas proposées. Cela est dû à certaines limitations du site Yandex.Contest - il n'y a aucun moyen de connecter de vrais tableaux de données pour le traitement. À l'étape à temps plein de la compétition, ce moment sera résolu.
Se préparer pour les Jeux olympiques
Un programme spécial a été préparé pour les participants, qui comprend trois webinaires dans le domaine spécialisé. Les conférences sont données par des professeurs de grandes universités, expliquant et analysant des exemples de tâches olympiades.
Voici un exemple d'une des questions de base du Big Data.Un large éventail d'images photo raster différentes au format bmp 64 bits est réparti uniformément sur 1000 nœuds de stockage indépendants dans un seul réseau local. Pour mettre en évidence des images de visages sur ces fichiers, un cluster est utilisé qui a 100 nœuds de calcul.
Avec un seul démarrage du processus de traitement sur tous les nœuds, par rapport à un nœud, l'accélération du traitement n'est que 52 fois. Est-ce à dire que:
- A. Le cluster est trop petit, plus de nœuds de calcul sont nécessaires pour augmenter l'efficacité;
- B. Les tailles d'image sont différentes et, pour cette raison, objectivement, il n'est pas possible d'obtenir une plus grande efficacité;
- A. Le canal de communication entre le stockage et le cluster est trop faible;
- G. Ce n'est pas encore clair. Il est nécessaire de mener une série d'expériences supplémentaires dans différentes configurations.
Réponse: G. Sur la base d'une seule mesure, il est impossible d'établir la cause, car selon les conditions, il peut y avoir à la fois l'option A et B.
Conférence donnée par Alexander Bukhanovsky:
La deuxième conférence porte sur les aspects technologiques du traitement des mégadonnées. Dirigé par un chercheur principal à l'Institut de recherche du NKT de l'Université ITMO Alexander Viseratin:
En général, pour résoudre les tâches de l'Olympiade, il est nécessaire d'étudier les mécanismes typiques qui sous-tendent les opérations de base du traitement du Big Data. Nous parlons de modèles dans les frameworks Apache Spark et Apache Flink (par exemple, les opérations de lecture aléatoire ou de diffusion). Il sera intéressant d'étudier le travail des algorithmes itératifs utilisés pour l'apprentissage automatique sur les
mégadonnées , tels que
Expectation - Maximization . La connaissance des structures de données et des principes d'organisation du stockage des données utilisés dans les stockages modernes Cassandra ou Clickhouse ne fera pas de mal.
Nous vous recommandons également de prêter attention aux cours de Yandex sur le traitement des Big Data:
Soit dit en passant, le passage de deux de ces parcours vous permettra de contourner le tour de qualification en direction du "Big Data" et d'accéder directement à l'étape à plein temps de l'Olympiade.