Zum Masterstudiengang ohne Prüfungen: eine neue Richtung "Big Data" bei den Olympischen Spielen "Ich bin ein Profi"

Wir setzen die Geschichte über die Olympiade für Junggesellen, Meister und Spezialisten fort: „ Ich bin ein Profi “. Es wird von den stärksten Universitäten unterstützt. Heute werden wir über die neue Wettbewerbsrichtung sprechen, die von der ITMO University überwacht wird - „Big Data“.

Die Komplementärin der Olympiade in den Bereichen der ITMO-Universität ist „Programmierung und IT“, „Information und Cybersicherheit“, „ Big Data “ - Sberbank.


Christoph Scholz / Flickr / CC BY-SA

Ein paar Worte zu den Olympischen Spielen "Ich bin ein Profi"


Die Olympiade wird für Studenten verschiedener Fachrichtungen abgehalten.

In diesem Jahr wurden 54 Bereiche registriert: Mathematik, künstliche Intelligenz, Softwareentwicklung, Internet der Dinge, Photonik und viele andere.

Warum teilnehmen? Die Gewinner erhalten die Möglichkeit , ohne Prüfungen an russischen Universitäten teilzunehmen und ein Praktikum bei den wichtigsten Partnerunternehmen der Olympiade zu absolvieren: Yandex, Sberbank, MRG und so weiter. Schüler, die gute Ergebnisse zeigen, haben die Möglichkeit, Winterschulen zu besuchen. Dort können Sie Branchenexperten treffen.

Format der Teilnahme . Anmeldung - bis 22. November. Vom 24. November bis 9. Dezember findet eine Online-Qualifikationsrunde statt. Es kann von denen übersehen werden, die mindestens zwei Online-Kurse aus der von den Organisatoren genehmigten Liste absolviert haben . Im Februar 2019 beginnen die letzten Phasen.

Sie werden persönlich an verschiedenen Universitäten des Landes abgehalten. Die ITMO-Universität überwacht fünf Bereiche der Olympiade. Wir haben früher über einige von ihnen gesprochen, insbesondere über Robotik . Stellen Sie sich heute die Richtung von Big Data vor. Dies ist die Neuheit der diesjährigen Olympiade.

Big Data Direction: Was Sie wissen müssen


Die Welt beherbergt viele Veranstaltungen und Seminare zu Big Data.

Erwähnenswert sind die internationalen Konferenzen SIGMOD , SIGKDD oder ICML . In unserem Land finden immer mehr solche Veranstaltungen statt. Zum Beispiel DataFest , Big Data Conference von Rusbase und zahlreiche Mitaps zu Big Data Management- und Analysetechnologien.

Die ITMO University nimmt auch an verschiedenen Veranstaltungen teil und behauptet sich. Zum Beispiel eine Reihe von YSC-Konferenzen ( Young Science Conference ), ein Vortrag von German Gref und ein kürzlich geschlossener Workshop bei MRG. Big Data nimmt einen wichtigen Platz bei der Entwicklung neuer IT-Systeme und -Lösungen in anderen Tätigkeitsbereichen ein. Die ITMO University arbeitet aktiv an der Anwendung und Entwicklung von Big Data-Technologien in allen Bereichen.
Beispielsweise haben Mitarbeiter der High Performance Computing-Abteilung der ITMO-Universität das semantisch verteilte Data Warehouse von Exarch erstellt . Es bietet schnellen Zugriff auf Daten und optimiert deren Verarbeitung. Mit Exarch können Sie die Zeit für einfache Aufgaben im Vergleich zu Tools wie HDFS und Cassandra halbieren.
Angesichts der Erfahrung und der wissenschaftlichen Interessen der Universität im Bereich der Arbeit mit Big Data konnten wir die Gelegenheit nicht verpassen, eine solche Richtung im Rahmen des Projekts „Ich bin ein Profi“ zu eröffnen. Alexander Valerievich Bukhanovsky , Doktor der technischen Wissenschaften, Direktor der Megafakultät für Rundfunkinformationstechnologien an der ITMO-Universität, überwacht diese Strecke der Olympiade. Jetzt bereiten er und das Team, zu dem auch Doktoranden der Universität gehören, Aufgaben vor.

Die Big Data-Linie umfasst Datenanalyse, Statistik und maschinelles Lernen sowie verteilte Computer- und Systemtechnologien. Die erste Richtung bezieht sich auf die Mathematik und Ansätze zur Verarbeitung großer Datenmengen. Die zweite basiert auf Programmierung und Hochleistungsrechnen zur Optimierung von Analyseprozessen.

Die Teilnehmer verwenden die Yandex.Conest-Plattform und die beliebtesten Programmiersprachen, um mit Big Data zu arbeiten. Dies sind Java, Scala und Python.

Java und Scala werden häufiger von Experten verwendet, die als Data Engineer für ETL und ELT bezeichnet werden, und für die Implementierung grundlegender Algorithmen. Python fungiert häufiger als Werkzeug in den Händen von Data Scientist. Gleichzeitig werden alle diese Sprachen von Apache Spark unterstützt, der derzeit am weitesten verbreiteten und beliebtesten Lösung für die Verarbeitung von Big Data.

Beachten Sie, dass in der Korrespondenzphase keine Programmieraufgaben angeboten werden. Dies ist auf einige Einschränkungen der Yandex.Contest-Site zurückzuführen. Es gibt keine Möglichkeit, echte Datenarrays für die Verarbeitung zu verbinden. In der Vollzeitphase des Wettbewerbs wird dieser Moment gelöst sein.

Vorbereitung auf die Olympischen Spiele


Für die Teilnehmer wurde ein spezielles Programm vorbereitet, das drei Webinare im Fachbereich umfasst. Es werden Vorträge von Lehrern führender Universitäten gehalten, in denen Beispiele für Olympiadenaufgaben erklärt und analysiert werden.

Hier ist ein Beispiel für eine der grundlegenden Big-Data-Fragen.
Eine große Anzahl verschiedener Rasterfotobilder im 64-Bit-BMP-Format ist gleichmäßig auf 1000 unabhängige Speicherknoten in einem einzigen lokalen Netzwerk verteilt. Um Bilder von Gesichtern in diesen Dateien hervorzuheben, wird ein Cluster mit 100 Rechenknoten verwendet.

Bei einem einzigen Start des Verarbeitungsprozesses auf allen Knoten im Vergleich zu einem Knoten beträgt die Verarbeitungsbeschleunigung nur das 52-fache. Bedeutet das, dass:

  • A. Der Cluster ist zu klein. Es werden mehr Rechenknoten benötigt, um die Effizienz zu steigern.
  • B. Die Bildgrößen sind unterschiedlich, und aus diesem Grund ist es objektiv unmöglich, eine höhere Effizienz zu erzielen.
  • A. Der Kommunikationskanal zwischen dem Speicher und dem Cluster ist zu schwach.
  • G. Es ist noch nicht klar. Es ist notwendig, eine Reihe zusätzlicher Experimente in verschiedenen Konfigurationen durchzuführen.

Antwort: G. Anhand einer Messung ist es unmöglich, die Ursache festzustellen, da es je nach den Bedingungen sowohl Option A als auch B geben kann.

Vortrag von Alexander Bukhanovsky:


Die zweite Vorlesung befasst sich mit den technologischen Aspekten der Big-Data-Verarbeitung. Unter der Leitung eines leitenden Forschers am Forschungsinstitut des NKT der ITMO-Universität Alexander Viseratin


Um die Aufgaben der Olympiade zu lösen, müssen im Allgemeinen die typischen Mechanismen untersucht werden, die den grundlegenden Operationen der Verarbeitung von Big Data zugrunde liegen. Wir sprechen über Muster in den Apache Spark- und Apache Flink-Frameworks (z. B. Shuffle- oder Broadcast-Vorgänge). Es wird schön sein, die Funktionsweise iterativer Algorithmen zu untersuchen, die für maschinelles Lernen in Big Data verwendet werden, z. B. Expectation - Maximization . Die Kenntnis der Datenstrukturen und der Prinzipien der Datenspeicherungsorganisation, die in modernen Cassandra- oder Clickhouse-Speichern verwendet werden, schadet nicht.

Wir empfehlen Ihnen außerdem, die Kurse von Yandex zur Big Data-Verarbeitung zu beachten:


Wenn Sie zwei dieser Kurse bestehen, können Sie die Qualifikationsrunde in Richtung "Big Data" umgehen und direkt zur Vollzeitphase der Olympiade gelangen.

Source: https://habr.com/ru/post/de429346/


All Articles