Para o programa de mestrado sem exames: uma nova direção "Big Data" nas Olimpíadas "Eu sou um Profissional"

Continuamos a história da olimpíada para solteiros, mestres e especialistas: “ Eu sou profissional ”. É apoiado pelas universidades mais fortes. Hoje falaremos sobre a nova direção competitiva, supervisionada pela Universidade ITMO - "Big Data".

O parceiro geral da Olimpíada nas áreas da Universidade ITMO é "Programação e TI", "Informação e segurança cibernética", " Big Data " - Sberbank.


Christoph Scholz / Flickr / CC BY-SA

Algumas palavras sobre as Olimpíadas "Eu sou um Profissional"


A Olimpíada é realizada para estudantes de várias especialidades.

Neste ano, 54 áreas foram registradas: matemática, inteligência artificial, engenharia de software, Internet das coisas, fotônica e muitas outras.

Por que participar ? Os vencedores têm a oportunidade de entrar nas universidades russas sem exames e fazer um estágio nas principais empresas parceiras da Olimpíada: Yandex, Sberbank, MRG e assim por diante. Os alunos que apresentarem bons resultados terão a oportunidade de frequentar as escolas de inverno . Lá você pode conhecer especialistas do setor.

Formato de participação . Inscrições - até 22 de novembro. De 24 de novembro a 9 de dezembro, será realizada uma rodada de qualificação on-line. Pode ser desperdiçada por quem concluiu pelo menos dois cursos on-line da lista aprovada pelos organizadores. Em fevereiro de 2019, as etapas finais começarão.

Eles serão realizados pessoalmente em várias universidades do país. A Universidade ITMO supervisiona cinco áreas da Olimpíada. Nós conversamos sobre alguns deles, em particular, sobre robótica anteriormente. Hoje, imagine a direção do Big Data. Esta é a novidade da Olimpíada deste ano.

Direção de big data: o que você precisa saber


O mundo organiza muitos eventos e seminários sobre Big Data.

Vale ressaltar as conferências internacionais SIGMOD , SIGKDD ou ICML . Mais e mais eventos desse tipo estão ocorrendo em nosso país. Por exemplo, DataFest , Big Data Conference da Rusbase e numerosas mitaps nas tecnologias de gerenciamento e análise de Big Data.

A Universidade ITMO também participa de vários eventos e se mantém. Como uma série de conferências da YSC ( Young Science Conference ), uma palestra do alemão Gref e um recente workshop fechado realizado no MRG. O big data ocupa um lugar importante no desenvolvimento de novos sistemas e soluções de TI em outros campos de atividade. A Universidade ITMO está trabalhando ativamente com a aplicação e o desenvolvimento de tecnologias de Big Data em todas as áreas.
Por exemplo, funcionários do Departamento de Computação de Alto Desempenho da ITMO University criaram o armazém de dados semântico distribuído da Exarch. Ele fornece acesso rápido aos dados, otimiza seu processamento. O Exarch permite que você reduza pela metade o tempo necessário para concluir tarefas simples em comparação com ferramentas como HDFS e Cassandra.
Dada a experiência e os interesses científicos da universidade no campo do trabalho com big data, não poderíamos perder a oportunidade de abrir tal direção no quadro do projeto “Eu sou um profissional”. Alexander Valerievich Bukhanovsky , doutor em ciências técnicas, diretor da megafaculdade de tecnologias da informação na Universidade ITMO, supervisiona essa trilha da Olimpíada. Agora ele e a equipe, que inclui estudantes de graduação da universidade, estão preparando tarefas.

A linha Big Data inclui análise de dados, estatística e aprendizado de máquina, além de computação distribuída e tecnologias de sistemas. A primeira direção está relacionada à matemática e abordagens para o processamento de grandes quantidades de dados. O segundo é construído em torno da programação e da computação de alto desempenho, com o objetivo de otimizar os processos analíticos.

Os participantes usarão a plataforma Yandex.Conest e as linguagens de programação mais populares para trabalhar com o Big Data. Estes são Java, Scala e Python.

Java e Scala são mais comumente usados ​​por especialistas chamados Data Engineer para ETL e ELT e para a implementação de algoritmos básicos. O Python costuma atuar como uma ferramenta nas mãos daqueles chamados Data Scientist. Ao mesmo tempo, todos esses idiomas são suportados pelo Apache Spark, a solução mais difundida e popular para o processamento de big data no momento.

Observe que, no estágio de correspondência, as tarefas de programação não serão oferecidas. Isso ocorre devido a algumas limitações do site Yandex.Contest - não há como conectar matrizes de dados reais para processamento. No estágio de tempo integral da competição, esse momento será resolvido.

Preparando-se para as Olimpíadas


Um programa especial foi preparado para os participantes, que inclui três seminários on-line no campo especializado. As aulas são ministradas por professores das principais universidades, explicando e analisando exemplos de tarefas das olimpíadas.

Aqui está um exemplo de uma das perguntas básicas de big data.
Uma grande variedade de imagens rasterizadas diferentes no formato bmp de 64 bits é distribuída igualmente em 1000 nós de armazenamento independentes em uma única rede local. Para destacar imagens de rostos nesses arquivos, é usado um cluster com 100 nós de computação.

Com um único início do processo de processamento em todos os nós, comparado a um nó, a aceleração do processamento é de apenas 52 vezes. Isso significa que:

  • R. O cluster é muito pequeno, são necessários mais nós de computação para aumentar a eficiência;
  • B. Os tamanhos das imagens são diferentes e, por isso, objetivamente, é impossível obter maior eficiência;
  • A. O canal de comunicação entre o armazenamento e o cluster é muito fraco;
  • G. Ainda não está claro. É necessário realizar uma série de experimentos adicionais em várias configurações.

Resposta: G. Com base em uma medição, é impossível estabelecer a causa, pois, dependendo das condições, pode haver as opções A e B.

Palestra proferida por Alexander Bukhanovsky:


A segunda palestra é sobre os aspectos tecnológicos do processamento de big data. Conduzido por um pesquisador sênior do Instituto de Pesquisa da NKT da Universidade ITMO Alexander Viseratin:


Em geral, para resolver as tarefas da Olimpíada, é necessário estudar os mecanismos típicos subjacentes às operações básicas de processamento do Big Data. Estamos falando de padrões nas estruturas Apache Spark e Apache Flink (por exemplo, operações de shuffle ou broadcast). Será bom estudar a operação de algoritmos iterativos usados ​​para aprendizado de máquina em big data, como Expectativa - Maximização . O conhecimento das estruturas de dados e os princípios da organização de armazenamento de dados usados ​​nos modernos armazenamentos de Cassandra ou Clickhouse não prejudicam.

Também recomendamos que você preste atenção aos cursos da Yandex sobre processamento de Big Data:


A propósito, a aprovação de dois desses cursos permitirá que você ignore a fase de qualificação na direção de "Big Data" e chegue diretamente ao estágio de tempo integral da Olimpíada.

Source: https://habr.com/ru/post/pt429346/


All Articles