Para el programa de maestría sin exámenes: una nueva dirección "Big Data" en los Juegos Olímpicos "Soy un profesional"

Continuamos la historia sobre la olimpiada para solteros, maestros y especialistas " Soy un profesional ". Es apoyado por las universidades más fuertes. Hoy hablaremos sobre la nueva dirección competitiva, que es supervisada por la Universidad ITMO: "Big Data".

El socio general de la Olimpiada en las áreas de la Universidad ITMO es "Programación y TI", "Información y ciberseguridad", " Big Data " - Sberbank.


Christoph Scholz / Flickr / CC BY-SA

Algunas palabras sobre los Juegos Olímpicos "Soy un profesional"


La Olimpiada se celebra para estudiantes de diversas especialidades.

Este año se registraron 54 áreas : matemáticas, inteligencia artificial, ingeniería de software, Internet de las cosas, fotónica y muchas otras.

Por qué participar Los ganadores tienen la oportunidad de ingresar a las universidades rusas sin exámenes y realizar una pasantía en las principales empresas asociadas de la Olimpiada: Yandex, Sberbank, MRG, etc. Los estudiantes que muestran buenos resultados tendrán la oportunidad de asistir a escuelas de invierno . Allí puedes conocer a expertos de la industria.

Formato de participación . Inscripción - hasta el 22 de noviembre. Del 24 de noviembre al 9 de diciembre, se llevará a cabo una ronda de clasificación en línea. Pueden pasarlo por alto aquellos que hayan completado al menos dos cursos en línea de la lista aprobada por los organizadores. En febrero de 2019, comenzarán las etapas finales.

Se llevarán a cabo en persona en varias universidades del país. La Universidad ITMO supervisa cinco áreas de la Olimpiada. Hablamos sobre algunos de ellos, en particular, sobre Robótica anteriormente. Hoy, imagina la dirección de Big Data. Esta es la novedad de la Olimpiada de este año.

Dirección de Big Data: lo que necesita saber


El mundo alberga muchos eventos y seminarios sobre Big Data.

Vale la pena mencionar las conferencias internacionales SIGMOD , SIGKDD o ICML . Cada vez hay más eventos de este tipo en nuestro país. Por ejemplo, DataFest , Big Data Conference de Rusbase y numerosos mitaps sobre gestión de Big Data y tecnologías de análisis.

La Universidad ITMO también participa en varios eventos y tiene lo suyo. Como una serie de conferencias de YSC ( Young Science Conference ), una conferencia de German Gref y un reciente taller cerrado celebrado en MRG. Big data ocupa un lugar importante en el desarrollo de nuevos sistemas y soluciones de TI en otros campos de actividad. ITMO University está trabajando activamente con la aplicación y el desarrollo de tecnologías de Big Data en todas las áreas.
Por ejemplo, los empleados del Departamento de Computación de Alto Rendimiento de la Universidad ITMO han creado el almacén semántico de datos distribuidos de Exarch. Proporciona acceso rápido a los datos, optimiza su procesamiento. Exarch le permite reducir a la mitad el tiempo que lleva completar tareas simples en comparación con herramientas como HDFS y Cassandra.
Dada la experiencia y los intereses científicos de la universidad en el campo del trabajo con big data, no podemos perder la oportunidad de abrir esa dirección en el marco del proyecto "Soy un profesional". Alexander Valerievich Bukhanovsky , doctor en ciencias técnicas, director de la mega facultad de tecnologías de transmisión de información en la Universidad ITMO, supervisa esta pista de la Olimpiada. Ahora él y el equipo, que incluye estudiantes graduados de la universidad, están preparando tareas.

La línea Big Data incluye análisis de datos, estadísticas y aprendizaje automático, además de tecnologías de sistemas y computación distribuida. La primera dirección está relacionada con las matemáticas y los enfoques para procesar grandes cantidades de datos. El segundo se basa en la programación y la informática de alto rendimiento con el objetivo de optimizar los procesos analíticos.

Los participantes utilizarán la plataforma Yandex.Conest y los lenguajes de programación más populares para trabajar con Big Data. Estos son Java, Scala y Python.

Java y Scala son más utilizados por expertos llamados Data Engineer para ETL y ELT y para la implementación de algoritmos básicos. Python actúa más a menudo como una herramienta en manos de aquellos llamados Data Scientist. Al mismo tiempo, todos estos idiomas son compatibles con Apache Spark, la solución más extendida y popular para procesar grandes datos en este momento.

Tenga en cuenta que en la etapa de correspondencia, no se ofrecerán tareas de programación. Esto se debe a algunas limitaciones del sitio Yandex.Contest: no hay forma de conectar matrices de datos reales para el procesamiento. En la etapa de tiempo completo de la competencia, este momento se resolverá.

Preparándose para los Juegos Olímpicos


Se ha preparado un programa especial para los participantes, que incluye tres seminarios web en el campo especializado. Los profesores de las principales universidades imparten conferencias y explican y analizan ejemplos de tareas de olimpiadas.

Aquí hay un ejemplo de una de las preguntas básicas de big data.
Una gran variedad de diferentes imágenes de fotos ráster en formato bmp de 64 bits se distribuye uniformemente entre 1000 nodos de almacenamiento independientes en una sola red local. Para resaltar imágenes de caras en estos archivos, se utiliza un clúster que tiene 100 nodos informáticos.

Con un inicio único del proceso de procesamiento en todos los nodos, en comparación con un nodo, la aceleración del procesamiento es solo 52 veces. ¿Esto significa que:

  • A. El clúster es demasiado pequeño, se necesitan más nodos informáticos para aumentar la eficiencia;
  • B. Los tamaños de imagen son diferentes, y debido a esto, objetivamente, no es posible lograr una mayor eficiencia;
  • A. El canal de comunicación entre el almacenamiento y el clúster es demasiado débil;
  • G. Aún no está claro. Es necesario realizar una serie de experimentos adicionales en varias configuraciones.

Respuesta: G. Sobre la base de una medición, es imposible establecer la causa, ya que dependiendo de las condiciones, puede haber ambas opciones, A y B.

Conferencia pronunciada por Alexander Bukhanovsky:


La segunda conferencia trata sobre los aspectos tecnológicos del procesamiento de big data. Realizado por un investigador senior en el Instituto de Investigación de NKT de la Universidad ITMO Alexander Viseratin:


En general, para resolver las tareas de la Olimpiada, es necesario estudiar los mecanismos típicos que subyacen a las operaciones básicas de procesamiento de Big Data. Estamos hablando de patrones en los marcos Apache Spark y Apache Flink (por ejemplo, operaciones de reproducción aleatoria o difusión). Será bueno estudiar el funcionamiento de los algoritmos iterativos utilizados para el aprendizaje automático en grandes datos, como Expectativa - Maximización . El conocimiento de las estructuras de datos y los principios de organización de almacenamiento de datos utilizados en los almacenes modernos de Cassandra o Clickhouse no afectarán.

También le recomendamos que preste atención a los cursos de Yandex sobre procesamiento de Big Data:


Por cierto, el paso de dos de estos cursos le permitirá evitar la ronda de clasificación en la dirección de "Big Data" y llegar directamente a la etapa de tiempo completo de la Olimpiada.

Source: https://habr.com/ru/post/es429346/


All Articles