我们继续为单身汉,硕士和专家介绍奥林匹克竞赛的故事“
我是专业人士 ”。 它得到了最强大的大学的支持。 今天,我们将讨论由ITMO大学监督的新竞争方向-“大数据”。
奥林匹克运动会在ITMO大学领域的普通合作伙伴是“编程和IT”,“信息和网络安全”,“ 大数据 ”-Sberbank。
Christoph Scholz / Flickr / CC BY-SA关于奥运会的一些话“我是专业人士”
奥林匹克运动会是为各种专业的学生举办的。
今年注册了
54个领域 :数学,人工智能,软件工程,物联网,光子学等。
为什么要参加 。 优胜者
有机会无需考试即可进入俄罗斯大学,并在奥林匹克的主要合作伙伴公司(Yandex,Sberbank,MRG等)实习。 表现良好的学生将有机会参加
冬季学校 。 在那里您可以会见行业专家。
参与形式 。
注册 -直到11月22日。 从11月24日到12月9日,将举行在线资格赛。 从组织者认可的
名单中至少
完成了两个在线课程的人可能会错过它。 最后阶段将于2019年2月开始。
他们将亲自在该国的各种大学举行。 ITMO大学负责监督奥林匹克的五个领域。 我们之前讨论了其中一些,特别是关于
机器人技术 。 今天,想象一下大数据的发展方向。 这是今年奥运会的新颖之处。
大数据方向:您需要知道的
世界各地举办了许多有关大数据的活动和研讨会。
值得一提的是国际会议
SIGMOD ,
SIGKDD或
ICML 。 在我国越来越多的此类事件正在发生。 例如,
Rusbase的DataFest ,
大数据会议 ,以及有关大数据管理和分析技术的众多技巧。
ITMO大学还参加各种活动并举办自己的活动。 例如一系列的YSC会议(
青年科学会议 ),
German Gref的
演讲以及最近在MRG举行的闭门讲习班。 大数据在其他活动领域的新IT系统和解决方案的开发中占有重要位置。 ITMO大学正在各个领域积极致力于大数据技术的应用和开发。
例如,ITMO大学高性能计算系的员工已经创建了 Exarch的语义分布式数据仓库。 它提供对数据的快速访问,优化了数据处理。 与HDFS和Cassandra之类的工具相比,Exarch可使您将完成简单任务所需的时间减少一半。
鉴于大学在处理大数据方面的经验和科学兴趣,我们不能错过在“我是专业人士”项目的框架内打开这样一个方向的机会。 技术科学博士,ITMO大学广播信息技术大学院系主任
Alexander Valerievich Bukhanovsky负责监督奥林匹克运动的发展。 现在,他和包括大学研究生在内的团队正在准备任务。
大数据线包括数据分析,统计和机器学习以及分布式计算和系统技术。 第一个方向与数学和处理大量数据的方法有关。 第二个是围绕旨在优化分析过程的编程和高性能计算构建的。
参与者将使用Yandex.Conest平台和最受欢迎的编程语言来处理大数据。 它们是Java,Scala和Python。
Java和Scala被称为数据工程师的专家更广泛地用于
ETL和ELT以及基本算法的实现。 Python通常被称为“数据科学家”的人们用作工具。 同时,Apache Spark是所有这些语言的支持,Apache Spark是目前处理大数据的最广泛和最受欢迎的解决方案。
注意,在通信阶段,将不提供编程任务。 这是由于Yandex.Contest网站的某些限制所致-无法连接实际数据数组进行处理。 在比赛的全日制阶段,这一刻将得到解决。
为奥运会做准备
已为参与者准备了一个特别计划,其中包括三个专业领域的网络研讨会。 一流大学的老师进行了讲座,解释和分析了奥林匹克竞赛的例子。
这是基本大数据问题之一的示例。64位bmp格式的大量不同光栅照片图像均匀分布在单个局域网中的1000个独立存储节点中。 为了突出显示这些文件上的面部图像,使用了一个群集,该群集具有100个计算节点。
与在一个节点上相比,在所有节点上一次开始处理过程,处理速度仅为52倍。 这是否意味着:
- 答:群集太小,需要更多计算节点才能提高效率;
- B.图像大小不同,因此,从客观上讲,不可能实现更高的效率;
- A.存储器和集群之间的通信通道太弱;
- G.尚不清楚。 有必要进行各种配置的一系列附加实验。
答案:G。基于一种测量,无法确定原因,因为根据条件的不同,可以同时存在选项A和B。
亚历山大·布哈诺夫斯基发表的演讲:
第二讲是关于大数据处理的技术方面的。 由ITMO大学NKT研究所的高级研究员Alexander Viseratin进行:
通常,要解决奥林匹克运动会的任务,有必要研究构成处理大数据的基本操作基础的典型机制。 我们正在谈论Apache Spark和Apache Flink框架中的模式(例如,随机播放或广播操作)。 研究用于大数据机器学习的迭代算法的操作(如
Expectation-Maximization)将是一个很好的方法。 在现代Cassandra或Clickhouse存储中使用的数据结构知识和数据存储组织原理不会受到损害。
我们还建议您注意Yandex上有关大数据处理的课程:
顺便说一句,通过其中的两个课程将使您绕过“大数据”方向的资格赛,直接进入奥运会的全日制阶段。