对于没有考试的硕士课程:奥运会“我是专业人士”的新方向“大数据”

我们继续为单身汉,硕士和专家介绍奥林匹克竞赛的故事“ 我是专业人士 ”。 它得到了最强大的大学的支持。 今天,我们将讨论由ITMO大学监督的新竞争方向-“大数据”。

奥林匹克运动会在ITMO大学领域的普通合作伙伴是“编程和IT”,“信息和网络安全”,“ 大数据 ”-Sberbank。


Christoph Scholz / Flickr / CC BY-SA

关于奥运会的一些话“我是专业人士”


奥林匹克运动会是为各种专业的学生举办的。

今年注册了54个领域 :数学,人工智能,软件工程,物联网,光子学等。

为什么要参加 。 优胜者有机会无需考试即可进入俄罗斯大学,并在奥林匹克的主要合作伙伴公司(Yandex,Sberbank,MRG等)实习。 表现良好的学生将有机会参加冬季学校 。 在那里您可以会见行业专家。

参与形式注册 -直到11月22日。 从11月24日到12月9日,将举行在线资格赛。 从组织者认可的名单中至少完成了两个在线课程的人可能会错过它。 最后阶段将于2019年2月开始。

他们将亲自在该国的各种大学举行。 ITMO大学负责监督奥林匹克的五个领域。 我们之前讨论了其中一些,特别是关于机器人技术 。 今天,想象一下大数据的发展方向。 这是今年奥运会的新颖之处。

大数据方向:您需要知道的


世界各地举办了许多有关大数据的活动和研讨会。

值得一提的是国际会议SIGMODSIGKDDICML 。 在我国越来越多的此类事件正在发生。 例如, Rusbase的DataFest大数据会议 ,以及有关大数据管理和分析技术的众多技巧。

ITMO大学还参加各种活动并举办自己的活动。 例如一系列的YSC会议( 青年科学会议 ), German Gref演讲以及最近在MRG举行的闭门讲习班。 大数据在其他活动领域的新IT系统和解决方案的开发中占有重要位置。 ITMO大学正在各个领域积极致力于大数据技术的应用和开发。
例如,ITMO大学高性能计算系的员工已经创建了 Exarch的语义分布式数据仓库。 它提供对数据的快速访问,优化了数据处理。 与HDFS和Cassandra之类的工具相比,Exarch可使您将完成简单任务所需的时间减少一半。
鉴于大学在处理大数据方面的经验和科学兴趣,我们不能错过在“我是专业人士”项目的框架内打开这样一个方向的机会。 技术科学博士,ITMO大学广播信息技术大学院系主任Alexander Valerievich Bukhanovsky负责监督奥林匹克运动的发展。 现在,他和包括大学研究生在内的团队正在准备任务。

大数据线包括数据分析,统计和机器学习以及分布式计算和系统技术。 第一个方向与数学和处理大量数据的方法有关。 第二个是围绕旨在优化分析过程的编程和高性能计算构建的。

参与者将使用Yandex.Conest平台和最受欢迎的编程语言来处理大数据。 它们是Java,Scala和Python。

Java和Scala被称为数据工程师的专家更广泛地用于ETL和ELT以及基本算法的实现。 Python通常被称为“数据科学家”的人们用作工具。 同时,Apache Spark是所有这些语言的支持,Apache Spark是目前处理大数据的最广泛和最受欢迎的解决方案。

注意,在通信阶段,将不提供编程任务。 这是由于Yandex.Contest网站的某些限制所致-无法连接实际数据数组进行处理。 在比赛的全日制阶段,这一刻将得到解决。

为奥运会做准备


已为参与者准备了一个特别计划,其中包括三个专业领域的网络研讨会。 一流大学的老师进行了讲座,解释和分析了奥林匹克竞赛的例子。

这是基本大数据问题之一的示例。
64位bmp格式的大量不同光栅照片图像均匀分布在单个局域网中的1000个独立存储节点中。 为了突出显示这些文件上的面部图像,使用了一个群集,该群集具有100个计算节点。

与在一个节点上相比,在所有节点上一次开始处理过程,处理速度仅为52倍。 这是否意味着:

  • 答:群集太小,需要更多计算节点才能提高效率;
  • B.图像大小不同,因此,从客观上讲,不可能实现更高的效率;
  • A.存储器和集群之间的通信通道太弱;
  • G.尚不清楚。 有必要进行各种配置的一系列附加实验。

答案:G。基于一种测量,无法确定原因,因为根据条件的不同,可以同时存在选项A和B。

亚历山大·布哈诺夫斯基发表的演讲:


第二讲是关于大数据处理的技术方面的。 由ITMO大学NKT研究所的高级研究员Alexander Viseratin进行:


通常,要解决奥林匹克运动会的任务,有必要研究构成处理大数据的基本操作基础的典型机制。 我们正在谈论Apache Spark和Apache Flink框架中的模式(例如,随机播放或广播操作)。 研究用于大数据机器学习的迭代算法的操作(如Expectation-Maximization)将是一个很好的方法。 在现代Cassandra或Clickhouse存储中使用的数据结构知识和数据存储组织原理不会受到损害。

我们还建议您注意Yandex上有关大数据处理的课程:


顺便说一句,通过其中的两个课程将使您绕过“大数据”方向的资格赛,直接进入奥运会的全日制阶段。

Source: https://habr.com/ru/post/zh-CN429346/


All Articles