自2007年以来,Yandex一直在培训数据科学专家。 学生重视数据分析学院对培训课程和课程的相关性,但他们并不总是了解完成后所要等待的内容。 在Yandex或其他大公司中使用数据? 但是哪一个呢?

最初,该学院有两个系:计算机科学和数据分析。 2014年,当大数据流行时,出现了第三个专业化领域-大数据。 今年,为了使学生立即了解他们的前景,我们进行了部门改革:现在,培训将在四个专业轨道的框架内进行。 我们的首要任务是告诉学生可能的发展道路,并帮助他们了解哪些课程将有助于实现目标。
专业路线没有偶然地突出显示-这是毕业生从ShAD毕业后最常进入的四种方式(有些已经在学习期间)。 对于这四个途径中的每一个,我们都找到了一名选择他的毕业生,并与他们交谈以了解哪些课程对将来的工作最有用,以及他们如何选择职业。
数据科学家 (Nikita Popov,2016年毕业):
“数据科学家-现在被称为各个领域的分析师。 Yandex的我们习惯于相信数据科学家是精通机器学习和统计的人,最重要的是,在实践中可以从大量数据中提取有用的信息。
我目前在搜索指标小组工作。 我们正在努力评估搜索的质量,选择移动的方向以及正在进行的许多实验中的哪一项将真正增加“用户的幸福感”。 SHAD结束后,我通过实习进入了团队。 数据分析学院为我奠定了良好的基础:机器学习和概率模型课程正是我每天工作的基础。
到达SHAD时,我仍然不明白自己想做什么,我和同学们一起进入了公司,但是从第一次研讨会开始,很明显SHAD非常有趣。 在那里,我意识到了自己想做的事。 我认为,每个数据科学家都应该精通各种机器学习方法,了解其优缺点,并能够找到数据中的依存关系并根据它们得出正确的结论。 尽管我是一名分析师,但我经常还是要处理发展问题。 最近,我添加了一项服务,为此我开发了前端,后端和算法本身-数据科学家应该能够做所有事情。”
机器学习开发人员 (Zhenya Zakharov,2018年毕业生):
“即使在大学里,我最喜欢的任务都是数学,其中数学起着重要的作用,但结果可以被“感动”。 我当前的工作很好地满足了这两个条件:我们实现了各种算法,同时对其进行了修改,以更快,更高,更强大地处理我们的数据。 对我们来说,关键指标之一是生产力。 数据很多,该算法应该能够在合理的时间内快速进行预测和学习。
我在大学里有很多编程工作,但是ShAD课程的特点是算法上更复杂的任务,更加强调性能和代码清洁度。
SHAD给了我每天使用的一系列基本技能:各种形式的机器学习,应用统计信息,算法以及关于工业代码外观的想法。 事实证明,大数据课程的项目非常相关,伙计们和团队编写了梯度提升方法,试图以赶上LigthGBM的速度,虽然我们没有赶上,但仍然设法取得了可比的时间。”
大数据基础架构专家 (Vlad Bidzila,2017年毕业):
“从高中开始,我就想从事编程专业。 我在大学三年级时进入了SHAD。 他在我面前打开了机器学习和数据挖掘的美好新世界,这是在应用数学和编程的交界处具有大量算法的高效系统。
几年来,我在Yandex的视频搜索排名质量团队工作。 从高级C ++和Python开始的ShAD课程帮助我在短时间内参与了工作过程-从在大学编写学术程序到公司认真的生产代码。
最近,我一直在从事分布式计算技术的服务。 我们正在开发YT MapReduce系统:
habr.com/company/yandex/blog/311104 。 在这里,在ShAD中获得的知识和技能也非常有用:关于经典算法和数据结构的课程灌输了算法文化,发展了以最少的错误和可理解的结构快速编写高效且干净的代码的能力,以了解复杂的算法解决方案; 一门有关处理大量数据的算法的课程演示了处理一系列不适合计算机内存的数据时遇到的困难,以及解决这些困难的方法,提供了对在外部存储器和流算法中构造算法的基本模式的理解,并开发了基本的实践方法。写作技巧; 并行和分布式计算课程介绍了多线程和分布式编程的基本结构,并在开发系统中的所有位置应用了它。
此外,值得注意的是,借助ShAD,我能够深入了解应用数学课程,而这些课程通常是经典大学课程所不具备的:信息和计算复杂性理论,高级离散数学,统计分析,组合和凸优化。 这些知识结合了理论数学和高科技IT行业。”
应用科学数据分析专家 (Nikita Kazeev,2015年毕业):
“作为HSE和罗马的Sapienza大学的研究生,我正在CERN致力于将机器学习方法应用于基础物理问题。
他从学校就喜欢物理,曾是全俄奥林匹克运动会的获奖者,曾去过FOPF MIPT。 很大程度上是出于理想主义的考虑-如果您不做科学,那又如何? 但总是被计算机所吸引。 Bachelor的工作致力于非理想等离子体的计算机建模,它具有许多算法和C ++。
第四年,我进入了SHAD,一年后,我受邀参加了Yandex中新兴的国际教育和科学项目小组。 现在,它已变成Yandex和HSE-LAMBDA的联合实验室。 我们不仅用手做事情,而且还教物理学家机器学习,所以我在牛津大学任教。 在我们的暑期学校,但仍然;)
哪种ShAD派上用场了? 很多东西。
- 算法课程:一种一般的编程文化,以及突然间出现的算法。 在两个小时内将物理模拟器加速十倍,这很有趣,只需添加kd树即可,而不是穷举搜索。
- 机器学习,深度学习:面包和黄油,尤其是理论部分。 在高能物理学中,必须处理导入xgboost不够的非标准问题。
- 领域适应:如何将物理考虑因素与机器学习相结合,以形成将在模拟数据上训练并应用于实际的算法? 如果训练样本脏了,但是负重的东西可以清洗怎么办? 如何衡量恢复分布GANom的准确性?
- 大数据处理:我不得不使用Hadoop。
- 最近的产品课程:我们是1000人合作的一部分,我们的许多成果不是纯粹的科学发现,而是为其他人设计的工具。 例如,我作为受训者开始的项目-检测器注册的事件的搜索索引-最终不需要了,与现在通过其监视来自检测器的数据质量的监视系统不同。
一般来说,您将在日内瓦,快来参观,在这里很有趣:)“。