“数据科学就像数学和物理学一样,是探索周围世界的另一种方式。”

哈伯,你好! 我们将继续对Newprolab校友进行一系列采访,他们在其中谈论他们进入大数据领域的故事。 这些故事是不同的,对于那些正在考虑改变职业道路或新知识如何帮助解决当前问题的人们来说,这将是有趣的。 认识Lamoda研发主管Oleg Khomyuk。

奥列格(Oleg)谈到了他的职业道路,价值观,为什么选择拉莫达而不是​​硅谷的公司,当前项目,他的团队,最成功和最失败的项目,对数据科学的态度等等。

图片

-奥列格(Oleg),您在拉莫达(Lamoda)研发主管的职业生涯如何?

-在我看来,任何职业道路都是由多种原因造成的,有时甚至是事故的结果。 在这些原因中,可以区分出几个主要原因:思维特征,生活价值观以及一个人通常如何理解成功是什么。 对成功的理解是我们用作指南针,选择专业道路的唯一载体。

从这个意义上说,一切对我来说都非常简单:学校清楚地展示了掌握精确科学的能力,不断参加比赛,甚至在学龄儿童中甚至在九年级的地区数学奥林匹克中获得了第三名。 总的来说,解决难题,寻找模式总是很有趣的,我仍然喜欢创造力的任务。

我也喜欢在大学学习:我毕业于MSTU。 N.E. 鲍曼以“光电仪器”的荣誉,从物理和微电子学的角度,被教导我们设计相当复杂的设备:热成像仪,数码相机,望远镜,甚至是狙击瞄准镜,寻的系统和夜视设备。 我必须说这是一个非常有趣的职业,我们的教学人员非常出色。 这样的实际工程处于多个知识领域的交汇处。 有时有点遗憾的是,该主题没有解决。

-为什么不呢?

-在最近的课程中,我对自己的工作感到有些失望。 事实证明,该国对专业的需求很低,一切都非常本地化,最好的最好的工程师主要在研究所的实验室工作,稀有的工厂能够实施工程项目,过时的设备等等。 当然取得了一些成功,但是范围与我开始学习时所想象的不同。 研究人员的低费率补充了这一因素,有可能从事私人交通工具并赚取更多。 当然,仍然有赚钱的选择,对于日本公司而言,工作很不自然,没有知识产权。

在某个时候,我的朋友们邀请我在莫斯科附近的一家相当大的互联网提供商中工作,我同意了。 我已经准备好学习新事物,从这个意义上讲,技术教育提供了很大的范围。

在那里,我获得了新的技术技能,熟悉了质量管理的主题,并在这方面普遍接触了世界惯例。 有这样的质量管理标准,甚至是一系列的ISO 9000标准,它们提供了一些在企业中组织流程的实践,并把最终产品的质量与公司内部对其流程的管理水平之间的关系作为公理。 主要思想是,如果您在标准框架内做所有事情,那么您的产品质量就会不断提高,因为您要进行测量,思考,计划,执行并再次测量可能影响该质量的每个过程。 这种持续改进的周期性活动甚至有一个名称-戴明循环。 就像管理一样,我被这个主题吸引住了,但这是非常数学的。

结果,我在那里工作了大约2年,做了很多事情,包括管理一个小部门,建立流程,与质量部门进行很多交谈。

接下来是Yandex。 在某个时候,我看到他们正在搜索质量部门招聘项目经理。 职位空缺本身并不那么吸引人,测试任务更加有趣:描述现有的Yandex搜索问题并找出解决方法。 好吧,我脑海中触发“质量”一词的触发可能起作用了。 我连续完成了10个小时的任务,结果却要花几页。 结果,他们联系了我,要求面试并提出要约,我很高兴接受了。

当我在Yandex专门为我工作时,一切都准备就绪,我看到大数据,数学,算法如何专注于用户,他的需求作为一种单一机制协同工作,使您一方面可以创造突破性的产品并赚钱另一方面。 在我看来,我摆脱了Yandex的这种渴望,即渴望基于数据制造产品并从事机器学习。 从此,他开始朝这个方向积极发展。

-在2011年,大数据这一主题尚未普及,没有任何程序。 您在哪里学习,阅读所有内容?

-当然,可用的内容还不够,我们都非常渴望知识。 但是Coursera已经在那儿了,顺便说一下,也有ShAD。 我听了沃龙佐夫的讲座15次,听不懂。 许多人经历了这个,这是一个有趣的时代。

总的来说,我开始略过信息搜索的话题,我喜欢处理数据,被机器学习相关的新领域所吸引,并于2012年离开了公司。

-在Yandex之后呢?

Yandex之后是“ Consultant Plus”。 已经更加自觉地选择了与数据分析相关的方向。 只是开始大规模收集用户操作的数据,因此我参加了此活动并开始制作项目。

总的来说,这是一个有趣的时刻,现在有许多可用于机器学习的库,例如xgboost,我们用C ++在树上编写了梯度提升,现在,当然,并不是每个团队都能负担得起,并且没有必要-一切都已经实现。 这样的故事。

-您是自己写书还是已经有团队?

-是的,除了人才之外,团队已经是。 在Consultant Plus工作的第二年,VMK的一名天才学生加入了我们,他在几个月内写下了他的boosting实施并开始训练模型。

到那时,我们已经打算组建整个数据科学家团队,我们认为数据中有许多新机会。 然后,有机会成功地招募了两名ShAD毕业生,他们可能比我更了解头脑,以及开发存储库的开发人员。 每个人都尝试过,主要在Hadoop集群上工作,尽管按照现代标准,没有多少数据。
在我们的鼎盛时期,总共可能有9个人,他们正在解决好问题。 例如,他们正在寻找用户对各种主题的兴趣激增,这有助于作者更好地选择有意义的主题,从而撰写新的材料。

之后,我在Palo Alto的一家初创公司Ezhome工作。 顺便说一句,Mitya Kataev向我推荐了我,我们一起与他一起研究了大数据专家计划 。 他的熟人Kirill Klokov在Ezhome担任开发总监,他只是在团队中寻找数据科学家。 该公司的主要思想是为家庭服务创建Uber体验; 首先,选择了一种护理当地的服务-从修剪草坪开始,到清洁,种植植物和树木结束。 结果,我开始在那里做一名数据科学家,我真的很想在一家初创公司尝试一下,并且希望自己动手工作。 我经常经历这种分析性的痒,我想做点有意义的事情,尽管一段时间以来我一直专注于组织过程。 我曾经希望有一天瘙痒会减轻,但直到今天,我一直试图“坐在两把椅子上”,也就是说,既要发展为经理人,又要发展为专家。

-即使现在?

“即使现在。” 虽然目前当然没有足够的时间来做很多事情:一个庞大的团队,许多管理任务,但我在周末被耽搁了,因为现在这样做有很多机会-例如kaggle。 我也想用自己的双手做些事情,但是我的团队中有一些人在他们的领域显然比我更好。 但是,我认为,要在数据分析领域进行有效的项目管理,经理必须具有硬技能。 我一直在学习。 例如,现在,我决定进行编程专业化,以免忘记正在发生的事情。

-回到Ezhome:他们为什么需要数据科学家? 您面对什么任务?

-这是一个好问题。 一开始,我问我期望得到什么结果。 答案是本着精神:“我们自己还不完全了解,让我们尝试。” 但是很快就发现了一个好任务:吸引新客户时遇到了瓶颈,因为每个新应用程序都是由一个人处理的,是根据卫星图像来衡量一个站点的,试图了解为该站点提供服务的成本是多少。 有一个专家线性模型可以处理此评估。 很明显,我们希望提高预测的质量,但是您无法确定如何熟练地考虑大量参数。 这是机器学习派上用场的地方。 我们开始使用该站点的参数来预测园丁将花费的时间。 场地的参数取自公开资源,“教师”取自历史数据。 然后,已经有少量的按周服务订阅的活跃客户群。

结果,该任务被解雇了,大多数来电都可获得数据,可以即时制定单个价格。 经典自动化-机器人工作,人们放松。 然后,我被邀请来瓦利总部一阵子,大约一个半月。

在那之前,我在远程工作,几乎整个团队都在远程:美国,印度,希腊,波兰,俄罗斯。 团队很酷,很高兴能工作。 我成功地完成了许多很酷的任务,最终我获得了团队领导分析的职位。 我们对基础架构进行了一些改进,这使我们有时可以增加项目数量。 然后,他们提议与另一个团队合作,该团队正在开发用于为员工构建路线的软件:5000名客户,150个园丁,以及如何以最佳方式解决他们。 这非常令人兴奋,现在在我看来,与计算机科学有关而不是与数据有关的任务也非常有趣。

-与Lamoda一起,您正在考虑几个建议,为什么选择了Lamoda? 什么对您来说至关重要?

-是的,有几个建议。 是什么让我着迷于拉莫达? 明确的战略,明确的期望,信任和财务上可行的资源计划,就是说,他们为我设定了明确的任务:“我们现在在这里,我们需要来到这里,我们要发展研发,我们准备投资X,我们期望这样的经济效果” 。 仅此而已。 没有任何关于太空飞船将如何摧毁宇宙浩瀚或机器人将取代所有人的推理。 加上有关公司运作方式的诚实报道。 一切都是透明,清晰的,总的来说,这使我受贿,因为我完全感觉到我正在加入一个真正注重结果并了解他们想要什么的团队。 此外,他们还给我全权委托以发展这一领域。 对我而言,这是某种个人挑战,我再也没有机会组建如此庞大的团队。 现在有17个人,而且我们还在增长。

-这不是您第一家从头开始建立研发部门,组建团队的公司。 加入公司时,您要采取的前5个步骤是什么?

-研发部门位于拉莫达(Lamoda),在我之前的7年中,甚至更换了数个团队和领导者。 另外,我们聚集了大约一半的现有团队。 所以不是真的从头开始。

新公司的前五个步骤? 我认为该算法并非专门针对R&D;原则上,如果您到一家新公司担任至少某种领导职务,就会遇到这种情况。

首先,您需要了解公司的当前战略,要了解公司的目标是什么,什么KPI将衡量成就。

第二个是描述,考虑到您在公司中的能力或角色,可以如何影响这些KPI,应该有一些可用的工具和想法。 描述业务需求和目标状态,即我们通常想要达到的目标,然后评估可用工具。 机器学习只是其中之一,并非对每个任务都是最佳的。

第三点-您需要审核当前状态-人员,能力,流程,数据,产品,基础架构,尤其是基础架构。
通常,只有在审核当前状态之后的第四步,才有可能描述从当前状态到目标状态的过渡策略。 本质上,这是很多工作,包括与感兴趣的各方,利益相关者进行的大量协商,在此基础上,需要开发几种可能的开发方案。 在我的实践中,就资源成本而言,至少使3种方法保持保守,现实和进取是很有用的。 然后,一切变得更容易:选择策略后,我们会制定一个路线图,指定资源估算并开始工作。

-什么是数据科学?

-数据科学是我最喜欢的工具。 这是一个非常令人兴奋的领域,就像数学和物理学一样,是探索周围世界的另一种方式。 这是我第一次在Yandex中特别清楚地感受到这一点,当我们从事搜索查询分析时,我们了解了用户的需求,他们如何解决它们以及世界上正在发生的事情。 也就是说,您只需单击一下所使用的数据即可了解世界。 这很有趣,在我看来,这与其他认识方式没有什么不同,只是另一种“渠道”,认为这是第七种感觉。 “ Consultant Plus”中也发生了同样的事情:我们研究了哪些用户在寻求法院判决时解决了问题,即哪些行为特别使人们兴奋,他们有哪些纠纷需要在法庭上解决。 如果我们谈论Lamoda所分析的数据,那么这同样令人兴奋。 特别是当您发现上衣和裙子是用不同的颜色而不是相同的颜色购买的。 一个可以使您走得更远的奇特观察。 您可以通过数据了解很多关于周围世界的信息。 因此,我说这是我最喜欢的工具。 在这里,他一方面是一种认知工具,另一方面是一种主动工具,借助它您可以创建新的东西。

-如果您从事某项业务,您将为业务中的数据分配什么角色?

-这里最重要的是不要屈服于炒作。 如果我们谈论业务,那么数据当然应该起作用。 数据分析的结果应有利可图或降低成本。 如果他们不这样做,则说明某个地方出了问题。 同时,无需从字面上理解数据驱动的文化,我们可以在不依赖数据的情况下做出决策,这是正常的。 而且,在某些情况下,这是唯一要做的事情。

-告诉我,您正在Lamoda从事哪些项目? 您的团队实施的最成功的项目是什么?

-可能值得一提的第一件事是A / B测试平台-实际上,该服务将用户分为几组并管理实验功能的开/关。 为什么这对我们很重要? 因为总的来说,与机器学习有关的这个领域本身,如果不不断检验各种假设和思想就不可能存在。 我们无法事先知道我们的用户或多或少会喜欢它。 任何新想法都必须进行测试。 亚马逊提供了有趣的统计数据,他们说他们测试的想法中有70%失败了。 即使指标较高,也应冷静对待。 这意味着为了每个季度发布5个成功的项目,有必要执行±17。 因此,一个可靠的平台可以进行受控实验是基础,没有它,就绝对不可能在产品开发方面前进。 鉴于我们的雄心勃勃的计划,有必要对该系统进行一些升级。 第一个版本是在我之前制作的,我们对其进行了重大更新:现在,您可以同时进行更多实验,而在此之前还没有任何限制。

-还有什么其他方向?

-搜索,这与Yandex和Google这样的大型公司有所不同,因为我们可以很好地确定主题领域,与“互联网上的通用搜索”相比,它的范围相对狭窄。 不可能对所有事物都进行本体论来描述所有关系,但是在很小的特定区域中,您可以做出非常有效的决策。 我们正在为搜索引擎进行语言学研究,该语言可以考虑到不同实体之间的某些隐式关系。 , , , , , , . , Tommy Hilfiger Tommy Jeans, . , — , — - . , , Lamoda.

, , , — . . , , , , .
, , , .

— , .

— . , . , , , , — . , , . , . , , .

— ? ? ?

— , : , , , , -. , -, . , . -, , , . .

4-6 . , . , - . . - , , – .

— Amazon 70% , Lamoda?

— , . , , . , – success, learning. . — . , , , , . - .

— , ? learning'e, .

— , . , . , , , . , , learning, , . ( , ) , , , . , , , .

— ? , , , . , ?

— , : , , . , , , . , , .

— , , Newprolab Lamoda, . , , , ?

— , , , , , , . ( Newprolab — . .), , - . . , Newprolab , . - , , , . , . 3 10 , , . . , , , , , .

— , , , , , , , .

— , , 4 , , Coursera, , . , , , . , , , , , , .

图片

« » , , . , ?

— – - . , , - , . - , . , . ? : - , . , . , , , , , , . , . , , , , - . , , .

— , -. , ? ?

— , «» «», , , , - . , - , . . , , , . , Lamoda . - , .

— , ?

— Slack ODS, , , . , , , , , , .

— , , . , , ?

— , : , . , , data science, . , , - .

— , , .

— , . . , , . , , - - , . — , , , , . , - - . , , , , , , , - , .

, — , , , . , , . : , , , . Ezhome — : data scientist, -, , . , - . , . , .

, , , .

Source: https://habr.com/ru/post/zh-CN431124/


All Articles