早餐和黑客松的强大“咖啡”:为什么它对数据科学社区的发展很重要

我是Raiffeisenbank的Data Lake Platform团队的数据科学家。 三年前,该银行没有大数据专线,现在我们有了一个单独的平台来处理大数据和活跃的社区。 随着数据驱动文化的发展,我们面临许多问题:技术,通信等。

在本文中,我想告诉我们Raiffeisen数据大学社区如何帮助解决其中的一些问题。



可伸缩性问题


几年前,所有数据科学家都分别生活,各自完成任务-没有人想到任何社区。 越来越多的想法需要数据分析领域的知识,以及该州数据科学家的单位。
各种困难开始出现:

  • DS之间的通讯:
    • 目前尚不知道同事现在正在处理哪些业务案例;
    • 每个团队都看到自己的自行车来实现相同的功能。

  • 技术方面:
    • 搜索用于建模的输入数据是不透明的;
    • 代码不会在新数据上播放;
    • 群集资源未得到最佳利用;
    • 将模型输出到产品的过程并不统一。

  • 与企业客户的互动:
    • 并非所有客户都知道可以解决什么问题
      机器学习,有哪些局限性以及如何设置任务。

从哪一方面着手解决这些问题,并开始发展成为成熟的数据驱动公司的道路? 您可以提出不同的策略:收集一个大部门中的所有数据科学家,或将所有负责人添加到所有团队中,并雇用另一名负责构建开发向量的首席负责人。 我们决定走另一条路。

因此,Raiffeisen数据大学-RDU的想法诞生了。 这不是大学的标准理解,它是一种灵活的机制,可以帮助数据科学家通过组织各种活动来解决问题。 他如何成功?

所有的创意都很简单


首先,有必要介绍和同步来自不同业务部门的人员。 我想到的最简单的事情是安排会议。

第一次是在两年前,它遇到了来自不同部门的数据科学家,后来他们都不知道彼此的存在。 现在,mitap已变得司空见惯。 我们会见新同事,分享解决的案例或过程中的内容。 您可以将您的想法告诉演讲者,询问有关指标或数据质量的棘手问题。 或者,您可以组织有关其项目中包含的动手工具的研讨会。 提出了许多特定的主题:CI / CD模型在产品中的排列方式,已解决案例的模型架构,业务中的问题说明以及解决方案的复杂性,等等。 以前,所有事物都是在一个秘密的听众中举行的,他们只允许那些通过仪式的人。

现在,我们已经积累了可以共享的有用经验。 内部mitap可以帮助我们解决沟通和技术难题。 与ML REPA项目一起,为所有人举行了第一次公开会议

早餐的浓咖啡


Mitapas需要一些准备工作,大约每月或每两个月发生一次。 一直都有新的有趣的事情发生,这就是为什么我们在数据科学早餐会上见面以保持沟通。 准时醒来的参与者人数各不相同。

早餐时,除了与志同道合的人交谈带来的好处和积极的情绪外,您还可以获得关于新库和算法的大量有用信息,可以解决应用程序体系结构中的问题,或者找出即将投入到集群中的资源。 召开此类简短会议的利润有时不亚于大笔交易。

学习率提高


“更多的利润,甚至更多的知识!” 我们公开希望。 因此存在一个竞争因素-差距,我们称之为差距。 他们受到Yandex中机器学习培训的想法的启发,可以根据他们的需求和能力进行定制。 开放数据竞赛大约持续三周:

  • 在第一周,我们大家见面并提出了解决方案的想法(非常类似于DMIA体育研讨会);
  • 在第二周的一次临时会议中:我们分析谁有什么优势,我们有动力做出进一步的决定;
  • 随后进行汇报,宣布获胜者,讨论进行了哪些检查,未进行哪些检查。

在一个竞赛的框架中,我们尝试着重于一个主题:脏数据,时间序列,文本分析。 每个人都选择自己有兴趣尝试但仍然犹豫的工具,或者应该在排行榜上带来最大成果的工具。 最酷的部分是关于强化学习的-您必须训练代理与Atari环境进行交互。 总而言之,竞赛的组织者在三类游戏中给了我们机器人与人之间的战斗:Packman,Break out,Space Invaders。
结果,人们在Packman上大获全胜,而其他人则输给了天网。



发现数据科学家


经理们也不是一个人。 对于与分析相关联的所有人员而言,有一天有一次内部黑客马拉松,但他们对数据的组织方式知之甚少,这是一个快速进入数据科学任务厨房的好机会。 一天的开始,举行了有关概念,算法以及分类和回归问题中最常见指标的复习讲座。 之后,将考虑一个实际案例,邀请参与者解决我们的数据。 解决方案的时间约为4个小时,因此,为了使事情顺利进行,派遣了一名数据科学家来帮助每个团队。

我参加了这些黑客马拉松之一,他们将执行经理提出的想法,并在建设性方向上进行直接推理。 该任务需要基于六个月的实际数据(指定了流出条件)来建立客户流出模型,并估算该模型将带来什么样的经济影响。 在决策过程中一切都出错了,代码从头到尾都断了-这使团队可以感觉到功能生成的整个复杂性,但是由于缺乏业务经验,Data Scientist可能没有立刻想到很多想法。

由于发生了这些事件,管理人员学会了更客观地评估完成DS任务的截止日期,了解陷阱以及最初设置的质量指标的重要性。 而且,数据科学家可让您通过经理的眼光了解任务的愿景,以确定在协作开始时应立即突出显示哪些点。

最强者将生存


但是最有趣的事情通常发生在9月,当时DS团队在风景如画的地方,拥有便利的基础设施,参加了为期两天的黑客马拉松。 组织者邀请外部经验丰富的导师参加黑客马拉松。 去年,埃米尔·德拉尔(Emeri Dral)和亚历山大·古什钦(Alexander Gushchin)准备了一项任务,通过对话来确定电影的类型。 培训样本有近4万种对话,涉及438部电影的20种不同体裁-与带有英语字幕的电影有关。

我们听了关于NLP主题的简短游览:文本预处理方法,使用DL的简单且棘手的学习方法; 我们分别讨论了ML项目中的团队合作-如何组织代码以及如何节省时间。 在听演讲时,最活跃的人已经将快速文本和手套嵌入物下载到了他们的笔记本电脑上。

演讲结束后,比赛以kaggle课堂形式与公共/私人排行榜开始。 我们分成了团队-进行了最大程度的改组,以使团队甚至没有来自同一部门的两个人。 一切都有24小时。

有人启动了一个远程家庭服务器,有人赶紧在云端部署了环境,甚至还有人将它们拖到系统单元中—他们尽了最大的努力! 白天,这些团队提出了各种各样的解决方案:从使用Elastic Search查找相似的文本到无法在第二天清醒地再现的模型集合的上釉结果。

为了总结和比较模型的工作,除了在私人排行榜上得分外,我们还决定安排一个交互式演示-查看服务中包装的模型如何工作。 组织者幽默地处理了这个问题,并从电影“第五元素”中摘录了一段片段,其中的文字似乎有些可怕,但事实上, 克里斯·塔克Chris Tucker)有一个有趣的场面。 大多数模型对此都犯了一个错误,并预言了惊悚片,戏剧片而不是喜剧片。



结果,线性模型的集成,基于聚类的手工制作的功能增强和其他萨满变换的获得,神经元出现在该位置的解决方案2和3中。 除了出色的奖品(主要奖品是参加NIPS或其他出色的会议)之外,您还将在黑客松比赛中与在战斗中测试过的新朋友一起返回,他们将与您分享知识和技能。 最后,我什至不想离开风景如画的大自然和一家舒适的公司离开这个地方。

而不是结论


在本文中,我分享了在公司中成为数据科学文化的挑战,以及Raiffeisen数据大学如何在此过程中帮助数据科学家。

当然,并非所有问题都得到了解决,但是与两年前相比,现在我们的数据社区更加凝聚和成熟,并且我们已准备好应对摆在我们面前的新挑战。

有趣的是,您的工作中是否存在类似的问题,由谁解决的以及如何解决的?
也许有人会分享他们的生活经验? ;)

Source: https://habr.com/ru/post/zh-CN469203/


All Articles