如何创建数据科学部门而不是搞砸



数据科学不仅开始出现在大型公司,而且也出现在小型甚至初创公司。 但是,高层管理人员通常不了解成功应用该软件所需要的内容。 许多人认为一个月的数据科学家可以解决公司的所有问题,而点击一下的人工智能将开始在所有部门中正常工作。 不幸的是,事实并非如此。 我叫Ivan Serov,在这篇文章中,我将告诉您为什么需要开始创建DS部门及其涉及的困难。

期望管理


建立部门最重要的一项就是立即设定期望值和KPI。 与其他任何创新一样,使用DS时,您需要经历整个周期,这将从运营损失开始。 在最好的情况下,取决于公司的规模,架构和专家的成本可以在六个月内收回,更常见的是在一年内收回两到三个。 有必要为此做准备,并且在几次失败之后不要放弃一切。 高层管理人员通常会在一年后关闭部门,因为他无法实现盈利。 因此,失去了对DS的信心。 只有设定必要的期望和目标(最好由SMART制定),才能建立一个成功的部门。



从小开始


最好从一个所谓的概念验证项目开始-它不是很复杂且没有生命力,但是可以带来业务收益。 例如,由于推荐系统,收入增加了2%。 请勿尝试将5个自定义神经网络合为一体,并全年对其进行研究。 例如,即使对于文本分类项目,您也可以从简单的算法(例如单词袋)开始,并且已经获得了增长。 结果,该试点项目将成为进一步开发的起点,并使管理层理解金钱投入到有用的东西上,并且需要开发DS。 这将有时间进行更复杂的事情。 在缺乏能力的情况下,试点项目应聘请DS顾问的外部团队。 他们可以帮助您以相当好的质量实现您的需求,或者了解您可以在行业中从事哪些项目,从哪里开始以及如何建立进一步的AI策略。



收集数据


同时,这里的一切既简单又复杂:理想情况下,公司应使用其拥有的所有数据。 例如,如果您是在线零售商,则至少拥有有关特定产品的销售,网站上的客户行为和市场营销邮件的数据。 为此,您已经可以构建许多模型,例如个人邮件系统。

实际上,由于来源的差异,部门之间缺乏清晰的互动,甚至公司中缺少BI专家,将一个公司的所有数据收集到一个数据库中通常是一个大问题。 将所有数据存储在excel中的组织应该首先开始将它们收集到数据库(SQL)中,然后再考虑DS。

所有可用数据的收集形式都必须便于分析人员和数据科学家使用(最常见的是SQL)。 必须事先与BI部门就您要接收,处理和在生产中使用数据的形式达成一致。
有了少量数据,您可以从第三方公司购买它。 例如,电信:通过电话号码将此数据与您的电话数据连接起来,从而使数据更加丰富。 但是,在每种情况下,都必须计算出是否有任何好处。



查找分析师


重要的是,在DS部门成立之时,公司已经拥有一个分析部门。 这些人将帮助科学家找到数据,告诉他们它们的意思,如何正确收集必要的变量等等。 Analytics(分析)是公司朝着由数据驱动的决策方法(即公司中的所有决策均基于接收到的数据,而不是基于管理需求)的第一步。 它们将有助于在不使用模型的情况下利用数据,而报告将有助于管理层做出正确的决策。 此外,将来,分析师将监视所有DS模型的状态并根据结果准备报告。

接队


关于这个项目已经有很多文章了,我只会尝试总结一下。 因此,一支优秀的DS团队通常包括:

  • 项目经理-管理项目,负责整个业务部分;
  • 数据科学家-建立模型;
  • 数据工程师-收集数据并准备生产管道;
  • 开发人员-引入DS解决方案。

所有角色都是非常可变的,并且可以根据您的需求而变化。 例如,有时一个团队可能仍然有一个业务分析师,有时可能一次有多个数据科学家,有时一个数据工程师和一个开发人员可以是一个人。 团队有很多选择,您需要建立自己的需求。 或者尝试几种选择最佳的。

除了标准团队之外,要从头开始创建部门,您不仅需要上述列表中的优秀专家,还需要一位传播者,他将向所有人解释DS的含义以及它对其他部门的好处-同一位首席AI官/首席数据官/首席数字官(选择您自己的名字)。 值得一提的是,如果您聘请一位数据科学家并将任务交给他,分析师,架构师和开发人员,则不应期望获得快速的结果,而且,这可能会剥夺此人的积极性,并且公司将来将拥有一个成功的部门。

如果公司规模很大,并且有很多开发大数据的机会,那么您还需要Data Architect,它将配置架构,多线程数据收集并部署Hadoop或Spark(用于处理大型数据阵列的系统),公司的数据科学家将已经与之合作。



不要忘记内部沟通和培训


试点项目结束后,有必要积极发展团队。 公司应至少组织两种培训:
对于数据科学家而言,这可以是关于各种主题的研讨会,每周会议,黑客马拉松,大师班。 另外,您应该注意为团队购买在线课程(例如,使用Coursera),甚至可能将其放在KPI中。 这将有助于使团队在快速发展的领域中保持最新状态并改善内部互动。
对于项目经理和高层管理人员来说,它也可以是研讨会,形式是对业务案例或公司的AI策略进行分析,或者,例如,基础课程了解机器学习和深度学习技术(可以做什么和不能做什么,基础知识技术)。 这只会帮助管理层从DS中获得期望。

同样,很可能甚至在DS部门创建之前,公司就已经有兴趣的人-这些人可能是参加过一些DS课程的开发人员,或者想成为DS项目经理的商人-他们应该被部门吸引并帮助他们发展。 例如,在对开发人员进行机器学习方法方面的培训后,您将获得一名优秀而有进取心的专家,​​他了解公司的内部结构,并且比一般的市场数据科学家还便宜,后者也需要时间来弄清楚。



外部沟通很重要


这个项目经常被遗忘,但它和其他项目一样重要。 机器学习专家的市场人才严重短缺(近年来一切都在开始改善,但仍然如此),每位优秀的数据科学家都了解他的价值,而是选择他想要工作的公司-因此,提供高薪现在还不够,需要参与项目。 为此,您应该正确地建立外部沟通-与媒体,舆论领袖,社区合作,讨论已实施的项目,在各种主题出版物中撰写文章,在会议上发言,赞助黑客松等工业活动等等,这只是其中的一小部分如何吸引人才到公司。

综上所述,总而言之,我只是说我没有特别提到数据科学部门在处理过程中遇到的困难,而只是讲述了创建它所需要的过程。 如果您要添加内容-欢迎发表评论。

Source: https://habr.com/ru/post/zh-CN436052/


All Articles