您需要打开灯泡的数据科学家数量(或哪个团队可以使数据为企业服务)



“您需要转动多少个dat科学家?”
-第一,如果成功选择了成功扭曲的灯泡就足够了。

当然,这只是个玩笑,但是在公司中,要驯服大数据以提高业务绩效,并不是每个人都知道谁会驯服它。 经典观点:您需要数据科学家-可以构建模型,了解人工智能和机器学习的数据分析师。 这个人决定一切。

同样,有一种趋势是,当在公司中组建大数据部门时,数据科学家就是主要雇用的人员。

实际上,一切都更加复杂。 当然,没有科学家的约会,就没有大数据的工作,但他并不是这个领域的战士。 通过实例可以更好地理解还有谁应该与他并肩作战。

调解员


假设有一个健身俱乐部网络想要使用大数据。 数据科学家解决了预测客户除了基本培训之外还倾向于使用其他一些私人客户的问题。 该专家收集有关谁以前做过的数据,并建立了成瘾模型。

问题出现了-什么训练? 我们将如何建议他去找他们? 有必要将培训清楚地分为男性和女性。 按业务逻辑划分-如果某人已经聘请了高级培训师,则我们不应该提供非高级培训师。

还是银行业的一个例子。 银行有自己出售的产品,有些往往与他人一起出售。 我们买卡或贷款,同时我们卖保险。 保险公司也有类似的故事。 我们可以购买汽车保险,但同时可以并行购买人寿保险。

因此,如果您不了解业务,但是有一项预测某种购买的任务,则可以执行以下操作:“看,我们的很多客户都在购买此培训/保险”。 并开始在其上构建模型以刺激销售。 但是企业知道,这种培训/保险只与某些东西结合在一起。 甚至该模型可能还不错,但是该产品无法单独运行。

建立模型时,总是会有一组与业务运作方式有关的介绍性注释。 如果我们错误地制定了它们,那么就没有意义了。 因此,除了实际的科学家数据之外,您还需要一个产品所有者-一个产品经理,他将使数学与企业成为朋友。

这两个角色对于大数据团队来说是必须的。 重要提示:如果我们有多个业务部门,那么对于每个方向,我们都需要我们自己的产品。 数据科学家可以是通用的。

您甚至可以说产品负责人就是一切的开始。 谁提出给定公司的机器学习案例研究,然后推动这些案例的实施。

但是正如他们所说,这还不是全部。

挖掘机程序员


想象一下,一家银行决定为经常出国旅行的客户推广特殊卡。 他可以定向哪些历史数据来形成所谓的符号? 最明显的是,在某个时间点,客户的卡上有一笔国外交易。 症状很简单,但是需要给它明确的要求。 这样的交易一年几次? 在什么时候? 在什么时期? 所有这些都需要制定,然后从简单数据进行编码,以便正确选择属性。 为此,您需要一个单独的人-数据工程师。

角色的任务确实不同。 数据科学家必须建立一个好的模型。 负责人选择了要使用的功能,案例,算法,如何进行优化以使模型快速运行。 数据工程师更像是程序员或数据库开发人员。 他需要从10/100/500个不同的表和源中收集数据,对其进行计算,比较,并考虑这一点。

重要的一点:数据工程师在第一阶段没有打开电源。 正如我们已经看到的,开发周期包括实验阶段(MVP-最低限度可行的产品)和生产阶段。 在进行实验时,每次上传什么数据时都很难向工程师清楚地描述数据。 有创造力,正在制定假设,数据以不同的方式旋转。 在这里,即使科学家和工程师之间稍有不舒服,也会使MVP的准备工作延迟数周。

更准确地说,数据工程师会进行数据准备的第一次迭代,因为如果没有数据,那么数据科学家将无事可做。 此外,数据科学家可以迭代地为模型构建功能。 模型成功后,需要根据Data Scientist的规范将其转换为生产性数据工程师,然后编写用于常规性状计算的生产性代码。

因此,当前趋势是:在MVP阶段,科学家独立准备数据。 但是,当模型建立并且所有人都接受时,数据科学家清楚地描述了他需要的属性是如何形成的,并将其传递给受过单独培训的人员。 他对它们进行编程,以便它们在产品中不断使用。

另一方面,如果您尚未确定业务目标,但是公司拥有大量要使用的数据,那么这个故事也可能会发生变化。

在这种情况下,我们有条件地尝试100例100 MVP,可以从中射击。 如果您在每种情况下扩展构造MVP的过程,则80%用于数据准备,而20%用于模型本身。 每次都必须从不同的和多种格式的源中获取数据。 将它们收集成合乎逻辑且易于理解的迹象:例如,“在N点进行的交易”应变成“每年多次出国旅行”。

这项工作需要很多时间。 如果我们使用某种数据向量并建立了一个模型,结果证明它是错误的,那么我们返回并再次上传数据。 每个案例有100个。您只能用一种方法来优化这些迭代-如果我们事先拥有所有可能的属性的大型“展示柜”-成千上万。 创建这样的“展示柜”是日期工程师在日期科学家的指导下的任务。 实验大大加速-可以快速选择和更改模型的输入参数。

乐团大数据指挥


我们收集数据,建立模型,结交业务朋友。 这就是全部吗?

不是全部。 这个大数据故事应该有一个领导者。 看来这篇文章是最简单,最容易理解的,但这并非完全正确。 领导者应结合通常通常不是很融合的两个属性。

如果我们从头开始创建大数据,则需要战略家和卖方作为指导的领导者和推动者。 他将向整个公司解释为何使用大数据如此重要。 显然,在进行创新之初,很难提出明确的业务案例,因为它是基于大量假设的。 因此,策略师将解释:伙计们,我们将按照“自顶向下”(top down)的原则计划大数据。 并设定不同程度的全球化目标,例如:

-五年后,来自与大数据相关的项目,产品的收入占我们收入的10%
-将违约风险降低20%
-减少30%的低效率办公室

等等。

另一方面,该策略师必须能够在组织内部推销该想法。

问题是,如果已经找到这样的人,那么他在战术上就很难。 要在物理层面上体现战略家的想法,您需要一个操作人员。 他将建立业务流程,分析师,产品经理,敏捷地进行所有工作。 所有这些都必须迅速起作用,这一点很重要。 因此,领导层分为两部分:战略家负责光明的未来,经营者从属于战略家并执行计划。 他们都不能独自应对。

您仍然可以从完全不同的角度看待这个问题。 想象一下,大数据技术的实施计划是在一家大型传统生产公司中进行的,这些公司都是新技术。 谁来负责? 来自外部的,具有在该领域不同行业中应用大数据和丰富知识的丰富经验,或者来自内部的,长期在公司工作的,具有较高职位的人员,已经实施了许多人人皆知并尊重的项目?

我认为很明显,内部人员知道公司内部的运作方式,知道人员和那里的流程将会取得更大的成就。 因此,要帮助他,您需要从外面雇用一个具有实施大数据经验的人员,以便他指出必要的方向并管理大数据团队。

放在阳光下


我们决定了组成。 仍然需要将大数据乐队隶属于正确的部门。

在我们正在优化的业务方向上定义它是合乎逻辑的。 如果公司成熟,那就好。 然后,您可以尝试将大数据放入目标销售中。 我们需要一个业务部门来使其运作。 例如,对于一家银行,如果要保留客户,我们需要一个分支机构,该分支机构可以与模型选择的客户进行交流并实际保留他们。 如果要使用大数据来计划银行办事处的位置,则需要一个分支机构来处理这些办事处的开设。 我们想要优化数据以进行银行评分-我们需要一个负责风险的分支机构。 如果没有负责处理模型结果的业务部门的指导,那么它将一事无成。

在全球范围内,如果没有直接的上层支持,这个话题就不会成功-您需要相同的自上而下的策略。 尤其是当您需要一个已经在其流程中忙碌的方向的支持,并且会斜视各种创新时。

想要了解更多有关在公司中实施大数据的方面的信息,请阅读我们网站上的其他出版物,或者来数据学院学习

该职位是由数据学院根据 Kyivstar PJSC的Business HUB中该学院创始人的出版而准备的

Source: https://habr.com/ru/post/zh-CN429236/


All Articles