数据科学家和跑车少年之间的区别



最近,出现了许多课程,包括学术课程和私人课程,旨在培训数据分析和培训能够使用机器学习解决业务问题的专家。 如果您仔细查看这些课程的计划,它们几乎都是相同的,区别仅在于培训形式(在线离线)和教师方面。

数据学院于2015年开始开设此类课程。 而且,他们开始按照相同的场景去做。 我们根据经验审查了各种机器学习学术课程的大量程序,只选择了解决实际问题的真正需要的东西,并制作了许多Jupyter笔记本,试图用手指找出数学和机器学习内容。

我们尝试主要讲授机器学习技术,文字处理方法,神经网络,网络结构分析,推荐系统和其他数据分析领域。 看来学生的评论很好,但仍然缺少一些东西。

考虑到我们的主要活动是在Data Studio框架中开发实际任务,因此学生首先要为自己做好准备。 我们很快意识到,实际上,正如数学家所说,数据分析和机器学习方法的知识是“必要但不充分的条件”。 这就是为什么我们在考虑实际需求的情况下非常快地更新班级课程的原因。

简而言之,我们得出的结论(以及我们现在在此基础上建立培训):

  • 机器学习和神经网络技术被高估
  • 机器学习技术吞噬了分析思维文化
  • 为了实现涉及数据分析的项目的经济效果,软技能比机器学习的深入知识更重要
  • 数据科学家的专业被大大高估了,将不再有通用专家

以下段落将讨论所有这些问题。

大型公司中正在尝试使用现代数据分析和神经网络方法解决的大多数任务已经解决了很长时间。 银行是风险管理中最成功的案例。 在电信中,这就是CRM / CBM,其中整个业务模式与LTV用户的增加紧密相关。 零售的工作方式类似-提供核心业务的若干任务(RTO预测,库存管理,促销)。

有些制造公司的主要任务是一方面提高制度的稳定性,一方面减少损失和进行预测性维护,另一方面又要管理库存余额和营销。

这些任务并不是新任务,他们的分析师已经解决了很长时间。 而且,那些了解主题领域的分析家。 而且,在大多数情况下,有相当多的供应商实际上是单个任务的标准,例如定价管理(对于零售)或APC系统(对于生产)。 而且,通常,在这样的系统中包括机器学习的优化算法已经到位。

要在这里赚到根本上新的东西并从中赚钱是极其困难的。 俗话说,“从树上掉下来的苹果”已经被收成。 仍然仅搜索分析能够带来经济效果的新业务案例。 确实有这样的例子-并且越来越多。

但是,要找到此类示例并查看分析的效果并不容易。 为此,您需要能够深刻理解特定过程的主题领域(对此的描述通常不是这样)。 了解通常需要哪种数据,了解业务的确切用途。 了解这里是否需要分析,是否需要某些预测算法(经常),是否需要更改业务流程(通常是),是否存在操作手段(如果仍然没有避免方法来预测设备停机的意义所在) ?)。

因此,在实施这样的数字产品的过程中,出现了许多问题,这些问题需要一种分析方法,某种与数据打交道的文化,提出假设,向自己提出问题以及以企业所有者的角度思考的能力。 事实是,这不是在数据分析学院教授的,也不是在Coursera教授的。 是的,现代课程可能会训练优秀的工程师和数学家,但没有分析师,他们没有。

而且,机器学习方法和神经网络的知识更有可能杀死分析思维的文化。 大多数现代数据科学家,如跑车背后的孩子,都认为自己与众不同(他们对xgboost,神经网络等有很多聪明的认识),他们不知道如何驾驶(但为什么汽车能为您做所有事情),他们只会飞快地走因为它有很多马力(强铁,虽然这里更容易重新训练)。

结果,我们得到了如下图:一些聪明,亲爱的人来了,几乎不问任何问题,说数据可以告诉我们一切。 他们获取一些数据,然后得出-他们说他们建立了某种模型,他们称准确度为百分比,仅此而已。 当您开始挑战时-他们用奇怪的话说,粉碎智慧,但是他们没有任何意义。

这说明,现在在进行数字转换或数据分析的承包商中,主要是咨询咨询公司(而非IT)占主导地位。 因为他们具有分析文化和业务思维文化,所以他们总是可以减轻麻烦,提供解决方案。 他们不仅限于建立机器学习模型,还可以进行有助于做出决定的真实分析。

当前,世界上正在发生的另一种趋势是,即使数据科学家的成功率较低,它也不是通用的。 在许多公司中,最初创建的用于数据分析的集中式结构已经分布。 中央办公室仅起到提供基础设施的作用,而整个杂货店部分,真正的数字产品已经直接在业务部门中制造。 在这种结构中,数据科学家(假设他是“正确的”)成为该领域的专家-职能已转移给他,直到那时,才由在他之前工作的“老”分析师支持。 如果成功,他还将获得操作杠杆。

结果,越来越多的趋势使成功的分析师掌握操作杠杆,并且责任也越来越大。 但仅在一个主题领域。 我们预测(正如市场上的大公司所证实的那样),将不再有通用的分析师了-炒作已经结束,现在是对结果负责的时候了。 那些可以借助分析解决业务问题的人将去杂货店部分,而那些可以教授xgboost的人将回到学院或进行有关机器学习的讲座。

这就是为什么我们已经完全修改了我们的课程(包括因为我们将许多毕业生带到了Data Studio ),并且现在:

0.首先,在每个学生的入口处,我们会看到未来的员工,他们将与我们同舟共济,并参与大型项目。 因此,我们对这3.5个月的学生准备得尽可能有效这一事实感兴趣。 如果需要了解特定算法的细节,您总是可以有时间在Coursera上下一门课程。 但是,要获得实际案例的经验要困难得多。 这就是为什么:

1.培训基于案例方法。 我们承担实际任务,首先我们要分析业务模型,单位经济,我们要根据实际数字了解什么质量,这是我们必须完成的任务。 我们评估潜在的经济影响。 之后,我们才开始处理技术部分,逐渐投入分析方法,机器学习和神经网络。 重要的是-仅在此任务中确实必要时我们才这样做

2.我们与每个学生单独合作。 尽管我们试图招募一个同类的团体,但我们了解人们是不同的-每个人都有自己的个性化培训计划和作业。 我们认为,当几十个人解决同一问题时,这是胡说八道。 即使就常识而言,这也不有效。 所有学生都会在聊天室中收到老师的回答,永远不会把任务与学生一对一扔掉。

我们在入口处预先警告的唯一一件事是,培训将需要大量时间,您将不断需要做功课,深入细节,并经常在周末度过培训。

我们知道,这不是一个大众的故事。 Data Studio已成功运行了几年,其中包括因为难以使用它。 我们深知,在当前的现实中,与Coursera一起上课程之后,发展分析要容易得多。 这就是为什么最有动力的学生最初来到数据学院的原因 。 通常-小组的人数不超过15-20人,这使您可以使培训几乎完全独立。

更不用说我们完全考虑了整个技术方面的事实-预先准备的Jupyter笔记本,有效的远程参与者交流系统,在线广播-所有这些甚至可以帮助远程参与者直接与课堂上的其他孩子进行交流。

我们不教数据科学家-我们训练的是成熟的人,他们可以借助分析来解决业务问题。

课程的开始时间是9月23日。 如有项目问题,请通过Data Studio与我们联系。

Source: https://habr.com/ru/post/zh-CN467239/


All Articles