如今,几乎每个企业都感到需要进行数据挖掘。 数据科学并不被认为是新事物。 但是,对于每个人来说,聘用的专家应该是什么都不是很明显。
本文不是由人力资源专家撰写的,而是由科学家撰写的,因此演示文稿的风格非常具体,但是有一个好处-这是一种内部外观,可让您了解数据科学家对该行业所必需的素质,以便公司可以依靠这种素质。人。序言
数据科学初创企业从纸尿裤中脱颖而出的时机已经到来-分析任务的数量以出乎意料的速度增加,并且这种速度立即不再由自动化来补偿。 很明显,我们需要团队中的新人才……
起初在我看来,一个人被要求是非常明确的:只是一个普通的约会对象,有……程序员,分析师,统计学家。 那么,编制需求清单的困难是什么?
“在工程学中,如果您不知道自己在做什么,则不应这样做。”
理查德·汉明
我照常处理此事。 他拿出两张纸。 一个叫做“技术技能”,另一个叫“专业技能”。 在那之后,人们渴望爬上任何资源,在那里找到一堆履历表,写出质量清单,选择自己喜欢的人选。 但是有些事阻止了我。 “这不是我的方式,”我告诉自己。 “我不明白。” 我理解任务..”
我试图摆脱任务。 我们的任务很简单。 您收到的可疑内容的CRM响应速度迟钝,并要求您提前几个月预测销售量。 很简单。 任何人都可以处理...免责声明:如果您可以了解客户的业务。 理想情况下,为此需要一个工作组,该工作组从所有其他任务中抽象出来,并致力于分析这一特定任务。 在入口处(客户的意愿,在出口处),可以检查解决方案,而无需深入细节,也无需重复执行的工作。
从这里,我提出了某种形式上的第一个正式要求-一个人应该能够承担单独的任务,并且在接到第一个粗鲁决定之前不要特别拉扯任何人。 然后,可以通过吸引专家来改进此决策。 但是在第一阶段,使用其他人就像对一个人进行监督一样。 监督者可以随时撤离新来者,并开始为他做任何事情,从而使招聘毫无意义。
基于此第一要求,我很快填写了第一张表:认识python,能够从不同来源提取信息,存储信息,使用AWS,了解服务器和统计信息,能够随机处理。 稍后,我在基本版本中添加了经济性。 结果是确保满足第一个要求所需的技能列表。
但是,凭借职业素养的清单,我没有成功。 即使是谷歌搜索,我也没有发现任何合适的数据科学家专业要求。
要么提出“责任”形式的一般表述,要么将质量理解为技能,这属于另一个列表。
他自己的想法混杂在粥中,很难系统化。 全局与特定的混合在一起,仅适用于某些任务。 在我看来,忍受过于笼统的品质以及候选人以后再也无法使用的品质,这是非常错误的。
在这里的某个地方,问题的思想诞生了。 在我看来,这是一种很好而优雅的方式,可以满足对需求列表进行哲学思考的需要,并同时收集必要的列表,以查看解决方案中的错误。
任务说明
这位企业家决定在羽毛球场开一家商店,这样游客就不必去超市买shuttle子和球拍了。
全年中,企业家保留所有购买的收入,以便随后了解应该做出哪些决定来增加利润。 来自检查的信息包含在附加的
train_dataset.csv文件中。
他包装了羽毛球和球拍,并专门出售三种类型的玩具:
- 球拍和两个羽毛球
- 球拍和五个羽毛球
- 十只shuttle
企业家不得不时不时地改变价格,以适应超市价格和税率。
商店和法院在没有休息日和节假日的情况下工作。 由于场上只允许4个人进场,因此客流量有所限制,而且球场是预先预订的,为时2小时,球场内只有3个球场。 然而,并非没有一天没有交易,因为有时完全没有准备的人来到球场上,或者有人撕裂了球拍或丢了羽毛球。
一年后,企业家决定安排一次销售,销售持续时间为1月1日至1月31日(含)。 他重新分配了商品集并为他们分配了以下价格:
- 只有一个球拍-11美元80美分
- 五只co子-5美元90美分
- 一球拍和一羽shuttle子-12美元98美分
必须确定一月份企业家的收入规模。
概率敏感性
“我相信最好的预测是基于理解
参与基本力量的过程。”
理查德·汉明
该任务是模仿生活中的真实任务而拟定的,但是是以人为隐藏的方式进行的。 因此,一些公式被应用于创建数据集。 假设,用随机变量调味,但使用公式。 无论如何,都假定数据科学家能够检测并使用这些公式进行预测。
当然,不应放弃数据集未提供完整图片的可能性,该图片无法使公式以必要的精度恢复。 但是对于现实生活中的这种情况,我们想出了哪些附加信息以及从何处获取信息。
通常,寻找“宇宙定律”的愿望是一种良好的职业素养。 也能够理解寻找的内容和寻找的位置。 海明先生知道他在说什么。 多亏了他,第一行出现在我的需求清单中:
检测因果关系,描述它们,制定条件的能力,在这种条件下可以将关系转换为对业务有用的公式。我在这里使用“对企业有用”这句话并非偶然。 在我的个人实践中,通常会发现,问题的答案不是带来业务利润的原因,而是通过打开某种内部依赖关系而获得的附带结果。 在某些情况下,这为初创公司带来了额外的资金,新的合同,并增加了专有技术和副产品的数量。
因此,在分析发送给我的决策时,我仔细观察了候选人如何使用有关数据集人为性的知识,他是否会在某个时候要求其他信息还是证明数据集足够完成任务。
自信心
“如果某个事件引起了我们的注意,则关联记忆开始寻找其原因,或者更确切地说,已经存储在记忆中的任何原因都被激活。”
丹尼尔·卡尼曼
我不会说联想记忆是不好的。 她是我们想象力的来源和动力。 幻想使您能够生成假设,直观地提出假设,快速找到可能存在联系的那些变量对。
她以偏见确认的形式将我们带入潮流。
我们已经习惯了自己的经验和知识,因此开始将它们传播到新的情况。 在生活世界中,这通常是有用的。 说,相信所有蛇都是有毒的,可以挽救更多的生命,而不是怀疑这条特定的蛇没有毒。 但是在安全的办公室中,有足够的时间,最好将任何判断都视为假设。
任务数据集经过特殊设计,时间间隔仅涵盖一年的观察时间。 在考虑图表的阶段,候选人最好提出有关季节性波动存在的假设。 很少有人说需要验证这一点,这是不好的。 而且,有些人未经检查就坚持存在季节性是非常糟糕的。
因此,我在质量列表中输入了以下内容:
思维的关键性,包括与自己的经历有关。我真的很想在这里添加“和知识”,但是在我看来,这份后记开辟了一个新的大话题。
神经症
“已经发展了这种理论,我们再次转向观察,
去检查她。”
格雷戈里·曼奎
数据科学文献研究了自动进行假设检验的方法。 但是,我很少达到使用它们的准则。 因此,一旦我在两个看似截然不同的活动之间混淆(检查统计假设和检查模型),就不要相信。
同时,更令人困惑的是,统计假设的概念与一般假设之间的差异被忽略了。 为了避免在我们的文章中出现这种混淆,让我将假设一词用于假设的一般概念。
在上一段中,对数据集进行了这样的假设,即存在季节性。 将季节成分定义为定期重复是非常直观的。 在这里,您应该立即问自己一个问题:必须重复多少次才能将其视为季节性? 此外,我们是否可以基于定期重复来确认数据集中存在季节性成分,其时间间隔仅为一年。
如前所述,间隔的长度是特别选择的。 我希望候选人有必要并且有机会提供自己的方式来检查所讨论任务的季节性可用性。 我还将这种质量添加到所需的专业素质列表中:
以标准方式检验假设并提出新的检验方式的能力。可能“想出新方法”听起来太大声。 我很少遇到需要提出新的东西的需求。 问题“如果?”之后的简单考虑方法非常合适。
亚历山大·切尔努基(Alexander Chernookiy)在漂亮的文章
“这是正确的,但错误的”中,举例说明了一些概率问题的快速,几乎直觉的解决方案。 在我看来,类似的机制非常适合测试假设。
首先,我们将考虑要找到哪种季节性。 季节性可能是我们未知的外部因素,它代表数据中某种超自然的可重复性。 通过单独写出季节性分量并显示其稳定性程度,可以描述这种季节性而无需超出数据集。 而且季节性可以隐藏在已知数据中。 例如,如果季节性会影响购买者的数量以及销量上的购买者数量,那么如果我们提前知道何时以及哪个购买者会出现,则不太可能需要季节性作为单独的现象。 因此,我们将精确地寻找超自然的季节性,因为我们不知道并不需要它。
现在让我们假设这种季节性不会影响销售。 然后,所有销售波动都是随机的,或者您可以发现它们与其他变量的变化之间的某种关系。 这种依赖性如何充分描述正在发生的事情? 还会有超自然季节的余地吗?
也就是说,要检查季节性是否存在,我们可以找到已知变量的所有依存关系,然后从波动中减去这些依存关系,然后看一下其余部分。 此外,如果余数的展宽足够小,那么在寻找超自然值时也许根本就没有意义。
因此,在没有足够长的数据间隔的情况下,我们获得了一种检查季节性的简单方法。
注意事项
“我们不准备了解罕见事件。”
罗伯特·班纳
在寻找两个量之间的关系时,我们首先尝试感受它们的相互变化。 也许没有比线性回归更简单,更精致的方法了。 即使在数量之间的定量关系未知的情况下,也可以帮助形成关于该关系的意见。 好吧,它还有许多其他优点。
和缺陷。
实际上,两个量之间的关系远非总是那么简单,以至于可以通过数值特性来识别。 无论两个量之间的线性近似关系多么美丽,总有可能我们正在处理更复杂的事物。 英国数学家
弗朗西斯·恩斯科姆(Francis Enscombe)举了四个例子
来说明这种现象,后来又被称为
恩斯科姆四重奏 。
将类似于Enscomb的四重奏的内容放入任务中,是一个好主意,并且非常容易实现。 尽管这种现象很流行,但仍有许多候选人为之垂涎。
问题中该现象的实现如下。 假设有三组客户,每组客户在购买时都会产生一定的兴趣。 两组的行为相似,其行为以需求和价格之间的线性关系表示。 但是第三组则不然。 当价格过渡超过某个阈值时,该组的买家就急剧停止购买超出必要最低限度的商品。
这种现象在现实世界中非常普遍,可以模拟Enscomb的示例之一,并将其隐藏在其他两个发行版中。
实际上,“隐藏”并不适合这种情况。 我只是将此发行版放在其他人熟悉和可理解的旁边。 在我看来,差异在图表上很明显,但并非所有人都注意到。 候选人之一试图通过移至更高阶多项式来“改善”近似值的尝试尤其有趣。
因此,我对职业素质提出了另一项要求:
为了能够隔离重要的观察,请建立关于其重要性的假设。冲动性
“该仪表已广泛使用了五年,并经过了三次检查。”
蒂莫西·里瑞(Timothy Leary)
先前,我描述了一种情况,在这种情况下,无法解释的余额变得如此之小,以致于在模型其余部分提供的商业利益的背景下,其影响变得难以区分。
但是,您需要了解“这么小的”一词背后可能隐藏的内容。
通常,我们使用某些仪器来观察和测量世界。 像尺子一样简单,或者像电子显微镜一样复杂。 复杂设备包括安装了统计编程环境的计算机。
从某种意义上说,我们所做的任何观察或结论都可以视为测量的结果。 我们查看问题的情况,并在尚未发生的时间间隔内衡量收入。 在这里,我用“测度”一词代替了许多“预测”一词的神秘和魔术。 作为日常工作的一部分,我可以这么说,因为用相当高的准确性进行的预测已被常规计算所取代。
但是任何测量都不是非常准确的。 每个设备的缺陷都会导致测量误差。 并且在测量中,必须指出其准确性,为此,连同获得的结果一起,指出置信区间。
置信区间的指示甚至不是建议,而是经常被忘记的必要性。 而且,尽管我会说一些学究的方法,但我相信计算置信区间是自尊的行为,而以下品质是数据科学家必备的素质:
遵守算法和方法的形式要求的准确性,尤其是在计算置信区间并检查必要和充分条件时。延展性
“这一规定并不完全正确,但对于大多数情况下的实际应用来说已经足够正确了。”
弗朗西斯·恩斯康布
到目前为止,我还没有讨论此任务最引人注目的功能。 预测间隔的特点是所售商品的变化很大。 现在该解释为什么此更改出现在任务中了。
上面,我已经概述了关于检查各种假设的可能性的观点。 验证应始终如此。 如果某项无法验证,或者验证方法未知,则应概述各种选项; 它们可能会成为进一步研究的原因。 但是同时,有必要根据已知信息尽可能地描述这种情况。
实际上,我们对销售了解多少? 由于已知和列出的原因,有些人进行购买。 您几乎可以完全模拟整个过程,因为我们找到了所有依赖关系,并且发现无法解释的残渣是正态分布的,并且分散很小。
问题开始出现:购买的商品量是否满足人们的需求? 当需求没有得到满足时,他们会怎么做? 例如,如果他们认为产品价格过高,该怎么办? 需求的线性依赖性从何而来?
实际上,这些都是业务问题。 并且,当然,应该请他们作为其领域的专家来要求企业所有者。
最后,初始数据集远没有总是充满,并且即使有专业分析师团队,业务也不是一无所知。实际上,业务之所以转向数据科学正是因为不是每个人都知道。但是,如果……如果有一个仅使用我们已知数据来描述情况的可验证且一致的模型怎么办?这也值得一试。结语
让我最后列出我写出的数据科学家的专业素质。- 检测因果关系,描述它们,制定条件的能力,在这种条件下可以将关系转换为对业务有用的公式。
- 思维的关键性,包括与自己的经历有关。
- 以标准方式检验假设并提出新的检验方式的能力。
- , .
- , .
以这种组合形式,清单对我来说似乎很明显。也许是因为它在某种程度上重复了认知偏见的清单。顺带一提,这使我想到了后验观测的自然证据。但是,我还记得第二张空白纸上的冥想时间,并且我知道如果不完成这份工作,这份清单是不会被编译的。有趣的是,事实对一个人的重要性不一定对另一个人显而易见。可以从我从数十名候选人那里收到的问题的解决方案中轻松找到这一点。作者:Uninum的
联合创始人兼CTO Valery Kondakov 联合作者:Uninum的联合创始人兼首席执行官Pavel Zhirnovsky聚苯乙烯
19/6/25的职位空缺统计数据职位空缺日期:19/05/19职位空缺总数:2727 答复总数:94- 他们为该问题提供了解决方案,但事实证明是错误的:20%
- 他们同意解决问题,但未发送答案:30%
- 由于各种原因而拒绝考虑简历的阶段:45%
- 他们发送了接近正确解决方案的解决方案:5%