
Kaggle是举办机器学习竞赛的著名平台,注册用户数量已超过250万。 来自不同国家的成千上万的数据科学家参加了比赛,而Kaggle变得对观众的兴趣感兴趣。 2018年10月,组织了第二次调查,来自147个国家的23,859人进行了回答。
该调查涉及多个主题,涉及数十个问题:性别和年龄,教育和工作领域,经验和技能,编程语言和使用的软件,等等。
但是Kaggle不仅是竞赛的场所,还可以发布数据研究或竞赛解决方案(它们被称为内核,类似于Jupyter Notebook),因此具有调查结果的数据集已在公共领域发布,并且组织了一场竞赛以对这些数据进行最佳研究。 我也参加了比赛,但没有获得现金奖励,但是我的内核在票数上排名第六。 我想分享我的分析结果。
数据很多,可以从不同角度查看它们。 我对来自不同国家的人们之间的差异很感兴趣,因此大多数研究将比较俄罗斯(因为我们住在这里),美国(DS方面最先进的国家),印度(DS众多的贫困国家)和其他国家的人们。
大多数图形和分析都来自我的内核 (希望在那儿看到Python代码的人),但也有新的想法。
一般评论
我立即注意到,回答问题的人并不是代表性的数据科学家。 并不是每个人都对花时间参加比赛感兴趣,有人只是没有听说过这个平台,最后,约有24000名受访者-仅占所有Kaggle参与者的一小部分。 尽管如此,我们只有这些数据,所以将来我会认为可用的信息足以得出有关国家和总体结论。

在此地图上,您可以看到不同国家的被调查人数。 大部分是美国和印度。 目前,也许可以将美国称为DS的领导者,再加上以前该领域已经很流行,这解释了很多人。 印度是一个人口众多的国家,长期以来一直关注IT。 感谢Siraj Raval开设的课程,DS越来越受欢迎并吸引了许多印度人。 中国远远落后于中国,但是我想这是由于他们的互联网距离太近。
在俄罗斯,加拿大,巴西和欧洲,DS的数量也很多,但是在这些国家中,人口要小得多,因此,他们仍无法从Kaggle参与者的数量上进行竞争。

让我们看看人们在调查上花费了多少时间。 如您所见,许多人在调查中花费了10到20分钟,这足以对问题进行深思熟虑的回答。 显然,不到两分钟的时间,问题的回答者立即或几乎立即结束了调查。 某人可能不喜欢该调查,某人可能懒得回答,某人不想回答有关性别的问题(更多内容请参见下文)。 一般而言,仍有人花了数十小时进行调查。 他们可能只是忘记了打开的标签:)
年龄和性别结构

通常,情况并不奇怪。 最重要的是,22-29岁,甚至18-34岁的年轻人都参加了Kaggle。 这些是学童,学生和应届毕业生。 他们很可能都寻求获取知识或取得令人印象深刻的结果,以便在寻找工作时获得优势。 男人比女人多得多。 总的来说,这并不奇怪,因为我们的领域融合了IT,数学和其他长期存在性别失衡的领域。 是否需要采取积极措施来纠正这种不平衡? 我不想讨论这篇文章。
值得注意的是,也可以不指定性别或自己指定性别。 让我们看看最受欢迎的选项:

在自由形式的答案中:
- 非二进制(足够)
- 攻击直升机(酷!我真的很想见我的父母)
- 男性(为什么不选择此选项?)
- 你是谁的暗示我有性别? (好吧,因为你是人吗?)
- Kaggle(好吧,至少不是kagglosexual)
- (下(您肯定没有将这个问题与其他人混淆吗?)
- 有点阳光。 :)(这太可爱了!)
- 双雄(直男子气概!)
- 男女是性别而不是性别。 性别是与我们的性别相关的一系列定型观念。 询问人口统计学上的性别,如果那很重要的话。 (检测到SWJ!)

看看不同国家在年龄和性别结构上的差异是很有趣的。
在美国,妇女所占比例高于其他国家。 这是因为在过去的几年中,一直在与“性别不平等”作斗争。 她是否需要是一个问题,但是结果是可见的。
印度以大量年轻的DS脱颖而出。 似乎这些家伙提前考虑了未来,并从童年起就掌握了技能。 稍后我们将看到印度的教育体系还有很多不足之处。
整个俄罗斯与其他国家相似。
学历



如前所述,在印度,学生或学士比例很高,但实际上没有博士学位的持有者。 俄罗斯之所以能脱颖而出,是因为许多DS没有接受过正规教育(或者他们不想回答)。 总的来说,这令人印象深刻-显然,他们能够凭借自己的努力和毅力进入DS领域。
有趣的是,DS在不同的国家/地区出现了不同的方向。 CS,IT和数学/统计学在所有国家都盛行,但在印度,技术方向存在偏见,在美国,商业学科(包括经济学)更为重要,在俄罗斯,物理学也更为重要。

在这个问题上,人们被问及在线平台课程的质量是否比传统教育好还是不好的看法。 在这里您可以看到国家之间的差异。 印度的教育状况很差。 也许根本没有足够的老师,也许教育质量很低,无论如何,大多数印度人更喜欢在线课程。 美国拥有发达的教育体系,因此,几乎有三分之一的人认为大学教育质量更高。 在俄罗斯和世界其他地区,传统教育的质量还不错,并且几乎不如竞争对手。
职位名称

作为他们要求表明立场的问题之一,在我看来,对于本报告的任务,根本不需要太多选择。 经过一番思考,我组成了7个小组,并得到以下图片:

在这里,我们看到另一个证实,许多拥抱印度人是学生和/或更多技术领域的代表。 美国因其对分析的重视而脱颖而出,而俄罗斯则在应用领域脱颖而出。
但是,让我们看一个更详细的图片:

在这里,我们可以看到一个人在当前职位上工作了多长时间。
引起您注意的第一件事-所有职位的绝大多数人都是新来者。 对于这个事实,我有两种解释:要么是大学毕业生,要么是改变了工作范围。 DS / ML的炒作是最近才开始的,在我看来,它只是在变得越来越强大,结果是越来越多的人希望加入一个新的方向并创建自己的人工智能(因为DS以外的人很少意识到不会有AI,并且不会在未来出现。年)。
另一个有趣的现象是经验丰富的数据工程师中有很大一部分。 我想很多经验丰富的程序员决定过渡到DS,但是DE离他们更近-大多数可用的技能都适合在生产中输出ML解决方案。 有趣的是,在俄罗斯,有5-10年和10-15年经验的DE所占的比例很高,显然这些都是Java和其他语言的高级开发,这对高负载系统非常有需求。 就我个人而言,我对俄罗斯经验丰富的研究人员所占的比例感到惊讶,直到我理解其原因为止。
在其他国家中,美国的分析家比例很高。 您会发现很多原因:在美国,DS经常被用作分析职位,并且在许多大公司中,数据分析师实际上在执行DS工作,并且可以对它进行重新训练,这是事实。
既然我们在谈论工作,我们不能不谈工资问题。

这里的一切都令人期待:印度的薪水最低,俄罗斯的薪水更高,美国的薪水最高。
自信心


对两个问题的答案组合对我来说似乎很有趣。 第一个问题是机器学习的经验,第二个问题是您是否认为自己是DS。 在这里,您可以观察到世界观和自我认知的差异,或者对问题的不同理解。
在大多数国家,经验不足两年的新移民意见不一-某人已经自信,某人非常怀疑。 随着经验的增长,自信也会增强。 在俄罗斯,绝大多数初学者都认为自己是DS,但是随着经验的积累,对此的信心下降了。
进一步的问题将在哪里可以指出几个答案,所以总和可能会超过100%
访问资源

Kaggle和Medium尊重一切。 在俄罗斯,他们喜欢阅读ArXiV上的文章,在美国,他们更喜欢https://fivethirtyeight.com (他们几乎从未在其他国家/地区访问过),在印度,他们喜欢Siraj。

我还要提及ods.ai,它是人们手动指定的最流行的资源。 还有谁不在我们社区中,加入:)
IDE和编程语言



在使用IDE方面,人们可以分为两大类:使用具有集成可视化功能的IDE(Jupyter Notebook,RStudio,Spyder)和使用经典IDE(VS Code,Vim)。
在使用R并因此使用RStudio的分析师中,美国表现突出。 但是,诸如Vim或Atom之类的想法也是已知的。 Pycharm在俄罗斯不仅在DS中很流行,而且在程序员中也很普遍,因此使用它的人数并不奇怪。
SQl,Java,Bash,C / C ++也是DS的重要语言。
构架

令我惊讶的是,使用DL框架的份额并不比使用sklearn的份额低很多。 也许许多神经网络吸引了他们,他们想从一开始就对其进行研究。 也许企业开始在其任务中使用神经元; 也许仅仅是许多Kaggle参与者对尝试图片和文字竞赛感兴趣。
另外,我想指出在俄罗斯使用Pytorch和梯度增强图书馆的人比例很高。 LGB / XGB / catboost是梯度提升的最著名实现,并且在表格数据上显示出很高的质量。 派托克(Pytorch)很久以前就出现了,但是在过去的1-2年中开始受到广泛欢迎。
可视化


没有可视化的数据分析! 通常,情况并不奇怪。 R是ggplot2,有光泽。 Python是matplotlib + seaborn,plotly / bokeh。
D3允许您创建很酷的可视化效果,但是很难使用。
Altair是Vega-Lite上的一个库,我希望它将来会因其提供的有趣的交互式可视化而获得普及。
Tableau和其他BI软件继续保持流行,这并不奇怪-这些都是受支持的高质量解决方案,可以与任何事物集成很多。


Coursera是在线教育课程的市场领导者。 在这里,您可以找到几乎任何主题和级别的课程。 一个重要的因素是您可以申请经济援助并免费参加课程。 Udacity,Udemy和edX不太流行,但是尽管如此,您也可以在它们上找到大量有趣的课程。 Kaggle前一段时间发起了自己的教育计划。 令人高兴的是,课程以内核的形式制作,这为使用Kaggle功能提供了实践。 DataCamp的课程采用独特的格式,可让您针对特定主题进行定点练习,但是该平台不太可能提供深入的知识。
另外,值得注意的是,ods.ai中的mls.course.ai是用户指定的最流行的选项。 最近,该课程的第四届会议结束,注册的学生超过7.5万人。 由于主要的交流是在闲暇中进行的,因此该课程以大量的人员结束-远远高于其他免费的ML课程。 该课程不仅提供理论知识和复杂的家庭作业,还提供参加Kaggle竞赛的实践。
口译工具

最后,让我们看看不同的人如何分析模型的结果。
对预测本身进行分析并将其分布与目标变量的分布进行比较是一种基本但定性的分析方法。 研究线性模型的系数或木制模型中要素的重要性,可以查找对预测影响最大的要素。
此外,用于模型分析的特殊框架最近变得很流行:SHAP,LIME和ELI5。 它们使我们不仅可以解释简单的模型,还可以解释一些被认为是黑匣子的模型。
总结
我们研究了DS在世界不同国家/地区之间的差异,并找出了将它们整合在一起的原因。 该分析未涵盖所有可用数据,但显示了我认为最有趣的数据。 那些愿意的人可以对这个数据进行研究:)
感谢您的关注!