新冠军ML新兵训练营VI。 预测受众对在线调查的反应



今天,6月25日,ML Boot Camp VI开始了“预测观众对在线调查的答复”的任务(如果您突然第一次听到ML Boot Camp是什么,请破坏一下)。

扰流板
ML新兵训练营是机器学习冠军。 工作计划:我们给任务,参与者在一个月内解决它并发送解决方案。 最佳解决方案的作者将获奖。 上一次,我们将MacBook Pro放在第一名,第二名是NVIDIA 1080ti,第三名是NVIDIA 1060,第三名是WD My Cloud 6 TB,第四名。 按照传统,我们将带有冠军标志的T恤发送给了50位最佳参赛者。

每次举办新比赛时,ML新兵训练营的观众都在迅速增长(目前已经注册了来自20多个国家的7,000名参与者)。

开始时,参与者会收到任务的条件和可用数据的口头描述-培训样本。 该样本由带标签的示例组成-每个对象的描述向量都有已知答案。 参与者使用他们已知的机器学习方法,对计算机进行培训,并在测试样本上测试经过训练的系统,该样本分为两个部分:评分和最终评分。 赢家是在最终数据上获得最佳结果的人。

在锦标赛的最后一天,参与者可以选择两个代表他参加决赛的决定。 他们中最好的将进入排行榜。

您可以在锦标赛网站上找到规则和有用的材料。

这次,我们为您提供了进入营销深渊的机会:在下一次ML Boot Camp竞赛中,您可以通过一项大规模的营销研究来预测用户行为。

我们提供适当级别的任务,同时努力使专业人士和初学者都对它感兴趣。 在这个锦标赛中,您将找到真正的研究工作。

比赛的形式没有改变:锦标赛将持续一个月,即2018年6月25日至7月25日。 阅读以下有关奖品和任务的更多信息。

任务“预测观众对在线调查的答复”


有在线调查的结果。 众所周知,部分观众完全正确地通过了调查。 另一部分以错误或完全拒绝参加的方式部分完成了调查。 有必要以最大可能的准确度预测哪些受访者属于第一类,即已完全通过研究且没有错误。

主数据文件包含19528597行(10 GB),由6列组成:

1 。 cuid是一个标识符。 一个文件可以包含一个标识符的多个条目。
2 。 cat_feature是一些分类变量。 值范围:{0,1,2,3,4,5};
3-5 。 根据互联网上的人类行为收集的电表。 格式:{w_1:c_1,w_2:c_2,...},其中w_i是编码令牌,而c_i是此令牌的频率;
6 。 dt_diff-接收到目标变量的值的日期之前的天数。



以一小段数据为例:

00000d2994b6df9239901389031acaac 5 {"809001":2,"848545":2,"565828":1,"490363":1} {"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2} {} 39

必须为181,000名用户做出预测。 用于训练模型的数据集包含一个带有目标变量的标识符和值的表(427 995条记录)。

任务指标是ROC AUC。 这意味着答案是对类别成员资格的评估,其范围为[0; 1]。 实际上,此度量标准评估对象分类器相对于某一类的排序的正确性。 在这种情况下,我们对算法将给出的特定类标签或每个对象的特定概率不感兴趣。 我们对订购本身的正确性感兴趣。

当然,碰巧在特定应用程序的环境中,在roc_auc相等的情况下,一种解决方案可能比另一种更好,但是我们决定不使任务复杂化。

奖品


这次的六个奖项分配如下:

Top1:Apple MacBook Pro 13
Top2:苹果MacBook Air 13
Top3:Western Digital My Cloud Mirror
Top4-5-6:Western Digital My Passport 4 TB

与往常一样,前50名参赛者将获得带有冠军标志的T恤,而最有趣的解决方案的参与者将被邀请在Data Scientists的Mail.Ru集团接受采访。

社区MLBootCamp


加入我们的Telegram社区。 您可以随时提出问题,并获得数据科学领域的专家建议。 此外,Mail.Ru集团冠军社区正在建立联系,很容易找到志同道合的人。

报名


锦标赛今天在莫斯科时间19:00开始。 注册已经开放。 我们正在等待大家,祝你好运!

Source: https://habr.com/ru/post/zh-CN415191/


All Articles