👩🏻‍⚕️ 📖 🛰️ 新冠军ML新兵训练营VI。预测受众对在线调查的反应 ⤵️ ⚡️ 👧🏻

今天，6月25日，ML Boot Camp VI开始了“预测观众对在线调查的答复”的任务（如果您突然第一次听到ML Boot Camp是什么，请破坏一下）。

扰流板

ML新兵训练营是机器学习冠军。工作计划：我们给任务，参与者在一个月内解决它并发送解决方案。最佳解决方案的作者将获奖。上一次，我们将MacBook Pro放在第一名，第二名是NVIDIA 1080ti，第三名是NVIDIA 1060，第三名是WD My Cloud 6 TB，第四名。按照传统，我们将带有冠军标志的T恤发送给了50位最佳参赛者。

每次举办新比赛时，ML新兵训练营的观众都在迅速增长（目前已经注册了来自20多个国家的7,000名参与者）。

开始时，参与者会收到任务的条件和可用数据的口头描述-培训样本。该样本由带标签的示例组成-每个对象的描述向量都有已知答案。参与者使用他们已知的机器学习方法，对计算机进行培训，并在测试样本上测试经过训练的系统，该样本分为两个部分：评分和最终评分。赢家是在最终数据上获得最佳结果的人。

在锦标赛的最后一天，参与者可以选择两个代表他参加决赛的决定。他们中最好的将进入排行榜。

您可以在锦标赛网站上找到规则和有用的材料。

这次，我们为您提供了进入营销深渊的机会：在下一次ML Boot Camp竞赛中，您可以通过一项大规模的营销研究来预测用户行为。

我们提供适当级别的任务，同时努力使专业人士和初学者都对它感兴趣。在这个锦标赛中，您将找到真正的研究工作。

比赛的形式没有改变：锦标赛将持续一个月，即2018年6月25日至7月25日。阅读以下有关奖品和任务的更多信息。

任务“预测观众对在线调查的答复”

有在线调查的结果。众所周知，部分观众完全正确地通过了调查。另一部分以错误或完全拒绝参加的方式部分完成了调查。有必要以最大可能的准确度预测哪些受访者属于第一类，即已完全通过研究且没有错误。

主数据文件包含19528597行（10 GB），由6列组成：

1 。 cuid是一个标识符。一个文件可以包含一个标识符的多个条目。
2 。 cat_feature是一些分类变量。值范围：{0,1,2,3,4,5};
3-5 。根据互联网上的人类行为收集的电表。格式：{w_1：c_1，w_2：c_2，...}，其中w_i是编码令牌，而c_i是此令牌的频率；
6 。 dt_diff-接收到目标变量的值的日期之前的天数。

以一小段数据为例：

00000d2994b6df9239901389031acaac 5 {"809001":2,"848545":2,"565828":1,"490363":1} {"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2} {} 39

必须为181,000名用户做出预测。用于训练模型的数据集包含一个带有目标变量的标识符和值的表（427 995条记录）。

任务指标是ROC AUC。这意味着答案是对类别成员资格的评估，其范围为[0; 1]。实际上，此度量标准评估对象分类器相对于某一类的排序的正确性。在这种情况下，我们对算法将给出的特定类标签或每个对象的特定概率不感兴趣。我们对订购本身的正确性感兴趣。

当然，碰巧在特定应用程序的环境中，在roc_auc相等的情况下，一种解决方案可能比另一种更好，但是我们决定不使任务复杂化。

奖品

这次的六个奖项分配如下：

Top1：Apple MacBook Pro 13
Top2：苹果MacBook Air 13
Top3：Western Digital My Cloud Mirror
Top4-5-6：Western Digital My Passport 4 TB

与往常一样，前50名参赛者将获得带有冠军标志的T恤，而最有趣的解决方案的参与者将被邀请在Data Scientists的Mail.Ru集团接受采访。

社区MLBootCamp

加入我们的Telegram社区。您可以随时提出问题，并获得数据科学领域的专家建议。此外，Mail.Ru集团冠军社区正在建立联系，很容易找到志同道合的人。

报名

锦标赛今天在莫斯科时间19:00开始。注册已经开放。我们正在等待大家，祝你好运！

新冠军ML新兵训练营VI。 预测受众对在线调查的反应

任务“预测观众对在线调查的答复”

奖品

社区MLBootCamp

报名

More articles:

新冠军ML新兵训练营VI。预测受众对在线调查的反应