2019年冠军赛季已经开始! SNA Hackathon Ala ML新兵训练营8开始


你好

许多读者已经知道,我们试图不断举办各种主题的IT锦标赛。 仅去年一年,他们就举办了10多次不同的主要比赛( 俄罗斯AI杯ML训练营Technocub等)。 至少有25,000人参加,自2011年以来-超过150,000。

如果您现在就知道了这一点,那么恭喜您:从那一刻起,您就成为了一个由众多人组成的社区的一部分,这些人参加我们的比赛并彼此交流经验。 现在,您已经可以加入Telegram社区小组,从事人工智能体育节目高负荷项目和管理机器学习和数据分析的研究 。 这将帮助您快速参加认真的聚会!



所以,让我们开始做生意。 今天,即2月7日,我们很高兴开启2019年锦标赛的新赛季。 我们将从在专用ML Boot Camp平台(我们的Kaggle类似物) -SNA Hackathon或ML Boot Camp 8(根据您的喜好)上举行的第八次机器学习和数据分析比赛开始。

这项冠军的组织者是Mail.ru Group和Odnoklassniki。 我们建议在本文之后阅读智能磁带简要历史 ,其中Dmitry Bugaychenko讨论了在Odnoklassniki中对磁带进行排名的算法,这里有很多有用的信息。

现在,我们将介绍锦标赛的机制,时间表,任务和建议的数据。

冠军机械师


一切都很简单。 在ML新兵训练营举行的锦标赛开幕后,您需要:

  1. 阅读任务的条件(它们已经在本文中了);
  2. 选择要解决的一个或多个任务;
  3. 下载数据;
  4. 开始建立模型并做出预测;
  5. 将您的答案(常规文件)上传到测试系统。

每天您最多可以将您的答案文件上载五次。 系统将仅检查样本(公开)的50%的响应,因此结果将是初步的。 比赛结束后,其余样本(私有)的最终结果将显示给参与者。

如果您从未参加过此类比赛,则无需担心。 阅读本文 ,您将成功:)

日程安排


冠军赛分两个阶段举行:

  1. 在线-2月7日至3月15日;
  2. 离线-从3月30日到4月1日。

3月15日之后,将汇总中间结果,每项任务的高层领导将邀请15人参加第二阶段的邀请,第二阶段将在Mail.ru集团莫斯科办公室举行。 此外,决赛阶段的邀请将在2月23日结束时收到三名在排行榜中遥遥领先的人。

任务说明


在SNA Hackathon竞赛中,收集了用于显示2018年2月至3月用户新闻源中开放组内容的日志。 测试集隐藏了3月的最后一周半。 每个日志条目都包含有关显示内容和向谁显示以及用户对该内容的反应的信息:在提要中放置“类”,评论,忽略或隐藏。

任务的实质是为测试集的每个用户排列候选者的等级,从而尽可能多地培养那些将获得“课程”的人。

通常我们给一个任务,但是这次决定一次给三个。 您无需解决所有问题,仅需解决一个问题。 由于用户供稿合并了不同类型的内容,因此在对内容进行排名时,需要来自不同领域的技能-计算机视觉,使用文本和推荐系统。

作为在线阶段的一部分,我们提供三组数据,每组数据仅呈现一种类型的信息:图像,文本或各种协作属性的数据。

仅在第二阶段,当不同领域的专家汇聚在一起时,才会显示通用数据集,使您可以找到不同方法协同作用的要点。
在平台上打开冠军赛后,您将看到任务说明,并有机会下载参加比赛所需的数据。

资料说明


信息以Apache Parquet格式表示,这是Spark框架的主要格式。 要使用Python中的这种格式,我们建议使用Apache Arrow库。 为了便于理解,基线已发布在GitHub存储库中。 使用它!

在训练集中,数据按天排列,一天之内按用户ID分为6部分(同一用户始终属于同一部分)。 这样的布局使参与者不能一次分析所有数据,而是将自己限制在特定日期和/或用户子组中。

训练集分为三个不相交的组:带有文本,带有图片和具有协作功能。 在每个组中,数据包含以下字段:

  • instanceId_userId用户标识符(匿名);
  • instanceId_objectType对象类型;
  • instanceId_objectId对象标识符(匿名);
  • feedback -具有用户反应类型的数组(数组中存在Liked令牌表示该对象从用户那里收到了“类”);
  • audit_clientType用户已登录的平台类型;
  • audit_timestamp构建磁带的时间;
  • metadata_ownerId显示对象的作者(匿名);
  • metadata_createdAt显示对象的创建日期。

还为培训文本集中的对象提供了Apache Parquet格式的相关对象:

  • objectId对象标识符;
  • lang文字语言(基于Odnoklassniki语言检测器);
  • text -与对象关联的原始文本;
  • preprocessed -在过滤标点和词干之后获得的令牌数组。

在按图片排序的数据中,还有一个附加的ImageId数组ImageId带有与图片对象关联的MD5哈希值。 根据哈希的第一个字母,图像主体被安排在单独的tar文件中。

在具有协作特征的区块中,提供了各种其他信息:

  • audit_* -有关构建磁带上下文的扩展信息;
  • metadata_* -有关对象本身的扩展信息;
  • userOwnerCounters_* -有关用户与内容作者之间先前交互的信息;
  • ownerUserCounters_* -有关内容作者与用户之间先前交互的信息;
  • membership_* -有关用户在发布内容的组中的成员资格的信息;
  • user_* -有关用户的详细信息;
  • auditweights_* -当前系统检索的大量运行时属性。

测试集的结构与训练集的结构等效,但并非按日排列,也不包含feedback字段。

分数


冠军参赛者必须对磁带进行分类,以使“等级”可能性很高的物体位于顶部。 对每个用户分别进行排序,然后形成以下表单的提交文本(格式对应于从intint[]列从Pandas数据框中导出的内容):

 User_id_1,"[object_id_1_1, object_id_1_2]" User_id_2,"[object_id_2_1, object_id_2_2, object_id_2_3]" 

提交必须为测试套件的每个用户包含一行,并且这些行按升序ID排序。 每个用户的对象应按相关性从高到低排序。

在评估每个用户的提交时,将计算其个人ROC-AUC,然后将计算所有用户的平均值并将其乘以100。

赠品


第二阶段将以团队形式举行,获奖者将获得有价值的礼物,贴纸包和其他奖品:

  • 300,000卢布给赢得第一名的团队;
  • 第二名队伍:20万卢布;
  • 向第三名的团队支付10万卢布;
  • 陪审团认为,向提出该解决方案的团队提供100,000卢布,该方案具有最佳的实施前景。

此外,在线阶段的获胜者(每项任务的前33名领导者)还将获得精美的T恤。

加分 在线阶段的最佳和最活跃参与者将获得PlayStation / XBox的选择。 条件很简单-聊天案例中有很多图表,有趣的骗局上下,等等。 优胜者将由普选产生。

注册和社区


无需专门注册参加比赛。 只需在平台上注册一次就足够了,过去锦标赛的所有比赛和沙盒都将立即为您提供。

不要浪费时间。 社区正在等待新的英雄。 欢迎您

Source: https://habr.com/ru/post/zh-CN439392/


All Articles