
11月初,由Mail.Ru集团和MegaFon组织的代号为“
电信数据杯”的机器学习和数据分析
冠军赛启动了。
比赛在已经著名的
ML Boot Camp平台上
启动 。 我们尝试对其进行大多数数据分析竞赛。 这项比赛是今年连续第二次,也是整个项目第七次。 以前的锦标赛是在沙盒模式下开放的,它使您可以在白天或晚上的任何时间训练过去的任务。
超过2500个用户注册了当前的比赛,有1700人下载了数据集,上载了7800个各种解决方案,
聊天社区的参与者达到了1600名。 比赛将于12月16日结束,因此如果您尚未加入搏击俱乐部,那么该是时候了。 我们欢迎并帮助大家。 咖啡或您自己的东西,可以为您提供帮助:)
在本文的页脚中,您将找到有关此竞赛和以前竞赛的有用链接和资料。 最主要的是,现在您将进入“电信数据杯”任务的世界,这将使您快速参与此过程并享受真正的研究。
简要介绍任务
那些已经知道锦标赛中正在发生什么的人可以继续进行下一节。
我们都对“行销商”的电话和互联网民意调查感到厌倦。 想象一下他们如何打给您,并询问您现在是否在看电视,哪个频道,当前打开了多少设备以及正在播放哪种电视节目。 天哪,我真的很想放电话(我们经常这样做)。 用户很愤慨,非常不愿意分享反馈,这会对所提供服务的质量产生负面影响。 问题需要解决。
在这场竞赛中,您需要投入到电信领域,以便基于MegaFon电信运营商提供的匿名用户数据,该数据是在对真实客户进行调查期间获得的,以预测订户是否对通信质量感到满意。
调查了9443个订户。 调查的结果是每个订户的满意度指数,等于零(0-满意)或一(1-不满意)。 有必要尽可能准确地识别不满意的客户。
评估您的决策的指标是ROC AUC。 对于5221个订户,需要按照与
subs_csi_test.csv文件相同的顺序进行
预测 。 可以从平台网站下载数据。 最初的结果将由2088个订户的响应生成,最终结果将由3133个订户(40/60)的答案生成。 每天最多可下载5个解决方案,并且所选解决方案的数量是2。
感恩节
挑战引起了社区的好奇心。 参与者选择不同的解决方案。 有些会生成N个模型,对其进行查看,然后向下流动,然后……瞧,您完成了。 其他人生成功能,通过在
存储库中发布的讲座研究“信息系统与技术”学科,一切似乎也都很好。 还有一些依赖随机种子。
为了使排行榜在比赛结束时变得更加漂亮,我们希望与您分享一些有关任务的Graals。
圣杯号0。

注意讲课的
聊天和
Github存储库。 有很多有用的信息。 我们许多人都不知道网络如何工作。 寻求的人将永远找到! 在存储库中添加了一个简短的演示文稿,其中描述了BS的操作,并提供了一个文件,其中包含按服务分布的功能。


在聊天中,参与者折磨了组织者。 试图退缩,但努力。

圣杯1
在建议的数据中,
cell_lac_id字段指示一个小区。 每个小区仅属于一代通信:2G,3G,4G(LTE)。 我们建议尝试为每个单元确定它属于哪个世代。
圣杯№2
每部手机均具有所支持的最大数据传输技术:2G,3G,4G。 有关此信息,包含在
subs_features表的INTERNET_TYPE_ID字段中。 该字段已编码。 考虑如何确定该字段中的哪些值对应于哪种技术。
圣杯3
请注意:如果某个客户的电话支持4G,但是从历史上我们可以看到他经常通过3G甚至2G小区下载流量,那么这个事实如何影响他对通信质量的看法?
圣杯№4
客户有经常访问的蜂巢(家庭,工作,道路,商店等),而很少或很少见的蜂巢。 您如何看待,对于用户而言,哪个单元格的质量可能更为重要? 您如何识别重要细胞?
圣杯№5
用于Internet流量的
subs_bs_consumption表包含有关传输的数据量(SUM_DATA_MB)和花费的时间(SUM_DATA_MIN)的信息。 可以从该数据中提取有关单元客户体验的哪些信息?
圣杯№6
在表
bs_avg_kpi和
bs_chnn_kpi中 ,具有平均每天和繁忙时间(CNN)上大量小区特征的信息,
而且已有几个月的历史。 尝试选择在这些特征方面彼此相似的单元格组。 也许有些细胞与总质量有很大的不同? 经常访问这些单元的客户会怎样?
在此圣杯从组织者结束。 我们相信他们会帮助您实现更好的私人对话。 这是行不通的-您永远不会知道,随机加载会穿上T恤。 一切最有趣。 在锦标赛结束时,排行榜将燃烧:)记住前五名!

日程安排
锦标赛将于12月16日到期,并于12月22日在MegaFon办公室颁奖。
礼物
第一名:400,000卢布;
第二名:200,000卢布;
第三名:100,000卢布。
按照惯例,前200名会收到带有冠军标志的T恤。
此外,还有特别提名:
- 最私人的“ vkhuh”-SSD金士顿120 Gb。
- 每位参加者以50的倍数将获得带有社区包贴纸的T恤。
社区活动
加入我们的Telegram社区。 您可以随时提出问题,并获得数据科学领域的专家建议。 Mail.Ru组冠军社区是一个可以轻松找到志趣相投的人的网络。
有用的链接
- ML新手训练营I( 机器学习新手训练营-当时如何... )
- ML Boot Camp II( 2016年ML Boot Camp。前十名中的新内容 , “性能评估”。非常简单... )
- ML新兵训练营III。 二进制数据( 就像我们做过ML Boot Camp III一样 , ML Boot Camp I ...竞赛的获胜者 , ML Boot Camp III:剩下一半的预测... )
- ML新兵训练营IV。 秘密任务( ML Boot Camp IV。第四。Secret。T ... , ML Boot Camp IV。从公开的1到35 in ... , 解决方案中的稳定化和Dirichlet过程... )
- ML新兵训练营V.CVD的预测( AgeHack-第一个扩展的在线黑客马拉松…… , ML新兵训练营V,3个月的决策历史... , 根据ML新兵训练营冠军赛的结果进行的聚会 )
- ML新兵训练营VI。 预测观众对在线调查的反应(“ ML训练营VI”。观众反应的预测... , “ ML训练营VI”第一名的历史 )。