MegaFon不只是一家提供移动通信的电信公司,它还是一家数字产品公司,其创建的产品构成了客户生活的生态系统:“自有卡”,“自有现金返还”,“ MegaFon.TV”,“ MegaFon.Music”等等其他。 MegaFon大数据分析部门可根据每个客户的需求进行个性化定制。
MegaFon大数据分析师在2019年春季数据盛会上的致辞MegaFon数据科学家正在解决保留用户群的问题,这是公司在电信服务市场增长放缓的情况下的优先考虑之一。 例如,几年前,根据大数据,开发了一条新的“开通”关税细目。 它建立在数字用户的真正兴趣之上:交谈,在Messenger中聊天,听音乐,在社交网络上聊天,观看视频。 关税名称对应于根据兴趣填充,并且不限制使用熟悉的应用程序不需要计算消耗的流量。 在形成生态系统时,我们的任务是为每个客户提供单独的报价。
大数据还解决了与零售相关的问题。 例如,借助机器学习模型,我们可以了解将效率低下的沙龙移至何处以及开设新的沙龙。 使用地理数据可以帮助我们朝这个方向发展。
大数据分析还用于与网络基础设施开发相关的任务,其中,通过对铁塔和塔的流量进行分析,我们确定最佳覆盖范围并预测有希望的建设地点。
使用什么技术?我们使用的数据量是数百万的订户和数十亿的每日记录。 大数据不仅是Oracle,MySQL或MongoDB之类的数据库。 大数据是与之配合使用的一整套软件。 要使用大数据,您需要了解Hadoop的工作原理,了解使用Spark,Hive和HDFS的功能。 通常,来找我们的数据分析师以前没有在工作中使用这些工具。 在这种情况下,我们会教那些不够的技能。
处理大数据的技能是有经验的,因此,MegaFon对有才华的分析师感兴趣,他们愿意学习所有必要的工具并将其应用于公司的实际任务。
MegaFon办公室的BigDataCamp,2019年MegaFon大数据专家如何开发模型?MegaFon的大数据专家分为分析师(数据专家)和工程师。 分析师检验假设并建立机器学习模型。 工程师帮助分析师收集店面,优化ETL流程,并负责在生产中建立模型。
模型的开发如下。 首先,我们在Hadoop或Oracle中收集必要的数据。 然后,在具有大量内存和CPU核心的专用服务器上训练模型。 为了训练神经网络,我们使用带有GPU的服务器。
MegaFon办公室的BigDataCamp,2019年开发模型的主要语言是Python。 要使用Python处理数据,通常需要标准库Pandas,NamPy,Scikit-learn。 为了在Hadoop中进行计算,使用了PySpark和Hive进行建模-库Scikit-learn,Xgboost,LightGBM,PyTorch等。 该列表取决于任务。 为什么是Python? 它的主要优点是生产率的简化。 我们可以做出决定,将其立即集成到通用基础架构中。 尽管碰巧所需的库不是使用Python,但它们是其他语言。 例如,R具有Python以外的统计信息库。
如果没人知道Hadoop怎么办?具备Hadoop技能是可取的,但并不是进入我们团队的先决条件。 并非所有公司都拥有MegaFon拥有的数据量,因此,候选人没有机会在其先前的工作场所使用Hadoop。
掌握用于Hadoop集群的基本命令不是很困难,但是当涉及到更复杂的任务时,需要对大数据算法,MapReduce和查询优化方法有深入的了解。 例如,在Hadoop生态系统中,存在Hive这样的产品。 它允许您编写类似SQL的查询并在Hadoop之上运行。 它最初是由Facebook开发的。 但是您需要记住,尽管您正在用SQL编写,但这并不是在操纵关系数据库。 在这里,您可以编写简单的查询,但是为了实现效率(即速度和集群资源的最少使用),您应该了解使用MapReduce进行查询优化的细微差别。
实习是发展和获得业务经验的机会。 有实习吗
大数据MegaFon?在我们的数字世界中,似乎任何凳子都已经在收集有关坐在它上面的人的数据,更不用说物联网和我们都使用的大量服务了。
对专家的需求正在增长,有关在不久的将来将需要多少的大量分析和预测。 每个收集至少一些数据的公司都知道,这些数据可以具有价值和大量见解。 因此,数据分析人员现在有这种需求。
MegaFon办公室的BigDataCamp,2019年我们很高兴拥有出色的专家,但是市场很小,而且没有多少适合我们的人才。 因此,MegaFon正在开发实习计划。 基本上,我们邀请从事程序设计和数学的高年级学生和应届毕业生进行实习。 例如,也有例外,与地理部门的人员进行交流有成功的经验。 对于我们而言,重要的是,学生可以将工作与学习和谐地结合在一起,在公司中进一步发展,并在将来转为分析师或工程师的职位。
您如何输入团队?我们对实习生的采访不同于对经验丰富的专业人士的采访。 在寻找实习生时,招聘人员进行一次小型电话面试,其结果可以清楚地表明应聘者是否对我们的任务感兴趣,以及他目前所拥有的知识和经验水平。 对于我们而言,重要的是候选人是否能够使用Python进行编程,是否了解机器学习的基本库,是否具有解决与大数据分析有关的培训问题的经验,是否曾建立过数学模型以及使用了哪种算法。
根据电话采访的结果,我们选择了5-10名应聘者,他们同时来到我们的办公室2-3小时以了解团队中的人并解决技术任务。 它与电信行业尽可能接近-有必要建立一个模型来对用户进行分类。 接下来,我们比较结果,并邀请最优秀的人参加最终面试,以讨论个人的工作时间表,任务和其他条件。
实习期为三个月。 实习生从事实际的业务任务。 大多数情况下,任务已经正规化,一个人对需要完成的事情有清楚的了解,如果不需要,您可以随时向您的导师咨询 。
除业务任务外,我们的实习生还定期接受离线和在线培训。 我们与New Pro Lab,大数据团队,Geek Brains,Data Gym等合作,我们的专家可以使用Coursera。
正如实践所示,三个月就足以了解我们是否要继续合作。 如果实习生表现良好,我们将把他带到初级数据科学家的职位,并进一步发展。
MegaFon大数据分析师Egor在2019年春季的Data Fest会议上。寻找经验丰富的专业人员如下:1.与团队负责人和招聘人员进行双重面试或候选人简介。
2.与团队负责人进行的个人访谈,其中不仅存在技术问题,还包括:概率论,统计学,机器学习,使用不同工具的经验以及对候选人本人的期望。
3.如果面试对双方都很顺利,我们会要求候选人提供参选作品(个人项目和代码),或者要求我们解决技术任务,以便查看代码并了解解决问题的进度。 技术任务也与电信相关:必须预测用户是否有多个SIM卡。 任期由候选人本人决定,但通常不超过一周。 我们的一位员工在当晚和一周后为我们工作时解决了任务。 嗨Artyom;)
4.与大数据分析主管会面,讨论任务和条件。
大型公司的官僚主义强吗?我们大多数团队都在莫斯科总部工作,但我们在下诺夫哥罗德和叶卡捷琳堡都有团队。 来自不同城市的同事可以参与项目,这完全取决于员工的任务和技能。
我们的部门年轻,充满活力,并且我们最初设法正确地建立了与其他部门进行交互的流程:我们不需要通过同事请求数据,我们主要使用数据库,Oracle或Hadoop并建立模型。
在MegaFon办公室工作我们的工作流程安排如下。 首先,经理与客户代表讨论要求。 通常,我们正在谈论使用机器学习和数据分析来改善业务流程,例如,我们可以优化零售智能手机的销售。 然后经理,团队负责人和分析师共同讨论开发的条款和阶段。 安排记录在Jira中,我们也运行Confluence,这是我们的内部Wiki。 当然,我们使用Gitlab。
今年,我们为数据科学项目的所有关键阶段引入了代码审查过程,并且已经看到了结果:许多人的代码质量已显着提高。 DVC(数据版本控制)工具的实施是改善开发过程的进一步计划,该工具将允许对整个项目(包括数据集)进行版本控制。
项目的期限可以从几个月到六个月。 分析人员参与了项目的所有阶段,从形式化需求到确定模型的目标事件,最后是监视生产结果的稳定性。
我们非常注重结果,在没有清楚了解可为MegaFon带来哪些好处的情况下,我们永远都不会进行开发。
建立模型后,我们根据其工作结果启动测试活动。 如果成功,我们将向数百万MegaFon订户推出我们的解决方案。 将来,我们不仅从模型度量的角度来分析结果,例如目标细分的准确性或完整性,而且会认真地进行业务指标分析。 我们的业务分析师可以帮助我们。
团队与发展这个部门最大的工作是一群精明的人和有趣的任务。 办公室,其中的购物中心,奖金,报酬当然也不错,但位居第三。 面向分析师的MegaFon是真正的数据仓库。 并非每个人都有机会使用如此类型和数量的数据,以便在对其进行分析时可以获取见解并做出最终将带来大量收益的决策。 对于分析师来说,这是最有趣的。 您在大学学习,编写了一种新算法,对其进行了编码,并应用了科学方法,该算法开始起作用并真正带来了一些好处。 这就是引起最多情绪的原因。
我们是一群人,周围都是商务人士,当我们的洞察力可以赚钱时,那就太好了!
采访是与My Circle职业服务共同准备的。