在2008年,BigData是一个新名词和流行趋势。 在2019年,BigData成为销售对象,利润来源和新账单的借口。
去年秋天,俄罗斯政府启动了一项监管大数据的法案。 禁止根据信息识别人员,但应联邦当局的要求允许这样做。 仅在通知Roskomnadzor后才为第三方处理BigData。 拥有超过十万个网络地址的公司均受法律约束。 而且,当然,在没有注册中心的地方-应该创建一个带有数据库操作员列表的数据库。 而且,如果在每个人都没有认真对待这个BigData之前,现在必须将其忽略不计。
我不能忽视该数据库,我是处理同一BigData的计费开发公司的主管。 我将通过电信运营商的角度来考虑大数据,通过电信运营商的计费系统,每天可以获取有关数千个订户的信息。
定理
让我们从数学问题开始:首先,我们证明通信运算符的数据可以称为BigDat。 标准的大数据以VVV的三个符号为特征,尽管在自由解释中,“ V”的数量达到了七个。
数量 仅Rostelecom的MVNO就为超过100万订户提供服务。 关键主机运营商处理的数据为44到7800万人。 流量每秒钟都在增长:到2019年第一季度,订户已经从移动电话接收了33亿GB的存储空间。
速度 没有人能比统计数据更好地说明动态情况,因此,我将详细介绍思科的预测。 到2021年,将有20%的IP流量流向移动流量-五年内将增长近三倍。 三分之一的移动连接将在M2M上-物联网的发展将使连接数量增加六倍。 物联网不仅将变得有利可图,而且还将消耗资源,因此一些运营商将只关注它。 那些将物联网开发为单独服务的人将获得双倍的流量。
品种 多样性是一个主观的概念,但是电信运营商实际上几乎了解其订户的所有信息。 从姓名和护照数据到电话型号,购买,参观地点和兴趣。 根据Spring的法律,媒体文件存储六个月。 因此,作为一个公理,收集的数据是多种多样的。
软件与方法论
提供者是BigData的主要消费者之一,因此大多数大数据分析技术都适用于电信行业。 另一个问题是谁愿意投资于ML,AI,深度学习的开发,对数据中心和数据挖掘的投资。 完整的数据库工作由基础架构和团队组成,这些成本并不是每个人都能负担的。 押宝BigData会使已经拥有公司资料库或正在开发Data Governance方法的企业付出代价。 对于那些不准备长期投资的人,我建议您逐步构建软件体系结构并依次放置组件。 最后可以保留大量模块和Hadoop。 很少有人会为诸如数据质量和数据挖掘之类的任务购买现成的解决方案,主要是公司自己或在开发人员的帮助下,根据自己的具体情况和需求定制系统。
但是并非每个账单都可以修改为与BigData一起使用。 相反,不仅每个人都可以修改。 很少能做到这一点。
计费系统有机会成为数据库处理工具的三个迹象:
- 水平可伸缩性。 软件必须灵活-我们正在谈论大数据。 信息量的增加应通过集群中“铁”的比例增加来解决。
- 容错能力。 严重的预付费系统通常默认情况下是容错的:计费在多个地理位置的群集中部署,因此它们可以自动相互保证。 Hadoop集群中的计算机也应该足够,以防其中一台或多台发生故障。
- 地区性。 数据必须在同一服务器上存储和处理,否则数据传输会中断。 流行的Map-Reduce方法方案之一:HDFS存储,Spark进程。 理想情况下,该软件应无缝集成到数据中心基础架构中,并能够做到三合一:收集,组织和分析信息。
团队
该团队将决定什么,如何以及出于什么目的处理大数据。 它通常由一个人组成-数据科学家。 我认为,尽管BigData的最低员工人数包括产品经理,数据工程师和经理。 首先了解服务,将技术语言转换为人,反之亦然。 数据工程师使用Java / Scala并通过机器学习进行试验,使模型栩栩如生。 领导者协调,设定目标,控制阶段。
问题所在
正是在BigData团队中,在收集和处理数据时通常会出现问题。 该程序需要解释收集什么以及如何处理它-为了解释这一点,您首先需要自己了解它。 和提供者不是那么简单。 我通过任务示例来减少用户流失是在谈论问题-正是电信运营商首先试图解决使用BigData的问题。
任务说明。 正确编写的传统知识和对术语的不同理解不仅对自由职业者来说是数百年的痛苦。 即使是“堕落”的订户,也可以用不同的方式来解释-一个月,六个月或一年不使用运营商的服务。 为了根据历史数据创建MVP,您需要了解从流出者返回的订户的频率-那些尝试与其他运营商进行通信或离开城市并使用了不同号码的订户。 另一个重要的问题:订户应在订户预期离开前多长时间确定并采取行动? 半年-提前一个星期-为时已晚。
替代概念。 通常,运营商通过电话号码识别客户,因此逻辑上需要在其上卸下标牌。 个人帐户或服务申请号怎么办? 有必要确定客户应采用哪个单位,以便运营商系统中的数据不会不同。 对客户价值的评估也是一个问题-哪个订户对公司更有价值,保留哪些用户需要更多的努力,以及哪些在任何情况下都会“失败”,而浪费资源也没有意义。
缺乏信息。 并非所有提供商的员工都能向BigData团队解释到底是什么因素真正影响了订户流出以及如何考虑计费方面的可能因素。 即使您将其中一个命名为ARPU,也可以用不同的方式进行计算:通过定期向客户付款或通过自动计费。 在工作过程中,还产生了数百万个其他问题。 该模型是否涵盖所有客户,保留客户的价格是多少,考虑替代模型以及与被人为保管的客户该怎么办是有意义的。
目标设定。 我知道三种与结果相关的错误,这些错误使操作员对数据库感到失望。
- 供应商投资于BigData,处理千兆字节的信息,但收到的结果可以更便宜地获得。 使用简单的方案和模型,原始分析。 成本要高出许多倍,但结果是一样的。
- 操作员在输出处接收多面数据,但不了解如何使用它们。 有分析-在这里,它是可以理解且庞大的,并且它的意义是零。 尚未考虑最终结果,该结果不能包含“处理数据”的目标。 稍微处理一下-分析应该成为更新业务流程的基础。
- 使用BigData分析的障碍可能是过时的业务流程和不适合新用途的软件。 因此,他们在准备阶段大失所望-他们没有考虑行动的算法以及将BigData引入工作的阶段。
为何
说到结果。 我将介绍电信运营商已经在使用的BigData并从中获利的方法。
提供商不仅可以预测订户的流出,还可以预测基站的负载。
- 分析有关订户移动,活动和频率服务的信息。 结果:由于对基础设施有问题的部分进行了优化和现代化,减少了过载。
- 电信运营商在开设销售网点时会使用有关订户地理位置和通量密度的信息。 因此,MTS和Vimpelcom已使用BigData分析来计划新办公室的位置。
- 提供商通过将其大数据提供给第三方来货币化。 BigData运营商的主要客户是商业银行。 他们使用数据库来跟踪用户的SIM卡的可疑活动,该用户所连接的SIM卡使用风险评分,验证和监视服务。 根据BigData的说法,2017年,莫斯科政府要求Tele2提供有关规划技术和交通基础设施的动态方案。
- BigData Analytics是营销人员的金矿,他们可以根据需要为多达数千个订户组创建个性化的广告活动。 电信公司汇总用户的社会档案,消费者兴趣和行为模式,然后使用收集的BigData吸引新客户。 但是,对于促销和PR的大规模计划,计费并不总是具有足够的功能:该程序必须同时考虑许多因素以及有关客户的详细信息。
尽管有人仍然认为BigData是一个空洞的短语,但四大巨头已经在此赚钱了。 在六个月的时间里,MTS通过处理大数据赚了140亿卢布,而Tele2的项目收入却增长了三倍半。 BigData正在从一种趋势转变为一种必须具备的条件,在此之下,电信运营商的整体结构将得到重建。