大量的营销数据-从庞大的表格到报表和可视化

你好 拥有必要的信息,您可以做很多有用的(或很多有害的事情),这取决于谁拥有此信息以及其动机是什么。 为了处理信息,请执行所需的上载,编译报告,然后将这些信息存储在某处。 因此,我们创建了庞大的营销数据湖

我的名字叫Andrey Naumov,我在公司数据管理团队中工作,生产用于市场营销和销售的产品。 我们的任务是用数据填充这个湖(因为那是什么类型的数据湖而没有数据),以便需要构建详细分析的员工中的业务人员和直接用户都可以与之有效地合作。


削减内容-关于我们为什么甚至需要这样一个湖泊,我们如何建造,如何帮助它进入国内和国外的新销售市场,以及关于我们的未来计划。

为什么根本需要


在创建单个数据湖之前,处理信息的情况还有很多不足之处。 不,一切正常,但是可能会更好。 首先,我将告诉您这些人如何参与我们的营销。

他们使用来自许多数据源的大量信息。 这些是SIBUR内部和外部的资源,可以免费获得,并且只能通过订阅,免费和付费的方式获得。 一般来说,动物园仍在那儿。 这些信息中的大多数是巨大的,平面文件,需要专门的软件才能使用。 通常同时进行-对于每种类型的数据都有自己的软件。 很明显,该软件通常运行不稳定,甚至过时。

例如,大多数营销工作与商品流(包括进出口)的研究有关,借助它们的帮助,有可能了解哪些商品正在离开俄罗斯而相反,哪些商品正在进入俄罗斯。 在这里,我们对SIBUR可以直接或间接销售或创造的产品很感兴趣。 该系统处理的信息要分几个月进行。 例如,在一年或十年之内建立某种可理解的分析是不可能的,因为我们依靠软件的局限性-在同一Excel中,行数是一定的。 我们检索了超过一百万行的表。 正常工作的PC并没有平息这种欺凌行为。

这些只是商品流量的来源之一,并且有许多这样的来源-还有铁路统计数据,来自内部系统的关于公司销售的信息,专家资源,从外部机构订购的报告等等。

怎么办


有一项任务-在一个地方创建文档的单个版本,以便每个用户可以使用一个可视化工具处理数据并构建分析。 在“执行”选项中,由于数据准备的非常阶段,我们对营销人员的关注最大。 事实证明,我们的营销人员花费大量时间作为数据工程师。 错了

在一年多的时间里,工作和分析数据非常困难。 因为即使已经准备并上传了当年的某些数据,也必须彻底清除它们。 从重复,从错误,从错误的名称。 有些行需要统一,例如,表中的某人拥有我们巨大的家园,称为“俄罗斯”,某人-“俄罗斯联邦”,而某人简洁地输入了“ RF”。 所有这些都必须简化为一种观点,而且,如您所知,带有国家名称的示例远非唯一,也并非最明显。

问题是我们是一家控股公司,我们有许多组织,并不是每个人的名字中都有“ SIBUR”一词。 因此,试图搜索列表并希望通过几次单击来过滤名称,以便仅能看到控股公司,要取得结果并不容易。

另外,有多少人-解决工作问题的方法很多。 每个员工都有自己的数据处理,过滤,映射和合并方法。 问题在于这种技术存在于员工的头上。 因此,当时很多人都和一个特定的人联系在一起。 这也不是最有趣的故事,因为您需要卸载某些东西-并且该人正在度假。 坐着等他 因为没有它,它们要么做得更长,要么做错了。

总的来说,我们决定确保不依赖于特定的人,所有信息都是通用的,并且对于可能需要该信息的任何用户而言都可以在同一级别访问。

为此,我们首先去做生意,并与他们澄清哪些数据源对他们来说最有趣。 我们选择了它们,并为他们准备了具有数据湖技术的试点数据仓库(我们在此帖子中详细描述了该湖并提供了图表)。 然后,他们使用多种ETL工具,一次将所有这些必需的资源(如商品流量,产品统计信息等)倾倒在那里,然后将其小心地放入数据库(Vertica)。 我们的任务是整合所有可能的东西。

为了进行数据可视化,我们使用Tableau,其服务器版本固定在存储库中,并且使用户可以立即访问所有数据。 我必须说,鼓励用户-在您坐下来凝视桌子(巨大的桌子)之前,但是现在您可以轻松地将所有内容可视化。


产品流分析


产品分析

竞争对手分析

当然,我们的分析师在屏幕上看不到一堆污迹斑斑的线条,但有相当真实的数字和交易对手的名字,但我们无法显示它们。

进一步从用户那里得到有用的反馈。 我们了解到原始数据(原始)对他们来说不是很有趣,因为它们每个人都在进行自己的预训练。 因此,我们开始计算最频繁的映射和重命名,重写交易对手,并修复了许多错误-列中可能有重复项和标点符号,有人可以在公司名称旁边输入其对应项。 通常,有足够的垃圾。

他们使这些国家形成共识,这有助于按区域折叠和弹出它们-员工可以在南美或北美洲的CIS中单击几次以完成卸载,这对于正确的分析非常重要。 崩溃是一件方便的事,因此我们决定将这种做法扩展到法人实体-与国家/地区一样,仅控股规模和单个法人实体。

为什么分析对于与市场合作很重要


由于所做的工作,可以显示过去15-20年的进出口报告,同时又不会发疯,也不会烧坏几台工作的PC。 现在,您可以按此时间段按年部署,否则按月失败。

所以在这里。 在商品流动中,有TNVED之类的东西,即外国经济活动的商品命名法。 最多10个数字。 数字越多-特定产品的指示越具体。

看咖啡的例子。

09-咖啡,茶,伴侣,巴拉圭茶,香料。 很一般的类别。
0901 2-它已经使我们知道我们正在谈论烘焙咖啡。
0901 21-含咖啡因的焙炒咖啡(未焙炒和脱咖啡因的代码不同)。
0901 21 000 2-相同的最后10位数字,这已经是robusta(Coffea canephora)。

对于我们而言重要的产品也是如此。 那就是-我们出售和生产。 当然,咖啡也很重要,但是到目前为止,我们还没有消耗掉咖啡的数量来卸载进口统计数据。

而且,制造所需的聚合物,塑料和原材料对我们很重要。

这里的代码已经看起来像那样。

39-40-塑料及其制品; 橡胶,橡胶及其制品。
3901-初级形式的乙烯聚合物
3901 1-比重小于0.94的聚乙烯
3901 10 100 0-线性聚乙烯

因此,对于每种聚合物或原料类型,我们都无法做到一般。 为什么要麻烦看这个呢。 使用流量数据,可以更详细地了解一年中一定数量的聚合物被进口到俄罗斯联邦。 还是原材料。 也就是说,有人在我们生产的国家(包括我们在俄罗斯联邦的国家)之外购买产品。 然后,就有机会查看购买的程度,在高级分析人员的帮助下,您可以瞄准合适的价格,并最终有可能用相同的产品吸引到这样的客户,但是我们在这里这样做,并向他提供这样的产品价格合理。 考虑到他在海关关税和交通上的花费。

与出口相同。 我们感兴趣的产品之一经常出口到国外。 因此,对它的需求非常稳定和良好。 因此,您可以看到它是什么,去向谁以及他们为此付出了多少。 然后考虑物流成本(是否合理),找出我们是否可以这样做。

而且,它还有助于观察竞争对手在同一领域的活动,并在必要时调整他们的人数。

但是,如果TNVED始终清楚地说明正在运输的货物,那将太简单了,对吗?

因此,一些公民使用不同的TNVED编码进口聚乙烯,但在这里我们的分析师可以研究商品流量数据中的其他字段,然后使用总计符号来了解这完全是聚乙烯,而不是编码中所指示的内容。 这有助于查看更多的进出口量,乍一看可能会引起人们的注意。 基于这样的数据,我们已经可以估算-突然间,我们可以进行额外的生产,从数量和数量上判断,这将有回报。

我们还可以借助员工自身的分析和专业知识来丰富此类报告-数据库中将出现一个新字段,例如“产品”,现在也可以从该字段中制作样本并生成报告。 对于每种特定产品(这由TNVED和同事的专业知识决定),我们在国内有几个潜在客户,在国外有几个潜在客户。 因此,您可以开始为它们甚至最终产品制造原材料。

我们需要更深入


您可以走的更远-通过选择国家/地区内的此类收件人,我们可以看到这些人仍从与我们相关的商品中为自己订购的商品。 突然,他们不仅对聚乙烯感兴趣,而且对聚丙烯以及某些类型的BOPP薄膜感兴趣? 经过研究,您可以立即为他提供商品,合适的价格和舒适的条件,从而使您对特定的消费者有更广泛的了解。

我们现在拥有的

我们继续反复进行工作-输入数据,收集用户反馈并完善分析规则。 事实证明,这是一种团队合作,我们从他们那里学到一些东西,他们从我们这里学到一些东西,因为他们拥有非常好的专家知识,并且我们拥有技术知识。

在下载了最关键的资源并准备了这些数据的基本准备之后,我们终于从测试存储转移了(一直都在测试中,是的)。 这将消除很多问题,因为战斗=已通过认证,并且它存储了许多无法送达测试的数据(商业秘密和其他对分析也很重要的内容)。 现在,实际上它将是具有大量来源的单个数据湖。 包括报价数据-我们高级分析的同事能够通过分析许多因素来预测特定产品的价格-这些因素可能是公司的股票,生产地区的自然灾害,关于合并和收购的传言,甚至某人的推文都不成功指南。

预测分析使用数据并提供预测,这些相同的预测已添加到数据湖中,营销可以将其用于报告和分析。

事实证明,一个湖中的数据如此循环。 到目前为止,每个人都很高兴-业务,评论尽可能地积极,因为他们了解此项目节省了多少时间和精力,以及分析师自己。

所以我们正在努力。 谁想与我们一起从数据中提取最大值-欢迎来到hh.ru的工作页面。

Source: https://habr.com/ru/post/zh-CN461029/


All Articles