奇迹:无限战争或如何在几分钟内为您的项目收集数据



我有两个感兴趣的领域。 第一个:匿名懒惰数据分析师协会,第二个:匿名怪胎协会。 如果第二个都可以,那么第一个就更复杂了。 当您告诉人们数据分析师解决什么任务时,它们代表什么? 为了进行实验,她将定义引入了Google,并首先引入了:
数据分析师是一位多才多艺的专家,在数学,统计,计算机科学,计算机科学,商业和经济学方面都有知识。 大数据分析师研究包含不同信息的大数据集,例如:研究结果,市场趋势,客户喜好等。对此类信息的研究和分析可以带来新的科学发现,提高公司效率,创造收入的新机会以及更好的客户服务。等 数据科学家的主要技能是查看收集的信息系统中的逻辑连接,并在此基础上开发某些业务解决方案,模型。

来自buduguru.org/profession/39的定义。

通用专家,好的。 从曼哈顿博士和霍金之间的描述来判断。


但是,我不会讨论这个定义的语义,我想谈谈数据分析师的痛苦话题(不,不是关于数据缺乏的na琐讨论的话题)。 如果数据是呢?

在这里,我们转到以下问题:

  • 我可以使用哪些工具来研究这些数据?
  • 如何转换这些数据数组?
  • 如何储存它们? 我需要存放它们吗?
  • 如果有很多来源,而且都是异类怎么办?

好吧 我们形成了很多问题,但是下一步该怎么做? 在本文中,我将讨论我们的开发团队实现的工具,即iDVP.Data SaaS云系统。

这是什么

iDVP.Data SaaS是用于处理云中数据的多功能工具,它使您可以连接各种数据,将其转换并将其发送到外部系统(例如Web服务)。

无限战争


在这里,我们非自愿地与第二个兴趣领域相交:例如,我决定将开放的Marvel数据连接到iDVP.Data SaaS 。 每个人都看过一部关于无限战争的新电影吗? 看完电影之后,我不禁回想起漫威宇宙中发生的其他大规模冲突,这些冲突在全球范围内发生了变化。 让我回想起漫画界中有多少个角色参加了《无限战争》,其中有多少人丧生对我来说变得很有趣。 为了回答这些问题,我转向了最可靠的资源- 漫威官方网站。



首先, 让我们转到iDVP.Data SaaS网站并注册。

之后,我们进入用户的工作页面,那里有带有测试演示案例的工作区。 它们提供了从将数据源连接到数据店面的数据流。



检查完测试用例并添加新的工作区之后,让我们继续创建自己的数据流。 作为来源,我选择了以下数据:

  • REST服务,该服务返回有关Marvel宇宙中所有角色的信息;
  • REST服务,该服务返回有关Marvel宇宙的所有事件的信息;
  • CSV格式的文件,表示内战的主要参与者。

步骤1.连接

我们将数据一一连接:



结果,我们获得了三个连接的数据源:



  • partners_marvel_raw-服务;
  • character_marvel_raw-服务;
  • events_marvel_raw-CSV格式的文件。

步骤2.转换

连接数据后,我们创建数据集(Datasets),在其中使用SQL脚本执行必要的转换(数据清理,计算或(例如,从JSON解析数据))。

select k.id, k.name, k.com.name as comics_name, k.ser.name as series_name, k.stor.name as stories_name, k.event.name as events_name from ( select a.id, a.name, flatten(a.comics) as com, flatten(a.series) as ser, flatten(a.stories) as stor, flatten(a.events) as event from ( select c.`data`.id as id, c.`data`.name as name, c.`data`.comics.`items` as comics, c.`data`.series.`items` as series, c.`data`.stories.`items` as stories, c.`data`.events.`items` as events from ( select t.res.`data`.`results` as `data` from ( select convert_from(a.content, 'JSON') res from `characters_marvel_raw` a ) t ) c ) a ) k 

结果,我们得到了解析后的数据:



这样的数据流链:



连接数据并转换后,对接收到的信息的访问速度仍然可能较低(由于源的响应时间长或由于数据量大)。 在此触发iDVP.Data SaaS本身中的数据“物化”(存储)机制。 即使使用BigData技术处理大量信息,对存储数据的访问也非常快。 保存的数据可以随时(全部或部分)进行更新,还可以调整系统自动更新数据的时间表。

因此,即使源本身不支持历史数据,也可以累积历史数据。 通过在文件系统中保存iDVP.Data SaaS ,如果无法访问源,实现还可以帮助继续处理数据。



步骤3.发布

我们创建一个数据展示柜(Web服务),它也代表一个SQL查询。 在数据展示柜中,您可以定义输入和输出参数。



一旦创建了数据集市,就可以在公共领域中发布它们,并在其外部系统中使用它们。




由此产生的服务可用于构建报告和3D应用程序,例如,我们这样做是为了可视化Elections 2018的数据。

PS结论




第一个结论

我们记得提到无限战争的那行漫画,这是我们得到的:

  • 参加了57个角色;
  • 5未确认;
  • 15人死亡。

第二个结论

如果您需要快速轻松地处理数据,则可以使用iDVP.Data SaaS系统,该系统目前处于beta测试中。 我们的团队希望,直到您读完这个故事的最后,还有那些将成为我们新工具的第一批测试人员的人。

有了它,您可以独立:

  • 连接各种来源;
  • 从任何来源统一接收数据;
  • 使用SQL执行ETL数据转换
  • 使用BigData技术提高数据处理速度;
  • 分析数据;
  • 向外部系统提供数据;
  • 在方便,简单的界面中执行这些操作。

预先感谢您的反馈!

在帖子评论中使用的示例:

意见统计

Source: https://habr.com/ru/post/zh-CN412579/


All Articles