💆 🤹🏼 👨🏾‍🍳 奇迹：无限战争或如何在几分钟内为您的项目收集数据 🛀🏾 👩🏿‍💻 🧛🏿

我有两个感兴趣的领域。第一个：匿名懒惰数据分析师协会，第二个：匿名怪胎协会。如果第二个都可以，那么第一个就更复杂了。当您告诉人们数据分析师解决什么任务时，它们代表什么？为了进行实验，她将定义引入了Google，并首先引入了：

数据分析师是一位多才多艺的专家，在数学，统计，计算机科学，计算机科学，商业和经济学方面都有知识。大数据分析师研究包含不同信息的大数据集，例如：研究结果，市场趋势，客户喜好等。对此类信息的研究和分析可以带来新的科学发现，提高公司效率，创造收入的新机会以及更好的客户服务。等数据科学家的主要技能是查看收集的信息系统中的逻辑连接，并在此基础上开发某些业务解决方案，模型。

来自buduguru.org/profession/39的定义。

通用专家，好的。从曼哈顿博士和霍金之间的描述来判断。

但是，我不会讨论这个定义的语义，我想谈谈数据分析师的痛苦话题（不，不是关于数据缺乏的~~na琐~~讨论的话题）。如果数据是呢？

在这里，我们转到以下问题：

我可以使用哪些工具来研究这些数据？
如何转换这些数据数组？
如何储存它们？我需要存放它们吗？
如果有很多来源，而且都是异类怎么办？

好吧我们形成了很多问题，但是下一步该怎么做？在本文中，我将讨论我们的开发团队实现的工具，即iDVP.Data SaaS云系统。

这是什么

iDVP.Data SaaS是用于处理云中数据的多功能工具，它使您可以连接各种数据，将其转换并将其发送到外部系统（例如Web服务）。

无限战争

在这里，我们非自愿地与第二个兴趣领域相交：例如，我决定将开放的Marvel数据连接到iDVP.Data SaaS 。每个人都看过一部关于无限战争的新电影吗？看完电影之后，我不禁回想起漫威宇宙中发生的其他大规模冲突，这些冲突在全球范围内发生了变化。让我回想起漫画界中有多少个角色参加了《无限战争》，其中有多少人丧生对我来说变得很有趣。为了回答这些问题，我转向了最可靠的资源- 漫威官方网站。

首先，让我们转到iDVP.Data SaaS网站并注册。

之后，我们进入用户的工作页面，那里有带有测试演示案例的工作区。它们提供了从将数据源连接到数据店面的数据流。

检查完测试用例并添加新的工作区之后，让我们继续创建自己的数据流。作为来源，我选择了以下数据：

REST服务，该服务返回有关Marvel宇宙中所有角色的信息；
REST服务，该服务返回有关Marvel宇宙的所有事件的信息；
CSV格式的文件，表示内战的主要参与者。

步骤1.连接

我们将数据一一连接：

结果，我们获得了三个连接的数据源：

partners_marvel_raw-服务；
character_marvel_raw-服务；
events_marvel_raw-CSV格式的文件。

步骤2.转换

连接数据后，我们创建数据集（Datasets），在其中使用SQL脚本执行必要的转换（数据清理，计算或（例如，从JSON解析数据））。

select k.id, k.name, k.com.name as comics_name, k.ser.name as series_name, k.stor.name as stories_name, k.event.name as events_name from ( select a.id, a.name, flatten(a.comics) as com, flatten(a.series) as ser, flatten(a.stories) as stor, flatten(a.events) as event from ( select c.`data`.id as id, c.`data`.name as name, c.`data`.comics.`items` as comics, c.`data`.series.`items` as series, c.`data`.stories.`items` as stories, c.`data`.events.`items` as events from ( select t.res.`data`.`results` as `data` from ( select convert_from(a.content, 'JSON') res from `characters_marvel_raw` a ) t ) c ) a ) k

结果，我们得到了解析后的数据：

这样的数据流链：

连接数据并转换后，对接收到的信息的访问速度仍然可能较低（由于源的响应时间长或由于数据量大）。在此触发iDVP.Data SaaS本身中的数据“物化”（存储）机制。即使使用BigData技术处理大量信息，对存储数据的访问也非常快。保存的数据可以随时（全部或部分）进行更新，还可以调整系统自动更新数据的时间表。

因此，即使源本身不支持历史数据，也可以累积历史数据。通过在文件系统中保存iDVP.Data SaaS ，如果无法访问源，实现还可以帮助继续处理数据。