上次[
从开放数据站点data.gov.ru下载数据 ]我设法学习了如何从俄罗斯开放数据门户网站下载数据而遇到一些问题。 开放数据门户网站应提供有关联邦当局,区域当局和其他组织的开放数据的最相关信息(引用data.gov.ru)。 让我们看看门户上的哪些数据,它们之间的相关性以及它们的放置形式。
下面的饼图按类别显示了数据集的分布。

超过一半的数据集(59.65%)属于“州”类别。 大约百分之十(9.56%)属于“经济”类别。 “教育”类别中的数据集数量接近百分之十(7.61%)。 其余的少于百分之五。 分布很自然。
我们将扩大与门户网站上发布的数据的了解。 让我们看一下数据集首次发布之日在数据门户上的放置统计信息。

2017年才刚刚开始,2017年发布的数据量自然会增加。 是的,当我编写文本时,新的数据集将上载到门户。
显然,有人设法回到过去,设法将数据放置在遥远的1970年。
总的来说,情况很清楚:首先是急剧增长,然后是稳定。 尽管谈论稳定性可能为时过早。
如果我们考虑按相关日期(此日期之后应更新数据集的当前日期)的数据集分布,可以看到有趣的情况。

立即赶1年。 因此,我指定了没有最新日期的数据集。 根据相关日期的确定,我们可以得出结论,这些是完全不需要更新的数据集。 当然,此类数据集有权存在。 始终存在不太可能更改的存档(历史)数据(好吧,如果其中没有错误),并且当前-当前数据一直在变化。 那些和其他都可能感兴趣。 毕竟,您需要了解一下它的发生:过去(在沙皇统治下或在苏联统治下)是怎么回事? 但是,当然,不断更新的实际(实时)数据更有趣。
即使您没有非常仔细地考虑图表,很显然,某些数据也应在不久的将来进行更新。 可以说,发布它们的人对未来充满信心。 在接下来的五,十,二十(?)年内,它们将保持不变。 也许这只是一个错误? 这是可能的。
但总的来说,情况非常令人满意-今年要更新的数据计划几乎有一半。
现在,我们将确认这张欢乐的照片。 考虑到上次更改日期之前的数据集分布。

是的 再次1年。 这些数据集尚未修改。 我只想抓一个人。 就像,他们承诺要更新,但没有做任何更改。 或者他们不承诺会更新和更新。 但是下一次我们将寻找模式(或缺少模式)。
合并有关第一个出版物和最新更新的信息。 也就是说,如果有更新-请以更新日期为准,如果没有更新-请以第一个出版物的日期为准。 结果是最后一次数据更改的日期。

美人 趋势清晰可见-上一次更改或创建于2016-2017年的数据超过一半。 也许您可以认为它们相关。
有必要注意一个警告。 重复某些数据集:在注册表中多次找到相同的数据集名称和所有者。

而不是更新,数据集被重新布置。 有时将布景布置在不同的类别中。 但是,如果您查看具有相同名称,所有者和类别的数据集,则图片将如下所示。

至少非常相似。 但几乎不重要。 显然,某些数据所有者需要仔细分发数据。
填写护照数据集中的文本字段时,需进行一点检查。
领域 | 设定者 | 未设定 |
---|
职称 | 100% | 0% |
内容描述 | 80.84% | 19.16% |
分类目录 | 100% | 0% |
主人 | 99.7% | 0.03% |
关键词 | 99.48% | 0.52% |
负责人 | 96.43% | 3.57% |
负责人电话号码 | 96% | 4% |
负责人电子邮件 | 92.68% | 7.32% |
资料格式 | 97.79% | 2.21% |
拨号链接 | 96.86% | 3.14% |
名称和类别随处定义。 几乎五分之一的数据集都不包含描述。 几乎所有人都知道所有者,并设置了一些关键字。 负责人几乎也随处可见。 目前尚不清楚为什么我们需要无法下载的数据集(大约3%)。
结果,我们将所有数据集分为两类:指定了所有字段,没有指定至少一个字段。

30%(30.3%)的区域至少有一个未定义字段。 数据以什么格式上传?

通常以纯定界文本格式(csv)。 第二位是xml。 在第三个json上。 明确的领导者是csv格式-您可以在任何文本编辑器中将其打开,将其几乎导入任何地方进行处理,然后不费吹灰之力将其作为表格插入文本编辑器。 xml格式也很容易看到。 但是使用json格式可能会出现问题。 如果您专注于Excel(作为最常用的电子表格编辑器),那么json已经成为问题。 您可以在Google上搜索该主题,并找到一种下载方法,但不能直接下载。 Excel没有内置的用于加载json的工具。
当然,问题是无所畏惧,非致命性但令人不愉快的。 当然,这种格式会阻止或困扰某人。

多年来的分布情况表明,随着时间的流逝,csv格式的主导地位持续存在。

json格式的使用将大大增加。 这减少了xml格式的使用。
这可以解释。 csv格式是最简单的格式,因此经常使用。 同时,Web服务现在越来越多地使用json格式和越来越少的xml。
结论
俄罗斯开放数据门户网站上发布的数据有一半以上属于“国家”类别。
数据的一半以上是在2016-2017年间修改或创建的。
30%的数据集护照至少有一个未分配字段。
存储开放数据的最常见格式:csv,xml,json。 同时,json格式的数据集数量增加,而xml格式的数据集数量减少。
接下来是什么?
分析数据集后,让我们看看它们的使用频率(查看,下载)。 用户为数据集设置什么等级? 感兴趣的数据集是什么? 数据集多久更新一次? 什么大小的数据集? 这一切之间有关系吗?