SDMX(统计数据和元数据交换)


尽管事实上该标准已被许多国家和国际组织长期用于数据的发布和交换,但俄语语言互联网上关于SDMX的信息很少。 标准开发计划是由七个国际组织发起的,该组织与统计数据一起为该开发提供了支持。 主要目标是简化此类组织之间的统计数据交换,创建此类交换的标准并描述用于实施此标准的业务流程。 一种方法不仅可以简化对统计数据的访问,还可以通过使用元数据(有关数据的数据)来更容易地理解其含义和内容。


SDMX计划的主要站点是sdmx.org ,其中还包含已批准的跨域概念,参考书和分类器的列表。 每个加入该标准的组织都可以使用特殊的管理注册程序来扩展和补充它。


该标准不是严格的行动指南;组织自己选择将使用哪些SDMX元素以及用于什么目的。


一点历史
该标准的第一个版本允许交换GESMES / TS格式的统计数据和元数据(它自己的SDMX格式,有点像带分隔符的CSV,后来改名为SDMX-EDI)和XML数据格式SDML-ML。
1.0版于2004年9月获得批准,并于2005年4月被采用为ISO(ISO / TS 17369:2005)的技术规范。
2005年11月,2.0版准备就绪并获得批准,它与1.0版完全兼容,但是增加了交换链接(描述性)元数据的功能。
2.1版(当前为2018年发布)于2011年5月发布,2013年发布为国际标准ISO 17369。
后来,描述了CSV和JSON格式的交换标准。


SDMX标准描述包含以下组件:

  • 信息模型
  • 用于描述结构,内容模型和数据类型的XSD架构
  • 面向内容的准则
  • 一组用于SDMX的程序和工具

SDMX信息模型是该标准的基础。 它由概念( CONCEPT ),限制( CONSTRAIN ),规则,确定组织所公开的统计数据的格式和组成的操作表示。 在本文的框架中,并不打算完全描述所有SDMX实体,而仅描述主要组件。


SDMX信息模型


统计数据与常规数据有何不同? 是的,一般而言,什么都没有。


统计数据 -有关质量现象或过程的一组有序,分类数据。 它们的特征在于一组测量值(以SDMX表示的概念),其中一个测量值通常是一个时间段。 BI工具通常用于处理和分析此类数据。


统计观察是一组概念的特定值,这些值唯一地表征了数据数组总体的每个单元。



数字“ 208.36”是由一组概念定义的统计观察值(所有数据均为虚构)


在SDMX中,该概念是结构的基本对象,代表了统计观测的定性特征。 一个概念的值可以是数字,字符串,日期或代码目录( CODELIST )中的值。 当将该概念用作维度或属性时,可以在数据结构定义中重新定义此表示形式。


代码引用是一个简单的键值列表。 该列表列出了视图中将使用的许多值:指标,属性和SDMX结构部件的其他元素。 它们由其他结构性元数据补充,这些元数据可以反映特定于不同语言的描述以及代码的层次结构。


标准中定义了SDMX结构对象的编码原理:允许使用大写,数字和下划线的拉丁字母。 此外,还支持版本结构。


数据结构的描述数据结构定义DSD )确定用于形成最终数据集( DATASET )的概念的适当组成和顺序。 结构中包含的每个概念均已定义了其在数据集中的作用:


  • 维度( DIMENSION )-主数据标识符。 除临时维外,所有维的值集在一个数据结构的框架内形成该系列的唯一代码( CODE )。
  • 属性( ATTRIBUTE )-为数据集或特定观察值提供附加描述。 属性的示例可以是度量单位或观察状态(初步,预测,修订等)。
  • 立即值是( MEASURE )观察值。

因此,可以通过以下数据结构描述以上示例:

概念图角色角色资料类型
频次测量值参考书
国别测量值参考书
功能类别测量值参考书
期间时间测量日期
单位属性参考书
价值价值编号


数据集( DATASET )是具有通用DSD结构的同类数据的集合。 它可以包含一个时间序列 ,也可以包含某个时间点的多个序列( 跨部门数据 )。



通讯概念,代码表,DSD和数据集

欧洲中央银行网站上的数据集示例。 “键”字段包含每个时间序列的一组测量值,用点分隔,它们形成唯一的键



时间序列数据


元数据


在SDMX中,元数据分为两组:


  • 结构性元数据是用于描述和标识统计数据和元数据的一组概念。
  • 参考元数据是定义和限定数据集的大量概念,通常不描述观察值或一系列数据,而是描述整个数据集甚至提供数据的组织。 参考元数据通常采用文本或HTML格式,并使用描述数据内容,方法和质量的概念。

元数据结构描述元数据结构定义( MSD )包含有关如何组织包含参考值(类似于DSD)的元数据集的信息。 特别是,MSD描述了元数据交换中包含的内容以及概念之间的关系,如何显示它们(以文本或目录中的值的形式)以及对象的类型(代理,数据流,数据提供者,数据集等)。他们已连接。


参考元数据集( METADATASET )是直接描述统计方法,根据元数据结构提供数据或数据结构的组织,发布日历,数据质量等的信息。



在欧洲中央银行网站上提交参考元数据

内容准则


面向内容的指南是SDMX标准中的一组指南。 他们的目标是在组织之间交换数据和元数据时实现最大的兼容性。 尽可能鼓励在统计组织之间使用它们。 主要文件有:


  • 跨域概念列表
  • 统计学科领域
  • 通用元数据字典

跨域概念列表包含与统计过程和数据质量相关的统计概念列表。 该列表基于国际赞助组织使用的概念。 它并不详尽,将来会补充。

概念可用于数据和元数据。 每个概念都有一个可用于此概念的唯一代码和上下文描述,以及SDMX标准中的表示形式。


面向统计主题的领域面向内容的领域 )是基于联合国欧洲经济委员会(UNECE)在统计领域上的工作的顶级分类。 分类是组织统计数据和元数据交换的起点。


元数据通用词汇元数据字典( MCV )包含国际组织和国家机构的结构和参考元数据中使用的概念和相关范围。 MCV是一种词汇,建议使用常用术语以简化沟通和理解。 MCV与跨域概念紧密相关,并且还包含所有这些概念,表明它们的定义和上下文描述。


用于SDMX的IT工具


sdmx.org上提供了使用SDMX的工具列表。

使用结构化元数据的主要工具是元数据技术-Fusion Registry的开发 。 它可以作为Web应用程序使用。 有两个版本-社区(具有有限功能的免费版本)和企业版(收费)。 该软件使用国际货币基金组织的sdmxcentral.imf.org作为单个注册商(数据和元数据的收集和传播的单一点)。 该软件产品还使用SDMX社区-Registry.sdmx.org


Fusion Registry的最新版本几乎完全实现了该标准的所有功能。 该应用程序还可以用作SDMX注册器。 不幸的是,不可能以SDMX格式生成数据和元数据。


数据结构向导 -用于创建结构元数据版本2.0和2.1的Java应用程序,支持创建所有基本SDMX实体。


SDMX转换器是处理Eurostat创建的SDMX数据的主要工具。 允许您从Excel,CSV,FLR格式的文件中创建数据集(而不是元数据),以及在不同SDMX格式之间转换数据。


而不是结论


SDMX标准内的统计信息标准化大大简化了数据的分发和分析。 使用网络服务使我们能够简化信息数组的处理并确保相关系统的连接,从而为任何用户提供机会,以获取和比较他在世界不同国家/地区感兴趣的宏观经济指标。 SDMX标准的明显优势是目前在俄罗斯实施的跨部门项目的基础,旨在通过与国际组织的信息交换,以及在使用门户技术向无限的用户圈提供数据的框架内,在传播统计数据的实践中引入该标准。


与SDMX相关的站点列表:
sdmx.org (改善统计数据和元数据交换的一项全球计划)
ec.europa.eu/eurostat/ (欧盟统计局-欧洲委员会)
sdmxcentral.imf.org (IMF SDMX中心)
sdmxsource.org (SDMX的开源参考实现)
dati.istat.it (意大利国家统计局)

Source: https://habr.com/ru/post/zh-CN421027/


All Articles