SDMX (intercambio de datos estad铆sticos y metadatos)


Hay muy poca informaci贸n sobre SDMX en Internet en ruso, a pesar de que este est谩ndar ha sido utilizado durante mucho tiempo para la publicaci贸n e intercambio de datos por parte de muchos pa铆ses y organizaciones internacionales. La iniciativa de desarrollo est谩ndar fue lanzada por siete organizaciones internacionales que trabajan con estad铆sticas que patrocinaron el desarrollo. El objetivo principal era simplificar el intercambio de datos estad铆sticos entre dichas organizaciones, crear un est谩ndar para dicho intercambio y describir el proceso comercial para implementar este est谩ndar. Un enfoque 煤nico no solo le permite simplificar el acceso a datos estad铆sticos, sino que tambi茅n mediante el uso de metadatos (datos sobre datos) hace que la comprensi贸n de su significado y contenido sea m谩s accesible.


El sitio principal de la iniciativa SDMX es sdmx.org , que tambi茅n contiene una lista de conceptos aprobados entre dominios, libros de referencia y clasificadores. Cada organizaci贸n que se une al est谩ndar puede ampliarlo y complementarlo mediante un procedimiento de registro administrativo especial.


El est谩ndar no es una gu铆a estricta de acci贸n; las organizaciones mismas eligen qu茅 elementos SDMX usar谩n y para qu茅 fines.


Un poco de historia
La primera versi贸n del est谩ndar permiti贸 el intercambio de datos estad铆sticos y metadatos en los formatos GESMES / TS (su propio formato SDMX, que recuerda un poco a CSV con un separador, m谩s tarde pas贸 a llamarse SDMX-EDI) y el formato de datos XML SDML-ML.
La versi贸n 1.0 se aprob贸 en septiembre de 2004 y se adopt贸 como la especificaci贸n t茅cnica de ISO (ISO / TS 17369: 2005) en abril de 2005.
En noviembre de 2005, la versi贸n 2.0 estaba lista y aprobada, que es totalmente compatible con la versi贸n 1.0, pero agreg贸 la capacidad de intercambiar metadatos de enlaces (descriptivos).
La versi贸n 2.1 (actual para 2018) se lanz贸 en mayo de 2011 y en 2013 se public贸 como la norma internacional ISO 17369.
M谩s tarde, se describieron los est谩ndares de intercambio en formatos CSV y JSON.


La descripci贸n est谩ndar de SDMX contiene los siguientes componentes:

  • Modelo de informaci贸n
  • Esquemas XSD para describir la estructura, el modelo de contenido y los tipos de datos.
  • Pautas orientadas al contenido
  • Un conjunto de programas y herramientas para trabajar con SDMX

El modelo de informaci贸n SDMX es la base del est谩ndar. Est谩 representado por conceptos ( CONCEPTO ), restricciones ( CONSTRAIN ), reglas, operaciones para determinar el formato y la composici贸n de los datos estad铆sticos divulgados por la organizaci贸n. En el marco de este art铆culo, no est谩 previsto describir completamente todas las entidades SDMX, solo los componentes principales.


Modelo de informaci贸n SDMX


驴En qu茅 se diferencian las estad铆sticas de los datos regulares? S铆, en general, nada.


Datos estad铆sticos : un conjunto de datos ordenados y clasificados sobre un fen贸meno o proceso de masas. Se caracterizan por un conjunto de medidas (conceptos, en t茅rminos de SDMX), una de las cuales suele ser un per铆odo de tiempo. Las herramientas de BI generalmente se utilizan para procesar y analizar dichos datos.


La observaci贸n estad铆stica es un conjunto de valores espec铆ficos de conceptos que caracterizan de manera 煤nica cada unidad de la totalidad de la matriz de datos.



El n煤mero "208.36" es una observaci贸n estad铆stica definida por un conjunto de conceptos (todos los datos son ficticios)


En SDMX, el concepto es el objeto b谩sico de la estructura y representa una caracter铆stica cualitativa de las observaciones estad铆sticas. Los valores para un concepto pueden ser un n煤mero, una cadena, una fecha o valores de directorios de c贸digo ( CODELIST ). Esta representaci贸n se puede redefinir en la definici贸n de estructura de datos cuando el concepto se utiliza como una dimensi贸n o atributo.


Las referencias de c贸digo son una simple lista de valores clave. La lista enumera los muchos valores que se utilizar谩n en la vista: indicadores, atributos y otros elementos de la parte estructural SDMX. Se complementan con otros metadatos estructurales, que pueden reflejar la descripci贸n espec铆fica de diferentes idiomas y la organizaci贸n jer谩rquica de los c贸digos.


El principio de codificaci贸n de objetos estructurales SDMX se define en el est谩ndar: se permiten letras latinas en may煤sculas, n煤meros y guiones bajos. Adem谩s, se admiten estructuras versionadas.


Descripci贸n de la estructura de datos La definici贸n de estructura de datos ( DSD ) determina la composici贸n adecuada y el orden de los conceptos para la formaci贸n del conjunto de datos final ( DATASET ). Cada concepto incluido en la estructura recibe una definici贸n de su rol en el conjunto de datos:


  • Dimensi贸n ( DIMENSION ): el identificador de datos principal. El conjunto de valores de todas las dimensiones, excepto la temporal, forma un c贸digo 煤nico ( C脫DIGO ) de la serie dentro del marco de una estructura de datos.
  • Atributo ( ATRIBUTO ): proporciona una descripci贸n adicional para un conjunto de datos o para una observaci贸n espec铆fica. Un ejemplo de un atributo puede ser una unidad de medida o un estado de observaci贸n (preliminar, pronosticado, revisado, etc.).
  • El valor inmediato es la observaci贸n ( MEDIDA ).

Por lo tanto, el ejemplo anterior se puede describir mediante la siguiente estructura de datos:

ConceptoPapelTipo de datos
FrecuenciaMedidaLibro de referencia
PaisMedidaLibro de referencia
Categor铆a funcionalMedidaLibro de referencia
PeriodoMedida del tiempoFecha
UnidadAtributoLibro de referencia
ValorValorNumero


Un conjunto de datos ( DATASET ) es una colecci贸n de datos homog茅neos que tiene una estructura DSD com煤n. Puede contener series de tiempo o varias series en un determinado momento ( Datos de secci贸n transversal ).



Comunicaci贸n CONCEPTOS, CODELISTAS, DSD y DATASET

Un ejemplo de un conjunto de datos del sitio web del Banco Central Europeo. El campo "Clave" contiene un conjunto de medidas para cada serie de tiempo, separadas por un punto, forman una clave 煤nica



Datos de series de tiempo


Metadatos


En SDMX, los metadatos se dividen en dos grupos:


  • Los metadatos estructurales son un conjunto de conceptos utilizados para describir e identificar datos y metadatos estad铆sticos.
  • Los metadatos de referencia son un amplio conjunto de conceptos que definen y califican los conjuntos de datos y que generalmente no describen una observaci贸n o una serie de datos, sino todo el conjunto de datos o incluso la organizaci贸n que proporciona los datos. Los metadatos de referencia generalmente est谩n en formato de texto o HTML y utilizan conceptos que describen el contenido, la metodolog铆a y la calidad de los datos.

La descripci贸n de la estructura de metadatos Metadata Structure Definition ( MSD ) incluye informaci贸n sobre c贸mo se organizan los conjuntos de metadatos que contienen valores de referencia (similares a los DSD). En particular, MSD describe qu茅 se incluye en el intercambio de metadatos y c贸mo se relacionan los conceptos entre s铆, c贸mo se mostrar谩n (en forma de texto o valores del directorio) y con qu茅 tipo de objeto (agencia, flujo de datos, proveedor de datos, conjunto de datos, etc.) Est谩n conectados.


El conjunto de metadatos de referencia ( METADATASET ) es informaci贸n que describe directamente el enfoque estad铆stico, la organizaci贸n que proporciona los datos o la estructura de datos, el calendario de publicaci贸n, la calidad de los datos, etc., de acuerdo con la estructura de metadatos.



Presentaci贸n de metadatos de referencia en el sitio web del Banco Central Europeo

Pautas de contenido


Las pautas orientadas al contenido son un conjunto de pautas dentro del est谩ndar SDMX. Su objetivo es la m谩xima compatibilidad en el intercambio de datos y metadatos entre organizaciones. Se alienta su uso entre organizaciones estad铆sticas tanto como sea posible. Los documentos principales son:


  • Lista de conceptos entre dominios
  • 脕reas tem谩ticas estad铆sticas
  • Diccionario general de metadatos

La lista de conceptos de dominio cruzado contiene una lista de conceptos estad铆sticos que se relacionan con el proceso estad铆stico y la calidad de los datos. Esta lista se basa en conceptos utilizados por organizaciones patrocinadoras internacionales. No es exhaustivo y se complementar谩 en el futuro.

Los conceptos se pueden usar tanto para datos como para metadatos. Cada concepto tiene un c贸digo 煤nico y una descripci贸n del contexto en el que se puede usar este concepto, as铆 como una presentaci贸n en el est谩ndar SDMX.


Los dominios estad铆sticos orientados a temas ( dominios orientados a contenido ) son una clasificaci贸n de alto nivel basada en el trabajo de la Comisi贸n Econ贸mica de las Naciones Unidas para Europa (CEPE) sobre dominios estad铆sticos. La clasificaci贸n ofrece un punto de partida en la organizaci贸n del intercambio de datos estad铆sticos y metadatos.


El Metadata Common Vocabulary Metadata Dictionary ( MCV ) contiene los conceptos y dimensiones asociadas utilizados en los metadatos estructurales y de referencia de las organizaciones internacionales y agencias nacionales. MCV es un vocabulario que recomienda el uso de terminolog铆a com煤n para simplificar la comunicaci贸n y la comprensi贸n. MCV est谩 estrechamente relacionado con los conceptos de dominio cruzado y tambi茅n contiene todos estos conceptos, lo que indica su definici贸n y descripci贸n del contexto.


Herramientas inform谩ticas para trabajar con SDMX


Una lista de herramientas para trabajar con SDMX est谩 disponible en sdmx.org .

La herramienta principal para trabajar con metadatos estructurales es el desarrollo de Metadata Technology - Fusion Registry . Funciona como una aplicaci贸n web. Hay dos versiones: Community (versi贸n gratuita con funciones limitadas) y Enterprise Edition (de pago). Este software utiliza el Fondo Monetario Internacional sdmxcentral.imf.org como un 煤nico registrador (un 煤nico punto de recopilaci贸n y difusi贸n de datos y metadatos). Este producto de software tambi茅n utiliza la comunidad SDMX: Registry.sdmx.org .


Las 煤ltimas versiones de Fusion Registry han implementado casi por completo toda la funcionalidad del est谩ndar. La aplicaci贸n tambi茅n puede funcionar como un registrador SDMX. Desafortunadamente, no hay posibilidad de generar datos y metadatos en formato SDMX.


Asistente de estructura de datos : la aplicaci贸n Java para crear metadatos estructurales versiones 2.0 y 2.1, admite la creaci贸n de todas las entidades SDMX b谩sicas.


El convertidor SDMX es la herramienta principal para trabajar con datos SDMX creados por Eurostat. Le permite crear un conjunto de datos (pero no metadatos) a partir de archivos en formato Excel, CSV, FLR, as铆 como convertir datos entre diferentes formatos SDMX.


En lugar de una conclusi贸n


La estandarizaci贸n de la informaci贸n estad铆stica dentro del est谩ndar SDMX simplifica enormemente la difusi贸n y el an谩lisis de datos. El uso de servicios web nos permite simplificar el procesamiento de matrices de informaci贸n y garantizar la conexi贸n de los sistemas relacionados, brindando a cualquier usuario la oportunidad de obtener y comparar indicadores macroecon贸micos que le interesan en diferentes pa铆ses del mundo. Las ventajas indicadas del est谩ndar SDMX subyacen al proyecto interdepartamental que se est谩 implementando actualmente en Rusia para introducir el est谩ndar en la pr谩ctica de diseminar datos estad铆sticos tanto a trav茅s del intercambio de informaci贸n con organizaciones internacionales como en el marco de proporcionar datos a un c铆rculo ilimitado de usuarios que utilizan tecnolog铆as de portal.


Lista de sitios relacionados con SDMX:
sdmx.org (Una iniciativa global para mejorar el intercambio de datos estad铆sticos y metadatos)
ec.europa.eu/eurostat/ (Eurostat - Comisi贸n Europea)
sdmxcentral.imf.org (FMI SDMX Central)
sdmxsource.org (implementaci贸n de referencia de c贸digo abierto de SDMX)
dati.istat.it (Instituto Nacional Italiano de Estad铆stica)

Source: https://habr.com/ru/post/es421027/


All Articles