SDMX (Data Statistik dan Metadata eXchange)


Ada sangat sedikit informasi tentang SDMX di Internet berbahasa Rusia, terlepas dari kenyataan bahwa standar ini telah lama digunakan untuk publikasi dan pertukaran data oleh banyak negara dan organisasi internasional. Inisiatif pengembangan standar diluncurkan oleh tujuh organisasi internasional yang bekerja dengan statistik yang mensponsori pengembangan. Tujuan utamanya adalah untuk menyederhanakan pertukaran data statistik antara organisasi-organisasi tersebut, membuat standar untuk pertukaran semacam itu dan menggambarkan proses bisnis untuk menerapkan standar ini. Sebuah pendekatan tunggal tidak hanya memungkinkan Anda untuk menyederhanakan akses ke data statistik, tetapi juga melalui penggunaan metadata (data tentang data) membuat pemahaman tentang makna dan kontennya lebih mudah diakses.


Situs utama inisiatif SDMX adalah sdmx.org , yang juga berisi daftar konsep lintas domain yang disetujui, buku referensi, dan pengklasifikasi. Setiap organisasi yang bergabung dengan standar dapat memperluas dan menambahnya menggunakan prosedur registrasi administrasi khusus.


Standar ini bukan panduan ketat untuk bertindak, organisasi sendiri memilih elemen SDMX mana yang akan mereka gunakan dan untuk tujuan apa.


Sedikit sejarah
Versi pertama standar memungkinkan pertukaran data statistik dan metadata dalam format GESMES / TS (format SDMX sendiri, yang agak mirip dengan CSV dengan pemisah, kemudian diganti namanya menjadi SDMX-EDI) dan format data XML SDML-ML.
Versi 1.0 disetujui pada September 2004 dan diadopsi sebagai spesifikasi teknis ISO (ISO / TS 17369: 2005) pada April 2005.
Pada bulan November 2005, versi 2.0 siap dan disetujui, yang sepenuhnya kompatibel dengan versi 1.0, tetapi menambahkan kemampuan untuk bertukar tautan (deskriptif) metadata.
Versi 2.1 (saat ini untuk 2018) dirilis pada Mei 2011 dan pada 2013 diterbitkan sebagai standar internasional ISO 17369.
Kemudian, standar pertukaran dalam format CSV dan JSON dijelaskan.


Deskripsi standar SDMX berisi komponen-komponen berikut:

  • Model informasi
  • Skema XSD untuk menggambarkan struktur, model konten, dan tipe data
  • Pedoman berorientasi konten
  • Seperangkat program dan alat untuk bekerja dengan SDMX

Model informasi SDMX adalah fondasi standar. Ini diwakili oleh konsep ( KONSEP ), batasan ( CONSTRAIN ), aturan, operasi untuk menentukan format dan komposisi data statistik yang diungkapkan oleh organisasi. Dalam kerangka artikel ini, tidak direncanakan untuk sepenuhnya menggambarkan semua entitas SDMX, hanya komponen utama.


Model Informasi SDMX


Apa perbedaan statistik dari data biasa? Ya, secara umum, tidak ada.


Data statistik - seperangkat data yang dipesan dan diklasifikasikan tentang suatu fenomena atau proses massa. Mereka dicirikan oleh seperangkat pengukuran (konsep, dalam hal SDMX), salah satunya biasanya periode waktu. Alat BI biasanya digunakan untuk memproses dan menganalisis data tersebut.


Pengamatan statistik adalah seperangkat nilai-nilai spesifik dari konsep yang secara unik mengkarakterisasi setiap unit dari totalitas array data.



Angka "208.36" adalah pengamatan statistik yang didefinisikan oleh serangkaian konsep (semua data fiktif)


Dalam SDMX, konsep adalah objek dasar dari struktur dan mewakili karakteristik kualitatif dari pengamatan statistik. Nilai untuk suatu konsep bisa berupa angka, string, tanggal, atau nilai dari direktori kode ( CODELIST ). Representasi ini dapat didefinisikan ulang dalam Definisi Struktur Data ketika konsep digunakan sebagai dimensi atau atribut.


Referensi kode adalah daftar nilai kunci sederhana. Daftar ini mencantumkan banyak nilai yang akan digunakan dalam tampilan: indikator, atribut, dan elemen lain dari bagian struktural SDMX. Mereka dilengkapi dengan metadata struktural lainnya, yang dapat mencerminkan deskripsi khusus untuk berbagai bahasa dan organisasi kode hirarkis.


Prinsip pengkodean objek struktural SDMX didefinisikan dalam standar: huruf Latin dalam huruf besar, angka dan garis bawah diizinkan. Selain itu, struktur berversi didukung.


Deskripsi struktur data Definisi Struktur Data ( DSD ) menentukan komposisi dan urutan konsep yang sesuai untuk pembentukan set data akhir ( DATASET ). Setiap konsep yang termasuk dalam struktur diberikan definisi perannya dalam kumpulan data:


  • Dimensi ( DIMENSI ) - pengidentifikasi data utama. Himpunan nilai semua dimensi, kecuali yang sementara, membentuk kode unik ( CODE ) seri dalam kerangka kerja satu struktur data.
  • Atribut ( ATTRIBUTE ) - memberikan deskripsi tambahan untuk kumpulan data atau untuk pengamatan tertentu. Contoh atribut dapat berupa satuan ukuran atau status pengamatan (pendahuluan, perkiraan, revisi, dll.).
  • Nilai langsungnya adalah observasi ( PENGUKURAN ).

Dengan demikian, contoh di atas dapat dijelaskan oleh struktur data berikut:

KonsepPeranTipe data
FrekuensiPengukuranBuku referensi
NegaraPengukuranBuku referensi
Kategori fungsionalPengukuranBuku referensi
PeriodePengukuran waktuTanggal
UnitAtributBuku referensi
NilaiNilaiNomor


Dataset ( DATASET ) adalah kumpulan data homogen yang memiliki struktur DSD umum. Ini mungkin berisi deret waktu atau beberapa deret pada titik waktu tertentu ( Data Sectional ).



KONSEP komunikasi, CODELISTS, DSD dan DATASET

Contoh dataset dari situs web Bank Sentral Eropa. Bidang "Kunci" berisi serangkaian pengukuran untuk setiap seri waktu, dipisahkan oleh titik, mereka membentuk kunci unik



Data Rangkaian Waktu


Metadata


Dalam SDMX, metadata dibagi menjadi dua kelompok:


  • Metadata struktural adalah seperangkat konsep yang digunakan untuk menggambarkan dan mengidentifikasi data statistik dan metadata.
  • Metadata referensi adalah seperangkat konsep besar yang mendefinisikan dan memenuhi syarat set data dan yang biasanya menggambarkan bukan pengamatan atau serangkaian data, tetapi seluruh kumpulan data atau bahkan organisasi yang menyediakan data. Metadata referensi biasanya dalam format teks atau HTML dan menggunakan konsep yang menggambarkan konten, metodologi, dan kualitas data.

Deskripsi struktur metadata Definisi Struktur Metadata ( MSD ) mencakup informasi tentang bagaimana set metadata diorganisasikan yang berisi nilai referensi (mirip dengan DSD). Secara khusus, MSD menjelaskan apa yang termasuk dalam pertukaran metadata dan bagaimana konsep saling berhubungan, bagaimana mereka akan ditampilkan (dalam bentuk teks atau nilai-nilai dari direktori) dan dengan jenis objek apa (agensi, aliran data, penyedia data, dataset, dll.) mereka terhubung.


Rangkaian metadata referensi ( METADATASET ) adalah informasi yang secara langsung menggambarkan pendekatan statistik, organisasi yang menyediakan data atau struktur data, kalender publikasi, kualitas data, dll., Sesuai dengan struktur metadata.



Pengajuan referensi metadata di situs web Bank Sentral Eropa

Pedoman Konten


Pedoman berorientasi konten adalah seperangkat pedoman dalam standar SDMX. Tujuan mereka adalah kompatibilitas maksimum dalam pertukaran data dan metadata antar organisasi. Penggunaannya di antara organisasi statistik didorong sebanyak mungkin. Dokumen utama adalah:


  • Daftar Konsep Lintas Domain
  • Bidang studi statistik
  • Kamus Metadata Umum

Daftar Konsep Lintas Domain berisi daftar konsep statistik yang terkait dengan proses statistik dan kualitas data. Daftar ini didasarkan pada konsep yang digunakan oleh organisasi sponsor internasional. Itu tidak lengkap dan akan ditambahkan di masa depan.

Konsep dapat digunakan untuk data dan metadata. Setiap konsep memiliki kode unik dan deskripsi konteks di mana konsep ini dapat digunakan, serta presentasi dalam standar SDMX.


Statistik Berorientasi Subjek Domain ( Content-Oriented Domains ) adalah klasifikasi tingkat atas berdasarkan karya Komisi Ekonomi PBB untuk Eropa (UNECE) pada domain statistik. Klasifikasi menawarkan titik awal dalam organisasi pertukaran data statistik dan metadata.


Metadata Common Vocabulary Metadata Dictionary ( MCV ) berisi konsep dan dimensi terkait yang digunakan dalam metadata struktural dan referensi organisasi internasional dan lembaga nasional. MCV adalah kosakata yang merekomendasikan penggunaan istilah umum untuk menyederhanakan komunikasi dan pemahaman. MCV terkait erat dengan konsep lintas domain dan juga mengandung semua konsep ini, menunjukkan definisi dan deskripsi konteksnya.


Alat IT untuk bekerja dengan SDMX


Daftar alat untuk bekerja dengan SDMX tersedia di sdmx.org .

Alat utama untuk bekerja dengan metadata struktural adalah pengembangan Metadata Technology - Fusion Registry . Ini berfungsi sebagai aplikasi web. Ada dua versi - Komunitas (versi gratis dengan fitur terbatas) dan Edisi Perusahaan (berbayar). Perangkat lunak ini menggunakan Dana Moneter Internasional sdmxcentral.imf.org sebagai pendaftar tunggal (satu titik pengumpulan dan penyebaran data dan metadata). Produk perangkat lunak ini juga menggunakan komunitas SDMX - registry.sdmx.org .


Versi terbaru dari Fusion Registry hampir sepenuhnya menerapkan semua fungsi standar. Aplikasi ini juga dapat berfungsi sebagai pendaftar SDMX. Sayangnya, tidak ada kemungkinan menghasilkan data dan metadata dalam format SDMX.


Data Structure Wizard - aplikasi Java untuk membuat versi metadata struktural 2.0 dan 2.1, mendukung pembuatan semua entitas SDMX dasar.


Konverter SDMX adalah alat utama untuk bekerja dengan data SDMX yang dibuat oleh Eurostat. Memungkinkan Anda membuat kumpulan data (tetapi bukan metadata) dari file dalam format Excel, CSV, FLR, serta mengonversi data di antara berbagai format SDMX.


Alih-alih sebuah kesimpulan


Standarisasi informasi statistik dalam standar SDMX sangat menyederhanakan penyebaran dan analisis data. Menggunakan layanan web memungkinkan kami menyederhanakan pemrosesan array informasi dan memastikan koneksi sistem terkait, memberikan setiap pengguna kesempatan untuk memperoleh dan membandingkan indikator ekonomi makro yang menarik baginya di berbagai negara di dunia. Keuntungan yang ditunjukkan dari standar SDMX mendasari proyek antar departemen yang saat ini sedang dilaksanakan di Rusia untuk memperkenalkan standar dalam praktik penyebaran data statistik baik melalui pertukaran informasi dengan organisasi internasional dan dalam rangka menyediakan data kepada lingkaran pengguna yang tidak terbatas menggunakan teknologi portal.


Daftar situs yang berkaitan dengan SDMX:
sdmx.org (Inisiatif global untuk menyemarakkan Data Statistik dan Metadata eXchange)
ec.europa.eu/eurostat/ (Eurostat - Komisi Eropa)
sdmxcentral.imf.org (IMF SDMX Central)
sdmxsource.org (Implementasi referensi sumber terbuka dari SDMX)
dati.istat.it (Institut Statistik Nasional Italia)

Source: https://habr.com/ru/post/id421027/


All Articles