SDMX (تبادل البيانات الإحصائية والبيانات الوصفية)


هناك القليل من المعلومات حول SDMX على الإنترنت باللغة الروسية ، على الرغم من حقيقة أن هذا المعيار يستخدم منذ فترة طويلة لنشر وتبادل البيانات من قبل العديد من البلدان والمنظمات الدولية. تم إطلاق مبادرة تطوير المعايير من قبل سبع منظمات دولية تعمل مع الإحصائيات التي ترعى التطوير. كان الهدف الرئيسي هو تبسيط تبادل البيانات الإحصائية بين هذه المنظمات ، وخلق معيار لمثل هذا التبادل ووصف عملية العمل لتنفيذ هذا المعيار. لا يسمح لك نهج واحد فقط بتبسيط الوصول إلى البيانات الإحصائية ، ولكن أيضًا من خلال استخدام البيانات الوصفية (بيانات حول البيانات) يجعل فهم معناها ومحتواها أكثر سهولة.


الموقع الرئيسي لمبادرة SDMX هو sdmx.org ، والذي يحتوي أيضًا على قائمة بالمفاهيم المعتمدة عبر النطاقات والكتب المرجعية والمصنفات . يمكن لكل منظمة تنضم إلى المعيار توسيعه واستكماله باستخدام إجراء تسجيل إداري خاص.


المعيار ليس دليلاً صارمًا للعمل ؛ فالمؤسسات نفسها تختار عناصر SDMX التي ستستخدمها ولأي أغراض.


القليل من التاريخ
سمح الإصدار الأول من المعيار بتبادل البيانات الإحصائية والبيانات الوصفية بتنسيقات GESMES / TS (تنسيق SDMX الخاص به ، الذي يذكرنا إلى حد ما بـ CSV مع فاصل ، أعيدت تسميته لاحقًا SDMX-EDI) وتنسيق بيانات XML SDML-ML.
تمت الموافقة على الإصدار 1.0 في سبتمبر 2004 واعتمد كمواصفات فنية ISO (ISO / TS 17369: 2005) في أبريل 2005.
في نوفمبر 2005 ، كان الإصدار 2.0 جاهزًا وموافقًا عليه ، وهو متوافق تمامًا مع الإصدار 1.0 ، ولكنه أضاف القدرة على تبادل البيانات الوصفية للوصلة (الوصفية).
تم إصدار الإصدار 2.1 (الحالي لعام 2018) في مايو 2011 وتم نشره في 2013 كمعيار دولي ISO 17369.
في وقت لاحق ، تم وصف معايير التبادل بتنسيقات CSV و JSON.


يحتوي الوصف القياسي لـ SDMX على المكونات التالية:

  • نموذج المعلومات
  • مخططات XSD لوصف البنية ونموذج المحتوى وأنواع البيانات
  • إرشادات موجهة للمحتوى
  • مجموعة من البرامج والأدوات للعمل مع SDMX

نموذج معلومات SDMX هو أساس المعيار. ويمثلها المفاهيم ( CONCEPT ) ، والقيود ( CONSTRAIN ) ، والقواعد ، والعمليات لتحديد شكل وتكوين البيانات الإحصائية التي تكشف عنها المنظمة. في إطار هذه المقالة ، ليس من المخطط وصف جميع كيانات SDMX بشكل كامل ، فقط المكونات الرئيسية.


نموذج معلومات SDMX


كيف تختلف الإحصاءات عن البيانات العادية؟ نعم ، بشكل عام ، لا شيء.


البيانات الإحصائية - مجموعة من البيانات المرتبة والمصنفة حول ظاهرة أو عملية جماهيرية. وتتميز بمجموعة من القياسات (المفاهيم من حيث SDMX) ، أحدها عادة فترة زمنية. تستخدم أدوات BI عادة لمعالجة وتحليل هذه البيانات.


الملاحظة الإحصائية هي مجموعة من القيم المحددة للمفاهيم التي تميز بشكل فريد كل وحدة من مجموع صفيف البيانات.



الرقم "208.36" هو ملاحظة إحصائية محددة بمجموعة من المفاهيم (جميع البيانات وهمية)


في SDMX ، المفهوم هو الهدف الأساسي للهيكل ويمثل خاصية نوعية للملاحظات الإحصائية. يمكن أن تكون قيم المفهوم رقمًا أو سلسلة أو تاريخًا أو قيمًا من أدلة التعليمات البرمجية ( CODELIST ). يمكن إعادة تعريف هذا التمثيل في تعريف هيكل البيانات عند استخدام المفهوم كبعد أو سمة.


مراجع الرمز هي قائمة بسيطة ذات قيمة مفتاح. تسرد القائمة القيم العديدة التي سيتم استخدامها في العرض: المؤشرات والسمات والعناصر الأخرى للجزء الهيكلي SDMX. يتم استكمالها ببيانات وصفية هيكلية أخرى ، والتي يمكن أن تعكس الوصف الخاص بلغات مختلفة والتنظيم الهرمي للرموز.


تم تعريف مبدأ ترميز الكائنات الهيكلية لـ SDMX في المعيار: يُسمح باستخدام الأحرف اللاتينية بالأحرف الكبيرة والأرقام والشرطة السفلية. بالإضافة إلى ذلك ، يتم دعم الهياكل ذات الإصدارات.


وصف بنية البيانات يحدد تعريف بنية البيانات ( DSD ) التكوين المناسب وترتيب المفاهيم لتشكيل مجموعة البيانات النهائية ( DATASET ). يتم إعطاء كل مفهوم مدرج في الهيكل تعريفًا لدوره في مجموعة البيانات:


  • البعد ( البعد ) - معرف البيانات الرئيسي. تشكل مجموعة قيم جميع الأبعاد ، باستثناء البعد المؤقت ، رمزًا فريدًا ( CODE ) للسلسلة في إطار بنية بيانات واحدة.
  • السمة ( ATTRIBUTE ) - تقدم وصفًا إضافيًا إما لمجموعة بيانات أو لملاحظة معينة. يمكن أن يكون مثال السمة وحدة قياس أو حالة ملاحظة (أولية ، متوقعة ، منقحة ، إلخ).
  • القيمة الفورية هي مراقبة ( MEASURE ).

وبالتالي ، يمكن وصف المثال أعلاه ببنية البيانات التالية:

المفهومالدورنوع البيانات
الترددالقياسكتاب مرجعي
البلدالقياسكتاب مرجعي
الفئة الوظيفيةالقياسكتاب مرجعي
الفترةقياس الوقتالتاريخ
الوحدةالسمةكتاب مرجعي
القيمةالقيمةرقم


مجموعة البيانات ( DATASET ) هي مجموعة من البيانات المتجانسة التي لها هيكل DSD مشترك. قد تحتوي على سلاسل زمنية أو عدة سلاسل في وقت معين ( بيانات مقطعية ).



مفاهيم الاتصال ، الرموز ، DSD ومجموعة البيانات

مثال على مجموعة بيانات من الموقع الإلكتروني للبنك المركزي الأوروبي. يحتوي حقل "المفتاح" على مجموعة من القياسات لكل سلسلة زمنية ، مفصولة بنقطة ، وتشكل مفتاحًا فريدًا



بيانات السلاسل الزمنية


البيانات الوصفية


في SDMX ، تنقسم البيانات الوصفية إلى مجموعتين:


  • البيانات الوصفية الهيكلية هي مجموعة من المفاهيم المستخدمة لوصف وتعريف البيانات الإحصائية والبيانات الوصفية.
  • البيانات الوصفية المرجعية هي مجموعة كبيرة من المفاهيم التي تحدد مجموعات البيانات وتؤهلها والتي لا تصف عادة ملاحظة أو سلسلة بيانات ، ولكن مجموعة البيانات بأكملها أو حتى المؤسسة التي تقدم البيانات. عادةً ما تكون البيانات الوصفية المرجعية بتنسيق نص أو HTML وتستخدم مفاهيم تصف محتوى البيانات ومنهجيتها وجودتها.

يتضمن وصف هيكل البيانات الوصفية تعريف بنية البيانات الوصفية ( MSD ) معلومات حول كيفية تنظيم مجموعات البيانات الوصفية التي تحتوي على قيم مرجعية (مشابهة ل DSDs). على وجه الخصوص ، يصف MSD ما يتم تضمينه في تبادل البيانات الوصفية وكيف ترتبط المفاهيم ببعضها البعض ، وكيف سيتم عرضها (في شكل نص أو قيم من الدليل) ونوع الكائن (الوكالة ، تدفق البيانات ، مزود البيانات ، مجموعة البيانات ، وما إلى ذلك) هم متصلون.


مجموعة البيانات الوصفية المرجعية ( METADATASET ) هي معلومات تصف بشكل مباشر النهج الإحصائي ، والمنظمة التي تقدم البيانات أو بنية البيانات ، وتقويم النشر ، وجودة البيانات ، وما إلى ذلك ، وفقًا لهيكل البيانات الوصفية.



تقديم البيانات الوصفية المرجعية على الموقع الإلكتروني للبنك المركزي الأوروبي

إرشادات المحتوى


الإرشادات الموجهة للمحتوى هي مجموعة من الإرشادات ضمن معيار SDMX. هدفهم هو التوافق الأقصى في تبادل البيانات والبيانات الوصفية بين المنظمات. يتم تشجيع استخدامها بين المنظمات الإحصائية قدر الإمكان. الوثائق الرئيسية هي:


  • قائمة المفاهيم عبر المجالات
  • المجالات الإحصائية
  • قاموس بيانات التعريف العامة

تحتوي قائمة المفاهيم عبر المجالات على قائمة بالمفاهيم الإحصائية المتعلقة بالعملية الإحصائية وجودة البيانات. تستند هذه القائمة على المفاهيم المستخدمة من قبل المنظمات الراعية الدولية. إنها ليست شاملة وسيتم استكمالها في المستقبل.

يمكن استخدام المفاهيم لكل من البيانات والبيانات الوصفية. يحتوي كل مفهوم على رمز فريد ووصف للسياق الذي يمكن استخدام هذا المفهوم فيه ، بالإضافة إلى عرض تقديمي في معيار SDMX.


المجالات الإحصائية - المجالات الموجهة للمحتوى ( المجالات الموجهة للمحتوى ) هي تصنيف عالي المستوى يعتمد على عمل لجنة الأمم المتحدة الاقتصادية لأوروبا (UNECE) في المجالات الإحصائية. يوفر التصنيف نقطة انطلاق في تنظيم تبادل البيانات الإحصائية والبيانات الوصفية.


يحتوي قاموس البيانات الوصفية المشترك للبيانات الوصفية ( MCV ) على المفاهيم والأبعاد المرتبطة المستخدمة في البيانات الوصفية الهيكلية والمرجعية للمنظمات الدولية والوكالات الوطنية. MCV هي مفردات توصي باستخدام المصطلحات الشائعة لتبسيط التواصل والفهم. يرتبط MCV ارتباطًا وثيقًا بالمفاهيم عبر المجالات ويحتوي أيضًا على كل هذه المفاهيم ، مما يشير إلى تعريفها ووصفها للسياق.


أدوات تكنولوجيا المعلومات للعمل مع SDMX


قائمة أدوات العمل مع SDMX متاحة على sdmx.org .

الأداة الرئيسية للعمل مع البيانات الوصفية الهيكلية هي تطوير تقنية البيانات الوصفية - Fusion Registry . يعمل كتطبيق ويب. هناك إصداران - المجتمع (إصدار مجاني بميزات محدودة) وإصدار Enterprise (مدفوع). يستخدم هذا البرنامج صندوق النقد الدولي sdmxcentral.imf.org كمسجل واحد (نقطة واحدة لجمع ونشر البيانات والبيانات الوصفية). يستخدم منتج البرنامج هذا أيضًا مجتمع SDMX - register.sdmx.org .


نفذت أحدث إصدارات Fusion Registry بشكل كامل تقريبًا جميع وظائف المعيار. يمكن أن يعمل التطبيق أيضًا كمسجل SDMX. لسوء الحظ ، لا توجد إمكانية لتوليد البيانات والبيانات الوصفية بتنسيق SDMX.


معالج بنية البيانات - تطبيق Java لإنشاء إصدارات البيانات الوصفية الهيكلية 2.0 و 2.1 ، يدعم إنشاء جميع كيانات SDMX الأساسية.


محول SDMX هو الأداة الرئيسية للعمل مع بيانات SDMX التي تم إنشاؤها بواسطة Eurostat. يسمح لك بإنشاء مجموعة بيانات (ولكن ليس بيانات التعريف) من الملفات بتنسيق Excel و CSV و FLR ، وكذلك تحويل البيانات بين تنسيقات SDMX المختلفة.


بدلا من الاستنتاج


يعمل توحيد المعلومات الإحصائية ضمن معيار SDMX على تبسيط نشر البيانات وتحليلها بشكل كبير. يتيح لنا استخدام خدمات الويب تبسيط معالجة صفائف المعلومات وضمان اتصال الأنظمة ذات الصلة ، مما يتيح لأي مستخدم فرصة الحصول على ومقارنة مؤشرات الاقتصاد الكلي التي تهمه في بلدان مختلفة من العالم. تشكل المزايا المبينة لمعيار SDMX أساس مشروع مشترك بين الإدارات يتم تنفيذه حاليًا في روسيا لتقديم المعيار في ممارسة نشر البيانات الإحصائية من خلال تبادل المعلومات مع المنظمات الدولية وضمن إطار توفير البيانات إلى دائرة غير محدودة من المستخدمين باستخدام تقنيات البوابة.


قائمة المواقع المتعلقة SDMX:
sdmx.org (مبادرة عالمية لتحسين تبادل البيانات الإحصائية والبيانات الوصفية)
ec.europa.eu/eurostat/ (المكتب الإحصائي للجماعات الأوروبية - المفوضية الأوروبية)
sdmxcentral.imf.org (IMF SDMX Central)
sdmxsource.org (تنفيذ مرجع مفتوح المصدر لـ SDMX)
dati.istat.it (المعهد الوطني الإيطالي للإحصاء)

Source: https://habr.com/ru/post/ar421027/


All Articles