تحليل مجموعات البيانات من بوابة البيانات المفتوحة data.gov.ru

آخر مرة [ تنزيل البيانات من موقع البيانات المفتوحة data.gov.ru ] تمكنت من معرفة كيفية تنزيل البيانات من بوابة البيانات المفتوحة الروسية مع بعض المشاكل. يجب أن توفر بوابة البيانات المفتوحة المعلومات الأكثر صلة حول البيانات المفتوحة للسلطات الفيدرالية والسلطات الإقليمية والمنظمات الأخرى (اقتباس من data.gov.ru). دعونا نرى ما هي البيانات الموجودة على البوابة الإلكترونية ، ومدى ارتباطها بها ، وفي أي شكل يتم وضعها.

يوضح المخطط الدائري أدناه توزيع مجموعات البيانات حسب الفئة.



ينتمي أكثر من نصف مجموعات البيانات (59.65٪) إلى فئة "الدولة". ينتمي حوالي عشرة بالمائة (9.56٪) إلى فئة "الاقتصاد". ما يقرب من عشرة بالمائة (7.61٪) هو عدد مجموعات البيانات في فئة التعليم. والباقي أقل من خمسة بالمائة. التوزيع طبيعي جدا.

سنقوم بتوسيع معرفتنا بالبيانات المنشورة على البوابة. دعونا نلقي نظرة على إحصاءات الموضع على بوابة البيانات بحلول تاريخ النشر الأول لمجموعة البيانات.



بدأ عام 2017 للتو ، ومن الطبيعي أن تزيد كمية البيانات المنشورة في عام 2017. نعم ، أثناء كتابة النص ، يتم تحميل مجموعات بيانات جديدة على البوابة الإلكترونية.
على ما يبدو ، تمكن شخص ما من العودة في الماضي ، بعد أن تمكن من وضع البيانات في عام 1970 البعيد.
بشكل عام ، الصورة واضحة: أولاً ، نمو حاد ، ثم الاستقرار. على الرغم من أنه من المبكر الحديث عن الاستقرار.

يمكن رؤية صورة مثيرة للاهتمام إذا أخذنا بعين الاعتبار توزيع مجموعات البيانات حسب تاريخ الصلة (التاريخ الذي يجب بعده تحديث النسخة الحالية من مجموعة البيانات).



يندفع على الفور 1 سنة. وبالتالي ، قمت بتعيين مجموعات بيانات ليس لها تاريخ محدث. بناءً على تحديد تاريخ الصلة ، يمكننا أن نستنتج أن هذه مجموعات بيانات لا تحتاج إلى تحديث على الإطلاق. وبطبيعة الحال ، فإن مجموعات البيانات هذه لها الحق في الوجود. هناك دائمًا بيانات أرشيفية (تاريخية) من غير المرجح أن تتغير (حسنًا ، إذا لم تكن هناك أخطاء فيها) ، وهناك بيانات حالية - حالية تتغير باستمرار. قد يكون كل من هؤلاء وغيرهم موضع اهتمام. بعد كل شيء ، يحدث أنك بحاجة إلى معرفة: كيف كانت موجودة في الماضي (تحت حكم القيصر أو في ظل النظام السوفياتي)؟ ولكن ، بالطبع ، البيانات الفعلية (الحية) التي يتم تحديثها باستمرار هي أكثر إثارة للاهتمام.

حتى إذا لم تفكر في الرسم البياني بعناية شديدة ، فمن الواضح أنه يجب تحديث بعض البيانات في المستقبل البعيد. يمكننا أن نقول أن أولئك الذين نشروها لديهم ثقة هائلة في المستقبل. في السنوات الخمس أو العشرون أو العشرون (؟) التالية لن يغيروا أي شيء. أو ربما يكون مجرد خطأ؟ وهذا ممكن.

لكن بشكل عام ، الصورة سعيدة للغاية - ما يقرب من نصف خطط البيانات سيتم تحديثها هذا العام.

والآن سنؤكد هذه الصورة المبهجة. خذ بعين الاعتبار توزيع مجموعات البيانات حسب تاريخ التغيير الأخير.



نعم مرة أخرى سنة واحدة. لم يتم تعديل مجموعات البيانات هذه. أنا فقط أريد الإمساك بشخص ما. مثل ، وعدوا بالتحديث ، لكنهم لم يجروا تغييرات. أو لم يعدوا بالتحديث والتحديث. ولكن في المرة القادمة سنبحث عن الأنماط (أو عدم وجودها).

دمج المعلومات حول المنشور الأول وآخر تحديث. أي إذا كان هناك تحديث - خذ تاريخ التحديث ، إذا لم يكن هناك تحديث - خذ تاريخ النشر الأول. والنتيجة هي تاريخ آخر تغيير للبيانات.



الجمال الاتجاه مرئي بوضوح - أكثر من نصف البيانات تم تغييرها آخر مرة أو تم إنشاؤها في 2016-2017. ربما يمكنك اعتبارها ذات صلة.

من الضروري ملاحظة تحذير واحد. يتم تكرار بعض مجموعات البيانات: تم العثور على نفس اسم مجموعة البيانات ومالكها عدة مرات في التسجيل.



بدلاً من التحديث ، تم وضع مجموعة البيانات مرة أخرى. في بعض الأحيان تم وضع المجموعات في فئة مختلفة. ولكن إذا نظرت إلى مجموعات بيانات تحمل نفس الاسم والمالك والفئة ، فستكون الصورة على النحو التالي.



على الأقل مشابهة جدا. لكن بالكاد انتقاد. يبدو أن بعض مالكي البيانات يحتاجون إلى نشر البيانات بعناية.

فحص صغير لملء الحقول النصية في مجموعات بيانات جوازات السفر.
المجالضبط بواسطةغير محدد
العنوان100٪
الوصف80.84٪19.16٪
الفئات100٪
المالك99.7٪0.03٪
الكلمات الرئيسية99.48٪0.52٪
الشخص المسؤول96.43٪3.57٪
رقم هاتف الشخص المسؤول96٪
البريد الإلكتروني للشخص المسؤول92.68٪7.32٪
تنسيق البيانات97.79٪2.21٪
الاتصال الهاتفي96.86٪3.14٪

يتم تحديد الاسم والفئة في كل مكان. ما يقرب من خمس مجموعات البيانات لا تحتوي على وصف. في كل مكان تقريبًا يكون المالك معروفًا ويتم تعيين بعض الكلمات الرئيسية. الشخص المسؤول موجود أيضًا في كل مكان تقريبًا. ليس من الواضح سبب حاجتنا إلى مجموعات بيانات لا يمكن تنزيلها (حوالي 3٪).

ونتيجة لذلك ، نقسم جميع مجموعات البيانات إلى فئتين: يتم تحديد جميع الحقول ، ولا يتم تحديد حقل واحد على الأقل.



يحتوي 30 بالمائة (30.3٪) على حقل واحد غير محدد على الأقل. بأي تنسيق يتم تحميل البيانات؟



في الغالب بتنسيق نص محدد محدد (csv). في المركز الثاني هو XML. على جسون الثالث. القائد الواضح هو تنسيق csv - يمكنك فتحه في أي محرر نصوص ، واستيراده في أي مكان تقريبًا للمعالجة ، وبجهد ضئيل قم بإدراجه كجدول في محرر نصوص. من السهل أيضًا رؤية تنسيق xml. ولكن مع تنسيق json قد تكون هناك مشاكل. إذا كنت تركز على Excel ، باعتباره محرر جداول البيانات الأكثر استخدامًا ، فإن json يمثل مشكلة بالفعل. يمكنك البحث في Google عن هذا الموضوع وإيجاد طريقة للتنزيل ، ولكن ليس مباشرة. لا يحتوي Excel على أدوات مضمنة لتحميل json.

بطبيعة الحال ، فإن المشكلة هي الخوف ، وغير مميتة ، لكنها غير سارة. من المؤكد أن هذا التنسيق سيوقف أو يحير شخصًا ما.



يوضح التوزيع حسب السنوات أنه مع مرور الوقت ، تستمر هيمنة تنسيق csv.



سيزيد استخدام تنسيق json بشكل كبير. هذا يقلل من استخدام تنسيق xml.
ويمكن تفسير ذلك. تنسيق csv هو الأبسط ، لذلك يتم استخدامه غالبًا. في الوقت نفسه ، تستخدم خدمات الويب الآن بشكل متزايد تنسيق json وأقل وأقل من XML.

الاستنتاجات


ينتمي أكثر من نصف البيانات المنشورة على بوابة البيانات المفتوحة الروسية إلى فئة "الدولة".

تم آخر تعديل أو إنشاء أكثر من نصف البيانات في 2016-2017.

يحتوي 30 بالمائة من جوازات مجموعة البيانات على حقل واحد غير محدد على الأقل.

أكثر التنسيقات شيوعًا لتخزين البيانات المفتوحة: csv و xml و json. في الوقت نفسه ، هناك زيادة في عدد مجموعات البيانات بتنسيق json وانخفاض في عدد مجموعات البيانات بتنسيق xml.

ما هي الخطوة التالية؟


بعد تحليل مجموعات البيانات ، دعنا نرى عدد مرات استخدامها - عرضها وتنزيلها. ما هي التصنيفات التي يحددها المستخدمون لمجموعات البيانات؟ ما هي مجموعات البيانات ذات الأهمية؟ كم مرة يتم تحديث مجموعات البيانات؟ ما حجم مجموعات البيانات؟ وهل هناك علاقة بين كل هذا؟

Source: https://habr.com/ru/post/ar401371/


All Articles