باستخدام مجموعات البيانات من بوابة البيانات المفتوحة الروسية data.gov.ru

آخر مرة قمت فيها بتحليل مجموعات البيانات: التوزيع حسب الفئات وتنسيقات الملفات ، ودرجة ملء الحقول في جوازات سفر مجموعات البيانات ، وما إلى ذلك. سأحاول الآن فهم عدد المرات التي تهتم فيها مجموعات البيانات وكم مرة يتم استخدام مجموعات البيانات؟ ما هي مجموعات البيانات التي تهم مستخدمي البوابة الإلكترونية؟

من أجل إجراء تقييم ، من الضروري تحديد المعايير لإجراء ذلك. في أوصاف مجموعات البيانات ، هناك معلومات حول عدد المشاهدات. لا يجب أن تكون عبقريًا لفهم أنه إذا نظر شخص ما إلى معلومات حول مجموعة بيانات ، فإنه على ما يبدو لم يفعل ذلك عن طريق الصدفة. وبالتالي ، فإن المعيار الذي أثار اهتمام مجموعة البيانات سيكون عدد المشاهدات. وإذا كانت مجموعة البيانات ليست مثيرة للاهتمام فحسب ، ولكنها يمكن أن تكون مفيدة ، فسيتم تنزيلها. وبالتالي ، سيكون عدد التنزيلات معيارًا للفائدة.

ويمكنك أن تتخيل أن البوابة عبارة عن متجر. المنتجات الموجودة في المتجر هي مجموعات بيانات. تكلفة البضائع هي مقدار الجهد الذي يجب إنفاقه من أجل التنزيل (البحث عن مكان هذا الرابط) واستخدام البيانات (على سبيل المثال ، العرض أو الاستخدام كمصدر بيانات لأغراضك الخاصة). وفقًا لذلك ، عدد المشاهدات هو عدد المشترين المحتملين ، وعدد التنزيلات هو عدد عمليات الشراء.

يذهب المشترون إلى المتجر ، وينظرون إلى السلع ، ويقيمونها. إذا لم يتمكن المشتري من العثور على المنتج أو لم يفهم ما إذا كان مناسبًا له ، فسوف يغادر. إذا كان المنتج مفيدًا للمشتري ، فيمكنه شراؤه (التنزيل) ، إذا كان السعر (مقدار الجهد المبذول للتنزيل والاستخدام) مناسبًا. على سبيل المثال ، اهتمتني مجموعة بيانات معينة ، وأريد تنزيلها. ولكن اتضح أنه في تنسيق يصعب علي استخدامه. في نفس الوقت ، على موقع آخر هناك نفس البيانات ، ولكن في شكل أكثر ملاءمة أو أحدث ، أو مع وصف أفضل ، على التوالي ، لن يتم تنزيل مجموعة البيانات.

أولاً ، أبسط الخصائص الإحصائية لعدد المشاهدات:

  • المجموع - 2.03 مليون ؛
  • الحد الأدنى - 2 ؛
  • متوسط ​​- 161 ؛
  • متوسط ​​- 61 ؛
  • الحد الأقصى - 28.1 ألف

تشير القيمة الكبيرة للحد الأقصى مقارنة بالمتوسط ​​والوسيط ، وكذلك الفرق بين المتوسط ​​والمتوسط ​​، إلى التوزيع غير المتكافئ لعدد المشاهدات و "الذيل الطويل".

للتحقق من ذلك بصريًا ، أقسم عدد المشاهدات إلى 1000 مجموعة موزعة بالتساوي (متوسط) وأحصل على منحنى سلس إلى حد ما. ثم أقوم بالاعتماد على مجموع كل المشاهدات على متوسط ​​عدد المشاهدات وعدد مجموعات البيانات على متوسط ​​عدد المشاهدات.

توزيع طرق عرض مجموعات البيانات المفتوحة من بوابة data.gov.ru

ماذا يظهر الرسم البياني؟

يحتوي عدد كبير من مجموعات البيانات على عدد من المشاهدات يقترب من الصفر ، ولكن العدد الإجمالي لمشاهدات هذه المجموعات كبير. علاوة على ذلك ، انخفاض ما يقرب من 100 إلى 1000. من 1000 إلى 5000 توزيع موحد إلى حد ما. من 5000 نمو.

يتم تحديد الأرقام بالعين. وإليك كيف يبدو الشيء نفسه على الرسم التخطيطي.

توزيع طرق عرض مجموعات البيانات المفتوحة من بوابة data.gov.ru. مخطط

تم عرض ثلثي مجموعات البيانات أقل من 100 مرة.
تم عرض ثلث مجموعات البيانات من 100 إلى 1000 مرة.
تم عرض حوالي واحد بالمائة من 1000 إلى 5000 مرة.
وقد تم عرض أقل من عُشر في المائة من مجموعات البيانات أكثر من 5000 مرة.
ولكن إذا كنت تفكر في مجموع المشاهدات ، فستكون الصورة مختلفة.
تلك المجموعات التي تم عرضها أقل من 100 مرة تشكل 16٪ فقط.

ما يقرب من الثلثين ، أي الجزء الأكبر من المشاهدات ، تقع على مجموعات البيانات التي تم عرضها من 100 إلى 1000 مرة.

حوالي 14٪ هي مجموعات بيانات تم عرضها من 1000 إلى 5000 مرة.

ويقع ما يقرب من 7 ٪ على المجموعات التي تم عرضها أكثر من 5000 مرة (وهناك أقل من عُشر المجموع).

ولكن هذا ليس بالضبط ما تحتاجه لتقييم استخدام مجموعات البيانات. تم وضع مجموعات البيانات في أوقات مختلفة ، لذا فإن استخدام القيم المطلقة ، في هذه الحالة عدد المشاهدات ، لا معنى له. لإجراء مقارنة صحيحة ، سأستخدم القيمة النسبية - عدد المشاهدات لكل شهر.

الخصائص الإحصائية لعدد مشاهدات مجموعات البيانات شهريًا:

  • الحد الأدنى - 0.184 ؛
  • متوسط ​​- 8.49 ؛
  • متوسط ​​- 5.33 ؛
  • الحد الأقصى - 1.76 ألف

في الواقع ، الوضع مع عدد المشاهدات في الشهر يشبه عدد المشاهدات - توزيع غير متساوٍ مع ذيل طويل.

عدد مشاهدات مجموعات البيانات المفتوحة من بوابة data.gov.ru شهريا

سأقسم جميع مجموعات البيانات بشكل مشروط على متوسط ​​عدد المشاهدات على النحو التالي:
أقل من مرة في الشهر ؛

  • من مرة في الشهر إلى مرة في الأسبوع ؛
  • من مرة في الأسبوع إلى مرة في اليوم ؛
  • من مرة في اليوم إلى مرة في الساعة ؛
  • أكثر من مرة في الساعة.


عدد مشاهدات مجموعات البيانات المفتوحة من بوابة data.gov.ru شهريا. مخطط

مجموعات البيانات التي يتم عرضها أقل من مرة واحدة في الشهر ، على ما يبدو ، أمر غير ضروري على الإطلاق. هناك حوالي 6٪ من مجموعات البيانات هذه ومن المنطقي أنها تمثل 0.2٪ فقط من إجمالي عدد المشاهدات.

يتم عرض ثلث مجموعات البيانات من مرة واحدة في الشهر إلى مرة واحدة في الأسبوع. وتمثل حوالي 6٪ من إجمالي عدد المشاهدات. يبدو أن شخصًا ما يشاهد في بعض الأحيان.

تم عرض أكثر قليلاً من نصف مجموعات البيانات من مرة واحدة في الأسبوع إلى مرة واحدة في اليوم. وتمثل ما يقرب من نصف إجمالي عدد المشاهدات. ليس كثيرًا ، لكن شاهد.

مجموعات البيانات التي يتم عرضها أكثر من مرة في اليوم ، ومجموعها 2.5٪ ، تمثل أكثر من ثلث إجمالي عدد المشاهدات. هنا ما يثير الاهتمام.

لكن الاهتمام الأكبر ناتج عن مجموعات البيانات التي يتم عرضها أكثر من مرة في الساعة. لا يوجد سوى 0.03 من العدد الإجمالي ، ويمثلون ما يقرب من 4 ٪ من إجمالي عدد المشاهدات.

وبالتالي ، يمكن اعتبار 3٪ فقط من جميع مجموعات البيانات مثيرة للاهتمام بالفعل. والثالث لا فائدة. ويمكن لأكثر من النصف بقليل أن يثير اهتمام شخص ما في بعض الأحيان.

هناك الكثير من السلع في المتجر. لكن أكثر من ثلثهم لا يهتمون تقريبًا بالمشترين. أكثر من نصف المنتجات ليست مثيرة للاهتمام بشكل خاص للمشترين ، ولكن اهتمامهم بها مستقر. و 3٪ من السلع مثيرة للاهتمام حقا.

لكن هذه ليست سوى نصف المعركة.

حتى لو ذهب المشتري إلى المتجر وكان المنتج مهتمًا به ، فهل سيشتريها؟

إذا تم تنزيل مجموعة البيانات ، فهذا يعني أن شخصًا ما يحتاج إليها (وربما يكون مفيدًا جدًا). وبالتالي ، كما ذكر أعلاه ، سأحدد فائدة مجموعة البيانات استنادًا إلى عدد التنزيلات.

أولاً ، كالعادة ، بعض الإحصائيات:

  • المجموع - 63.2 ألف ؛
  • الحد الأدنى - 0 ؛
  • المتوسط ​​5.01 ؛
  • متوسط ​​- 1 ؛
  • الحد الأقصى - 2.33 ألف

عن ماذا يتحدث هذا؟ توزيع غير متكافئ؟ ذيل طويل؟

لا. يبدو لي أنه مع متوسط ​​يساوي واحد ، يمكن توقع نتيجة مثيرة للاهتمام.

عدد التنزيلات لمجموعات البيانات المفتوحة من البوابة data.gov.ru

يبدو أن لا أحد يقوم بتنزيل معظم مجموعات البيانات على الإطلاق.

بشكل مشروط ، قسمت عدد التنزيلات على النحو التالي:

  • 0 - أبدًا ؛
  • 1 مرة
  • 2 مرات ؛
  • أقل من 10 ؛
  • من 10 إلى 100 ؛
  • من 100 إلى 1000 ؛
  • أكثر من 1000.

دعونا نلقي نظرة على الرسم التخطيطي.

عدد التنزيلات لمجموعات البيانات المفتوحة من موقع البوابة data.gov.ru. مخطط

وماذا نرى؟

لم يتم تنزيل نصف مجموعات البيانات على الإطلاق. حتى للتحقق من أنه يعمل ، لم يقوموا بتنزيله. حتى عن طريق الصدفة. أبدًا!

تم تنزيل 16٪ من مجموعات البيانات مرة واحدة فقط. ربما عن طريق الصدفة أو للتحقق من أنها. تمثل حوالي 3 ٪ من إجمالي عدد التنزيلات.

قامت Twice بتنزيل 7٪ من مجموعات البيانات وتمثل حوالي 3٪ من إجمالي عدد التنزيلات. مرتين ، أيضا ، نتيجة مشكوك فيها.

تم تنزيل ما يقرب من 17٪ من مجموعات البيانات أقل من 10 مرات ، وشكلت 17٪ من إجمالي عدد التنزيلات.

إذا تم تجميعها ، يتبين أن 90٪ من مجموعات البيانات ليست مثيرة للاهتمام على الإطلاق أو غير ذات أهمية عمليًا؟

تم تنزيل حوالي 10٪ من مجموعات البيانات من 10 إلى 100 مرة ، وحصتها حوالي 40٪.
تم تنزيل 0.5٪ من مجموعات البيانات من 100 إلى 1000 مرة ، لكنها تمثل ربع جميع التنزيلات.

تم تنزيل أكثر من 1000 مرة فقط 0.02٪ من إجمالي عدد مجموعات البيانات ، وتشكل حوالي 8٪ من جميع التنزيلات.

ونتيجة لذلك ، لم يكن أي شخص على الإطلاق بحاجة إلى نصف مجموعات البيانات. 10٪ من مجموعات البيانات ذات فائدة ثابتة للاستخدام. أقل من 1٪ من مجموعة البيانات مفيدة حقًا.

نصف البضائع في المتجر لا تشتري من حيث المبدأ. نادرًا ما يتم شراء ثلث البضائع. 10٪ من البضائع في طلب مستقر. وأقل من 1 ٪ من السلع مطلوبة بالفعل من قبل العملاء.

ولكن ، كما هو الحال مع عدد المشاهدات ، من الأصح ألا تأخذ في الاعتبار القيم المطلقة ، ولكن القيم النسبية.

عن طريق القياس ، بدلاً من عدد التنزيلات ، سيكون هناك عدد التنزيلات في الشهر.

إحصاءات باختصار:

  • الحد الأدنى - 0 ؛
  • متوسط ​​- 0.276 ؛
  • متوسط ​​- 0.02 ؛
  • الحد الأقصى هو 145.

ومن المنطقي أن نفس الشيء مع نفسه مرة أخرى.

يحدد عدد البيانات المفتوحة التنزيلات شهريًا من بوابة data.gov.ru. مخطط

من الواضح أن نصف مجموعات البيانات لا يتم تنزيلها مطلقًا ولا يبدو الرسم البياني جميلًا جدًا.

المخطط أكثر إفادة.

يحدد عدد البيانات المفتوحة التنزيلات شهريًا من بوابة data.gov.ru. مخطط

لا يتم تنزيل النصف نفسه من المجموعات (يبدو أن خطأ التقريب أدى إلى اختلاف في الكسور). هذه الحقيقة معروفة بالفعل.

يتم تنزيل ما يقرب من نصف مجموعات البيانات (45٪) أقل من مرة واحدة في الشهر ، وتمثل 42٪ من إجمالي عدد التنزيلات.

من مرة واحدة في الشهر إلى مرة واحدة في الأسبوع ، يتم تنزيل حوالي 4 ٪ ، ولكنها تمثل ما يقرب من ربع التنزيلات.

من مرة واحدة في الأسبوع إلى مرة واحدة في اليوم ، يتم تنزيل حوالي 0.8٪ من مجموعات البيانات ، ولكنها تمثل ما يقرب من 23٪ من إجمالي عدد التنزيلات.

وأخيرًا ، يتم تنزيل 0.05٪ فقط من مجموعات البيانات من مرة واحدة في الأسبوع إلى مرة واحدة في الساعة ، ولكنها تمثل ما يقرب من 11٪ من جميع التنزيلات.

إذا كنت تعتقد ، على سبيل المثال ، أن البوابة عبارة عن متجر ، وعدد المشاهدات هو عدد زوار المتجر ، وعدد التنزيلات هو عدد عمليات الشراء ، فيمكنك حينئذٍ حساب التحويل:

معدل التحويل
معدل التحويل هو النسبة المئوية لزوار متجر أو موقع أو حدث تسويقي اختاروا أو أجروا عملية شراء لإجمالي عدد الزائرين.

التحويل في المبيعات - نسبة العملاء (المتجر ، الشركة) إلى إجمالي عدد الزوار (العملاء الذين يتقدمون).

التحويل في الإعلان - نسبة عدد مرات ظهور إعلان إلى عدد المكالمات إلى معلن.

التحويل في التسويق عبر الإنترنت - نسبة زوار الموقع الذين قاموا بالإجراء "الضروري" (النقر على الرابط ، التصويت ، الشراء) إلى إجمالي عدد زوار الموقع.

عادةً ، يتم حساب معدل التحويل كنسبة مئوية. يبلغ مستوى التحويل لزوار المتاجر عبر الإنترنت (أي حصة زوار الموقع الذين أجروا عملية شراء) في المتوسط ​​2-5٪. على سبيل المثال ، هدف الموقع هو بيع الكتب ، وكان لديك 500 زائر للموقع وبيع 35 كتابًا يوميًا. عندها يكون التحويل 35 * 100/500 = 7٪.

يوضح مستوى التحويل مدى جودة الجهود التسويقية لجذب الزوار والمشترين ، بالإضافة إلى الجهود المبذولة لملء الموقع بالمعلومات ، والمخزن بالسلع ، والوفاء بالمهمة الرئيسية - ضمان المبيعات.

يتم التعامل مع التحويلات الناجحة بشكل مختلف من قبل البائعين أو المعلنين أو موفري المحتوى للموقع. بالنسبة للبائع ، فإن التحويل الناجح يعني عملية شراء. بالنسبة لموفر المحتوى ، يمكن أن يعني التحويل الناجح تسجيل الزائرين على موقع أو منتدى أو حدث تسويقي أو الاشتراك في قائمة بريدية أو تنزيل برامج أو أي إجراءات أخرى متوقعة من الزوار.

لا ينطبق مفهوم مستوى التحويل فقط على الوسائط الإلكترونية ، والتحويل الإلكتروني ، ولكن أيضًا على أي حال ، عندما لا يكون جذب العملاء هو الهدف النهائي ، والأهم من ذلك هو الحصول على فوائد من العملاء الذين يتم اجتذابهم - كنتيجة نهائية لمهمة تسويق متعددة المراحل (جذب الاهتمام بالبيع) خدمة العملاء.

K = N / N0 * 100٪ ، أين

K هو معدل التحويل ؛
N - عدد المشترين الحقيقيين (العملاء الذين اشتروا البضائع أو استخدموا الخدمة) ؛
N0 - عدد زوار المتجر أو الموقع.

بالنسبة لبوابة البيانات المفتوحة ، سيكون مستوى التحويل حوالي 3٪. سواء كان ذلك كثيرًا أو قليلاً ، يمكن للجميع أن يقرر بنفسه.

الاستنتاجات


فقط حوالي 3 ٪ من مجموعات البيانات مثيرة للاهتمام حقًا لشخص ما. ولكن ، في نفس الوقت ، يتم عرض ما يقرب من النصف من مرة واحدة في الأسبوع إلى مرة واحدة في اليوم.

لم يتم تنزيل نصف مجموعات البيانات من قبل أي شخص.

أقل من 1٪ من مجموعات البيانات مهمة حقًا.

ما هي الخطوة التالية؟


ثم سننظر في كيفية تقييم مجموعات البيانات ، والتحقق مما إذا كانت الروابط لمجموعات البيانات تعمل. دعونا نرى عدد المرات التي يتم فيها تحديث مجموعات البيانات ومدى حجم ملفات مجموعة البيانات. هل هناك علاقة بين تنسيق ملف مجموعة البيانات وعدد التنزيلات.

PS كمثال توضيحي ، قمت بنشر عدة لوحات معلومات .
الموارد محدودة ، لذا قد تحدث أخطاء أثناء التمهيد.
اكتب ملاحظات في التعليقات.

Source: https://habr.com/ru/post/ar401543/


All Articles