Menggunakan dataset dari portal data terbuka Rusia data.gov.ru

The terakhir kali saya menganalisis data set: kategorisasi dan format file, tingkat mengisi paspor set data, dll Sekarang saya akan mencoba memahami seberapa sering dataset tertarik dan seberapa sering dataset digunakan? Kumpulan data apa yang menarik bagi pengguna portal?

Untuk melakukan penilaian, perlu ditentukan dengan kriteria apa untuk membuatnya. Dalam uraian set data ada informasi tentang jumlah tampilan. Anda tidak harus jenius untuk memahami bahwa jika seseorang melihat informasi tentang kumpulan data, maka, tampaknya, dia tidak melakukan ini secara tidak sengaja. Dan, oleh karena itu, kriteria bahwa kumpulan data membangkitkan minat adalah jumlah pandangan. Dan jika dataset tidak hanya menarik, tetapi bisa bermanfaat, itu akan diunduh. Dengan demikian, jumlah unduhan akan menjadi kriteria kegunaan.

, โ€“ . โ€“ . โ€“ , , (, ) (, ) . , โ€“ , โ€“ .

Pembeli pergi ke toko, melihat-lihat barang, mengevaluasi. Jika pembeli tidak dapat menemukan produk atau tidak dapat memahami apakah ia cocok untuknya, ia akan pergi. Jika produk tersebut menarik bagi pembeli, maka ia dapat membelinya (mengunduh), jika harga (jumlah usaha yang dihabiskan untuk mengunduh dan menggunakan) sesuai. Misalnya, kumpulan data tertentu menarik minat saya, dan saya ingin mengunduhnya. Tapi ternyata itu dalam format yang sulit bagi saya untuk digunakan. Pada saat yang sama, di situs lain ada data yang sama, tetapi dalam bentuk yang lebih nyaman atau lebih baru, atau dengan deskripsi yang lebih baik, masing-masing, kumpulan data tidak akan diunduh.


Pertama, karakteristik statistik paling sederhana untuk jumlah tampilan:

  • total - 2,03 juta;
  • minimum - 2;
  • rata-rata - 161;
  • median - 61;
  • maksimum - 28,1 ribu

Nilai besar maksimum dibandingkan dengan rata-rata dan median, serta perbedaan antara median dan rata-rata, jelas mengisyaratkan distribusi jumlah pandangan yang tidak merata dan "ekor panjang".

Untuk memverifikasi ini secara visual, saya membagi jumlah pandangan menjadi 1000 kelompok yang didistribusikan secara merata (rata-rata) dan mendapatkan kurva yang cukup halus. Lalu saya membangun ketergantungan jumlah semua tampilan pada jumlah rata-rata tampilan dan jumlah set data pada jumlah rata-rata tampilan.

Distribusi tampilan kumpulan data terbuka dari portal data.gov.ru

Apa yang ditunjukkan grafik?

Sejumlah besar set data memiliki jumlah tampilan hampir nol, tetapi jumlah total tampilan set ini besar. Selanjutnya, sekitar 100 hingga 1000 penurunan. Dari 1000 hingga 5000 distribusi yang cukup seragam. Dari 5000 pertumbuhan.

Angka-angka dipilih dengan mata. Dan di sini adalah bagaimana hal yang sama terlihat pada diagram.

Distribusi tampilan kumpulan data terbuka dari portal data.gov.ru.  Bagan

Dua pertiga dari set data dilihat kurang dari 100 kali.
Sepertiga dari set data dilihat dari 100 hingga 1000 kali.
Sekitar satu persen dilihat dari 1000 hingga 5000 kali.
Dan kurang dari sepersepuluh persen dari set data telah dilihat lebih dari 5.000 kali.
Tetapi jika Anda mempertimbangkan jumlah tampilan, maka gambarnya berbeda.
Kit-kit yang telah dilihat kurang dari 100 kali hanya 16%.

Hampir dua pertiga, yaitu sebagian besar tampilan, jatuh pada kumpulan data yang dilihat dari 100 hingga 1000 kali.

Sekitar 14% adalah kumpulan data yang dilihat dari 1000 hingga 5000 kali.

Dan hampir 7% jatuh pada set yang dilihat lebih dari 5.000 kali (dan ada kurang dari sepersepuluh dari total).

Tapi ini bukan apa yang Anda butuhkan untuk mengevaluasi penggunaan set data. Set data diletakkan pada waktu yang berbeda, sehingga penggunaan nilai absolut, dalam hal ini jumlah pandangan, tidak masuk akal. Untuk perbandingan yang benar, saya akan menggunakan nilai relatif - jumlah tampilan per bulan.

Karakteristik statistik untuk jumlah tampilan dataset per bulan:

  • minimum - 0,184;
  • rata-rata - 8,49;
  • median - 5.33;
  • maksimum - 1,76 ribu

Faktanya, situasi dengan jumlah tampilan per bulan menyerupai jumlah tampilan - distribusi yang tidak merata dengan ekor yang panjang.

Jumlah tampilan set data terbuka dari portal data.gov.ru per bulan

Saya akan membagi semua set data secara kondisional dengan jumlah rata-rata tampilan sebagai berikut:
kurang dari sebulan sekali;

  • dari sebulan sekali hingga seminggu sekali;
  • dari seminggu sekali hingga sehari sekali;
  • dari sekali sehari menjadi sekali per jam;
  • lebih dari sekali per jam.


Jumlah tampilan set data terbuka dari portal data.gov.ru per bulan.  Bagan

Rangkaian data yang dilihat kurang dari sebulan sekali, tampaknya, adalah sesuatu yang sama sekali tidak perlu. Ada sekitar 6% dari set data tersebut dan logis bahwa mereka hanya menyumbang 0,2% dari total jumlah tampilan.

Sepertiga dari kumpulan data dilihat dari sebulan sekali hingga seminggu sekali. Dan mereka menyumbang sekitar 6% dari total jumlah tampilan. Tampaknya seseorang terkadang menonton.

Sedikit lebih dari setengah dari kumpulan data dilihat dari seminggu sekali sampai sekali sehari. Dan mereka menyumbang hampir setengah dari jumlah total penayangan. Tidak terlalu sering, tetapi perhatikan.

Kumpulan data yang dilihat lebih dari sekali sehari, dan totalnya adalah 2,5%, merupakan lebih dari sepertiga dari total jumlah tampilan. Inilah yang membangkitkan minat.

Tetapi minat terbesar disebabkan oleh kumpulan data yang dilihat lebih sering dari sekali per jam. Hanya ada 0,03 dari jumlah total, dan mereka menyumbang hampir 4% dari total jumlah tampilan.

Dengan demikian, hanya 3% dari semua set data memang dapat dianggap menarik. Yang ketiga tidak menarik. Dan sedikit lebih dari setengah kadang-kadang dapat menarik minat seseorang.

Ada banyak barang di toko. Tetapi lebih dari sepertiga dari mereka hampir tidak tertarik dengan pembeli. Lebih dari setengah produk tidak terlalu menarik bagi pembeli, tetapi minat mereka terhadap mereka stabil. Dan 3% barang benar-benar menarik.

Tapi ini baru setengah pertempuran.

Bahkan jika pembeli pergi ke toko dan produk itu membuatnya tertarik, apakah dia akan membelinya?

Jika kumpulan data diunduh, itu berarti seseorang membutuhkannya (dan, mungkin, itu bahkan sangat berguna). Jadi, seperti yang disebutkan di atas, saya akan menentukan kegunaan set data berdasarkan jumlah unduhan.

Pertama, seperti biasa, beberapa statistik:

  • total - 63,2 ribu;
  • minimum - 0;
  • rata-rata adalah 5,01;
  • median - 1;
  • maksimum - 2,33 ribu

Apa yang sedang dibicarakan ini? Distribusi tidak merata? Ekor panjang?

Tidak. Bagi saya, dengan median sama dengan satu, hasil yang menarik dapat diharapkan.

Jumlah unduhan kumpulan data terbuka dari portal data.gov.ru

Tampaknya tidak ada yang mengunduh sebagian besar set data sama sekali.

Dengan syarat, saya membagi jumlah unduhan sebagai berikut:

  • 0 - tidak pernah;
  • 1 kali
  • 2 kali;
  • kurang dari 10;
  • dari 10 hingga 100;
  • dari 100 hingga 1000;
  • lebih dari 1000.

Mari kita lihat diagram.

Jumlah unduhan set data terbuka dari portal data.gov.ru.  Bagan

Dan apa yang kita lihat?

Setengah dari kumpulan data tidak pernah diunduh sama sekali. Bahkan untuk memeriksa apakah itu berfungsi, mereka tidak mengunduhnya. Bahkan secara tidak sengaja. TIDAK PERNAH!

Hanya sekali mengunduh 16% dari set data. Mungkin secara kebetulan atau untuk memverifikasi bahwa itu benar. Mereka menyumbang sekitar 3% dari total jumlah unduhan.

Dua kali mengunduh 7% dari set data dan mereka menyumbang sekitar 3% dari total jumlah unduhan. Dua kali juga, hasil yang meragukan.

Hampir 17% dari kumpulan data diunduh kurang dari 10 kali, dan menyumbang 17% dari total jumlah unduhan.

Jika disatukan, ternyata 90% dari set data sama sekali tidak menarik atau praktis tidak menarik?

Sekitar 10% dari kumpulan data diunduh dari 10 hingga 100 kali, dan bagiannya sekitar 40%.
0,5% dari set data diunduh dari 100 hingga 1000 kali, tetapi merupakan seperempat dari semua unduhan.

Lebih dari 1000 kali diunduh hanya 0,02% dari jumlah total set data, dan mereka membuat sekitar 8% dari semua unduhan.

Akibatnya, setengah dari set data tidak pernah dibutuhkan oleh siapa pun sama sekali. 10% dari set data memiliki minat stabil untuk digunakan. Kurang dari 1% dari kumpulan data benar-benar bermanfaat.

Setengah dari barang di toko pada prinsipnya tidak membeli. Sepertiga barang jarang dibeli. 10% barang dalam permintaan stabil. Dan kurang dari 1% barang benar-benar diminati oleh pelanggan.

Tetapi, seperti halnya jumlah pandangan, lebih tepat untuk mempertimbangkan bukan nilai absolut, tetapi nilai relatif.

Dengan analogi, alih-alih jumlah unduhan, akan ada jumlah unduhan per bulan.

Statistik singkat:

  • minimum - 0;
  • rata-rata - 0,276;
  • median - 0,02;
  • maksimal 145.

Adalah logis bahwa lagi sama dengan sama.

Jumlah data terbuka menetapkan unduhan per bulan dari portal data.gov.ru.  Bagan

Jelas bahwa setengah dari set data tidak pernah diunduh dan grafiknya tidak terlihat terlalu cantik.

Grafik ini lebih informatif.

Jumlah data terbuka menetapkan unduhan per bulan dari portal data.gov.ru.  Bagan

Setengah set yang sama (tampaknya kesalahan pembulatan menyebabkan perbedaan dalam fraksi) tidak pernah diunduh. Fakta ini sudah diketahui.

Hampir setengah dari kumpulan data (45%) diunduh kurang dari sebulan sekali, dan merupakan 42% dari total jumlah unduhan.

Dari sebulan sekali hingga seminggu sekali, sekitar 4% diunduh, tetapi jumlahnya hampir seperempat dari unduhan.

Dari seminggu sekali hingga sehari sekali, sekitar 0,8% dari kumpulan data diunduh, tetapi jumlahnya hampir 23% dari total jumlah unduhan.

Dan akhirnya, hanya 0,05% dari kumpulan data yang diunduh dari seminggu sekali hingga satu jam, tetapi mereka menyumbang hampir 11% dari semua unduhan.

Jika, misalnya, Anda menganggap bahwa portal adalah toko, jumlah tampilan adalah jumlah pengunjung ke toko, dan jumlah unduhan adalah jumlah pembelian, maka Anda dapat menghitung konversi:

Tingkat konversi
(conversion rate) โ€” , , , , , .

โ€” (, ) ( ).

โ€“ .

- โ€” , ยซยป ( , , ) .

. - (. . ) 2-5%. , โ€“ , 500 35 . 35*100/500=7%.

, , , โ€“ , โ€” .

- , . . , , , , - , .

, , , , โ€” (--) .

K = N / N0 * 100%, di mana

K adalah tingkat konversi;
N - jumlah pembeli nyata (pelanggan yang membeli barang atau menggunakan layanan);
N0 - jumlah pengunjung ke toko atau situs.

Untuk portal data terbuka, tingkat konversi akan menjadi sekitar 3%. Apakah itu banyak atau sedikit, semua orang dapat memutuskan sendiri.

Kesimpulan


Hanya sekitar 3% dari kumpulan data yang benar-benar menarik bagi seseorang. Tetapi, pada saat yang sama, hampir setengah dilihat dari seminggu sekali hingga sehari sekali.

Setengah dari kumpulan data belum pernah diunduh oleh siapa pun.

Kurang dari 1% dari set data benar-benar menarik.

Apa selanjutnya


Dan kemudian kita akan melihat bagaimana set data dievaluasi, periksa apakah tautan ke set data berfungsi. Mari kita lihat seberapa sering dataset diperbarui dan seberapa besar file dataset. Apakah ada hubungan antara format file set data dan jumlah unduhan.

PS Sebagai ilustrasi, saya memposting beberapa dasbor .
Sumber daya terbatas, sehingga kesalahan dapat terjadi selama booting.
Tulis ulasan di komentar.

Source: https://habr.com/ru/post/id401543/


All Articles