Utilisation des ensembles de données du portail russe de données ouvertes data.gov.ru

La derniÚre fois que j'ai analysé des ensembles de données: répartition par catégories et formats de fichiers, le degré de remplissage des champs dans les passeports des ensembles de données, etc. Maintenant, je vais essayer de comprendre à quelle fréquence les ensembles de données sont intéressés et à quelle fréquence les ensembles de données sont-ils utilisés? Quels ensembles de données intéressent les utilisateurs du portail?

Pour mener une Ă©valuation, il est nĂ©cessaire de dĂ©terminer par quels critĂšres la rĂ©aliser. Les descriptions des ensembles de donnĂ©es contiennent des informations sur le nombre de vues. Vous n'avez pas besoin d'ĂȘtre un gĂ©nie pour comprendre que si quelqu'un regarde des informations sur un ensemble de donnĂ©es, alors, apparemment, il ne le fait pas par accident. Et, par consĂ©quent, le critĂšre que l'ensemble de donnĂ©es a suscitĂ© l'intĂ©rĂȘt sera le nombre de vues. Et si l'ensemble de donnĂ©es n'est pas seulement intĂ©ressant, mais peut ĂȘtre utile, il sera tĂ©lĂ©chargĂ©. Ainsi, le nombre de tĂ©lĂ©chargements sera un critĂšre d'utilitĂ©.

Et vous pouvez imaginer que le portail est un magasin. Les produits d'un magasin sont des ensembles de donnĂ©es. Le coĂ»t des marchandises est la quantitĂ© d'efforts qui doivent ĂȘtre dĂ©pensĂ©s pour tĂ©lĂ©charger (trouver oĂč se trouve ce lien) et utiliser (par exemple, afficher ou utiliser comme source de donnĂ©es Ă  vos propres fins). Par consĂ©quent, le nombre de vues est le nombre d'acheteurs potentiels et le nombre de tĂ©lĂ©chargements est le nombre d'achats.

Les acheteurs vont au magasin, regardent les marchandises, Ă©valuent. Si l'acheteur ne trouve pas le produit ou ne comprend pas s'il lui convient, il partira. Si le produit prĂ©sente un intĂ©rĂȘt pour l'acheteur, il peut l'acheter (tĂ©lĂ©charger), si le prix (la quantitĂ© d'efforts dĂ©pensĂ©s pour le tĂ©lĂ©chargement et l'utilisation) convient. Par exemple, un certain ensemble de donnĂ©es m'a intĂ©ressĂ© et je veux le tĂ©lĂ©charger. Mais il s'avĂšre que c'est dans un format difficile Ă  utiliser pour moi. Dans le mĂȘme temps, sur un autre site, il y a les mĂȘmes donnĂ©es, mais sous une forme plus pratique ou plus rĂ©cente, ou avec une meilleure description, respectivement, l'ensemble de donnĂ©es ne sera pas tĂ©lĂ©chargĂ©.

PremiÚrement, les caractéristiques statistiques les plus simples pour le nombre de vues:

  • total - 2,03 millions;
  • minimum - 2;
  • moyenne - 161;
  • mĂ©diane - 61;
  • maximum - 28,1 mille

La grande valeur du maximum par rapport à la moyenne et à la médiane, ainsi que la différence entre la médiane et la moyenne, font clairement allusion à la répartition inégale du nombre de vues et de la «longue queue».

Pour vérifier visuellement cela, je divise le nombre de vues en 1000 groupes uniformément répartis (moyenne) et j'obtiens une courbe assez lisse. Ensuite, je construis la dépendance de la somme de toutes les vues sur le nombre moyen de vues et du nombre d'ensembles de données sur le nombre moyen de vues.

Distribution des vues des ensembles de données ouverts à partir du portail data.gov.ru

Que montre le graphique?

Un grand nombre d'ensembles de données a un nombre de vues presque nul, mais le nombre total de vues de ces ensembles est important. De plus, environ 100 à 1 000 déclins. De 1000 à 5000 une distribution assez uniforme. A partir de 5000 de croissance.

Les nombres sont sĂ©lectionnĂ©s Ă  l'Ɠil nu. Et voici Ă  quoi ressemble la mĂȘme chose sur le diagramme.

Distribution des vues des ensembles de données ouverts à partir du portail data.gov.ru. Graphique

Les deux tiers des ensembles de données ont été consultés moins de 100 fois.
Un tiers des ensembles de données ont été consultés de 100 à 1 000 fois.
Environ un pour cent a été vu de 1000 à 5000 fois.
Et moins d'un dixiÚme d'un pour cent des ensembles de données a été consulté plus de 5 000 fois.
Mais si vous considérez la somme des vues, l'image est différente.
Ces kits qui ont été consultés moins de 100 fois ne représentent que 16%.

PrÚs des deux tiers, c'est-à-dire la majeure partie des vues, concernent des ensembles de données qui ont été visualisés de 100 à 1 000 fois.

Environ 14% sont des ensembles de données qui ont été consultés de 1000 à 5000 fois.

Et prÚs de 7% tombent sur des décors qui ont été visionnés plus de 5 000 fois (et il y en a moins d'un dixiÚme du total).

Mais ce n'est pas exactement ce dont vous avez besoin pour évaluer l'utilisation des ensembles de données. Les ensembles de données ont été disposés à des moments différents, de sorte que l'utilisation de valeurs absolues, en l'occurrence le nombre de vues, n'a pas beaucoup de sens. Pour une comparaison correcte, j'utiliserai la valeur relative - le nombre de vues par mois.

Caractéristiques statistiques du nombre de vues d'ensembles de données par mois:

  • minimum - 0,184;
  • moyenne - 8,49;
  • mĂ©diane - 5,33;
  • maximum - 1,76 mille

En fait, la situation avec le nombre de vues par mois ressemble au nombre de vues - une distribution inégale avec une longue queue.

Le nombre de vues d'ensembles de données ouvertes à partir du portail data.gov.ru par mois

Je vais diviser conditionnellement tous les ensembles de données par le nombre moyen de vues comme suit:
moins d'une fois par mois;

  • d'une fois par mois Ă  une fois par semaine;
  • d'une fois par semaine Ă  une fois par jour;
  • d'une fois par jour Ă  une fois par heure;
  • plus d'une fois par heure.


Le nombre de vues d'ensembles de données ouvertes à partir du portail data.gov.ru par mois. Graphique

Apparemment, les ensembles de données qui sont consultés moins d'une fois par mois sont totalement inutiles. Il existe environ 6% de ces ensembles de données et il est logique qu'ils ne représentent que 0,2% du nombre total de vues.

Un tiers des ensembles de données sont consultés une fois par mois à une fois par semaine. Et ils représentent environ 6% du nombre total de vues. Il semble que quelqu'un regarde parfois.

Un peu plus de la moitié des ensembles de données ont été consultés une fois par semaine à une fois par jour. Et ils représentent prÚs de la moitié du nombre total de vues. Pas trop souvent, mais attention.

Les ensembles de donnĂ©es qui sont consultĂ©s plus d'une fois par jour, et leur total est de 2,5%, reprĂ©sentent plus du tiers du nombre total de vues. Voici ce qui suscite l'intĂ©rĂȘt.

Mais le plus grand intĂ©rĂȘt est causĂ© par ces ensembles de donnĂ©es qui sont consultĂ©s plus d'une fois par heure. Il n'y a que 0,03 du nombre total, et ils reprĂ©sentent prĂšs de 4% du nombre total de vues.

Ainsi, seulement 3% de tous les ensembles de donnĂ©es peuvent en effet ĂȘtre considĂ©rĂ©s comme intĂ©ressants. Un troisiĂšme est sans intĂ©rĂȘt. Et un peu plus de la moitiĂ© peut parfois intĂ©resser quelqu'un.

Il y a beaucoup de marchandises dans le magasin. Mais plus d'un tiers d'entre eux ne sont presque pas intĂ©ressĂ©s par les acheteurs. Plus de la moitiĂ© des produits ne sont pas particuliĂšrement intĂ©ressants pour les acheteurs, mais leur intĂ©rĂȘt pour eux est stable. Et 3% des marchandises sont vraiment intĂ©ressantes.

Mais ce n'est que la moitié de la bataille.

MĂȘme si l'acheteur est entrĂ© dans le magasin et que le produit l'intĂ©ressait, l'achĂštera-t-il?

Si l'ensemble de donnĂ©es a Ă©tĂ© tĂ©lĂ©chargĂ©, cela signifie que quelqu'un en avait besoin (et, peut-ĂȘtre, c'est mĂȘme trĂšs utile). Ainsi, comme mentionnĂ© ci-dessus, je dĂ©terminerai l'utilitĂ© de l'ensemble de donnĂ©es en fonction du nombre de tĂ©lĂ©chargements.

Tout d'abord, comme d'habitude, quelques statistiques:

  • total - 63,2 milliers;
  • minimum - 0;
  • la moyenne est de 5,01;
  • mĂ©diane - 1;
  • maximum - 2,33 mille

De quoi parle-t-on? Distribution inégale? Longue queue?

Non. Il me semble qu'avec une mĂ©diane Ă©gale Ă  un, un rĂ©sultat intĂ©ressant peut ĂȘtre attendu.

Le nombre de téléchargements d'ensembles de données ouverts à partir du portail data.gov.ru

Il semble que personne ne télécharge la plupart des ensembles de données.

Conditionnellement, j'ai divisé le nombre de téléchargements comme suit:

  • 0 - jamais;
  • 1 fois
  • 2 fois;
  • moins de 10;
  • de 10 Ă  100;
  • de 100 Ă  1000;
  • plus de 1000.

Regardons le diagramme.

Le nombre de téléchargements d'ensembles de données ouverts à partir du portail data.gov.ru. Graphique

Et que voyons-nous?

La moitiĂ© des ensembles de donnĂ©es n'ont jamais Ă©tĂ© tĂ©lĂ©chargĂ©s du tout. MĂȘme pour vĂ©rifier que cela fonctionne, ils ne l'ont pas tĂ©lĂ©chargĂ©. MĂȘme par accident. JAMAIS!

Une seule fois tĂ©lĂ©chargĂ© 16% des ensembles de donnĂ©es. Peut-ĂȘtre par hasard ou pour vĂ©rifier qu'ils le sont. Ils reprĂ©sentent environ 3% du nombre total de tĂ©lĂ©chargements.

Deux fois, 7% des ensembles de données ont été téléchargés et ils représentent environ 3% du nombre total de téléchargements. Deux fois aussi, un résultat douteux.

PrÚs de 17% des ensembles de données ont été téléchargés moins de 10 fois, et ils représentaient 17% du nombre total de téléchargements.

Si mis ensemble, il s'avĂšre que 90% des ensembles de donnĂ©es ne sont pas du tout intĂ©ressants ou pratiquement pas d'intĂ©rĂȘt?

Environ 10% des ensembles de données ont été téléchargés de 10 à 100 fois et leur part est d'environ 40%.
0,5% des ensembles de données ont été téléchargés de 100 à 1 000 fois, mais ils représentent un quart de tous les téléchargements.

Plus de 1000 fois ont téléchargé seulement 0,02% du nombre total d'ensembles de données, et ils représentent environ 8% de tous les téléchargements.

En consĂ©quence, la moitiĂ© des ensembles de donnĂ©es n'ont jamais Ă©tĂ© nĂ©cessaires Ă  personne. 10% des ensembles de donnĂ©es prĂ©sentent un intĂ©rĂȘt stable pour leur utilisation. Moins de 1% de l'ensemble de donnĂ©es est vraiment utile.

La moitié des marchandises dans le magasin n'achÚtent pas en principe. Un tiers des biens sont achetés trÚs rarement. 10% des biens sont en demande stable. Et moins de 1% des marchandises sont vraiment demandées par les clients.

Mais, comme pour le nombre de vues, il est plus correct de considérer non pas des valeurs absolues, mais des valeurs relatives.

Par analogie, au lieu du nombre de téléchargements, il y aura le nombre de téléchargements par mois.

Statistiques briĂšvement:

  • minimum - 0;
  • moyenne - 0,276;
  • mĂ©diane - 0,02;
  • le maximum est de 145.

Il est logique que la mĂȘme chose avec le mĂȘme.

Le nombre d'ensembles de données ouvertes téléchargés par mois depuis le portail data.gov.ru. Graphique

Il est clair que la moitié des ensembles de données ne sont jamais téléchargés et le graphique n'est pas trop joli.

Le tableau est plus informatif.

Le nombre d'ensembles de données ouvertes téléchargés par mois depuis le portail data.gov.ru. Graphique

La mĂȘme moitiĂ© des ensembles (apparemment l'erreur d'arrondi a entraĂźnĂ© une diffĂ©rence dans les fractions) n'est jamais tĂ©lĂ©chargĂ©e. Ce fait est dĂ©jĂ  connu.

PrÚs de la moitié des ensembles de données (45%) sont téléchargés moins d'une fois par mois, et ils représentent 42% du nombre total de téléchargements.

D'une fois par mois à une fois par semaine, environ 4% sont téléchargés, mais ils représentent prÚs d'un quart des téléchargements.

D'une fois par semaine à une fois par jour, environ 0,8% des ensembles de données sont téléchargés, mais ils représentent prÚs de 23% du nombre total de téléchargements.

Enfin, seulement 0,05% des ensembles de données sont téléchargés d'une fois par semaine à une fois par heure, mais ils représentent prÚs de 11% de tous les téléchargements.

Si, par exemple, vous considérez que le portail est un magasin, le nombre de vues est le nombre de visiteurs du magasin et le nombre de téléchargements est le nombre d'achats, alors vous pouvez calculer la conversion:

Taux de conversion
Le taux de conversion est le pourcentage de visiteurs d'un magasin, d'un site, d'un événement marketing ayant fait un choix, effectué un achat, par rapport au nombre total de visiteurs.

Conversion des ventes - le rapport des clients (magasin, entreprise) au nombre total de visiteurs (clients qui postulent).

Conversion en publicité - rapport entre le nombre d'impressions d'une publicité et le nombre d'appels à un annonceur.

Conversion dans le marketing Internet - le rapport entre le nombre de visiteurs du site qui ont effectué l'action «nécessaire» (cliqué sur un lien, voté, acheté) et le nombre total de visiteurs du site.

En rÚgle générale, le taux de conversion est calculé en pourcentage. Le niveau de conversion des visiteurs vers les boutiques en ligne (c'est-à-dire la part des visiteurs du site qui ont effectué un achat) est en moyenne de 2 à 5%. Par exemple, l'objectif du site est de vendre des livres. 500 visiteurs du site et 35 livres ont été vendus par jour. La conversion sera alors de 35 * 100/500 = 7%.

Le niveau de conversion montre Ă  quel point les efforts de marketing pour attirer les visiteurs et les acheteurs, ainsi que les efforts pour remplir le site d'informations, le magasin de marchandises, remplissent la tĂąche principale - assurer les ventes.

Les conversions réussies sont traitées différemment par les vendeurs, les annonceurs ou les fournisseurs de contenu pour le site. Pour le vendeur, une conversion réussie signifie une opération d'achat. Pour un fournisseur de contenu, une conversion réussie peut signifier l'inscription de visiteurs sur un site, un forum, un événement marketing, l'abonnement à une liste de diffusion, le téléchargement de logiciels ou toute autre action attendue des visiteurs.

Le concept de niveau de conversion s'applique non seulement aux médias électroniques, à la conversion électronique, mais aussi dans tous les cas, lorsque attirer des clients n'est pas l'objectif ultime, et plus important encore, c'est de bénéficier des avantages des clients attirés - comme résultat final d'une tùche de marketing en plusieurs étapes (attirer-vendre-intéresser). service client.

K = N / N0 * 100%, oĂč

K est le taux de conversion;
N - le nombre d'acheteurs réels (clients qui ont acheté les biens ou utilisé le service);
N0 - le nombre de visiteurs du magasin ou du site.

Pour le portail de donnĂ©es ouvertes, le niveau de conversion sera d'environ 3%. Que ce soit beaucoup ou peu, chacun peut dĂ©cider par lui-mĂȘme.

Conclusions


Seulement environ 3% des ensembles de donnĂ©es sont vraiment intĂ©ressants pour quelqu'un. Mais, en mĂȘme temps, prĂšs de la moitiĂ© est vue d'une fois par semaine Ă  une fois par jour.

La moitié des ensembles de données n'ont jamais été téléchargés par personne.

Moins de 1% des ensembles de données sont vraiment intéressants.

Et ensuite?


Ensuite, nous verrons comment les ensembles de données sont évalués, vérifions si les liens vers les ensembles de données fonctionnent. Voyons à quelle fréquence les jeux de données sont mis à jour et la taille des fichiers de jeux de données. Existe-t-il une relation entre le format de fichier de l'ensemble de données et le nombre de téléchargements.

PS A titre d'illustration, j'ai posté plusieurs tableaux de bord .
Les ressources sont limitées, des erreurs peuvent donc survenir lors du démarrage.
Écrivez les commentaires dans les commentaires.

Source: https://habr.com/ru/post/fr401543/


All Articles