Verwendung von DatensÀtzen aus dem russischen offenen Datenportal data.gov.ru

Das letzte Mal, als ich DatensĂ€tze analysiert habe: Verteilung nach Kategorien und Dateiformaten, Grad der AusfĂŒllung von Feldern in PĂ€ssen von DatensĂ€tzen usw. Jetzt werde ich versuchen zu verstehen, wie oft DatensĂ€tze interessiert sind und wie oft DatensĂ€tze verwendet werden. Welche DatensĂ€tze sind fĂŒr Portalbenutzer von Interesse?

Um eine Bewertung durchfĂŒhren zu können, muss festgelegt werden, nach welchen Kriterien sie durchgefĂŒhrt werden soll. In den Beschreibungen der DatensĂ€tze finden Sie Informationen zur Anzahl der Ansichten. Sie mĂŒssen kein Genie sein, um zu verstehen, dass jemand, der Informationen zu einem Datensatz betrachtet, dies anscheinend nicht zufĂ€llig getan hat. Das Kriterium, dass der Datensatz Interesse weckte, ist daher die Anzahl der Aufrufe. Und wenn der Datensatz nicht nur interessant ist, sondern auch nĂŒtzlich sein kann, wird er heruntergeladen. Somit ist die Anzahl der Downloads ein Kriterium fĂŒr die NĂŒtzlichkeit.

Und Sie können sich vorstellen, dass das Portal ein GeschĂ€ft ist. Produkte in einem GeschĂ€ft sind DatensĂ€tze. Die Kosten fĂŒr Waren sind der Aufwand, der aufgewendet werden muss, um Daten herunterzuladen (herauszufinden, wo sich dieser Link befindet) und Daten zu verwenden (z. B. anzuzeigen oder als Datenquelle fĂŒr Ihre eigenen Zwecke zu verwenden). Dementsprechend ist die Anzahl der Aufrufe die Anzahl der potenziellen KĂ€ufer und die Anzahl der Downloads die Anzahl der KĂ€ufe.

KĂ€ufer gehen in den Laden, schauen sich Waren an, bewerten. Wenn der KĂ€ufer das Produkt nicht finden kann oder nicht versteht, ob er fĂŒr ihn geeignet ist, wird er gehen. Wenn das Produkt fĂŒr den KĂ€ufer von Interesse ist, kann er es kaufen (herunterladen), wenn der Preis (der Aufwand fĂŒr das Herunterladen und Verwenden) passt. Zum Beispiel hat mich ein bestimmter Datensatz interessiert und ich möchte ihn herunterladen. Es stellt sich jedoch heraus, dass es sich um ein Format handelt, das fĂŒr mich schwierig zu verwenden ist. Gleichzeitig gibt es auf einer anderen Site dieselben Daten, aber in einer bequemeren oder neueren Form oder mit einer besseren Beschreibung wird der Datensatz nicht heruntergeladen.

Erstens die einfachsten statistischen Merkmale fĂŒr die Anzahl der Ansichten:

  • insgesamt - 2,03 Millionen;
  • Minimum - 2;
  • Durchschnitt - 161;
  • Median - 61;
  • maximal - 28,1 Tausend

Der große Wert des Maximums im Vergleich zum Durchschnitt und zum Median sowie die Differenz zwischen dem Median und dem Durchschnitt deuten deutlich auf die ungleichmĂ€ĂŸige Verteilung der Anzahl der Ansichten und des „langen Schwanzes“ hin.

Um dies visuell zu ĂŒberprĂŒfen, teile ich die Anzahl der Ansichten in 1000 gleichmĂ€ĂŸig verteilte Gruppen (Durchschnitt) und erhalte eine ziemlich glatte Kurve. Dann baue ich die AbhĂ€ngigkeit der Summe aller Ansichten von der durchschnittlichen Anzahl von Ansichten und der Anzahl von DatensĂ€tzen von der durchschnittlichen Anzahl von Ansichten auf.

Verteilung von Ansichten offener DatensÀtze aus dem Portal data.gov.ru

Was zeigt die Grafik?

Eine große Anzahl von DatensĂ€tzen hat eine Anzahl von Ansichten nahe Null, aber die Gesamtzahl der Ansichten dieser SĂ€tze ist groß. Ferner sinken ungefĂ€hr 100 bis 1000. Von 1000 bis 5000 eine ziemlich gleichmĂ€ĂŸige Verteilung. Ab 5000 Wachstum.

Die Zahlen werden per Auge ausgewÀhlt. Und so sieht das gleiche auf dem Diagramm aus.

Verteilung von Ansichten offener DatensÀtze aus dem Portal data.gov.ru. Diagramm

Zwei Drittel der DatensÀtze wurden weniger als 100 Mal angezeigt.
Ein Drittel der DatensÀtze wurde 100- bis 1000-mal angezeigt.
Etwa ein Prozent wurde 1000 bis 5000 Mal angesehen.
Und weniger als ein Zehntel Prozent der DatensÀtze wurde mehr als 5.000 Mal angezeigt.
Wenn Sie jedoch die Summe der Ansichten berĂŒcksichtigen, ist das Bild anders.
Die Kits, die weniger als 100 Mal angesehen wurden, machen nur 16% aus.

Fast zwei Drittel, dh der Großteil der Ansichten, entfallen auf DatensĂ€tze, die 100- bis 1000-mal angezeigt wurden.

Etwa 14% sind DatensÀtze, die 1000 bis 5000 Mal angezeigt wurden.

Und fast 7% fallen auf Sets, die mehr als 5.000 Mal angesehen wurden (und es gibt weniger als ein Zehntel der Gesamtzahl).

Dies ist jedoch nicht genau das, was Sie benötigen, um die Verwendung von DatensĂ€tzen zu bewerten. DatensĂ€tze wurden zu unterschiedlichen Zeiten angelegt, daher ist die Verwendung von Absolutwerten, in diesem Fall der Anzahl der Ansichten, wenig sinnvoll. FĂŒr einen korrekten Vergleich verwende ich den relativen Wert - die Anzahl der Aufrufe pro Monat.

Statistische Merkmale fĂŒr die Anzahl der Ansichten von DatensĂ€tzen pro Monat:

  • Minimum - 0,184;
  • Durchschnitt - 8,49;
  • Median - 5,33;
  • maximal - 1,76 Tausend

TatsĂ€chlich Ă€hnelt die Situation mit der Anzahl der Aufrufe pro Monat der Anzahl der Aufrufe - eine ungleichmĂ€ĂŸige Verteilung mit einem langen Schwanz.

Die Anzahl der Ansichten offener DatensÀtze aus dem Portal data.gov.ru pro Monat

Ich werde alle DatensÀtze bedingt durch die durchschnittliche Anzahl der Ansichten wie folgt teilen:
weniger als einmal im Monat;

  • von einmal im Monat bis einmal in der Woche;
  • von einmal pro Woche bis einmal am Tag;
  • von einmal am Tag bis einmal pro Stunde;
  • mehr als einmal pro Stunde.


Die Anzahl der Ansichten offener DatensÀtze aus dem Portal data.gov.ru pro Monat. Diagramm

DatensÀtze, die anscheinend weniger als einmal im Monat angezeigt werden, sind anscheinend völlig unnötig. Es gibt ungefÀhr 6% solcher DatensÀtze und es ist logisch, dass sie nur 0,2% der Gesamtzahl der Ansichten ausmachen.

Ein Drittel der DatensÀtze wird einmal im Monat bis einmal in der Woche angezeigt. Und sie machen etwa 6% der Gesamtzahl der Aufrufe aus. Es scheint, dass manchmal jemand zuschaut.

Etwas mehr als die HÀlfte der DatensÀtze wurde von einmal pro Woche bis einmal pro Tag angezeigt. Und sie machen fast die HÀlfte der Gesamtzahl der Aufrufe aus. Nicht zu oft, aber zuschauen.

DatensÀtze, die mehr als einmal am Tag angezeigt werden und deren Gesamtmenge 2,5% betrÀgt, machen mehr als ein Drittel der Gesamtzahl der Aufrufe aus. Hier ist, was Interesse weckt.

Das grĂ¶ĂŸte Interesse wird jedoch durch die DatensĂ€tze verursacht, die hĂ€ufiger als einmal pro Stunde angezeigt werden. Es gibt nur 0,03 der Gesamtzahl und sie machen fast 4% der Gesamtzahl der Aufrufe aus.

Somit können nur 3% aller DatensÀtze tatsÀchlich als interessant angesehen werden. Ein Drittel ist nicht von Interesse. Und etwas mehr als die HÀlfte kann gelegentlich jemanden interessieren.

Es gibt viele Waren im Laden. Aber mehr als ein Drittel von ihnen interessiert sich fast nicht fĂŒr KĂ€ufer. Mehr als die HĂ€lfte der Produkte ist fĂŒr KĂ€ufer nicht besonders interessant, aber ihr Interesse an ihnen ist stabil. Und 3% der Waren sind wirklich interessant.

Aber das ist nur die halbe Miete.

Selbst wenn der KĂ€ufer in den Laden ging und das Produkt ihn interessierte, wird er es kaufen?

Wenn der Datensatz heruntergeladen wurde, bedeutet dies, dass jemand ihn benötigt hat (und vielleicht sogar sehr nĂŒtzlich ist). Wie oben erwĂ€hnt, werde ich daher die NĂŒtzlichkeit des Datensatzes anhand der Anzahl der Downloads bestimmen.

ZunĂ€chst wie ĂŒblich einige Statistiken:

  • insgesamt - 63,2 Tausend;
  • Minimum - 0;
  • der Durchschnitt liegt bei 5,01;
  • Median - 1;
  • maximal - 2,33 Tausend

WorĂŒber spricht das? UngleichmĂ€ĂŸige Verteilung? Langer Schwanz?

Nein. Es scheint mir, dass mit einem Median von eins ein interessantes Ergebnis erwartet werden kann.

Die Anzahl der Downloads offener DatensÀtze vom Portal data.gov.ru

Es scheint, dass niemand die meisten DatensÀtze herunterlÀdt.

Bedingt habe ich die Anzahl der Downloads wie folgt aufgeteilt:

  • 0 - niemals;
  • 1 mal;
  • 2 mal;
  • weniger als 10;
  • von 10 bis 100;
  • von 100 bis 1000;
  • mehr als 1000.

Schauen wir uns das Diagramm an.

Die Anzahl der Downloads offener DatensÀtze vom Portal data.gov.ru. Diagramm

Und was sehen wir?

Die HĂ€lfte der DatensĂ€tze wurde noch nie heruntergeladen. Selbst um zu ĂŒberprĂŒfen, ob es funktioniert, haben sie es nicht heruntergeladen. Auch aus Versehen. NIE!

Nur einmal heruntergeladen 16% der DatensĂ€tze. Vielleicht durch Zufall oder um zu ĂŒberprĂŒfen, ob sie es sind. Sie machen etwa 3% der Gesamtzahl der Downloads aus.

Zweimal wurden 7% der DatensÀtze heruntergeladen und sie machen etwa 3% der Gesamtzahl der Downloads aus. Auch zweimal ein zweifelhaftes Ergebnis.

Fast 17% der DatensÀtze wurden weniger als zehnmal heruntergeladen, und sie machten 17% der Gesamtzahl der Downloads aus.

Zusammengenommen stellt sich heraus, dass 90% der DatensĂ€tze ĂŒberhaupt nicht interessant oder praktisch nicht von Interesse sind?

Etwa 10% der DatensÀtze wurden 10 bis 100 Mal heruntergeladen, und ihr Anteil betrÀgt etwa 40%.
0,5% der DatensÀtze wurden 100- bis 1000-mal heruntergeladen, sie machen jedoch ein Viertel aller Downloads aus.

Mehr als 1000 Mal wurden nur 0,02% der Gesamtzahl der DatensÀtze heruntergeladen, und sie machen etwa 8% aller Downloads aus.

Infolgedessen wurde die HĂ€lfte der DatensĂ€tze von niemandem benötigt. 10% der DatensĂ€tze sind fĂŒr die Verwendung von stabilem Interesse. Weniger als 1% des Datensatzes ist wirklich nĂŒtzlich.

Die HÀlfte der Waren im Laden kauft grundsÀtzlich nicht. Ein Drittel der Waren wird sehr selten gekauft. 10% der Waren sind stabil nachgefragt. Und weniger als 1% der Waren sind bei den Kunden wirklich gefragt.

Wie bei der Anzahl der Ansichten ist es jedoch korrekter, nicht absolute, sondern relative Werte zu berĂŒcksichtigen.

In Analogie wird anstelle der Anzahl der Downloads die Anzahl der Downloads pro Monat angegeben.

Statistik kurz:

  • Minimum - 0;
  • Durchschnitt - 0,276;
  • Median - 0,02;
  • das Maximum ist 145.

Es ist logisch, dass wieder das gleiche mit dem gleichen.

Die Anzahl der offenen DatensÀtze, die pro Monat vom Portal data.gov.ru heruntergeladen werden. Diagramm

Es ist klar, dass die HĂ€lfte der DatensĂ€tze nie heruntergeladen wird und die Grafik nicht allzu hĂŒbsch aussieht.

Das Diagramm ist informativer.

Die Anzahl der offenen DatensÀtze, die pro Monat vom Portal data.gov.ru heruntergeladen werden. Diagramm

Die gleiche HĂ€lfte der SĂ€tze (anscheinend hat der Rundungsfehler zu einem Unterschied in den BrĂŒchen gefĂŒhrt) wird nie heruntergeladen. Diese Tatsache ist bereits bekannt.

Fast die HÀlfte der DatensÀtze (45%) wird weniger als einmal im Monat heruntergeladen und macht 42% der Gesamtzahl der Downloads aus.

Von einmal im Monat bis einmal in der Woche werden ungefÀhr 4% heruntergeladen, aber sie machen fast ein Viertel der Downloads aus.

Von einmal pro Woche bis einmal am Tag werden etwa 0,8% der DatensÀtze heruntergeladen, aber sie machen fast 23% der Gesamtzahl der Downloads aus.

Und schließlich werden nur 0,05% der DatensĂ€tze von einmal pro Woche bis einmal pro Stunde heruntergeladen, aber sie machen fast 11% aller Downloads aus.

Wenn Sie beispielsweise davon ausgehen, dass das Portal ein GeschÀft ist, die Anzahl der Aufrufe die Anzahl der Besucher des GeschÀfts und die Anzahl der Downloads die Anzahl der KÀufe ist, können Sie die Conversion berechnen:

Conversion-Rate
Die Conversion-Rate ist der Prozentsatz der Besucher eines GeschÀfts, einer Website oder eines Marketingereignisses, die eine Auswahl getroffen oder einen Kauf getÀtigt haben, zur Gesamtzahl aller Besucher.

Umsatzumwandlung - das VerhÀltnis der Kunden (GeschÀft, Unternehmen) zur Gesamtzahl der Besucher (Kunden, die sich bewerben).

Conversion in der Werbung - das VerhÀltnis der Anzahl der Impressionen einer Anzeige zur Anzahl der Anrufe bei einem Werbetreibenden.

Conversion im Internet-Marketing - das VerhĂ€ltnis der Website-Besucher, die die „notwendige“ Aktion ausgefĂŒhrt haben (auf einen Link geklickt, abgestimmt, gekauft), zur Gesamtzahl der Website-Besucher.

In der Regel wird die Conversion-Rate als Prozentsatz berechnet. Die Conversion-Stufe fĂŒr Besucher von Online-Shops (dh der Anteil der Website-Besucher, die einen Kauf getĂ€tigt haben) betrĂ€gt durchschnittlich 2-5%. Das Ziel der Website besteht beispielsweise darin, BĂŒcher zu verkaufen. Pro Tag wurden 500 Website-Besucher und 35 BĂŒcher verkauft. Dann betrĂ€gt die Umwandlung 35 * 100/500 = 7%.

Die Conversion-Ebene zeigt, wie gut die MarketingbemĂŒhungen, um Besucher und KĂ€ufer anzulocken, sowie die BemĂŒhungen, die Website mit Informationen und das GeschĂ€ft mit Waren zu fĂŒllen, die Hauptaufgabe erfĂŒllen - den Verkauf sicherzustellen.

Erfolgreiche Conversions werden von VerkĂ€ufern, Werbetreibenden oder Inhaltsanbietern fĂŒr die Website unterschiedlich behandelt. FĂŒr den VerkĂ€ufer bedeutet eine erfolgreiche Konvertierung einen Kaufvorgang. FĂŒr einen Inhaltsanbieter kann eine erfolgreiche Conversion bedeuten, Besucher auf einer Website, einem Forum, einem Marketingereignis zu registrieren, eine Mailingliste zu abonnieren, Software herunterzuladen oder andere von Besuchern erwartete Aktionen durchzufĂŒhren.

Das Konzept der Conversion-Ebene gilt nicht nur fĂŒr elektronische Medien, sondern auch fĂŒr die elektronische Konvertierung, wenn Kundengewinnung nicht das ultimative Ziel ist und es wichtiger ist, Vorteile von angezogenen Kunden zu erhalten - als Endergebnis einer mehrstufigen Marketingaufgabe (Gewinn-Interesse-Verkauf) Kundenservice.

K = N / N0 * 100%, wobei

K ist die Umrechnungsrate;
N - die Anzahl der echten KĂ€ufer (Kunden, die die Waren gekauft oder die Dienstleistung genutzt haben);
N0 - die Anzahl der Besucher des GeschÀfts oder der Website.

FĂŒr das offene Datenportal betrĂ€gt der Conversion-Level ca. 3%. Ob es viel oder wenig ist, jeder kann selbst entscheiden.

Schlussfolgerungen


Nur etwa 3% der DatensĂ€tze sind fĂŒr jemanden wirklich interessant. Gleichzeitig wird fast die HĂ€lfte von einmal pro Woche bis einmal am Tag angesehen.

Die HÀlfte der DatensÀtze wurde noch nie von jemandem heruntergeladen.

Weniger als 1% der DatensÀtze sind wirklich von Interesse.

Was weiter?


Und dann werden wir uns ansehen, wie DatensĂ€tze ausgewertet werden, und prĂŒfen, ob Links zu DatensĂ€tzen funktionieren. Mal sehen, wie oft Datasets aktualisiert werden und wie groß die Dataset-Dateien sind. Gibt es einen Zusammenhang zwischen dem Dateiformat des Datensatzes und der Anzahl der Downloads?

PS Zur Veranschaulichung habe ich mehrere Dashboards gepostet.
Die Ressourcen sind begrenzt, sodass beim Booten Fehler auftreten können.
Schreiben Sie Bewertungen in die Kommentare.

Source: https://habr.com/ru/post/de401543/


All Articles