Uso de conjuntos de datos del portal de datos abiertos de Rusia data.gov.ru

La última vez que analicé conjuntos de datos: distribución por categorías y formatos de archivo, el grado en que se llenan los campos en los pasaportes de los conjuntos de datos, etc. Ahora intentaré comprender con qué frecuencia los conjuntos de datos están interesados ​​y con qué frecuencia se usan. ¿Qué conjuntos de datos son de interés para los usuarios del portal?

Para realizar una evaluación, es necesario determinar con qué criterios realizarla. En las descripciones de los conjuntos de datos hay información sobre el número de vistas. No es necesario ser un genio para comprender que si alguien mira la información sobre un conjunto de datos, aparentemente no lo hizo por accidente. Y, por lo tanto, el criterio de que el conjunto de datos despertó interés será el número de visitas. Y si el conjunto de datos no solo es interesante, sino que puede ser útil, se descargará. Por lo tanto, el número de descargas será un criterio de utilidad.

Y te puedes imaginar que el portal es una tienda. Los productos en una tienda son conjuntos de datos. El costo de los bienes es la cantidad de esfuerzo que se debe gastar para descargar (encontrar dónde está este enlace) y usar (por ejemplo, ver o usar como fuente de datos para sus propios fines) datos. En consecuencia, la cantidad de visitas es la cantidad de compradores potenciales, y la cantidad de descargas es la cantidad de compras.

Los compradores van a la tienda, miran los productos, evalúan. Si el comprador no puede encontrar el producto o no puede entender si es adecuado para él, se irá. Si el producto es de interés para el comprador, entonces puede comprarlo (descargar), si el precio (la cantidad de esfuerzo gastado para descargarlo y usarlo) se ajusta. Por ejemplo, cierto conjunto de datos me interesó y quiero descargarlo. Pero resulta que está en un formato que es difícil de usar para mí. Al mismo tiempo, en otro sitio hay los mismos datos, pero en una forma más conveniente o más nueva, o con una mejor descripción, respectivamente, el conjunto de datos no se descargará.

Primero, las características estadísticas más simples para el número de vistas:

  • total - 2,03 millones;
  • mínimo - 2;
  • promedio - 161;
  • mediana: 61;
  • máximo - 28,1 mil

El gran valor del máximo en comparación con el promedio y la mediana, así como la diferencia entre la mediana y el promedio, apunta claramente a la distribución desigual del número de vistas y la "cola larga".

Para verificar esto visualmente, divido el número de vistas en 1000 grupos distribuidos uniformemente (promedio) y obtengo una curva bastante suave. Luego construyo la dependencia de la suma de todas las vistas en el número promedio de vistas y el número de conjuntos de datos en el número promedio de vistas.

Distribución de vistas de conjuntos de datos abiertos desde el portal data.gov.ru

¿Qué muestra el gráfico?

Un gran número de conjuntos de datos tiene un número de vistas cercano a cero, pero el número total de vistas de estos conjuntos es grande. Además, aproximadamente 100 a 1000 disminuyen. De 1000 a 5000 una distribución bastante uniforme. Desde 5000 crecimiento.

Los números se seleccionan a simple vista. Y así es como se ve lo mismo en el diagrama.

Distribución de vistas de conjuntos de datos abiertos desde el portal data.gov.ru. Chart

Dos tercios de los conjuntos de datos se vieron menos de 100 veces.
Un tercio de los conjuntos de datos fueron vistos de 100 a 1000 veces.
Alrededor del uno por ciento fue visto de 1000 a 5000 veces.
Y menos de una décima parte del porcentaje de los conjuntos de datos se ha visto más de 5,000 veces.
Pero si considera la suma de las vistas, entonces la imagen es diferente.
Los kits que se han visto menos de 100 veces representan solo el 16%.

Casi dos tercios, es decir, la mayor parte de las vistas, corresponden a conjuntos de datos que se vieron de 100 a 1000 veces.

Alrededor del 14% son conjuntos de datos que se vieron de 1000 a 5000 veces.

Y casi el 7% cae en series que se vieron más de 5,000 veces (y hay menos de una décima parte del total).

Pero esto no es exactamente lo que necesita para evaluar el uso de conjuntos de datos. Los conjuntos de datos se presentaron en diferentes momentos, por lo que el uso de valores absolutos, en este caso el número de vistas, no tiene mucho sentido. Para una comparación correcta, usaré el valor relativo: la cantidad de vistas por mes.

Características estadísticas para el número de vistas de conjuntos de datos por mes:

  • mínimo - 0.184;
  • promedio - 8.49;
  • mediana - 5,33;
  • máximo - 1.76 mil

De hecho, la situación con la cantidad de vistas por mes se asemeja a la cantidad de vistas, una distribución desigual con una cola larga.

El número de vistas de conjuntos de datos abiertos desde el portal data.gov.ru por mes

Dividiré condicionalmente todos los conjuntos de datos por el número promedio de vistas de la siguiente manera:
menos de una vez al mes;

  • de una vez al mes a una vez a la semana;
  • de una vez a la semana a una vez al día;
  • de una vez al día a una vez por hora;
  • Más de una vez por hora.


El número de vistas de conjuntos de datos abiertos desde el portal data.gov.ru por mes. Chart

Los conjuntos de datos que se ven menos de una vez al mes, aparentemente, es algo completamente innecesario. Hay alrededor del 6% de dichos conjuntos de datos y es lógico que representen solo el 0.2% del número total de vistas.

Un tercio de los conjuntos de datos se visualizan una vez al mes a una vez a la semana. Y representan aproximadamente el 6% del número total de visitas. Parece que a veces alguien mira.

Algo más de la mitad de los conjuntos de datos se vieron una vez por semana a una vez al día. Y representan casi la mitad del número total de visitas. No muy a menudo, pero mira.

Los conjuntos de datos que se ven más de una vez al día, y su total es del 2.5%, representan más de un tercio del número total de vistas. Esto es lo que despierta interés.

Pero el mayor interés es causado por esos conjuntos de datos que se ven más de una vez por hora. Solo hay 0.03 del número total, y representan casi el 4% del número total de vistas.

Por lo tanto, solo el 3% de todos los conjuntos de datos pueden considerarse interesantes. Un tercero no tiene interés. Y un poco más de la mitad puede interesar ocasionalmente a alguien.

Hay muchos productos en la tienda. Pero más de un tercio de ellos casi no están interesados ​​en los compradores. Más de la mitad de los productos no son particularmente interesantes para los compradores, pero su interés en ellos es estable. Y el 3% de los productos son realmente interesantes.

Pero esto es solo la mitad de la batalla.

Incluso si el comprador fue a la tienda y le interesó el producto, ¿lo comprará?

Si se descargó el conjunto de datos, significa que alguien lo necesitaba (y, tal vez, incluso es muy útil). Por lo tanto, como se mencionó anteriormente, determinaré la utilidad del conjunto de datos en función del número de descargas.

Primero, como siempre, algunas estadísticas:

  • total - 63,2 mil;
  • mínimo - 0;
  • el promedio es 5.01;
  • mediana - 1;
  • máximo - 2.33 mil

¿De qué está hablando esto? ¿Distribución desigual? Cola larga?

No Me parece que con una mediana igual a uno, se puede esperar un resultado interesante.

El número de descargas de conjuntos de datos abiertos desde el portal data.gov.ru

Parece que nadie descarga la mayoría de los conjuntos de datos.

Condicionalmente, dividí el número de descargas de la siguiente manera:

  • 0 - nunca;
  • 1 vez
  • 2 veces
  • menos de 10;
  • de 10 a 100;
  • de 100 a 1000;
  • Más de 1000.

Miremos el diagrama.

El número de descargas de conjuntos de datos abiertos del portal data.gov.ru. Chart

Y que vemos

La mitad de los conjuntos de datos nunca se han descargado en absoluto. Incluso para comprobar que funciona, no lo descargaron. Incluso por accidente. NUNCA!

Solo una vez descargado el 16% de los conjuntos de datos. Quizás por casualidad o para verificar que lo son. Representan alrededor del 3% del número total de descargas.

Dos veces descargaron el 7% de los conjuntos de datos y representan aproximadamente el 3% del número total de descargas. Dos veces, también, un resultado dudoso.

Casi el 17% de los conjuntos de datos se descargaron menos de 10 veces, y representaron el 17% del número total de descargas.

Si se juntan, ¿resulta que el 90% de los conjuntos de datos no son interesantes o prácticamente no son interesantes?

Aproximadamente el 10% de los conjuntos de datos se descargaron de 10 a 100 veces, y su participación es de aproximadamente el 40%.
El 0,5% de los conjuntos de datos se descargaron de 100 a 1000 veces, pero representan una cuarta parte de todas las descargas.

Más de 1000 veces descargaron solo el 0.02% del número total de conjuntos de datos, y representan aproximadamente el 8% de todas las descargas.

Como resultado, la mitad de los conjuntos de datos nunca fueron necesarios para nadie. El 10% de los conjuntos de datos son de interés estable para su uso. Menos del 1% del conjunto de datos es realmente útil.

La mitad de los productos en la tienda no se compra en principio. Un tercio de los bienes se compran muy raramente. El 10% de los bienes tienen una demanda estable. Y menos del 1% de los bienes son realmente demandados por los clientes.

Pero, al igual que con el número de vistas, es más correcto considerar no valores absolutos, sino relativos.

Por analogía, en lugar de la cantidad de descargas, habrá la cantidad de descargas por mes.

Estadísticas brevemente:

  • mínimo - 0;
  • promedio - 0.276;
  • mediana - 0.02;
  • el máximo es 145.

Es lógico que de nuevo lo mismo con lo mismo.

El número de descargas de conjuntos de datos abiertos por mes desde el portal data.gov.ru. Chart

Está claro que la mitad de los conjuntos de datos nunca se descargan y el gráfico no se ve demasiado bonito.

El cuadro es más informativo.

El número de descargas de conjuntos de datos abiertos por mes desde el portal data.gov.ru. Chart

La misma mitad de los conjuntos (aparentemente el error de redondeo condujo a una diferencia en las fracciones) nunca se descarga. Este hecho ya es conocido.

Casi la mitad de los conjuntos de datos (45%) se descargan menos de una vez al mes, y representan el 42% del número total de descargas.

De una vez al mes a una vez a la semana, se descarga aproximadamente el 4%, pero representan casi una cuarta parte de las descargas.

De una vez a la semana a una vez al día, aproximadamente el 0,8% de los conjuntos de datos se descargan, pero representan casi el 23% del número total de descargas.

Y finalmente, solo el 0.05% de los conjuntos de datos se descargan de una vez por semana a una vez por hora, pero representan casi el 11% de todas las descargas.

Si, por ejemplo, considera que el portal es una tienda, la cantidad de visitas es la cantidad de visitantes a la tienda y la cantidad de descargas es la cantidad de compras, entonces puede calcular la conversión:

Tasa de conversión
La tasa de conversión es el porcentaje de visitantes a una tienda, sitio, evento de marketing que hizo una elección, realizó una compra, al número total de todos los visitantes.

Conversión en ventas: la proporción de clientes (tienda, empresa) con respecto al número total de visitantes (clientes que aplican).

Conversión en publicidad: la relación entre el número de impresiones de un anuncio y el número de llamadas a un anunciante.

Conversión en marketing en Internet: la proporción de visitantes del sitio que han realizado la acción "necesaria" (hizo clic en un enlace, votaron, compraron) con respecto al número total de visitantes del sitio.

Por lo general, la tasa de conversión se calcula como un porcentaje. El nivel de conversión para los visitantes de las tiendas en línea (es decir, la proporción de visitantes del sitio que realizaron una compra) es, en promedio, del 2 al 5%. Por ejemplo, el objetivo del sitio es vender libros, y tenía 500 visitantes del sitio y 35 libros vendidos por día. Entonces la conversión será 35 * 100/500 = 7%.

El nivel de conversión muestra qué tan bien los esfuerzos de marketing para atraer visitantes y compradores, así como los esfuerzos para llenar el sitio con información, la tienda con productos, cumplen con la tarea principal: garantizar las ventas.

Las conversiones exitosas son tratadas de manera diferente por vendedores, anunciantes o proveedores de contenido para el sitio. Para el vendedor, una conversión exitosa significará una operación de compra. Para un proveedor de contenido, una conversión exitosa puede significar registrar visitantes en un sitio, foro, evento de marketing, suscribirse a una lista de correo, descargar software o cualquier otra acción esperada de los visitantes.

El concepto de nivel de conversión es aplicable no solo a los medios electrónicos, la conversión electrónica, sino también en cualquier caso, cuando atraer clientes no es el objetivo final, y lo más importante es recibir los beneficios de los clientes atraídos, como resultado final de una tarea de marketing de múltiples etapas (atraer-interés-vender) servicio al cliente

K = N / N0 * 100%, donde

K es la tasa de conversión;
N - el número de compradores reales (clientes que compraron los productos o utilizaron el servicio);
N0: la cantidad de visitantes a la tienda o al sitio.

Para el portal de datos abiertos, el nivel de conversión será de aproximadamente el 3%. Ya sea mucho o poco, todos pueden decidir por sí mismos.

Conclusiones


Solo alrededor del 3% de los conjuntos de datos son realmente interesantes para alguien. Pero, al mismo tiempo, casi la mitad se ve de una vez a la semana a una vez al día.

La mitad de los conjuntos de datos nunca han sido descargados por nadie.

Menos del 1% de los conjuntos de datos son realmente interesantes.

Que sigue


Y luego veremos cómo se evalúan los conjuntos de datos, verificaremos si los enlaces a los conjuntos de datos funcionan. Veamos con qué frecuencia se actualizan los conjuntos de datos y qué tan grandes son los archivos del conjunto de datos. ¿Existe una relación entre el formato de archivo del conjunto de datos y el número de descargas?

PD: Como ilustración, publiqué varios paneles .
Los recursos son limitados, por lo que pueden producirse errores durante el arranque.
Escribe comentarios en los comentarios.

Source: https://habr.com/ru/post/es401543/


All Articles