A
última vez que analisei conjuntos de dados: distribuição por categorias e formatos de arquivo, o grau em que os campos são preenchidos nos passaportes dos conjuntos de dados, etc. Agora, tentarei entender com que frequência os conjuntos de dados estão interessados e com que frequência os conjuntos de dados são usados? Quais conjuntos de dados são de interesse dos usuários do portal?
Para realizar uma avaliação, é necessário determinar por quais critérios fazê-la. Nas descrições dos conjuntos de dados, há informações sobre o número de visualizações. Você não precisa ser um gênio para entender que, se alguém examinou as informações sobre um conjunto de dados, aparentemente, ele não fez isso por acidente. E, portanto, o critério de que o conjunto de dados despertou interesse será o número de visualizações. E se o conjunto de dados não for apenas interessante, mas puder ser útil, ele será baixado. Assim, o número de downloads será um critério de utilidade.
E você pode imaginar que o portal é uma loja. Os produtos em uma loja são conjuntos de dados. O custo das mercadorias é a quantidade de esforço que precisa ser gasta para fazer o download (descobrir onde está esse link) e usar (por exemplo, exibir ou usar como fonte de dados para seus próprios fins). Assim, o número de visualizações é o número de compradores em potencial e o número de downloads é o número de compras.
Os compradores vão à loja, olham as mercadorias, avaliam. Se o comprador não conseguir encontrar o produto ou não conseguir entender se ele é adequado para ele, ele irá embora. Se o produto for de interesse do comprador, ele poderá comprá-lo (fazer o download), se o preço (a quantidade de esforço gasto para fazer o download e o uso) se adequar. Por exemplo, um determinado conjunto de dados me interessou e quero fazer o download. Mas acontece que ele está em um formato difícil de usar. Ao mesmo tempo, em outro site, existem os mesmos dados, mas de uma forma mais conveniente ou mais recente ou com uma descrição melhor, respectivamente, o conjunto de dados não será baixado.Primeiro, as características estatísticas mais simples para o número de visualizações:
- total - 2,03 milhões;
- mínimo - 2;
- média - 161;
- mediana - 61;
- máximo - 28,1 mil
O grande valor do máximo em comparação com a média e a mediana, bem como a diferença entre a mediana e a média, indica claramente a distribuição desigual do número de visualizações e da “cauda longa”.
Para verificar isso visualmente, divido o número de visualizações em 1000 grupos uniformemente distribuídos (média) e obtenho uma curva bastante suave. Em seguida, construo a dependência da soma de todas as visualizações no número médio de visualizações e no número de conjuntos de dados no número médio de visualizações.

O que mostra o gráfico?
Um grande número de conjuntos de dados tem um número quase zero de visualizações, mas o número total de visualizações desses conjuntos é grande. Além disso, aproximadamente 100 a 1000 diminuem. De 1000 a 5000, uma distribuição bastante uniforme. De 5000 crescimento.
Os números são selecionados a olho nu. E aqui está como a mesma coisa aparece no diagrama.

Dois terços dos conjuntos de dados foram visualizados menos de 100 vezes.
Um terço dos conjuntos de dados foram visualizados de 100 a 1000 vezes.
Cerca de um por cento foi visualizado de 1000 a 5000 vezes.
E menos de um décimo de por cento dos conjuntos de dados foi visualizado mais de 5.000 vezes.
Mas se você considerar a soma das visualizações, a imagem será diferente.
Esses kits que foram vistos menos de 100 vezes representam apenas 16%.
Quase dois terços, ou seja, a maior parte das visualizações, caem em conjuntos de dados que foram visualizados de 100 a 1000 vezes.
Cerca de 14% são conjuntos de dados que foram visualizados de 1000 a 5000 vezes.
E quase 7% cai em aparelhos que foram vistos mais de 5.000 vezes (e há menos de um décimo do total).
Mas não é exatamente isso que você precisa para avaliar o uso de conjuntos de dados. Os conjuntos de dados foram dispostos em momentos diferentes, portanto, o uso de valores absolutos, neste caso o número de visualizações, não faz muito sentido. Para uma comparação correta, usarei o valor relativo - o número de visualizações por mês.
Características estatísticas para o número de visualizações de conjuntos de dados por mês:
- mínimo - 0,184;
- média - 8,49;
- mediana - 5,33;
- máximo - 1,76 mil
De fato, a situação com o número de visualizações por mês se assemelha ao número de visualizações - uma distribuição desigual com uma cauda longa.

Dividirei condicionalmente todos os conjuntos de dados pelo número médio de visualizações da seguinte maneira:
menos de uma vez por mês;
- de uma vez por mês a uma vez por semana;
- de uma vez por semana a uma vez por dia;
- de uma vez por dia a uma vez por hora;
- mais de uma vez por hora.

Conjuntos de dados exibidos menos de uma vez por mês, aparentemente, são algo completamente desnecessário. Existem cerca de 6% desses conjuntos de dados e é lógico que eles representem apenas 0,2% do número total de visualizações.
Um terço dos conjuntos de dados é visualizado uma vez por mês a uma vez por semana. E eles representam cerca de 6% do número total de visualizações. Parece que alguém às vezes assiste.
Pouco mais da metade dos conjuntos de dados foram visualizados de uma vez por semana a uma vez por dia. E eles representam quase metade do número total de visualizações. Não com muita frequência, mas observe.
Os conjuntos de dados que são visualizados mais de uma vez por dia e seu total é de 2,5%, representam mais de um terço do número total de visualizações. Aqui está o que desperta interesse.
Mas o maior interesse é causado por esses conjuntos de dados que são visualizados mais de uma vez por hora. Existem apenas 0,03 do número total e representam quase 4% do número total de visualizações.
Assim, apenas 3% de todos os conjuntos de dados podem realmente ser considerados interessantes. Um terço não interessa. E um pouco mais da metade pode ocasionalmente interessar a alguém.
Existem muitos produtos na loja. Mas mais de um terço deles quase não está interessado em compradores. Mais da metade dos produtos não é particularmente interessante para os compradores, mas o interesse deles é estável. E 3% dos produtos são realmente interessantes.
Mas isso é apenas metade da batalha.
Mesmo que o comprador entre na loja e o produto o interesse, ele comprará?Se o conjunto de dados foi baixado, significa que alguém precisava dele (e, talvez, seja até muito útil). Assim, como mencionado acima, determinarei a utilidade do conjunto de dados com base no número de downloads.
Primeiro, como sempre, algumas estatísticas:
- total - 63,2 mil;
- mínimo - 0;
- a média é 5,01;
- mediana - 1;
- máximo - 2,33 mil
Do que isso está falando? Distribuição desigual? Cauda longa?
Não. Parece-me que com uma mediana igual a um, um resultado interessante pode ser esperado.

Parece que ninguém baixa a maioria dos conjuntos de dados.
Condicionalmente, dividi o número de downloads da seguinte maneira:
- 0 - nunca;
- 1 vez
- 2 vezes;
- menos de 10;
- de 10 a 100;
- de 100 a 1000;
- mais de 1000.
Vamos olhar para o diagrama.

E o que vemos?
Metade dos conjuntos de dados nunca foi baixada. Mesmo para verificar se funciona, eles não fizeram o download. Mesmo por acidente. NUNCA!
Somente uma vez baixou 16% dos conjuntos de dados. Talvez por acaso ou para verificar se são. Eles representam cerca de 3% do número total de downloads.
Duas vezes baixou 7% dos conjuntos de dados e eles representam cerca de 3% do número total de downloads. Duas vezes, também, um resultado duvidoso.
Quase 17% dos conjuntos de dados foram baixados menos de 10 vezes e representaram 17% do número total de downloads.
Se reunidos, verifica-se que 90% dos conjuntos de dados não são de todo interessantes ou praticamente não são de interesse?
Cerca de 10% dos conjuntos de dados foram baixados de 10 a 100 vezes e seu compartilhamento é de cerca de 40%.
0,5% dos conjuntos de dados foram baixados de 100 a 1000 vezes, mas representam um quarto de todos os downloads.
Mais de 1000 vezes baixaram apenas 0,02% do número total de conjuntos de dados e representam cerca de 8% de todos os downloads.
Como resultado, metade dos conjuntos de dados nunca foi necessária a ninguém. 10% dos conjuntos de dados são de interesse estável para uso. Menos de 1% do conjunto de dados é realmente útil.
Metade dos produtos da loja não compra em princípio. Um terço dos produtos são comprados muito raramente. 10% dos produtos estão em demanda estável. E menos de 1% dos produtos são realmente procurados pelos clientes.Mas, como no número de visualizações, é mais correto considerar não valores absolutos, mas relativos.
Por analogia, em vez do número de downloads, haverá o número de downloads por mês.
Estatísticas brevemente:
- mínimo - 0;
- média - 0,276;
- mediana - 0,02;
- o máximo é 145.
É lógico que novamente o mesmo com o mesmo.

É claro que metade dos conjuntos de dados nunca é baixada e o gráfico não parece muito bonito.
O gráfico é mais informativo.

A mesma metade dos conjuntos (aparentemente o erro de arredondamento levou a uma diferença nas frações) nunca é baixada. Este fato já é conhecido.
Quase metade dos conjuntos de dados (45%) são baixados menos de uma vez por mês e representam 42% do número total de downloads.
De uma vez por mês a uma vez por semana, cerca de 4% é baixado, mas eles representam quase um quarto dos downloads.
De uma vez por semana a uma vez por dia, cerca de 0,8% dos conjuntos de dados são baixados, mas representam quase 23% do número total de downloads.
E, finalmente, apenas 0,05% dos conjuntos de dados são baixados de uma vez por semana a uma vez por hora, mas eles representam quase 11% de todos os downloads.
Se, por exemplo, você considerar que o portal é uma loja, o número de visualizações é o número de visitantes da loja e o número de downloads é o número de compras, é possível calcular a conversão:
Taxa de conversãoA taxa de conversão é a porcentagem de visitantes de uma loja, site, evento de marketing que fizeram uma escolha, fizeram uma compra, para o número total de todos os visitantes.
Conversão em vendas - a proporção de clientes (loja, empresa) e o número total de visitantes (clientes que se inscrevem).
Conversão em publicidade - a proporção entre o número de impressões de um anúncio e o número de chamadas para um anunciante.
Conversão em marketing na Internet - a proporção de visitantes do site que executaram a ação "necessária" (clicaram em um link, votaram, compraram) e o número total de visitantes do site.
Normalmente, a taxa de conversão é calculada como uma porcentagem. O nível de conversão para visitantes de lojas on-line (ou seja, a participação dos visitantes do site que fizeram uma compra) é em média de 2 a 5%. Por exemplo, o objetivo do site é vender livros, e você teve 500 visitantes e 35 livros vendidos por dia. Então a conversão será 35 * 100/500 = 7%.
O nível de conversão mostra quão bem os esforços de marketing para atrair visitantes e compradores, bem como os esforços para encher o site com informações, a loja com mercadorias, cumprem a tarefa principal - garantir vendas.
As conversões bem-sucedidas são tratadas de maneira diferente pelos vendedores, anunciantes ou provedores de conteúdo do site. Para o vendedor, uma conversão bem-sucedida significará uma operação de compra. Para um provedor de conteúdo, uma conversão bem-sucedida pode significar registrar visitantes em um site, fórum, evento de marketing, inscrever-se em uma lista de discussão, fazer download de software ou qualquer outra ação esperada dos visitantes.
O conceito de nível de conversão é aplicável não apenas à mídia eletrônica, conversão eletrônica, mas também, de qualquer forma, quando atrair clientes não é o objetivo final, e mais importante é receber benefícios dos clientes atraídos - como resultado final de uma tarefa de marketing em vários estágios (atrair-interessar-vender) atendimento ao cliente.
K = N / N0 * 100%, em que
K é a taxa de conversão;
N - o número de compradores reais (clientes que compraram os bens ou usaram o serviço);
N0 - o número de visitantes da loja ou site.
Para o portal de dados abertos, o nível de conversão será de cerca de 3%. Seja muito ou pouco, todos podem decidir por si mesmos.
Conclusões
Apenas cerca de 3% dos conjuntos de dados são realmente interessantes para alguém. Mas, ao mesmo tempo, quase metade é vista de uma vez por semana a uma vez por dia.
Metade dos conjuntos de dados nunca foi baixada por ninguém.
Menos de 1% dos conjuntos de dados são realmente interessantes.
O que vem a seguir?
E então veremos como os conjuntos de dados são avaliados, verificamos se os links para os conjuntos de dados funcionam. Vamos ver com que frequência os conjuntos de dados são atualizados e qual o tamanho dos arquivos do conjunto de dados. Existe um relacionamento entre o formato do arquivo do conjunto de dados e o número de downloads.
PS Como ilustração, postei vários
painéis .
Os recursos são limitados, portanto, podem ocorrer erros durante a inicialização.
Escreva comentários nos comentários.