我
上次分析数据集时:按类别和文件格式分布,在数据集的护照中填写字段的程度等。 现在,我将尝试了解对数据集感兴趣的频率以及使用数据集的频率? 门户网站用户感兴趣的数据集是什么?
为了进行评估,有必要确定以什么标准进行评估。 在数据集的描述中,有关于视图数量的信息。 您不必是个天才,就可以理解,如果有人查看了有关数据集的信息,那么显然他并不是偶然地这样做的。 因此,引起数据集兴趣的标准是观看次数。 如果数据集不仅有趣,而且很有用,那么将下载该数据集。 因此,下载次数将是有用性的标准。
您可以想象门户是商店。 商店中的产品是数据集。 商品成本是下载(查找此链接的位置)和使用(例如,出于您自己的目的查看或用作数据源)数据所需花费的精力。 因此,观看次数是潜在购买者的数量,下载次数是购买的数量。
买家去商店,看货,评估。 如果买方找不到产品或无法理解他是否适合他,他将离开。 如果购买者对产品感兴趣,那么在价格(下载和使用花费的精力)合适的情况下,购买者可以购买(下载)该产品。 例如,某个数据集使我感兴趣,我想下载它。 但事实证明,这种格式对我来说很难使用。 同时,在另一个站点上,存在相同的数据,但是分别以更方便的形式或更新的形式或具有更好的描述的数据集将不会下载。首先,视图数量的最简单统计特征:
- 总计-203万;
- 最低-2;
- 平均-161;
- 中位数-61;
- 最高-28100
与平均值和中位数相比,最大值的最大值以及中位数和平均值之间的差异清楚地表明了视图数量和“长尾巴”的分布不均。
为了直观地验证这一点,我将视图数分为1000个均匀分布的组(平均),并获得了相当平滑的曲线。 然后,我建立所有视图总数与平均视图数之间的依赖关系,以及数据集数量与平均视图数之间的依赖关系。

该图显示什么?
大量数据集的视图数量几乎为零,但是这些集合的视图总数很大。 此外,大约下降100至1000。 从1000到5000,分布相当均匀。 从5000增长。
通过眼睛选择数字。 这就是图中相同的外观。

三分之二的数据集被查看不到100次。
三分之一的数据集被查看了100到1000次。
从1000到5000次观看的比例约为1%。
超过5,000次被查看的数据集不到十分之一。
但是,如果考虑这些视图的总和,那么情况就不同了。
那些被查看不到100次的套件仅占16%。
几乎三分之二的视图(即视图的大部分)位于被查看100到1000次的数据集上。
被查看过1000到5000次的数据集约占14%。
观看次数超过5,000次(占总数不到十分之一)的电视机中,有近7%跌落。
但这并不是评估数据集使用情况所需要的。 数据集在不同的时间进行布局,因此使用绝对值(在这种情况下为视图数)没有太大意义。 为了进行正确的比较,我将使用相对值-每月的观看次数。
每月数据集视图数量的统计特征:
- 最小-0.184;
- 平均-8.49;
- 中位数-5.33;
- 最高-1.76千
实际上,每月观看次数的情况类似于观看次数–分布不均,尾巴较长。

我将有条件地将所有数据集除以平均视图数,如下所示:
每月少于一次;
- 从每月一次到每周一次;
- 从每周一次到每天一次;
- 从每天一次到每小时一次;
- 每小时不止一次。

每月少于一次查看的数据集显然是完全不必要的。 此类数据集大约有6%,因此合乎逻辑的是,它们仅占视图总数的0.2%。
从每月一次到每周一次查看三分之一的数据集。 并且它们占总观看次数的6%。 似乎有人有时会看。
从每周一次到每天一次,只查看了一半以上的数据集。 而且它们几乎占了视图总数的一半。 不太经常,但要注意。
每天查看不止一次的数据集(总数为2.5%)占视图总数的三分之一以上。 这就是引起兴趣的地方。
但是,最大的兴趣是由那些每小时查看一次以上的数据集引起的。 总数只有0.03,几乎占总观看次数的4%。
因此,仅3%的数据集确实可以被认为是有趣的。 三分之一没有兴趣。 超过一半的人偶尔会引起某人的兴趣。
商店里有很多货。 但是其中超过三分之一的人几乎对买家不感兴趣。 一半以上的产品对买家而言并不是特别有趣,但是他们对它们的兴趣却很稳定。 3%的商品真的很有趣。
但这只是成功的一半。
即使买家走进商店,并且商品对他感兴趣,他也会购买吗?如果数据集已下载,则意味着有人需要它(也许它非常有用)。 因此,如上所述,我将根据下载次数确定数据集的有用性。
首先,像往常一样,进行一些统计:
- 总计-6.32万;
- 最小-0;
- 平均值是5.01;
- 中位数-1;
- 最高-233千
这是在说什么 分配不均? 长尾巴?
不行 在我看来,中位数等于1,可以预期会得到一个有趣的结果。

似乎没有人下载所有数据集。
有条件地,我将下载次数划分如下:
- 0-从不;
- 1次
- 2次;
- 少于10
- 从10到100;
- 从100到1000;
- 超过1000。
让我们看一下图。

我们看到了什么?
一半数据集从未下载过。 即使要检查它是否有效,他们也没有下载它。 即使是偶然。 从来没有!
只有一次下载了16%的数据集。 也许是偶然或证实他们是。 它们约占下载总数的3%。
两次下载了7%的数据集,它们约占下载总数的3%。 也有两次是可疑的结果。
几乎有17%的数据集被下载不到10次,占下载总数的17%。
如果放在一起,事实证明90%的数据集根本不有趣或几乎不有趣?
大约10%的数据集被下载10到100次,它们的份额约为40%。
0.5%的数据集被下载了100到1000次,但它们占所有下载的四分之一。
1000次以上的下载仅占数据集总数的0.02%,而它们占所有下载量的8%。
因此,任何人都根本不需要一半的数据集。 10%的数据集具有稳定的使用价值。 真正有用的数据不到1%。
商店中一半的商品原则上不购买。 三分之一的商品很少购买。 10%的商品需求稳定。 客户真正需求的商品不到1%。但是,与视图数量一样,考虑绝对值而不是绝对值更正确。
以此类推,每月的下载数量将代替下载数量。
简要统计:
- 最小-0;
- 平均-0.276;
- 中位数-0.02;
- 最大值是145。
再次相同是合乎逻辑的。

显然,从未下载过一半的数据集,并且该图形看起来也不太漂亮。
该图表提供了更多信息。

从未下载过相同集合的一半(显然,舍入误差导致了分数的差异)。 这个事实是已知的。
几乎一半的数据集(45%)每月少于一次下载,占下载总数的42%。
从每月一次到每周一次,大约有4%的下载量,但它们占下载量的近四分之一。
从每周一次到每天一次,大约有0.8%的数据集被下载,但它们几乎占下载总数的23%。
最后,从每周一次到每小时一次仅下载0.05%的数据集,但它们几乎占所有下载量的11%。
例如,如果您认为门户网站是商店,视图数是商店的访客数,下载数是购买数,则可以计算转化:
转换率转化率是商店,网站,营销活动中做出选择,购买商品的访客占所有访客总数的百分比。
销售转换-客户(商店,公司)与访问者总数(申请客户)的比率。
广告转换率-广告印象数与致电广告客户的次数之比。
互联网营销的转换-执行“必要”操作(单击链接,投票,购买)的网站访问者占网站访问者总数的比率。
通常,转换率以百分比计算。 在线商店的访问者的转化率(即购买商品的访问者的比例)平均为2-5%。 例如,该网站的目标是销售书籍,您每天有500位网站访问者和35本书出售。 则转换为35 * 100/500 = 7%。
转换级别显示了营销活动如何吸引访客和买家,以及为网站填充信息,为商店存储商品完成主要任务-确保销售的努力。
网站的卖方,广告商或内容提供商对成功的转换有不同的对待。 对于卖方而言,成功的转换将意味着购买操作。 对于内容提供商而言,成功的转换可能意味着在网站,论坛,营销活动上注册访问者,订阅邮件列表,下载软件或访问者期望执行的其他任何操作。
转换级别的概念不仅适用于电子媒体,电子转换,而且在任何情况下都不能吸引客户,而吸引客户并不是最终目标,更重要的是要从吸引的客户那里获得收益-这是多阶段(吸引利息出售)营销任务的最终结果客户服务。
K = N / N0 * 100%,其中
K是转化率;
N-实际购买者的数量(购买商品或使用服务的顾客);
N0-商店或网站的访客人数。
对于开放数据门户,转换率将约为3%。 无论是多还是少,每个人都可以自己决定。
结论
对于某人来说,只有大约3%的数据集真正有趣。 但是,与此同时,从每周一次到每天一次,几乎有一半被查看。
一半的数据集从未有人下载过。
真正令人感兴趣的数据集不到1%。
接下来是什么?
然后,我们将研究如何评估数据集,检查数据集的链接是否有效。 让我们看看数据集多久更新一次,数据集文件有多大。 数据集的文件格式和下载次数之间是否存在关系。
PS作为说明,我张贴了几个
仪表板 。
资源有限,因此在引导过程中可能会发生错误。
在评论中写评论。