Web分析的黑洞:GA中丢失了多少数据,为什么

图片

如果您曾经将同一站点上的两个分析工具的数据进行了比较,或者将分析与报告和销售进行了比较,则可能会注意到它们并不总是匹配的。 在本文中,我将解释为什么Web分析平台的统计信息中没有数据,以及这些损失可能有多大。

在本文中,我们将重点介绍作为最受欢迎的分析服务的Google Analytics(分析),尽管在页面上实现的大多数分析平台也存在相同的问题。 依赖服务器日志的服务避免了其中的一些问题,但是它们很少使用,因此我们不在本文中介绍。


蒸馏中的Analytics测试配置


在Distilled.net上,我们有一个标准的Google Analtics资源,该资源可通过Google跟踪代码管理器中的HTML标记工作。 此外,在过去两年中,我使用了Google Analytics(分析)的三个附加并行实现,旨在衡量不同配置之间的差异。

其中两个附加实现(一个在GTM中实现,另一个在页面上实现)管理本地存储的Google Analytics(分析)JavaScript文件的重命名副本(www.distilled.net/static/js/au3.js,而不是www.google-analytics.com/ analytics.js ),使其更难检测到广告拦截器。

我还使用了重命名的JavaScript函数(“ tcap”和“ Buffoon”,而不是标准的“ ga”)和重命名的跟踪器(“ FredTheUnblockable”和“ AlbertTheImmutable”)来避免重复跟踪器的问题(这常常会导致问题)。

最后,我们具有“ DianaTheIndefatigable”配置,该配置具有重命名的跟踪器,但使用标准代码并在页面级别实现。

图片

我们所有的配置如下表所示:

图片

我通过分析浏览器开发人员工具中出现的浏览量,在不同的浏览器和广告拦截器中测试了它们的功能:

图片

数据丢失的原因


1.广告拦截器


主要以浏览器扩展的形式出现的广告拦截器正变得越来越普遍。 最初,使用它们的主要原因是为了改善带有大量广告的网站的性能和交互体验。 近年来,对数据隐私的重视日益增加,这也促进了广告拦截器的普及。

广告拦截器的作用

默认情况下,某些广告拦截器会阻止Web分析平台;其他广告拦截器可能会进一步配置为执行此功能。 我使用Adblock Plus和uBlock Origin这两个最流行的桌面广告浏览器扩展程序来测试Distilled网站,但值得注意的是,智能手机也越来越多地使用了广告阻止程序。

获得了以下结果(所有数字均与2018年4月有关):

图片

从表中可以看出,更改的GA设置对抵抗阻止程序没有太大帮助。

由于广告拦截器造成的数据丢失:〜10%

根据区域的不同,广告拦截器的使用量可能会在15%到25%之间,但是其中许多设置都是具有默认设置的AdBlock Plus,如我们上面所见,其中跟踪未被阻止。

AdBlock Plus在广告拦截器市场中的份额在50-70%之间。 根据最近的估计 ,这个数字接近50%。 因此,如果我们假设不超过50%的已安装广告拦截器阻止分析,那么我们将获得大约10%的数据丢失率。

2.浏览器中的“不跟踪”功能


这是隐私保护所激发的另一个功能。 但这一次与插件无关,而与浏览器本身的功能有关。 网站和平台不需要“不跟踪”请求,但是例如,Firefox在相同的参数集下提供了更强大的功能,我也决定对其进行测试。

不追踪的效果

现在,大多数浏览器都提供“不跟踪”消息选项。 我测试了适用于Windows 10的最新版本的Firefox和Chrome浏览器。

图片
同样,这里更改的设置似乎也无济于事。

由于“不跟踪”而导致的数据丢失:<1%

测试表明,只有Firefox Quantum浏览器中的“跟踪保护”功能会影响跟踪器。 Firefox占据了浏览器市场的5%,但默认情况下未启用跟踪保护。 因此,该功能的启动并没有影响Distilled.net上Firefox流量的趋势。

3.筛选器



您在分析系统中配置的过滤器可能有意或无意地低估了报告中收到的流量。

例如,排除某些屏幕分辨率(可能是漫游器或内部流量)的过滤器显然会导致流量的低估。

过滤器造成的数据丢失:不适用

很难评估此因素的影响,因为此设置会因站点而异。 但是我强烈建议您有一个重复的“主”视图(不带过滤器),以便您可以快速看到重要信息的丢失。

4. GTM vs页面上vs错误定位的代码


近年来,Google跟踪代码管理器因其灵活性和易于更改而成为一种越来越流行的实施分析方法。 但是,我很早就注意到,与网页级设置相比,这种GA实现方法可能会导致低估。

我也很好奇如果您不遵循Google设置页面代码的建议会发生什么。

通过将我自己的数据与使用Drupal分析扩展的同事Dom Woodman和GTM的站点中的数据相结合,我可以看到标签管理器和错误地位于页面上的代码(放置在标签底部)之间的区别。 然后,我将此数据与自己的GTM数据进行匹配,以查看所有5种配置的全貌。

GTM的影响和错位的页面代码

流量占基线的百分比(使用代码管理器的标准实施):

图片

主要发现


  • 页面代码通常比GTM注册更多的流量;
  • 修改后的代码通常在误差范围内,但Internet Explorer中修改后的GTM代码除外。
  • 与正确实现的网页代码相比,定位错误的跟踪代码将使您最多损失30%的流量,具体取决于浏览器(!);
  • 自定义配置旨在通过避免广告拦截器来接收更多流量,但不会。

还应注意的是,用户实现实际上收到的流量少于标准实现。 对于页面代码,损失在误差范围内,但是对于GTM,还有另一个细微差别可能会影响最终数据。

由于我使用未经过滤的配置文件进行比较,因此,主要配置文件中有很多bot垃圾邮件,大部分都是伪装成Internet Explorer。

今天,我们的主要配置文件是垃圾邮件最多的,但它也被用作选择进行比较的级别,因此页面代码和标签管理器之间的差异实际上稍大。

GTM数据丢失:1-5%


与GTM相关的损失会有所不同,具体取决于网站访问者使用的浏览器和设备。 在Distilled.net上,两者之间的差异约为1.7%,我们的受众群体积极使用台式机,并且其技术先进,很少使用Internet Explorer。 根据垂直方向,损失可能达到5%。

我还按设备细​​分了:

图片

由于页码位置错误而导致的数据丢失:〜10%

在Teflsearch.com上,由于代码错误地针对GTM,丢失了大约7.5%的数据。 考虑到标签管理器本身低估了数据,总损失很容易达到10%。

奖励:渠道数据丢失


上面,我们检查了可能会丢失数据的区域。 但是,还有其他因素导致数据不完整。 我们将更简短地考虑它们。 这里的主要问题是流量和归因不明。

黑暗交通

黑暗交通是直接交通,不是真正的直接交通。
这正在变得越来越普遍。

暗流的典型原因:

  • 未标记的电子邮件营销活动;
  • 应用程序中未标记的广告活动(尤其是Facebook,Twitter等);
  • 扭曲的自然流量;
  • 由于在跟踪设置过程中发生错误而发送的数据(也可能显示为自我引荐);

值得注意的是,在历史上一直是有机的,真正的直接交通量增长的趋势中。 例如,与浏览器中自动完成功能的改进,不同设备上的搜索历史记录的同步等有关,人们似乎“输入”了他们先前寻找的URL。

归因


通常,在Google Analytics(分析)(和任何其他平台)上的会话是相当随意的结构。 您可能会发现很明显,应如何将一组呼叫合并为一个或多个会话,但实际上,此过程依赖于许多相当可疑的假设。 特别值得一提的是,Google Analytics(分析)通常将直接流量(包括暗流量)归因于先前的非直接来源(如果存在)。

结论


我对收到的一些结果感到有些惊讶,但是我确定我没有涵盖所有内容,还有其他丢失数据的方法。 因此,该领域的研究可以继续进行。

可以在我的电报频道 (提案)上阅读更多此类文章。

Source: https://habr.com/ru/post/zh-CN451282/


All Articles