
Se você comparou os dados de duas ferramentas analíticas no mesmo site ou comparou a análise com relatórios e vendas, provavelmente percebeu que elas nem sempre correspondem. Neste artigo, explicarei por que não existem dados nas estatísticas das plataformas de análise da web e qual o tamanho dessas perdas.
Neste artigo, focaremos no Google Analytics, como o serviço analítico mais popular, embora a maioria das plataformas analíticas implementadas na página tenha os mesmos problemas. Os serviços que dependem dos logs do servidor evitam alguns desses problemas, mas são tão raramente usados que não os abordaremos neste artigo.
Configurações de teste do Analytics no Distilled
No Distilled.net, temos um recurso padrão do Google Analtics que funciona a partir de uma tag HTML no Gerenciador de tags do Google. Além disso, nos últimos dois anos, usei três implementações paralelas adicionais do Google Analytics, projetadas para medir diferenças entre diferentes configurações.
Duas dessas implementações adicionais - uma no GTM e a outra na página - gerenciam cópias renomeadas armazenadas localmente do arquivo JavaScript do Google Analytics (www.distilled.net/static/js/au3.js em vez de
www.google-analytics.com/ analytics.js ) para dificultar a detecção de bloqueadores de anúncios.
Também usei funções renomeadas JavaScript ("tcap" e "Buffoon" em vez do padrão "ga") e renomeiei rastreadores ("FredTheUnblockable" e "AlbertTheImmutable") para evitar o problema de rastreadores duplicados (que geralmente podem causar problemas).
Finalmente, temos a configuração "DianaTheIndefatigable", que possui um rastreador renomeado, mas usa código padrão e é implementado no nível da página.

Todas as nossas configurações são mostradas na tabela abaixo:

Testei sua funcionalidade em diferentes navegadores e bloqueadores de anúncios, analisando visualizações de página que aparecem nas ferramentas do desenvolvedor do navegador:

Razões para perda de dados
1. Bloqueadores de anúncios
Bloqueadores de anúncios, principalmente na forma de extensões de navegador, estão se tornando mais comuns. Inicialmente, o principal motivo para seu uso foi melhorar a experiência de desempenho e interação em sites com uma grande quantidade de publicidade. Nos últimos anos, a ênfase na privacidade dos dados aumentou, o que também contribuiu para a popularidade dos bloqueadores de anúncios.
O efeito dos bloqueadores de anúnciosAlguns bloqueadores de anúncios bloqueiam plataformas de análise da Web por padrão; outros podem ser configurados para executar esta função. Testei o site Distilled com o Adblock Plus e o uBlock Origin, as duas extensões de navegador de computadores mais populares para bloqueio de anúncios, mas vale a pena notar que os bloqueadores de anúncios também são cada vez mais usados em smartphones.
Foram obtidos os seguintes resultados (todos os valores estão relacionados a abril de 2018):

Como pode ser visto na tabela, as configurações alteradas do GA não ajudam muito a resistir aos bloqueadores.
Perda de dados devido a bloqueadores de anúncios: ~ 10%O uso de bloqueadores de anúncios pode estar no nível de 15 a 25%, dependendo da região, mas muitas dessas configurações são o AdBlock Plus com configurações padrão, nas quais, como vimos acima, o rastreamento não é bloqueado.
A participação do AdBlock Plus no mercado de bloqueadores de anúncios varia entre 50-70%.
Segundo estimativas recentes , esse número está mais próximo de 50%. Portanto, se assumirmos que não mais de 50% dos bloqueadores de anúncios instalados bloqueiam as análises, obteremos perda de dados no nível de cerca de 10%.
2. Não rastrear o recurso nos navegadores
Esse é outro recurso motivado pela proteção de privacidade. Mas desta vez não se trata do complemento, mas da função dos próprios navegadores. O preenchimento da solicitação "Não rastrear" não é necessário para sites e plataformas, mas, por exemplo, o Firefox oferece uma função mais forte sob o mesmo conjunto de parâmetros, que eu também decidi testar.
O efeito de Não rastrearA maioria dos navegadores agora oferece a opção de mensagem Não rastrear. Testei as versões mais recentes dos navegadores Firefox e Chrome para Windows 10.
Mais uma vez, parece que as configurações alteradas aqui também não ajudam muito.Perda de dados devido a "Não rastrear": <1%Os testes mostraram que apenas o recurso Proteção contra rastreamento no navegador Firefox Quantum afeta os rastreadores. O Firefox ocupa 5% do mercado de navegadores, mas a proteção de rastreamento não está ativada por padrão. Portanto, o lançamento desta função não afetou as tendências do tráfego do Firefox no Distilled.net.
3. Filtros
Os filtros configurados no sistema de análise podem subestimar intencionalmente ou não intencionalmente o volume de tráfego recebido nos relatórios.
Por exemplo, um filtro que exclua determinadas resoluções de tela, que podem ser bots ou tráfego interno, obviamente levará a uma subestimação do tráfego.
Perda de dados devido a filtros: N / A
O impacto desse fator é difícil de avaliar, pois essa configuração varia de acordo com o site. Mas eu recomendo ter uma visualização duplicada, "principal" (sem filtros), para que você possa ver rapidamente a perda de informações importantes.
4. GTM vs on-page vs código localizado incorretamente
Nos últimos anos, o Gerenciador de tags do Google tornou-se uma maneira cada vez mais popular de implementar análises devido à sua flexibilidade e facilidade de fazer alterações. No entanto, há muito tempo notei que esse método de implementação do GA pode levar à subestimação em comparação com a configuração no nível da página.
Também fiquei curioso sobre o que aconteceria se você não seguisse as recomendações do Google para definir o código na página.
Ao combinar meus próprios dados com os do
site do meu colega Dom Woodman, que usa a extensão analítica Drupal e o GTM, pude ver a diferença entre o Gerenciador de tags e o código localizado incorretamente na página (colocada na parte inferior da tag). Em seguida, combinei esses dados com os meus próprios dados GTM para ver a imagem completa em todas as 5 configurações.
Impacto do GTM e código incorreto na página
Tráfego como uma porcentagem da linha de base (implementação padrão usando o Gerenciador de tags):

Principais conclusões
- O código na página geralmente registra mais tráfego que o GTM;
- O código modificado geralmente está dentro da margem de erro, exceto o código GTM modificado no Internet Explorer;
- Um código de rastreamento localizado incorretamente custará até 30% do seu tráfego em comparação com o código na página implementado corretamente, dependendo do navegador (!);
- Configurações personalizadas projetadas para receber mais tráfego, evitando bloqueadores de anúncios.
Também vale a pena notar que as implementações de usuários de fato recebem menos tráfego do que as padrão. No caso do código na página, as perdas estão dentro da margem de erro, mas no caso do GTM há outra nuance que pode afetar os dados finais.
Como eu usei perfis não filtrados para comparação, havia muito spam de bot no perfil principal, que era geralmente disfarçado de Internet Explorer.
Hoje, nosso perfil principal é o mais spam, mas também é usado como o nível escolhido para comparação. Portanto, a diferença entre o código na página e o Gerenciador de tags é realmente um pouco maior.
Perda de dados GTM: 1-5%
As perdas associadas ao GTM variam dependendo de quais navegadores e dispositivos são usados pelos visitantes do seu site. No Distilled.net, a diferença é de cerca de 1,7%, nosso público usa ativamente desktops e é tecnicamente avançado, o Internet Explorer raramente é usado. Dependendo da vertical, as perdas podem chegar a 5%.
Também fiz um detalhamento por dispositivo:

Perda de dados devido a código incorretamente localizado na página: ~ 10%
No Teflsearch.com, cerca de 7,5% dos dados foram perdidos devido ao código localizado incorretamente, no GTM. Como o próprio Tag Manager subestima os dados, a perda total pode facilmente chegar a 10%.
Bônus: perda de dados dos canais
Acima, examinamos áreas nas quais você pode perder dados em geral. No entanto, existem outros fatores que levam a dados incompletos. Vamos considerá-los mais brevemente. Os principais problemas aqui são tráfego e atribuição escuros.
Tráfego escuroTráfego escuro é tráfego direto, que não é realmente tráfego direto.
E isso está se tornando uma situação cada vez mais comum.
Causas típicas do tráfego escuro:
- Campanhas de marketing por email não marcadas;
- Campanhas não marcadas em aplicativos (especialmente Facebook, Twitter, etc.);
- Tráfego orgânico distorcido;
- Dados enviados devido a erros cometidos durante o processo de configuração do rastreamento (também podem aparecer como referências próprias);
Também vale a pena observar uma tendência na direção do crescimento do tráfego realmente direto, que historicamente tem sido orgânico. Por exemplo, em conexão com o aprimoramento da função de preenchimento automático em navegadores, a sincronização do histórico de pesquisa em diferentes dispositivos etc., as pessoas parecem "inserir" o URL que procuravam anteriormente.
Atribuição
Em geral, uma sessão no Google Analytics (e em qualquer outra plataforma) é uma construção bastante arbitrária. Você pode achar óbvio como um grupo de chamadas deve ser combinado em uma ou mais sessões, mas, na realidade, esse processo depende de uma série de suposições bastante duvidosas. Em particular, é importante notar que o Google Analytics geralmente atribui tráfego direto (incluindo tráfego escuro) à fonte não direta anterior, se houver.
Conclusão
Fiquei um pouco surpreso com alguns dos resultados que recebi, mas tenho certeza de que não cobri tudo, e há outras maneiras de perder dados. Portanto, a pesquisa nessa área pode ser continuada ainda mais.
Mais artigos desse tipo podem ser lidos no meu
canal de telegrama (proroas).