Black hole analytics web: berapa banyak data yang hilang di GA dan mengapa

gambar

Jika Anda pernah membandingkan data dua alat analitik di situs yang sama atau membandingkan analitik dengan laporan dan penjualan, Anda mungkin memperhatikan bahwa mereka tidak selalu cocok. Pada artikel ini, saya akan menjelaskan mengapa tidak ada data dalam statistik platform analisis web, dan seberapa besar kerugian ini.

Dalam artikel ini, kami akan fokus pada Google Analytics, sebagai layanan analitik paling populer, meskipun sebagian besar platform analitik yang diterapkan pada halaman memiliki masalah yang sama. Layanan yang mengandalkan log server menghindari beberapa masalah ini, tetapi sangat jarang digunakan sehingga kami tidak akan membahasnya dalam artikel ini.


Konfigurasi pengujian Analytics di Distilled


Di Distilled.net, kami memiliki sumber daya Google Analtics standar yang berfungsi dari tag HTML di Google Tag Manager. Selain itu, selama dua tahun terakhir, saya telah menggunakan tiga implementasi paralel tambahan dari Google Analytics, yang dirancang untuk mengukur perbedaan antara konfigurasi yang berbeda.

Dua dari implementasi tambahan ini - satu di GTM dan lainnya di halaman - mengelola salinan yang tersimpan secara lokal dari file JavaScript Google Analytics (www.distilled.net/static/js/au3.js alih-alih www.google-analytics.com/ analytics.js ) untuk membuatnya lebih sulit dideteksi untuk pemblokir iklan.

Saya juga menggunakan fungsi JavaScript berganti nama ("tcap" dan "Buffoon" alih-alih standar "ga") dan mengganti nama pelacak ("FredTheUnblockable" dan "AlbertTheImmutable") untuk menghindari masalah duplikat pelacak (yang sering dapat menyebabkan masalah).

Akhirnya, kami memiliki konfigurasi "DianaTheIndefatigable", yang memiliki pelacak berganti nama, tetapi menggunakan kode standar dan diimplementasikan pada tingkat halaman.

gambar

Semua konfigurasi kami ditunjukkan pada tabel di bawah ini:

gambar

Saya menguji fungsionalitasnya di berbagai browser dan pemblokir iklan dengan menganalisis tampilan halaman yang muncul di alat pengembang browser:

gambar

Alasan hilangnya data


1. Pemblokir iklan


Pemblokir iklan, terutama dalam bentuk ekstensi browser, menjadi lebih umum. Awalnya, alasan utama penggunaannya adalah untuk meningkatkan kinerja dan pengalaman interaksi di situs-situs dengan sejumlah besar iklan. Dalam beberapa tahun terakhir, penekanan pada privasi data telah meningkat, yang juga berkontribusi pada popularitas pemblokir iklan.

Efek pemblokir iklan

Beberapa pemblokir iklan memblokir platform analitik web secara default, yang lain mungkin dikonfigurasi lebih lanjut untuk melakukan fungsi ini. Saya menguji Distilled menggunakan Adblock Plus dan uBlock Origin, dua ekstensi browser desktop paling populer untuk pemblokiran iklan, tetapi patut dicatat bahwa pemblokir iklan juga semakin banyak digunakan pada smartphone.

Hasil-hasil berikut diperoleh (semua angka terkait dengan April 2018):

gambar

Seperti dapat dilihat dari tabel, pengaturan GA yang diubah tidak banyak membantu untuk menolak pemblokir.

Kehilangan data karena pemblokir iklan: ~ 10%

Penggunaan pemblokir iklan mungkin pada level 15-25% tergantung pada wilayah, tetapi banyak dari pengaturan ini adalah AdBlock Plus dengan pengaturan default, di mana, seperti yang kita lihat di atas, pelacakan tidak diblokir.

Pangsa AdBlock Plus untuk pasar pemblokir iklan bervariasi antara 50-70%. Menurut perkiraan terbaru , angka ini mendekati 50%. Karenanya, jika kami berasumsi bahwa tidak lebih dari 50% dari pemblokir iklan yang dipasang memblokir analitik, maka kami akan mendapatkan kehilangan data pada tingkat sekitar 10%.

2. Jangan Lacak fitur di browser


Ini adalah fitur lain yang dimotivasi oleh perlindungan privasi. Tapi kali ini bukan tentang add-on, tetapi tentang fungsi browser itu sendiri. Permintaan Jangan Lacak tidak diperlukan untuk situs dan platform, tetapi, misalnya, Firefox menawarkan fungsi yang lebih kuat di bawah set parameter yang sama, yang juga saya putuskan untuk diuji.

Efek Jangan Lacak

Sebagian besar browser sekarang menawarkan opsi pesan Jangan Lacak. Saya menguji rilis terbaru dari Firefox dan browser Chrome untuk Windows 10.

gambar
Sekali lagi, tampaknya pengaturan yang diubah di sini juga tidak banyak membantu.

Kehilangan data karena "Jangan Lacak": <1%

Pengujian menunjukkan bahwa hanya fitur Perlindungan Pelacakan di browser Quantum Firefox yang memengaruhi pelacak. Firefox menempati 5% dari pasar browser, tetapi perlindungan pelacakan tidak diaktifkan secara default. Karena itu, peluncuran fungsi ini tidak mempengaruhi tren lalu lintas Firefox di Distilled.net.

3. Filter



Filter yang Anda konfigurasikan dalam sistem analitik dapat secara sengaja atau tidak sengaja meremehkan volume lalu lintas yang diterima dalam laporan.

Misalnya, filter yang mengecualikan resolusi layar tertentu, yang mungkin bot atau lalu lintas internal, jelas akan menyebabkan beberapa lalu lintas terlalu rendah.

Kehilangan data karena filter: N / A

Dampak dari faktor ini sulit untuk dievaluasi, karena pengaturan ini bervariasi tergantung pada situs. Tetapi saya sangat merekomendasikan memiliki duplikat, tampilan "utama" (tanpa filter) sehingga Anda dapat dengan cepat melihat hilangnya informasi penting.

4. GTM vs on-page vs kode yang tidak benar


Dalam beberapa tahun terakhir, Google Pengelola Tag telah menjadi cara yang semakin populer untuk menerapkan analitik karena fleksibilitas dan kemudahan melakukan perubahan. Namun, saya telah lama memperhatikan bahwa metode implementasi GA ini dapat menyebabkan perkiraan yang lebih rendah dibandingkan dengan pengaturan tingkat halaman.

Saya juga ingin tahu tentang apa yang akan terjadi jika Anda tidak mengikuti rekomendasi Google untuk mengatur kode pada halaman.

Dengan menggabungkan data saya sendiri dengan data dari situs rekan saya, Dom Woodman, yang menggunakan ekstensi analitik Drupal, dan juga GTM, saya bisa melihat perbedaan antara Pengelola Tag dan kode yang salah terletak pada halaman (ditempatkan di bagian bawah tag). Kemudian saya mencocokkan data ini dengan data GTM saya sendiri untuk melihat gambar lengkap di semua 5 konfigurasi.

Dampak GTM dan kode tempat salah tempat

Lalu lintas sebagai persentase dari baseline (implementasi standar menggunakan Pengelola Tag):

gambar

Temuan Kunci


  • Kode di halaman biasanya mendaftarkan lebih banyak lalu lintas daripada GTM;
  • Kode yang dimodifikasi biasanya berada dalam margin of error, kecuali untuk kode GTM yang dimodifikasi di Internet Explorer;
  • Kode pelacakan yang salah terletak akan dikenakan biaya hingga 30% dari lalu lintas Anda dibandingkan dengan kode halaman yang diterapkan dengan benar, tergantung pada browser (!);
  • Konfigurasi khusus yang dirancang untuk menerima lebih banyak lalu lintas dengan menghindari pemblokir iklan tidak.

Perlu juga dicatat bahwa implementasi pengguna sebenarnya menerima lalu lintas lebih sedikit daripada yang standar. Dalam kasus kode on-page, kerugian berada dalam margin of error, tetapi dalam kasus GTM ada nuansa lain yang dapat mempengaruhi data akhir.

Karena saya menggunakan profil tanpa filter untuk perbandingan, ada banyak bot spam di profil utama, yang sebagian besar disamarkan sebagai Internet Explorer.

Saat ini, profil utama kami adalah yang paling banyak spam, tetapi juga digunakan sebagai level yang dipilih untuk perbandingan, sehingga perbedaan antara kode di halaman dan Pengelola Tag sebenarnya sedikit lebih besar.

Kehilangan data GTM: 1-5%


Kerugian yang terkait dengan GTM bervariasi tergantung pada browser dan perangkat mana yang digunakan oleh pengunjung ke situs Anda. Di Distilled.net, perbedaannya sekitar 1,7%, audiens kami aktif menggunakan desktop dan secara teknis canggih, Internet Explorer jarang digunakan. Tergantung pada vertikal, kerugian bisa mencapai 5%.

Saya juga membuat gangguan berdasarkan perangkat:

gambar

Kehilangan data karena salah kode kode halaman: ~ 10%

Di Teflsearch.com, sekitar 7,5% dari data hilang karena kode lokasi yang salah, terhadap GTM. Mengingat bahwa Pengelola Tag itu sendiri meremehkan data, total kerugian dapat dengan mudah mencapai 10%.

Bonus: kehilangan data dari saluran


Di atas, kami memeriksa area di mana Anda dapat kehilangan data secara umum. Namun, ada faktor-faktor lain yang menyebabkan data tidak lengkap. Kami akan mempertimbangkannya lebih singkat. Masalah utama di sini adalah traffic gelap dan atribusi.

Lalu lintas yang gelap

Traffic gelap adalah traffic langsung, yang sebenarnya bukan traffic langsung.
Dan ini menjadi situasi yang semakin umum.

Penyebab umum lalu lintas gelap:

  • Kampanye pemasaran email tanpa tanda;
  • Kampanye tanpa tanda pada aplikasi (terutama Facebook, Twitter, dll.);
  • Lalu lintas organik yang terdistorsi;
  • Data dikirim karena kesalahan yang dibuat selama proses pengaturan pelacakan (mungkin juga muncul sebagai rujukan sendiri);

Perlu juga dicatat tren ke arah pertumbuhan lalu lintas yang benar-benar langsung, yang secara historis organik. Misalnya, sehubungan dengan peningkatan fungsi pelengkapan otomatis di browser, sinkronisasi riwayat pencarian pada perangkat yang berbeda, dll., Orang tampaknya "memasukkan" URL yang mereka cari sebelumnya.

Atribusi


Secara umum, sesi di Google Analytics (dan pada platform lainnya) adalah konstruksi yang agak arbitrer. Anda mungkin menemukan jelas bagaimana sekelompok panggilan harus digabungkan menjadi satu sesi atau lebih, tetapi dalam kenyataannya, proses ini bergantung pada sejumlah asumsi yang agak meragukan. Secara khusus, perlu dicatat bahwa Google Analytics biasanya menghubungkan lalu lintas langsung (termasuk lalu lintas gelap) dengan sumber tidak langsung sebelumnya, jika ada.

Kesimpulan


Saya agak terkejut dengan beberapa hasil yang saya terima, tetapi saya yakin bahwa saya tidak mencakup semuanya, dan ada cara lain untuk kehilangan data. Jadi, penelitian di bidang ini dapat dilanjutkan lebih lanjut.

Lebih banyak artikel seperti itu dapat dibaca di saluran telegram saya (proroas).

Source: https://habr.com/ru/post/id451282/


All Articles