Model efektivitas iklan media untuk toko online

Kami di People & Screen telah bekerja dengan bisnis online selama bertahun-tahun sebagai mitra periklanan. Ketika kami memiliki ide untuk mengevaluasi kontribusi iklan bergambar untuk penjualan toko online, rasanya tidak mungkin dan bahkan gila. Segera setelah kami menyadari bahwa semua elemen mosaik dapat ditemukan dan disatukan, kami memutuskan untuk mencobanya. Hipotesis pertama mulai dikonfirmasi, bersama dengan Data Insight, kami menyelidiki kisah ini dan dalam beberapa bulan pekerjaan yang melelahkan menciptakan penelitian semacam itu, yang, pada kenyataannya, merupakan alat kerja yang diterapkan - model untuk mengevaluasi kinerja iklan dalam 12 kategori produk e-commerce. Pada artikel ini kita akan berbicara tentang hasil dan metode analisis yang digunakan.

gambar

Tujuan dan Hasil Penelitian


Hipotesis utama dari penelitian kami: iklan bergambar, pengembangan merek toko online, meningkatkan konversi di seluruh saluran penjualan. Dalam analisis data penjualan, iklan, dan data eksternal selama empat tahun terakhir, hipotesis dikonfirmasi. Sebagai hasilnya, kami membangun model penjualan ekonometrik untuk 60 toko online dalam 12 kategori produk.

  1. Hanya kontribusi jangka pendek dari iklan display berjumlah 39% dari pertumbuhan toko online dengan dinamika pasar rata-rata 50-60%.

    gambar
  2. Iklan bergambar memungkinkan Anda untuk mendukung penjualan melalui peningkatan pengetahuan.

    gambar
  3. Pengembalian terbesar secara keseluruhan dalam e-commerce berasal dari iklan video online.

    gambar
  4. Efisiensi media sangat tergantung pada kategori: dalam kategori pakaian dan hypermarket online, TV menunjukkan efisiensi tinggi, dalam produk elektronik dan mobil - iklan video online.

Apa yang kami analisis


Pengumpulan data untuk penelitian ini dilakukan oleh kedua perusahaan yang berpartisipasi dalam penelitian ini. Data berikut dikumpulkan oleh Orang & Layar:

  1. Iklan bergambar keluar. Kami menggunakan unduhan dari database Mediascope yang dapat diakses oleh semua grup iklan. Kami menurunkan biaya iklan untuk semua media dan kontak periklanan ke audiens target luas (Semua 18+) secara rinci per hari (untuk iklan di TV, radio, media, internet) dan per bulan (untuk iklan luar ruang) mulai Januari 2016 hingga Juni 2019. Untuk memaksimalkan kecepatan kerja pada tahap ini, kami menggunakan pengembangan internal Dentsu Aegis Network Russia untuk bekerja dengan data industri, khususnya platform Atomizer.
  2. Bongkar data dari SimilarWeb setiap hari selama 18 bulan terakhir. Kami melihat dinamika berdasarkan hari Kunjungan di Desktop / Mobile, dinamika hari demi hari lalu lintas desktop berdasarkan sumber (saluran), dan dinamika instalasi di Android.
  3. Dinamika pengetahuan / kunjungan / pembelian dari basis data TGI / Indeks Pemasaran untuk 2016-2019 per kuartal. Ini adalah unduhan dari perangkat lunak industri Gallasco Mediascope.
  4. Google Trends permintaan pencarian untuk Januari 2016 - Juli 2019 di seluruh Rusia.

Di sisi Data Insight, data berikut dikumpulkan dan disediakan:

  1. Dinamika pesanan untuk 72 toko online dari peringkat TOP-100 per bulan untuk periode Januari 2016 hingga Agustus 2019.
  2. Data penghitung li.ru untuk periode dari Januari 2018 hingga Agustus 2019 (lalu lintas ke situs, total secara terpisah, hanya di Rusia dan hanya seluler) untuk situs TOP-11.
  3. Data penghitung mail.ru untuk periode dari Juni 2017 hingga September 2019 untuk 53 situs.
  4. Data penghitung Rambler untuk periode dari Juni 2017 hingga September 2019 untuk 38 situs.
  5. Data permintaan pencarian Yandex Wordstat selama 24 bulan dari Oktober 2017 hingga September 2019.
  6. Evaluasi rata-rata cek toko online TOP-100 pada 2018.

Algoritma Data


Pengumpulan data untuk penelitian ini dilakukan dalam beberapa tahap. Kami akan meninggalkan di luar ruang lingkup artikel pekerjaan yang dilakukan oleh rekan-rekan kami dari Data Insight untuk menghasilkan data yang diperlukan untuk penelitian ini, tetapi kami akan memberi tahu Anda apa yang dilakukan pekerjaan di sisi People & Screens:

  • Cari semua toko online dari peringkat TOP-100 di basis data industri yang tersedia untuk kami dan kompilasi kamus pencocokan nama. Untuk ini, kami menggunakan mesin pencari semantik Elasticsearch .
  • Pembentukan template dan mengunggah data pada mereka. Pada tahap ini, hal yang paling penting adalah pra-berpikir arsitektur tabel data.
  • Menggabungkan data dari semua sumber ke dalam satu set data tunggal (dataset).
    Untuk melakukan ini, kami menggunakan pemrosesan data yang diunggah dalam Python menggunakan paket panda dan sqlalchemy . Himpunan peretasan kehidupan di sini cukup standar:
    Saat memproses data mentah dari tabel csv yang lebih besar dari 1 juta baris, pertama-tama kami mengunggah nama kolom tabel dengan kueri formulir:

    col_names = pd.read_csv(FILE_PATH,sep=';', nrows=0).columns 

    kemudian tipe data ditambahkan melalui kamus:

     types_dict = {'Cost RUB' : int } types_dict.update({col: str for col in col_names if col not in types_dict}) 

    dan data itu sendiri memuat fungsi

     pd.read_csv(FILE_PATH, sep=';', usecols=col_names, dtype=types_dict, chunksize=chunksize) 

    Hasil konversi diunggah ke PostgreSQL.
  • Validasi silang dinamika pesanan berdasarkan analisis dinamika lalu lintas, kueri penelusuran, dan penjualan aktual di seluruh kumpulan klien dari agensi People & Screen. Di sini kami membangun matriks korelasi menggunakan df.corr () pada set data yang berbeda dalam situs tetap, kemudian kami menganalisis secara rinci seri "mencurigakan" dengan outlier. Ini adalah salah satu tahap kunci dari penelitian ini, di mana kami memeriksa keandalan dinamika indikator yang diteliti.
  • Konstruksi model ekonometrik pada data yang divalidasi. Di sini kami menggunakan transformasi Fourier langsung dan terbalik dari paket numpy ( fungsi np.fft.fft dan np.fft.ifft ) untuk mengekstraksi musiman, perkiraan halus-halus untuk memperkirakan tren, dan model linear_model dari paket sklearn untuk memperkirakan kontribusi iklan. Ketika memilih kelas model untuk tugas ini, kami melanjutkan dari fakta bahwa hasil simulasi harus mudah diinterpretasikan dan digunakan untuk mengevaluasi secara numerik efektivitas periklanan dengan mempertimbangkan kualitas data. Kami menyelidiki keandalan model dengan membagi data ke dalam pelatihan dan menguji sampel dari interval waktu variabel. Yaitu kami membandingkan bagaimana model yang dilatih pada data dari Januari 2016 hingga Desember 2018 berperilaku dalam interval waktu tes dari Januari hingga Agustus 2019, kemudian kami melatih model dalam interval waktu dari Januari 2016 hingga Januari 2019 dan melihat bagaimana model tersebut berperilaku pada data dari Februari hingga Agustus 2019. Kualitas model dipelajari oleh stabilitas kontribusi faktor periklanan dalam sampel pelatihan yang berbeda seperti perkiraan pada sampel uji
  • Langkah terakhir adalah menyiapkan presentasi berdasarkan temuan. Di sini kami meletakkan jembatan model matematika untuk kesimpulan bisnis praktis dan sekali lagi menguji model dari sudut pandang akal sehat hasil.

Spesifik analisis e-commerce dan kesulitan yang muncul dalam proses


  1. Pada tahap pengumpulan data, muncul kesulitan dengan penilaian yang benar dari minat penelusuran di sumber daya. Di Google Trends tidak ada cara untuk mengelompokkan permintaan pencarian dan menggunakan kata kunci negatif seperti di Yandex Wordstat. Penting untuk mempelajari inti semantik dari setiap toko online dan mengunggah permintaan pusat. Misalnya, M.Video perlu ditulis dalam bahasa Rusia - ini adalah permintaan utama untuk situs ini.

    Untuk toko yang menjual barang baik online maupun offline, kolega dari Data Insight mengambil pendekatan berikut dalam data wordstat Yandex:
    Pastikan tidak ada pertanyaan yang tidak relevan (yang utama bukan untuk memperkirakan volume permintaan, tetapi untuk melacak perubahan dalam dinamika). Kami cukup tangguh untuk memfilter kata pencarian. Di mana ada risiko dengan nama merek untuk mengambil permintaan yang tidak pantas, kami mengambil statistik tentang kombinasi utama. Misalnya, "toko ozon" dan bukan "ozon" - dengan pendekatan ini, popularitas pencarian pengecer diremehkan, tetapi dinamika permintaan diukur dengan lebih andal dan dibersihkan dari "kebisingan". Sehubungan dengan statistik pencarian, ada masalah metodologis yang tampaknya tidak memiliki solusi yang dapat diandalkan - bagi banyak pengecer, statistik ini terdistorsi oleh alat SEO yang mengoptimalkan hasil pencarian melalui faktor perilaku, tetapi mengubah statistik pada permintaan riil.
  2. Pada tahap menggabungkan data dari berbagai sumber, menjadi perlu untuk membawa data ke satu granularity: data iklan TV dan lalu lintas dari SimilarWeb adalah setiap hari, data untuk permintaan pencarian mingguan, dan data pesanan dan data meter bulanan. Sebagai hasilnya, kami membentuk database terpisah dengan bidang tanggal yang memungkinkan Anda untuk mengumpulkan data pada level yang diperlukan, dan database agregasi bulanan yang di-cache untuk pekerjaan lebih lanjut dengan semua detail data penjualan.
  3. Pada tahap validasi silang data, kami menemukan perbedaan nyata dalam dinamika penjualan dengan data kami sendiri. Ini membutuhkan diskusi tentang situasi dengan kolega dari Data Insight. Akibatnya, berkat pemahaman yang akurat tentang bulan-bulan di mana kesalahan terbesar terjadi, analis telah mengidentifikasi dua kesalahan yang jauh di bagian bawah algoritma untuk menilai dinamika penjualan bulanan.
  4. Pada tahap pengembangan model, beberapa kesulitan muncul. Untuk menilai dengan benar pengaruh iklan, perlu untuk mengisolasi faktor-faktor eksternal. Setiap dinamika penjualan (dan e-commerce tidak terkecuali) dikaitkan tidak hanya dengan iklan, tetapi juga dengan banyak faktor lain: perubahan UX / UI di situs, harga, bermacam-macam, persaingan, fluktuasi mata uang, dll.
    Untuk mengatasi masalah ini, kami menggunakan pendekatan berdasarkan analisis regresi data untuk periode yang lama - dari Januari 2016 hingga Agustus 2019. Sebagai bagian dari pendekatan ini, kami menganalisis perubahan (lonjakan) dalam dinamika pesanan yang dapat dikaitkan dengan iklan pada periode ini.

Penting untuk dipahami bahwa jika suatu saat suatu iklan dimulai, tetapi nilai penjualan yang diharapkan, menurut model, tidak lebih tinggi dari yang sebenarnya, maka model tersebut akan menunjukkan bahwa iklan ini tidak berfungsi selama periode ini. Tentu saja, perilaku penjualan seperti itu dapat menjadi superposisi dari beberapa faktor (misalnya, kenaikan / peluncuran harga pesaing pada saat yang sama ketika kampanye iklan dimulai, atau situs "jatuh" dari masuknya pelanggan).

Karena kami rata-rata memberikan efek dalam jangka waktu yang lama pada sejumlah besar merek, efek dari kebetulan acak tersebut harus diratakan pada sampel besar, meskipun itu dapat menyebabkan efek yang terlalu tinggi atau terlalu rendah untuk masing-masing merek. Akibatnya, ini memungkinkan kami untuk menentukan aturan dan pola umum untuk kategori e-commerce secara keseluruhan. Pada saat yang sama, untuk analisis terperinci tentang pengaruh periklanan di dalam masing-masing merek, tentu saja, masih perlu mempelajari seluruh rangkaian faktor pengaruh.

Kesimpulan


Sebagai bagian dari penelitian ini, kami menetapkan tujuan untuk memperoleh hasil yang paling dapat diandalkan berdasarkan data dari sumber yang heterogen. Dengan sendirinya, data ini bukan nilai yang tepat, tetapi hanya penilaian nilai-nilai ini melalui pemantauan pihak ketiga (pemantauan output iklan, dinamika lalu lintas, minat penelusuran, dan, akhirnya, pesanan).

Setiap tautan memiliki batasan pada kualitas data, dan ini merupakan masalah yang dihadapi para analis dan peneliti pada skala satu atau lainnya setiap hari. Kami berharap bahwa dalam kerangka artikel ini, kami dapat menunjukkan metode mana yang dapat memastikan keandalan kesimpulan dari studi analitis, sambil mempertahankan kekuatan penjelas dari hasil.

Source: https://habr.com/ru/post/id479960/


All Articles