Kami menggunakan ilmu data untuk menentukan siklus hidup klien

Halo, Habr! Saya mempersembahkan kepada Anda terjemahan artikel saya "Memahami Nilai Seumur Hidup Pelanggan dengan Ilmu Data" .


Hubungan pelanggan penting untuk setiap perusahaan dan memainkan peran kunci dalam pertumbuhan bisnis. Salah satu metrik paling penting dalam bidang ini adalah nilai seumur hidup pelanggan (selanjutnya LTV) - prediksi pendapatan bersih yang terkait dengan semua hubungan masa depan dengan klien. Semakin lama pelanggan terus menggunakan produk perusahaan, semakin untung, semakin tinggi LTV mereka.

Ada banyak artikel pemasaran tentang pentingnya LTV dan segmentasi pelanggan. Tapi, sebagai Data Scientist, saya lebih tertarik pada formula dan saya ingin memahami bagaimana model sebenarnya bekerja. Bagaimana cara memprediksi LTV hanya menggunakan 3 atribut? Dalam posting ini saya akan menunjukkan beberapa model yang digunakan untuk memasarkan segmentasi pelanggan dan menjelaskan matematika yang menjadi dasarnya. Akan ada banyak rumus di sini, tetapi jangan khawatir: semuanya sudah siap di pustaka Python. Tujuan dari blog ini adalah untuk menunjukkan bagaimana matematika melakukan semua pekerjaan.


Model beta-geometrik / negatif binomial untuk menentukan probabilitas bahwa klien "hidup"


Pertimbangkan contoh ini [dari layanan online untuk memesan perjalanan (taksi) di kota]: pengguna mendaftar 1 bulan lalu, melakukan 4 perjalanan dan perjalanan terakhir terjadi 20 hari yang lalu. Hanya berdasarkan data ini, model ini dapat memprediksi kemungkinan bahwa klien akan aktif selama periode waktu tertentu (seperti yang ditunjukkan dalam grafik), serta jumlah transaksi di masa depan (yang merupakan dasar untuk memahami nilai klien sepanjang "masa hidupnya" - hubungan pelanggan dan perusahaan).



Model ini memberikan panduan langsung untuk tindakan bagi bisnis: ambil langkah-langkah pemasaran dalam kaitannya dengan pengguna ketika probabilitas aktivitasnya menurun di bawah tingkat tertentu untuk mencegah kepergiannya.


Model ini diusulkan oleh Fader, Hardie dan Lee dan disebut model distribusi Beta Geometrik / Negatif Binomial (BG / NBD).


Model BG / NBD memiliki sifat-sifat berikut:


Ketika pengguna aktif, jumlah transaksinya selama periode t dijelaskan oleh distribusi Poisson dengan parameter transaksi λ .


Distribusi Poisson membantu memprediksi peristiwa yang terjadi menggunakan data tentang seberapa sering peristiwa terjadi di masa lalu. Misalnya, jika pengguna melakukan rata-rata 2 perjalanan per minggu ( λ=2pada grafik di bawah), maka probabilitas bahwa ia akan membuat 3 pesanan minggu depan adalah 0,18.



  1. Heterogenitas parameter transaksi di antara pengguna (yang berarti bagaimana pelanggan berbeda satu sama lain dalam perilaku pembelian) memiliki distribusi Gamma dengan parameter r (bentuk) dan α (skala) .

Distribusi gamma cocok untuk proses dengan waktu tunggu antara peristiwa dengan distribusi Poisson (dalam kasus kami, untuk parameter transaksi λ ). Misalnya, pertimbangkan pengguna yang membuat rata-rata 2 transaksi per minggu. Dalam kasus ini, probabilitas bahwa waktu tunggu sebelum pengguna melakukan 3 pembelian akan lebih dari 4 minggu sama dengan area pada grafik di sebelah kanan garis putus-putus vertikal (di bawah garis distribusi biru) - 0,13.



  1. Pengguna dapat menjadi tidak aktif setelah transaksi apa pun dengan probabilitas p , dan titik keberangkatan mereka (ketika mereka menjadi tidak aktif) didistribusikan antara pembelian sesuai dengan hukum Geometrik.

Distribusi geometrik mirip dengan hasil Bernoulli dan digunakan untuk memodelkan jumlah hasil sebelum (dan termasuk) hasil sukses pertama. Jika untuk beberapa pengguna p=0,2, maka probabilitasnya untuk tidak aktif setelah 3 transaksi adalah 0,12 (garis biru pada grafik).



  1. Heterogenitas (variasi antar pengguna) dalam probabilitas penarikan memiliki distribusi Beta dengan parameter bentuk α dan β .

Distribusi beta paling cocok untuk mewakili distribusi probabilitas probabilistik - kasus ketika kita tidak tahu probabilitas di muka, tetapi kami memiliki beberapa asumsi a priori yang masuk akal yang dijelaskan oleh α dan β (mat. Harapan dari distribusi beta α/(α+β)).


Untuk contoh sebelumnya dengan pengguna yang probabilitas penarikan apinya priori adalah 0,2, garis oranye dengan grafik α=2dan β=8menjelaskan fungsi kepadatan probabilitas untuk probabilitas pengguna pergi.



  1. Parameter transaksi dan kemungkinan penarikan didistribusikan secara independen di antara pengguna.

Notasi matematika untuk atribut X pengguna:


X=x,tx,T


dimana x- jumlah transaksi untuk periode waktu tertentu (0,T], dan tx(<=T)- waktu pembelian terakhir.
Hanya berdasarkan pada karakteristik ini, model memprediksi latar belakang pembelian pengguna di masa depan:
P(X(t)=x)- probabilitas xtransaksi untuk periode tersebut tdi masa depan
E(Y(t)|X=x,tx,T)- Jumlah transaksi yang diharapkan per periode untuk pengguna dengan perilaku tertentu.


Sekarang kita dapat menemukan dua indikator utama ini. Tanpa merinci, saya akan menunjukkan formula terakhir (lebih banyak perhitungan di artikel).


Kemungkinan untuk aktif:



Transaksi yang Diharapkan:



dimana 2F1- Fungsi hiper-geometri Gauss



Model gamma-gamma untuk menilai LTV


Hingga saat ini, kami hanya menggunakan frekuensi dan pembelian klien baru-baru ini. Namun selain itu, kita dapat menerapkan komponen moneter dari transaksinya. Tambahkan data baru ke contoh kami: pengguna melakukan 4 perjalanan ini dengan harga 10, 12, 8, 15. Model gamma-gamma membantu untuk memprediksi nilai transaksi yang paling mungkin terjadi di masa depan.
Untuk meringkas semuanya bersama, sekarang kita memiliki semua elemen untuk menentukan klien LTV:


LTV = jumlah transaksi yang diharapkan harga transaksi margin


di mana elemen pertama adalah dari model BG / NB, yang kedua adalah dari model Gamma-Gamma, dan margin ditentukan oleh bisnis.


Notasi matematika untuk model gamma-gamma:
Pengguna berkomitmen xnilai transaksi z1,z2,...dan mx=Zi/x- nilai rata-rata yang diamati dari transaksi.
E(M)- rata-rata tersembunyi dari nilai transaksi, dan yang kami minati adalah E(M|mx,x)- nilai moneter yang diharapkan dari pengguna berdasarkan perilaku pembeliannya.


Properti model gamma-gamma:
Nilai moneter dari transaksi pengguna adalah acak dan berada dalam nilai transaksi rata-rata mereka.


Nilai transaksi rata-rata bervariasi di antara pengguna, tetapi tidak bervariasi untuk pengguna tertentu dari waktu ke waktu.


Nilai transaksi rata-rata memiliki distribusi gamma di antara pengguna.


Artikel-artikel tersebut menjelaskan secara rinci derivasi formula melalui beberapa distribusi Gamma lainnya. Hasilnya adalah:



di mana p adalah parameter bentuk dan v adalah parameter skala distribusi gamma untuk transaksi Zi,qparameter bentuk dan γparameter skala untuk distribusi gamma v (asumsi model bahwa p konstan - koefisien variasi pada tingkat individu adalah sama untuk pengguna). Untuk menemukan parameter model, kita dapat menggunakan metode kemungkinan maksimum.


Kami selesai dengan matematika dan sekarang kami dapat mengevaluasi LTV pengguna. Namun bagaimana dengan keakuratan model ini?


Penilaian Akurasi Model


Pendekatan tradisional menyarankan membagi data menjadi dua kelompok - bagian untuk pelatihan, bagian untuk tes. Dalam artikel tersebut, penulis menunjukkan bahwa pendekatan mereka berfungsi dengan baik. Saya juga mencoba model-model ini pada data nyata dan juga mendapatkan hasil yang serupa.


Grafik menunjukkan distribusi transaksi nyata dan prediksi untuk data dari kelompok uji: kesalahan di sini adalah 2,8%.



Bagaimana cara mendaftar


Seperti yang saya katakan di awal, semua model sudah diimplementasikan. Misalnya, pustaka " masa hidup " Python berisi semua fungsi dan metrik yang diperlukan untuk mendefinisikan LTV. Dokumentasi terperinci berisi banyak contoh dan penjelasan. Ada juga contoh kueri sql untuk menerima data dalam format yang diperlukan. Jadi Anda bisa mulai bekerja hanya dalam beberapa menit.


Kesimpulan


Dalam posting ini, saya menunjukkan secara rinci bagaimana pengguna LTV dapat dievaluasi hanya dengan menggunakan beberapa atribut.


Saya ingin mencatat bahwa kadang-kadang Anda dapat menjauh dari pohon yang didorong gradien yang sering digunakan dan mencoba pendekatan lain yang memiliki tingkat akurasi yang sebanding. Pelatihan statistik masih dapat dipraktikkan dan dapat membantu bisnis lebih memahami pelanggan.


Referensi


Fader, Peter & GS Hardie, Bruce & Lok Lee, Ka. (2005). “Menghitung Pelanggan Anda” dengan Cara Mudah: Sebuah Alternatif untuk Model Pareto / NBD. Ilmu Pemasaran.
Fader, Peter & GS Hardie, Bruce (2013). Model Gamma-Gamma dari Nilai Moneter.
Fader, Peter S., Bruce GS Hardie, dan Ka Lok Lee (2005), "RFM dan CLV: Menggunakan Kurva Nilai-Iso untuk Analisis Basis Pelanggan," Jurnal Riset Pemasaran.

Source: https://habr.com/ru/post/id436236/


All Articles