Memprediksi churn pengguna menggunakan metode RFM

Bayangkan: panggilan telepon jam tiga pagi, Anda mengangkat telepon dan mendengar teriakan bahwa tidak ada orang lain yang menggunakan produk Anda. Menakutkan Dalam kehidupan, tentu saja, tidak demikian, tetapi jika Anda tidak memperhatikan masalah arus keluar pengguna, Anda mungkin menemukan diri Anda dalam situasi yang sama.

Kami telah menjelaskan secara terperinci apa itu outflow: kami mempelajari teori dan menunjukkan cara mengubah jaringan saraf menjadi oracle digital. Para ahli di Plarium Krasnodar tahu cara lain untuk memprediksi. Kami akan membicarakannya.



Ini bukan RFM yang kita butuhkan.


RFM adalah metode yang digunakan untuk mensegmentasi pelanggan dan menganalisis perilaku mereka. Berdasarkan data yang diperoleh, Anda dapat membuat program loyalitas untuk setiap grup, membangun distribusi pengguna dan memperkirakan kapan mereka akan kembali untuk pembelian.

Sejarah pengembangan RFM dimulai pada tahun 1987 ketika artikel Menghitung Pelanggan Anda: Siapa Mereka dan Apa yang Akan Mereka Lakukan Selanjutnya diterbitkan. Ini menggambarkan metode analisis berdasarkan distribusi Pareto (keluarga dua parameter dari distribusi yang benar-benar kontinu).

Model itu disebut Pareto / NBD dan hanya memperhitungkan riwayat pembelian pengguna. Dalam interpretasi klasik, karya metode ini dibangun di atas lima pilar, atau perkiraan:

  1. Selama pengguna aktif, jumlah transaksi yang dilakukan oleh pembeli selama periode t mematuhi distribusi Pareto dengan rata-rata λt.
  2. Heterogenitas dari parameter λ (tingkat transaksi) mengikuti distribusi gamma dengan parameter r dan α.
  3. Setiap pembeli memiliki periode waktu "kehidupan" tanpa batas τ. Titik di mana pengguna menjadi tidak aktif didistribusikan secara eksponensial dengan parameter μ (angka putus sekolah).
  4. Heterogenitas parameter μ di antara pengguna mengikuti distribusi gamma dengan parameter s (bentuk) dan β (skala).
  5. Parameter λ dan μ dapat bervariasi secara independen di antara pembeli.

Kerugian dari model ini adalah kompleksitas yang tinggi dalam menghitung fungsi hypergeometrik Gauss dan pencarian fungsi kemungkinan maksimum.

Dalam artikel 2003, "Menghitung Pelanggan Anda," Cara Mudah: Sebuah Alternatif untuk Model Pareto / NBD , ide model yang lebih baik diterbitkan. Selain riwayat pembelian, dua parameter lagi digunakan di dalamnya: frekuensi dan resep. Perbedaan utama dari Pareto / NBD adalah bagaimana saat pelanggan pergi ditentukan.

Dalam pengaturan klasik, diasumsikan bahwa pengguna dapat pergi kapan saja, terlepas dari frekuensi dan pola pembeliannya di masa lalu. Pendekatan baru didasarkan pada hipotesis bahwa pembeli dapat mulai kehilangan minat segera setelah transaksi selesai.

Ini menyederhanakan perhitungan dan mengarah ke model beta-geometric (BG / NBD). Ini menggunakan tiga parameter utama: kebaruan, frekuensi, moneter, - serta empat parameter tambahan: r, α, a, b (parameter a dan b ditambahkan dari distribusi beta ).

RFM membantu memprediksi jika pelanggan akan melakukan pembelian di masa depan. Spesialis Plarium Krasnodar memodifikasi metode ini.

Prediksi arus keluar dengan sederhana dan penuh selera


Untuk perhitungan, kita membutuhkan berbagai data tentang sesi permainan. Ini dihitung ulang menjadi matriks yang terdiri dari parameter RFM, dan menjadi empat koefisien lagi, yang dipilih oleh model dalam proses pembelajaran.

Dalam konteks permainan, parameter memperoleh makna berikut:
  • R ecency - berapa lama pengguna bermain pada saat login terakhir;
  • Frekuensi - seberapa sering pengguna memasukkan kembali game;
  • M onetary - berapa lama pengguna telah bermain (waktu "hidup").

Parameter digabungkan menjadi sebuah matriks. Kemudian dimasukkan ke dalam model yang menghitung kemungkinan "kehidupan" pengguna - peluang bahwa mereka akan terus bermain.

Perhitungan dilakukan sesuai dengan rumus:


Jelas, untuk pengguna tanpa entri ulang, probabilitas "hidup" akan menjadi satu. Pada tahun 2008, penulis artikel Komputasi P (hidup) Menggunakan Model BG / NBD mengusulkan solusi untuk masalah ini. Perusahaan game dapat menggunakan dua opsi yang memberikan hasil serupa.

Metode 1 - π parameter dimasukkan untuk semua pengguna. Ini menunjukkan pemain mana yang dianggap tidak aktif.
Metode 2 - unit ditambahkan ke parameter Frekuensi. Ukuran ini menghindari degenerasi rumus pada Frekuensi = 0, tetapi secara artifisial menambahkan satu entri lagi ke dalam game untuk setiap pengguna.

Cara mengadaptasi metode RFM untuk pengembang game


Misalkan kita memiliki pengguna baru. Dia baru saja memasuki game. Parameter F = 1 (atau 0, tergantung pada perhitungan), karena entri pertama tidak dipertimbangkan, dan pemain belum mengulangi entri.

Pengguna bermain tiga hari. Parameter berubah: F hanya memperhitungkan input harian, oleh karena itu nilainya 2, dan indikator M dan R adalah 3. Dengan menggunakan data ini, kami mendapatkan probabilitas "masa pakai" mendekati kesatuan.

Hari berikutnya, pengguna tidak memasuki game. Parameter M diperbarui, sementara F dan R tetap sama. Mengganti semua nilai dalam rumus, kita melihat bahwa indikator probabilitas menjadi lebih rendah.

Jika pengguna tidak bermain selama seminggu, maka indikator M diperbarui lagi dan kemungkinan "hidup" semakin turun.

Grafik pengguna aktif terlihat berbeda. Kemungkinan "hidup" akan berkurang tergantung pada sejarahnya. Jika dia masuk ke permainan setiap hari dan tiba-tiba berhenti, maka nilai indikator akan turun jauh lebih cepat daripada jika dia bermain setiap dua hari.

Pro Penting dan Kontra Yang Tidak Terlihat dari RFM


Keuntungan utama dari metode ini adalah kesederhanaannya:

  • untuk perhitungan Anda tidak perlu menggunakan alat matematika yang kompleks;
  • indikator dihitung menggunakan rumus yang relatif sederhana;
  • Anda dapat melakukannya tanpa saluran pipa yang rumit untuk data;
  • semua parameter model optimal dipilih secara otomatis.

Selain itu, data RFM mudah ditafsirkan. Mempelajari sejarah pengguna, orang dapat memahami mengapa ia memiliki probabilitas "kehidupan" seperti itu. Seringkali, ketika bekerja dengan metode yang lebih kompleks, lebih sulit untuk menarik kesimpulan spesifik.

RFM juga memiliki kekurangan. Pertama , ini bukan metode yang paling akurat. Ini berfungsi dengan baik, tetapi sejumlah parameter tidak digunakan dalam perhitungan. Misalnya, banyak pengguna mulai kehilangan minat karena kebiasaan memasuki permainan. Artinya, jumlah rata-rata sesi permainan per hari berkurang, dan frekuensi entri ulang tidak berubah.

Kedua , metode ini tidak memperhitungkan aktivitas pengguna: berapa banyak sumber daya yang ia transfer, apakah ia menyerang musuh, atau menciptakan pasukan. Jika kita mengambil semua pemain dengan probabilitas "hidup" sama dengan ~ 0.8, maka tergantung pada parameter dan riwayat mereka, selain yang aktif, akan ada yang masuk setiap tiga hari.

Ketiga , pengguna yang pergi menjadi "hidup" ketika ia memulai permainan lagi. Apa yang harus dia lakukan ini sebulan setelah login terakhir. Situasi seperti itu menyulitkan deteksi pemain dengan jeda besar di antara sesi. Secara umum, ini tidak kritis, meskipun memperkenalkan ketidakseimbangan tertentu ketika kami mencoba memahami apakah pengguna "hidup" atau tidak.

Bukankah lebih baik menggunakan jaringan saraf?


Lebih baik, tetapi pertama-tama, Anda perlu memahami bagaimana menerapkan proyek: untuk menyelesaikan tugas-tugas skala besar dengan cepat atau secara bertahap bergerak menuju tujuan.

Analisis RFM menunjukkan probabilitas "kehidupan" pengguna pada saat perhitungan dilakukan. Kami tidak akan dapat memahami apakah pemain akan pergi dalam dua atau tiga minggu, dan jaringan saraf akan dapat. Mengingat seluruh infrastruktur, menciptakan sistem terintegrasi untuk menganalisis perilaku pemain dari awal jauh lebih sulit. Selain itu, Anda memerlukan garis dasar, yang dengannya Anda dapat membandingkan kualitas jaringan saraf. Pendekatan semacam itu kemungkinan akan menghasilkan kerugian finansial jika Anda tidak menghitung kekuatannya.

Pengalaman kami menunjukkan bahwa tugas global perlu diimplementasikan secara bertahap. Membuat prototipe yang berfungsi tidak sulit, tetapi mengumpulkan dan memproses data, mengatur dan melatih jaringan saraf adalah masalah lain. Proses-proses ini dapat bertahan lama, yang selalu kurang.

Itulah mengapa kami memutuskan untuk menggunakan model yang lebih sederhana: kami melakukan penelitian, mengidentifikasi pro dan kontra, dan mengujinya dalam pekerjaan. Hasilnya cocok untuk kita. RFM memiliki kekurangan, tetapi mereka dengan murah hati diimbangi dengan kemudahan penggunaan. Dan jaringan saraf adalah langkah selanjutnya menuju perbaikan sistem.

Source: https://habr.com/ru/post/id431520/


All Articles