نستخدم علم البيانات لتحديد دورة حياة العميل

مرحبا يا هبر! أقدم إليكم ترجمة مقالتي "فهم قيمة حياة العميل مع علم البيانات" .


تعد علاقات العملاء مهمة لكل شركة وتلعب دورًا رئيسيًا في نمو الأعمال. أحد أهم المقاييس في هذا المجال هو قيمة حياة العميل (المشار إليها فيما يلي بـ LTV) - التنبؤ بصافي الدخل المرتبط بجميع العلاقات المستقبلية مع العميل. كلما استمر العملاء في استخدام منتجات الشركة ، وزيادة الأرباح ، ارتفعت سياراتهم ذات الدفع الرباعي.

هناك العديد من المقالات التسويقية حول أهمية LTV وتجزئة العملاء. ولكن ، كعالم بيانات ، فأنا مهتم أكثر بالصيغ وأريد أن أفهم كيف يعمل النموذج فعليًا. كيفية التنبؤ LTV باستخدام 3 سمات فقط؟ في هذا المنشور ، سأعرض بعض الطُرز المستخدمة لتسويق تجزئة العملاء وشرح الرياضيات التي يستندون إليها. ستكون هناك العديد من الصيغ هنا ، ولكن لا تقلق: كل شيء جاهز في مكتبات Python. الغرض من هذه المدونة هو إظهار كيفية قيام الرياضيات بكل العمل.


نموذج بيتا الهندسي / السلبي ذو الحدين لتحديد احتمال أن يكون العميل "على قيد الحياة"


ضع في اعتبارك هذا المثال [من الخدمة عبر الإنترنت لطلب الرحلات (التاكسي) في المدينة]: المستخدم المسجل منذ شهر واحد ، وقام بـ 4 رحلات وكانت آخر رحلة قبل 20 يومًا. استنادًا إلى هذه البيانات فقط ، يمكن لهذا النموذج أن يتنبأ باحتمال أن يكون العميل نشطًا لفترة زمنية معينة (كما هو موضح في الرسم البياني) ، وكذلك عدد المعاملات في المستقبل (والذي هو الأساس لفهم قيمة العميل طوال "حياته" - علاقات العملاء والشركة).



يوفر النموذج دليلًا مباشرًا للعمل من أجل العمل: اتخاذ تدابير التسويق فيما يتعلق بالمستخدم عندما يقل احتمال نشاطه عن مستوى معين لمنع رحيله.


تم اقتراح هذا النموذج من قِبل Fader و Hardie و Lee ويُطلق عليه نموذج التوزيع بيتا الهندسي / السلبي ذو الحدين (BG / NBD).


يحتوي نموذج BG / NBD على الخصائص التالية:


عندما يكون المستخدم نشطًا ، يتم وصف عدد معاملاته خلال الفترة t من خلال توزيع Poisson مع معلمة المعاملة λ .


يساعد توزيع Poisson على التنبؤ بالأحداث التي تحدث باستخدام بيانات حول عدد مرات حدوث الأحداث في الماضي. على سبيل المثال ، إذا قام المستخدم برحلتين متوسطتين في الأسبوع ( λ=2دولاعلى الرسم البياني أدناه) ، فإن احتمال قيامه بإصدار 3 أوامر الأسبوع القادم هو 0.18.



  1. يحتوي تجانس معلمة المعاملة بين المستخدمين (مما يعني كيف يختلف العملاء عن بعضهم البعض في سلوك الشراء) على توزيع غاما مع المعلمتين r (الشكل) و α (المقياس) .

يعتبر توزيع جاما مناسبًا للعمليات التي لها وقت انتظار بين الأحداث ذات توزيع Poisson (في حالتنا ، لمعلمة المعاملة λ ). على سبيل المثال ، ضع في اعتبارك المستخدم الذي يقوم بمعاملات 2 في المتوسط ​​في الأسبوع. في هذه الحالة ، فإن احتمال أن يكون وقت الانتظار قبل قيام المستخدم بعمليات شراء 3 سيكون أكثر من 4 أسابيع يساوي المساحة على الرسم البياني على يمين الخط المتقطع العمودي (تحت خط التوزيع الأزرق) - 0.13.



  1. يمكن للمستخدمين أن يصبحوا غير نشطين بعد أي معاملة مع الاحتمال p ، ويتم توزيع نقطة مغادرتهم (عندما يصبحون غير نشطين) بين المشتريات وفقًا للقانون الهندسي.

يشبه التوزيع الهندسي نتائج برنولي ويستخدم في نمذجة عدد النتائج قبل (وتشمل) أول نتيجة ناجحة. إذا لبعض المستخدمين ع=0.2دولا، ثم احتمال أن تكون غير نشط بعد 3 معاملات هو 0.12 (الخط الأزرق على الرسم البياني).



  1. عدم التجانس (الاختلاف بين المستخدمين) في احتمال الانسحاب له توزيع بيتا مع معلمات النموذج α و β .

إن توزيع بيتا هو الأنسب لتمثيل توزيعات الاحتمالات الاحتمالية - وهي الحالة التي لا نعرف فيها الاحتمال مقدمًا ، ولكن لدينا بعض الافتراضات المسبقة المعقولة الموصوفة في α و mat (حصيرة. توقع توزيع بيتا) α/(α+β)).


بالنسبة إلى المثال السابق مع المستخدم الذي يكون احتمال انسحابه الأولي هو 0.2 ، فإن الخط البرتقالي في الرسم البياني به α=2دولاو β=8دولايصف وظيفة كثافة الاحتمال لاحتمال مغادرة المستخدم.



  1. يتم توزيع المعلمة المعاملة واحتمال الانسحاب بشكل مستقل بين المستخدمين.

التدوين الرياضي لسمات المستخدم X :


X=x،tx،T


اين x- عدد المعاملات لفترة معينة من الوقت (0،T]و tx(<=T)- وقت آخر عملية شراء.
بناءً على هذه الخصائص فقط ، يتنبأ النموذج بخلفية الشراء المستقبلية للمستخدمين:
P(X(t)=x)- الاحتمال xالمعاملات للفترة tفي المستقبل
E(Y(t)|X=x،tx،T)- العدد المتوقع من المعاملات لكل فترة للمستخدم مع سلوك معين.


الآن يمكننا أن نجد هذين المؤشرين الرئيسيين. دون الخوض في التفاصيل ، سأعرض الصيغ النهائية (المزيد من الحسابات في المقالات).


احتمال أن تكون نشطة:



المعاملات المتوقعة:



اين 2F1- غاوس وظيفة هندسية مفرطة



نموذج جاما جاما لتقييم LTV


حتى هذه النقطة ، استخدمنا فقط تكرار والمشتريات الأخيرة من العميل. ولكن بالإضافة إلى ذلك ، يمكننا تطبيق المكون النقدي لمعاملاتها. أضف بيانات جديدة إلى مثالنا: قام المستخدم بهذه الرحلات الأربع بسعر 10 ، 12 ، 8 ، 15. يساعد نموذج جاما جاما على التنبؤ بالقيمة الأكثر احتمالا للمعاملة في المستقبل.
لتلخيص كل شيء معًا ، لدينا الآن جميع العناصر لتحديد عميل LTV:


LTV = العدد المتوقع للمعاملات سعر الصفقة الهامش


حيث يكون العنصر الأول من نموذج BG / NB ، والثاني هو من نموذج Gamma-Gamma ، ويتم تعيين الهامش بواسطة النشاط التجاري.


التدوين الرياضي لنماذج غاما:
المستخدم ارتكبت xالمعاملات القيمة z1،z2،...و mx=Zi/x- القيمة المتوسطة الملاحظة للمعاملة.
E(M)- المتوسط ​​الخفي لقيمة الصفقة ، وما يهمنا هو E(M|mx،x)- القيمة النقدية المتوقعة للمستخدم بناءً على سلوكه الشرائي.


خصائص نموذج جاما جاما:
القيمة النقدية لمعاملات المستخدم عشوائية وتندرج ضمن متوسط ​​قيم المعاملات الخاصة بهم.


يختلف متوسط ​​قيمة المعاملة بين المستخدمين ، ولكن لا يختلف لمستخدم معين مع مرور الوقت.


يحتوي متوسط ​​قيمة المعاملة على توزيع جاما بين المستخدمين.


تصف المقالات بالتفصيل اشتقاق الصيغة من خلال عدة توزيعات غاما أخرى. والنتيجة هي:



حيث p هي معلمة الشكل و v هي معلمة مقياس توزيع غاما للمعاملات Zi،qالمعلمة الشكل و γمعلمة المقياس لتوزيع gamma v (افتراض النموذج الثابت p - معاملات الاختلاف على المستوى الفردي هي نفسها بالنسبة للمستخدمين). للعثور على معلمات النموذج ، يمكننا استخدام الحد الأقصى لطريقة الاحتمالية.


لقد انتهينا من الرياضيات والآن يمكننا تقييم LTV للمستخدمين. ولكن ماذا عن دقة هذا النموذج؟


تقييم دقة النموذج


يقترح النهج التقليدي تقسيم البيانات إلى مجموعتين - جزء للتدريب ، جزء للاختبار. في المقالات ، أظهر المؤلفون أن نهجهم يعمل بشكل جيد. جربت هذه النماذج أيضًا على بيانات حقيقية وحصلت أيضًا على نتائج مماثلة.


يوضح الرسم البياني توزيع المعاملات الحقيقية والمتوقعة للبيانات من مجموعة الاختبار: الخطأ هنا هو 2.8٪.



كيفية التقديم


كما قلت في البداية ، يتم بالفعل تنفيذ جميع النماذج. على سبيل المثال ، تحتوي مكتبة Python " العمر " على جميع الوظائف والمقاييس اللازمة لتحديد LTV. تحتوي الوثائق المفصلة على العديد من الأمثلة والتفسيرات. هناك أيضًا أمثلة على استعلامات sql لتلقي البيانات بالتنسيق المطلوب. حتى تتمكن من العمل في بضع دقائق فقط.


الخاتمة


في هذا المنشور ، أوضحت بالتفصيل كيف يمكن تقييم مستخدمي LTV باستخدام سمات قليلة فقط.


أريد أن أشير إلى أنه في بعض الأحيان يمكنك الابتعاد عن الأشجار المعززة التدرج المستخدمة في كثير من الأحيان وتجربة الأساليب الأخرى التي لديها مستوى مماثل من الدقة. لا يزال من الممكن تطبيق التدريب الإحصائي ويمكن أن يساعد الشركات على فهم العملاء بشكل أفضل.


المراجع


Fader، Peter & GS Hardie، Bruce & Lok Lee، Ka. (2005). "عد عملاءك" بالطريقة السهلة: بديل لنموذج باريتو / بنك دبي الوطني. علوم التسويق.
Fader، Peter & GS Hardie، Bruce (2013). نموذج غاما غاما للقيمة النقدية.
Fader ، Peter S. ، Bruce GS Hardie ، و Ka Lok Lee (2005) ، "RFM و CLV: استخدام منحنيات Iso-value لتحليل قاعدة العملاء" ، مجلة أبحاث التسويق.

Source: https://habr.com/ru/post/ar436236/


All Articles