哈Ha! 我向您介绍我的文章“用数据科学了解客户生命周期价值”的翻译 。
客户关系对每家公司都很重要,并且在业务增长中起着关键作用。 该领域最重要的指标之一是客户生命周期价值(以下简称LTV)-与所有未来与客户关系相关的净收入预测。 客户持续使用公司产品的时间越长,利润增加,他们的LTV越高。
有许多关于LTV和客户细分的重要性的营销文章。 但是,作为一名数据科学家,我对公式更感兴趣,并且我想了解模型的实际工作原理。 如何仅使用3个属性来预测LTV? 在这篇文章中,我将展示一些用于营销客户细分的模型,并解释它们所基于的数学。 这里会有很多公式,但是请放心:Python库中的所有内容都已准备就绪。 该博客的目的是展示数学如何完成所有工作。
Beta几何/负二项式模型,用于确定客户“存活”的概率
考虑以下示例(从城市中订购旅行(出租车)的在线服务中获得):用户1个月前注册,进行了4次旅行,最后一次旅行发生在20天之前。 仅基于此数据,此模型可以预测客户在特定时间段内保持活跃状态的可能性(如图所示),以及将来的交易次数(这是了解客户在其整个“生命”中的价值的基础-客户和公司关系)。
该模型为企业采取行动提供了直接指南:当用户的活动概率降低到一定水平以下时,针对用户采取营销措施以防止其离开。
此模型由Fader,Hardie和Lee提出 ,被称为Beta几何/负二项分布模型(BG / NBD)。
BG / NBD模型具有以下属性:
当用户处于活动状态时,其在时间段t内的交易次数由交易参数为的泊松分布描述。
泊松分布可通过使用有关过去事件发生频率的数据来帮助预测发生的事件。 例如,如果用户每周平均进行2次旅行( λ=2 (在下面的图表上),那么他下周要下3个订单的概率为0.18。
- 用户之间交易参数的异质性(这意味着客户在购买行为上如何彼此不同)具有参数r(形状)和α(比例)的Gamma分布。
伽马分布适用于在事件之间具有泊松分布的事件之间有等待时间的过程(在我们的情况下,对于事务参数λ )。 例如,考虑一个平均每周进行2次交易的用户。 在这种情况下,用户进行3次购买之前的等待时间将超过4周的概率等于垂直虚线右侧图表上的区域(蓝色分布线下方)-0.13。
- 在发生任何概率为p的交易后,用户都可以变得不活动,并且根据几何定律在购买之间分配出发点(当他们不活动时)。
几何分布与伯努利结果相似,用于对第一个成功结果之前(包括)的结果数量进行建模。 如果对于某些用户 p=0.2 ,则它在3次交易后变为无效的概率为0.12(图表上的蓝线)。
- 退出概率的异质性(用户之间的差异)具有Beta分布,其形式参数为α和β 。
Beta分布最适合表示概率概率分布-这种情况我们不事先知道概率,但是我们有一些合理的先验假设,由α和β (mat。β分布的期望 α/(α+β)) 。
对于前面的示例,该用户的先验退出概率为0.2,则图中的橙色线为 α=2 和 β=8 描述了用户离开的概率的概率密度函数。
- 交易参数和取款可能性在用户之间独立分配。
用户X属性的数学符号:
X=x,tx,T
在哪里 x -一定时间内的交易次数 (0,T] 和 tx(<=T) -上次购买的时间。
该模型仅基于这些特征,可以预测用户的未来购买背景:
P(X(t)=x) -概率 x 本期交易 t 在未来
E(Y(t)|X=x,tx,T) -具有特定行为的用户每个时期的预期交易次数。
现在我们可以找到这两个主要指标。 在不赘述的情况下,我将显示最终公式(文章中的更多计算)。
激活概率:
预期交易:
在哪里 2F1 -高斯超几何函数
用于评估LTV的Gamma-Gamma模型
到目前为止,我们仅使用了客户的频率和最近购买的时间。 但是除此之外,我们可以应用其交易中的货币部分。 在我们的示例中添加新数据:用户以10、12、8、15的价格进行了这4次旅行。伽玛-伽玛模型有助于预测未来交易的最可能价值。
综上所述,现在我们具有确定LTV客户的所有要素:
LTV =预期交易数 ∗ 成交价 ∗ 保证金
其中第一个元素来自BG / NB模型,第二个元素来自Gamma-Gamma模型,利润由企业设置。
γ-γ模型的数学符号:
用户承诺 x 价值交易 z1,z2,... 和 mx=Zi/x -观察到的交易平均值。
E(男) -交易价值的隐藏平均值,而我们感兴趣的是 E(M|mx,x) -基于用户的购买行为的预期货币价值。
伽玛-伽玛模型的属性:
用户交易的货币价值是随机的,并且落在其平均交易价值之内。
平均交易价值因用户而异,但对于特定用户而言不会随时间变化。
平均交易价值在用户之间具有伽马分布。
文章详细描述了公式通过其他几种伽马分布的推导。 结果是:
其中p是交易的伽马分布的形状参数,而v是伽马分布的比例参数
形状参数和 γ 伽玛分布v的比例参数(模型假设p为常数-用户的个体水平上的变化系数相同)。 为了找到模型参数,我们可以使用最大似然法。
我们已经完成数学运算,现在可以评估用户的LTV。 但是该模型的准确性如何?
模型精度评估
传统方法建议将数据分为两组-一部分用于训练,一部分用于测试。 在文章中,作者表明他们的方法行之有效。 我还在真实数据上尝试了这些模型,并获得了相似的结果。
该图显示了来自测试组的数据的实际交易和预测交易的分布:此处的误差为2.8%。
申请方法
正如我在一开始所说的,所有模型都已实现。 例如,Python“ lifetimes ”库包含定义LTV所需的所有功能和指标。 详细文档包含许多示例和说明。 还有一些以所需格式接收数据的sql查询示例。 这样您就可以在几分钟内上班。
结论
在本文中,我详细展示了如何仅使用几个属性即可评估LTV用户。
我想指出的是,有时您可以远离常用的梯度增强树,而尝试其他具有可比性的准确性的方法。 统计培训仍然可以付诸实践,可以帮助企业更好地了解客户。
参考文献
Fader,Peter和GS Hardie,Bruce和Lok Lee,Ka。 (2005)。 简单地“计算客户数量”:帕累托/ NBD模型的替代方案。 营销科学。
Fader,Peter和GS Hardie,布鲁斯(2013)。 货币价值的Gamma-Gamma模型。
Fader,Peter S.,Bruce GS Hardie和Ka Lok Lee(2005),“ RFM和CLV:使用等值曲线进行客户群分析”,《市场研究》。