使用RFM方法预测用户流失

想象一下:凌晨三点打个电话,您拿起电话,听到一声尖叫,没人能使用您的产品。 吓人的 在生活中,当然不是这样,但是如果您没有适当注意用户外流的问题,您可能会遇到类似的情况。

我们已经详细描述了什么是外流:我们深入研究了理论,并展示了如何将神经网络转变为数字预言。 Plarium Krasnodar的专家知道另一种预测方法。 我们将谈论他。



这不是我们需要的RFM。


RFM是一种用于细分客户并分析其行为的方法。 根据获得的数据,您可以为每个组创建一个忠诚度计划,建立用户分布并预测他们何时返回购买。

RFM的发展历史始于1987年,当时发表了《 计数您的客户:他们是谁以及下一步将做什么 》一文。 它描述了一种基于帕累托分布(绝对连续分布的两参数族)的分析方法。

该模型称为Pareto / NBD,仅考虑了用户的购买历史。 在经典解释中,此方法的工作基于五个支柱或近似值:

  1. 只要用户是活跃的,在时间段t内,购买者进行的交易数量服从帕累托分布,平均为λt。
  2. 参数λ(交易速率)的异质性遵循参数r和α的伽马分布。
  3. 每个购买者都有无限的时间“生命”τ。 用户变为非活动状态的点与参数μ(辍学率)成指数分布。
  4. 用户之间参数μ的异质性遵循参数s(形状)和β(比例)的伽马分布。
  5. 参数λ和μ可以在购买者之间独立变化。

该模型的缺点是计算高斯超几何函数的复杂度很高以及搜索最大似然函数。

在2003年的文章“计算客户数量”中,“简便方法:帕累托/ NBD模型的替代方法”发表了一种更好的模型的想法。 除了购买历史记录外,还使用了两个参数:频率和处方。 与Pareto / NBD的主要区别在于确定客户离开的那一刻。

在经典设置中,假设用户可以随时离开,而与过去购买的频率和方式无关。 新方法基于这样的假设,即买方可能在交易完成后立即开始失去兴趣。

这简化了计算,并生成了beta几何(BG / NBD)模型。 它使用三个主要参数:新近度,频率,货币-和四个附加参数:r,α,a,b(从beta分布中添加了参数a和b)。

RFM有助于预测客户将来是否会购物。 Plarium Krasnodar专家修改了此方法。

简单而有品位地预测流出量


为了进行计算,我们需要一系列有关游戏会话的数据。 它被重新计算为一个包含RFM参数的矩阵,以及另外四个系数,这些系数由模型在学习过程中选择。

在游戏的上下文中,参数具有以下含义:
  • 频率-上次登录时用户玩了多长时间;
  • 频率-用户重新进入游戏的频率;
  • 备注-用户玩了多长时间(“生命”时间)。

参数汇总到一个矩阵中。 然后将其加载到一个模型中,该模型计算用户“生命”的可能性-他们继续玩游戏的机会。

根据以下公式进行计算:


显然,对于没有重新输入的用户,“生命”的可能性将是一。 2008年,文章“ 使用BG / NBD模型计算P(活动)”的作者提出了解决此问题的方法。 游戏公司可以使用两种选择来产生相似的结果。

为所有用户输入方法1 -π参数。 它显示哪些玩家不活跃。
方法2-将单位添加到“频率”参数。 该措施避免了频率= 0时公式的退化,但为每个用户人为地在游戏中添加了一个条目。

如何为游戏开发者调整RFM方法


假设我们有一个新用户。 他刚进入游戏。 参数F = 1(或0,取决于计算),因为不考虑第一个条目,并且玩家还没有重复输入。

用户玩三天。 参数更改: F仅考虑每日输入,因此其值为2,而指标MR为3。使用这些数据,我们得出“寿命”接近统一的概率。

第二天,用户不进入游戏。 参数M更新,而FR保持不变。 替换公式中的所有值,我们看到概率指标已经降低。

如果用户在一周中不玩游戏,则M指示器将再次更新,“生命”的可能性进一步降低。

活动用户的图看起来不同。 “生命”的可能性将根据其历史而降低。 如果他每天都参加游戏并突然停下来,那么该指标的价值将比他每两天玩一次的速度快得多。

RFM的明显优点和明显缺点


这种方法的主要优点是简单:

  • 对于计算,您不需要使用复杂的数学仪器;
  • 指标是使用相对简单的公式计算的;
  • 您无需复杂的数据管道即可完成工作;
  • 所有最佳模型参数都会自动选择。

此外,RFM数据易于解释。 研究用户的历史,就可以理解为什么他有这种“生命”的可能性。 通常,当使用更复杂的方法时,得出具体结论会更加困难。

RFM也有缺点。 首先 ,这不是最准确的方法。 它运作良好,但计算中未使用许多参数。 例如,许多用户开始因习惯而失去兴趣进入游戏。 即,每天平均游戏会话数减少,并且重新输入的频率不变。

其次 ,该方法没有考虑用户的活动:他转移了多少资源,他是攻击敌人还是建立了部队。 如果我们将所有玩家的“生命”概率定为〜0.8,那么根据参数和他们的历史记录,除了活跃的玩家之外,每三天就会有玩家进入。

第三 ,离开的用户再次开始游戏时将变为“活动”。 上次登录后一个月,他必须做什么。 这样的情况使在两次会话之间具有大暂停的检测者变得复杂。 通常,这并不重要,尽管在我们试图了解用户是否“活跃”时会带来一定的不平衡。

使用神经网络不是更好吗?


更好,但首先,您需要了解如何实施该项目:迅速解决大型任务或逐步实现目标。

RFM分析显示了进行计算时用户“生命”的可能性。 我们将无法了解玩家是否会在两到三周内离开,而神经网络将能够做到。 在整个基础架构的基础上,创建这样一个集成的系统来从头开始分析玩家的行为要困难得多。 此外,您需要一个基准,可以与该基准比较神经网络的质量。 如果不计算强度,这种方法可能会导致财务损失。

我们的经验表明,全局任务需要逐步执行。 创建一个可行的原型并不困难,但是收集和处理数据,建立和训练神经网络是另一回事。 这些过程可能会持续很长时间,而这一直是缺乏的。

这就是为什么我们决定首先使用一个更简单的模型的原因:我们进行了研究,确定了优缺点,并在工作中进行了测试。 结果适合我们。 RFM有缺陷,但易用性在很大程度上弥补了缺陷。 神经网络是改进系统的下一步。

Source: https://habr.com/ru/post/zh-CN431520/


All Articles