广告渠道链的本质使人们产生了不可抗拒的愿望,希望找出链中下一步最有可能发生的事情。 是否会有转换?
但是,这种值得称赞的愿望经常遇到问题。 如果您尝试将
假阳性的数量保持在合理的框架内,那么真阳性的数量就不会令人印象深刻。 结果,分析的结果通常不允许我们做出适当的管理决策。 适当的预测需要更多的数据,而不仅仅是用户
在渠道上的短链
接触 。 但这并不意味着任务就已经退出。
在本文中,我们将向您介绍一些有关开发转化预测算法的实验。 本文是前两个主题相似的续篇。
这是第一 ,
这是第二 。
问题陈述
在预测环境中处理过机器学习的任何人都对
LSTM (
RNN神经网络)很熟悉。 但是我们的“预测”可以归结为一个更简单的任务。 预测转化是指将链条归为“未来转化”类别。
对于LSTM,在创建可预测
时间序列和
单词字母含义的系统方面,有大量的优秀材料。 在我们的案例中,乍一看,任务甚至更加简单。
- 通过分析通道的交互作用,我们可以组成看起来像字母的字母,其中字母是单独的通道。 例如-“((频道)1”,“(频道)2”,...
- 从字母中,您会获得大量以链形式出现的“单词”,这些单词是用户与渠道之间互动的各种组合。 例如,chain =“ 1”,“ 2”,“ 1”,“ 3”; 链=“ 2”,“ 4”,“ 4”,“ 1”; ...
图1。 处理粗略数据以除去太短并拆分太长的链。
我们的目标是确定接触的组合,以最大程度地为选定长度的链条在整个客户群中实现转换的可能性。 为此,我们从整个样本中选择所需长度的单词(链)。 如果链比给定的链长,它将分成所需长度的几条链。 例如-(1,2,3,4)->(1,2,3),(2,3,4)。 处理过程如图1所示。
寻求简单解决方案的首次尝试。
在此尝试中,我们用相同长度的“几乎原始”链训练了LSTM网络,并获得了约0.5的
RUC AUC值,这告诉我们分类器的准确性会提高抛硬币的效率。 哎呀 没用 但是,尝试使它变钝值得吗? 突然一骑。 但是没有 我不得不思考一下。
分析发生了什么
重点观察1这项研究中的
同质链毫无价值。 它们的转换仅取决于链长和通道数,
它们的分类器由具有两个因素的
逻辑多回归构建。 类别因子是通道号,数字因子是链长。 事实证明,这是相当透明的,尽管没有用,因为足够长的链在任何情况下都可能对转换产生怀疑。 因此,根本不能考虑它们。 在这里,应该注意的是,由于通常所有链中大约80%是均匀的,因此样本大小显着减小。
重点观察2您可以丢弃所有(根本上)非活动的通道以限制数据量。
重点观察3对于任何链,您都可以应用
一键编码。 消除了将通道标记为数字序列时可能发生的问题。 例如,如果数字是通道号(图2),则表达式3-1 = 2就没有意义。
除其他外,我们尝试使用一些更奇怪的方法对链进行编码,这些方法基于有关链性质的各种假设。 但是,由于这对我们没有任何帮助,因此我们不再赘述。
图2。 二次数据转换。 移除所有同类电路,应用一键热编码。第二次尝试一个简单的解决方案
对于链的不同编码选项,已尝试使用以下分类工具:
所有模型的参数都使用
Basin-hopping算法进行了优化。 结果并不乐观。 AUC ROC升至0.6,但在我们的案例中,这显然还不够。
第三次尝试:简单的解决方案。
自然发生的一切都会导致这样一个想法,即最重要的是链条的通道组成和通道的实际组成的多样性,只要链条的长度相同。 这不是一个普通的想法,因为通常认为顺序仍然很重要。 但是以前的LSTM实验表明,即使是这样,也无济于事。 因此,您需要尽可能地专注于链的组成。
例如,您可以从链中删除所有重复项,并对结果列表进行排序。 这可以通过以下简单的python代码完成:
sorted_chain = tuple(sorted(list(set(chain))))
为了稍后将此链用作模式字典中的键,必须转换为元组。 在那之后,您可以计算发生了多少链。 事实证明,如图3所示。
图3。 排序和计数链模板在第一遍中,我们可以计算数据中每个“模板”链的平均转化率。
现在,我们按转换的降序对结果列表进行排序,并获得带有“转换截止”参数的分类器。 通过检查通过上述方法转换的测试链中是否存在列表中某个模式的转换大于指定模式的转换,我们将其分类为将产生转换的模式,否则将其分类。 现在,我们可以使用此转换级别分类器测试所有传入链,并预测结果。 基于发生的情况,我们构建了本文中唯一的图表,该图表显示了此方法的优势。 此方法的ROC曲线在这里称为-模式检查。
图4。 不同分类器的ROC曲线。对于我们的新方法,AUC = 0.7。 这已经是东西了。 不是直接的胜利,也不是掷硬币。 备注。 如此处为清楚起见所述,此方法可以不使用一站式实施而实现,但是如果您想获得成功,可能已经需要此方法。
结论
在“模式”一词下,熟悉机器学习的人立刻想到了“卷积神经网络!”。 是的 是这样,但是我们现在不再写。 在我们看来,我们带来了一种很好的转换链的方法,该方法立即为您提供了一个机会,使分类器(预测器)比使用额头上最先进的技术更有效。 它已经可以用来突出显示一组具有很高转换可能性的用户,而不必担心成千上万的误报。 对于我们的数据,在0.25转换算法中选择截止值时,我们得到了5112次测试样本转换,523次真实阳性和1123次错误阳性,只要测试有6.7万人,这是基本可以容忍的。
PS:为了及时了解Maxilect的新闻并成为第一个了解所有出版物的人,请通过
VK ,
FB或
Telegram-channel订阅我们的页面。