积压工作的优先次序导致在策略之间进行选择。 每个指标都有其指标。 必须选择最重要的一个。 当存在非线性且经济为非线性时,机器学习评分是一种解决方案。
在这里看到介绍。 考虑两组。 第一(I)对应于网络转化{跳出率,微转化,时间,深度}。 第二(II)对应于来自有机渠道{访问,观众,观看}的新访问者的吸引力。 目标功能是每天许多商业报价。 任务是减小尺寸以获得最佳的简单策略。 在这种情况下,在线/离线B2B渠道无法分开:市场不多,新客户可能会从这两个渠道获得有关“品牌”的一些信息。 因此,在这种情况下,统计评估比直接CJM跟踪更接近实际。
在给定的示例中,整体投票涉及目标和尺寸缩减技术的分箱。 考虑两组指标。 特征和目标被标准化为[0,1]间隔。 每天使用相对较小的数据进行采样:四年的记录。 Web指标是通过Python API从分析平台解析的。 从CRM接收到销售数据。 相关矩阵显示,转换的报价和Web指标之间没有显着的相关性:无法应用线性回归。

使用非线性投票估计器的集合:KNeighborsClassifier,决策树,Ada Boost,梯度提升,支持向量分类器,朴素贝叶斯和具有三个隐藏层的多层感知器。 超级调整仅应用于KNeighborsClassifier。 考虑了线性{高偏差}和非线性{高方差}模型。 在准确性/散射性方面,模型具有可比性。 较小的散射意味着较高的稳定性。 首先,我们将所有指标用作输入功能。 它给出了0.11的模型精度散射,而精度中位数为96%:

第二个实验假定随之而来的是丢弃度量以减小维度。 如果删除度量会降低准确性,则将抛出该度量。 最后剩下一个指标-会话数。 在这种情况下,准确度仍为96%,但集成模型的散布较低:0.01。

结论:其他功能未提供其他信息。 流量对于预测具有最高的重要性,并且对应于更稳定的预测模型。 当非线性不可避免时,可以将所提出的方法推广到决策中。
这里给出
了一些Jupyter代码的安全性。
感谢因果报应