格式塔测试:基于贝叶斯理论和机器学习的邮件列表优化新方法



多变量(A / B / N或拆分)测试是测试邮件列表的最流行方法。 该工具已被证明是有效的,但是它的缺点主要与测试和主调度在时间上分开有关。

就我们而言,DashaMail决定影响这种情况,并找到了一种测试邮件的不同方法,这使我们能够同时测试和优化发送。 他使用贝叶斯理论,神经网络技术和机器学习-结果,所有这些都使信件的可打开性平均提高了20%。

背景知识


测试是提高电子邮件新闻通讯效率的工具之一。 许多因素会影响信件的公开程度和听众的参与度,包括消息的主题,发件人的姓名,分发时间等。

不久前,在一次集思广益的会议上,我们得出的结论是,如今流行的机器学习算法可以在测试邮件方面有所作为,即对开放性和参与度产生积极影响。 众所周知,众所周知的拆分测试绝对不是完美的,但是确实有改进的选择。

A / B / N检验是电子邮件营销中主要的假设检验选项。 主要困难:此类测试的结果始终只能在事实之后进行分析。 这使整个过程相当冗长且耗时:首先,您需要发送几个邮件选项,然后研究结果,优化测试参数并重新发送。 并且可以有很多这样的迭代。

但是,如果您创建了一种同时测试和优化的方法,该怎么办? 正是这种想法催生了DashaMail中的格式塔测试工具。

贝叶斯方法:动态测试和优化


订户对在不同时间接收到的不同消息选项的响应可能会有很大的不同。 在发送主要新闻时,由多变量测试确定的获胜选项可能无效。

为避免此问题并能够实时考虑邮件的所有重要参数,使用了贝叶斯决策和统计评估方法。 是的,我们DashaMail的确非常喜欢数学和概率论。

贝叶斯vs A / B / N测试


通过A / B / N测试,一方面,一切都很简单,另一方面,它们的准确性可能令人怀疑。 一切似乎都非常简单:例如,如果我们需要测试采用不同设计的邮件的有效性,那么在两种选择的情况下,我们可以将其中一种发送给订户群,将另一种发送给订户群。 然后分析结果。

但是,您需要了解两个选项都必须看到的最小用户数,以便获得具有统计意义的结果。 确实,如果只分配20%的订户进行测试,那么对于剩下的80%,我们将能够启动最有效的信函版本并获得最佳结果。 但是,不能保证简单选择两个10%的组就能得出正确的结果。 如果该字母的一个版本中有更多红色,则可能是那些不喜欢该颜色的用户偶然落入了10%的用户群体中。 此外,如果有更多的人参加测试,则该选项可能会获胜。 因此,我们提出了第一类和第二类错误的概念-哈布雷(Habré)上有足够的关于错误的文章 。 这些错误有其自身发生的可能性。

结果,对该测试方法的分析导致了这样一个事实,即它根本无法消除不确定性,也就是说,该测试无法对“哪个更好?”这一问题给出确切的答案。 该工作已经完成,但是还没有变得更加清晰。

与这种方法相反,使用了所谓的贝叶斯多臂匪。 该方法的本质在于,它不仅使您可以进行假设检验,而且还可以回答哪个问题更有可能更有效。 重要的是:估算值的动态变化与实时确定每个假设的样本量相同(即,应发送多少流量/字母来测试特定选项)。

想象一下,我们带着诸如“单臂匪徒”之类的老虎机来到赌场的情况。 我们的钱是有限的,时间也不是无限的。 必须尽快确定“有前途的”机器,同时以最低的成本。 这是一个多武装的土匪任务。 有许多解决方案,其中之一是基于汤普森采样和贝叶斯定理; 本文在哈布雷(Habré)上进行了详细描述。

对于邮件列表,其工作方式如下。 在测试两个或多个假设(邮件选项)的过程中,我们不想发送太多带有明显丢失参数的字母(在A / B测试中,您需要发送相等的份额)。 但是同时,我也想遵循这样的变化,因为随着时间的流逝,它们有可能开始变得更好(起初,没有运气),甚至有可能成为领导者,然后更多的流量将流向他们。

该理论构成了称为格式塔测试的新工具的基础。



与传统A / B测试的主要区别在于:尽管大多数信件都带有获胜选项,但其他选项总是有最后机会,因为如果订户的行为方式发生变化,您需要及时做出反应并向情况发送最合适的选项。

另外,格式塔测试是在新闻通讯中使用情感营销的能力,可以为信函的情感着色创建不同的主题。 它的工作方式是这样的:发送时事通讯的电子邮件营销人员设置了基本主题,然后您可以选择以不同的情感来重新表达该主题-最多可以有十个选项(恐惧,感激之类)。



神经网络使用给定的情感色彩来解释主题的文本,并将其提供给考虑。 在这种情况下,电子邮件营销人员可以自行决定进行更改。

情绪及其各自主题的示例,以及每种情绪的发现指示:



启动之后,系统开始成组发送信件-每个软件包均包含所有建议的选项。 所有邮寄大约需要10个小时,每半小时一包。 如您所见,该工具不适用于需要快速发送的短期股票。 相反,您可以考虑选择中期促销或内容分发。 每个选项都有统计信息-因此您可以立即查看效果更好的选项。

在下面的示例中,关于发现和点击,神经网络在情感“爱”中重写主题的变体导致:“您是办公室里最漂亮的! 对于我们选择的办公室型号,为-30%。” 但是,它还显示出所有其他选项中最高的退订率。 这可能表明这封信的内容比主题弱,或者我们能够吸引之前沉迷的订户细分的注意力。



由于使用格式塔测试发送邮件的时间会延长,因此也会自动执行特定发送时刻的测试。 此外,该服务还记住了时事通讯的情感以及每个特定订户在什么时候做出更好的响应,并且在随后的发送过程中,将使用此功能对其进行调整。 因此,随着时间的流逝,使用格式塔测试的有效性会提高。



为什么有效


新测试工具的想法是,您可以考虑以下事实:收件人对个性化和带有情感色彩的邮件的响应比对干文本的响应更好。

同时,在格式塔测试中,机器学习方法适用于所有主题变体。 测试期间最成功的选项被最积极地使用,但其他比较参与者也获得了一些流量。 这使您可以监视订阅者随时间的行为模式:经常发生的情况是,一次提供了良好性能的主题会突然失去其他选项。 如果系统“检测到”这种模式变化,则将对通讯进行实时优化以保持最大效率。

分析每个订户的行为模式。 根据特定收件人的发现历史记录,为他选择一个单独的发送时间。 临时模式也可以更改-例如,一个人可以更改工作日的开始和结束时间,而在其他时间可以查看个人邮件。 格式塔功能会自动调整以适应此类更改。

重要的一点:格式塔测试是一种需要一定数量数据的方法,否则将很难保持高效率。 这就是为什么它仅可用于具有一万个及以上地址的数据库的原因。

结论:您可以指望什么结果


听起来很合逻辑,但是使用建议的测试工具,您真正可以指望什么结果? 让我们来看一个例子。 这就是关于使用格式塔功能进行邮件发送的报告的外观:它包括最终开放率(OR),相对于基础主题的结果以及与按主题相同字母分布的常规多变量测试所能达到的指标的比较。



根据DashaMail客户的统计,使用格式塔测试的新闻通讯的平均打开率提高了20%。 随着时间的流逝,随着系统学习并记住特定订户在什么时间和哪种情绪下反应更好,使用此功能的有效性会提高,因此与之相比,邮件的开放率(OR)可以提高1.5–2倍基本主题。

好吧,也许您有一个问题:“格式塔”一词与它有什么关系?..不,我们没有关闭格式塔,而是决定开发一种用于通过邮件表格进行实验的工具。 并从德语翻译成“格式塔”是一种“形式”。 因此,可以通过对表格的实验来得出理想的邮件列表。

为了跟上俄罗斯电子邮件营销的最新趋势,获得有用的生活技巧和我们的资料-订阅DashaMail Facebook页面并阅读我们的博客

Source: https://habr.com/ru/post/zh-CN472560/


All Articles