Teste Gestalt: uma nova abordagem para otimização de mala direta com base na teoria bayesiana e aprendizado de máquina



O teste multivariado (A / B / N ou dividido) é a maneira mais popular de testar listas de distribuição. Essa ferramenta provou ser eficaz, mas possui desvantagens relacionadas principalmente ao fato de que o teste e o envio principal são separados no tempo.

De nossa parte, o DashaMail decidiu influenciar a situação e encontrou uma abordagem diferente para testar as correspondências, o que nos permite testar e otimizar o envio simultaneamente. Ele usa a teoria bayesiana, a tecnologia de redes neurais e o aprendizado de máquina - como resultado, tudo isso permite aumentar a abertura de letras em uma média de 20%.

Antecedentes


Uma das ferramentas para melhorar a eficácia dos boletins por e-mail é o teste. Muitos fatores influenciam a abertura das cartas e o envolvimento do público, incluindo o assunto da mensagem, o nome do remetente, o horário da distribuição, etc.

Não faz muito tempo, em uma das sessões de brainstorming, chegamos à conclusão de que os agora populares algoritmos de aprendizado de máquina podem fazer a diferença no teste de correspondências, ou seja, afetar positivamente a abertura e o envolvimento. O conhecido teste de divisão não é de forma alguma perfeito, como gostaríamos, mas realmente existem opções para melhorias.

Os testes A / B / N são a principal opção de teste de hipótese no email marketing. A principal dificuldade: os resultados de tais testes sempre podem ser analisados ​​somente após o fato. Isso torna todo o processo bastante demorado e demorado: primeiro você precisa enviar várias opções de correspondência, depois estudar os resultados, otimizar os parâmetros de teste e reenviar. E pode haver muitas dessas iterações.

Mas e se você criar uma maneira de testar e otimizar simultaneamente? Foi esse pensamento que deu origem à ferramenta de teste da Gestalt no DashaMail.

Abordagem bayesiana: teste e otimize em tempo real


A resposta dos assinantes às diferentes opções de mensagens recebidas em momentos diferentes pode variar bastante. A opção vencedora, determinada como resultado de um teste multivariado, ao enviar a correspondência principal pode não ser tão eficaz.

Para evitar esse problema e ser capaz de levar em consideração todos os parâmetros importantes da correspondência em tempo real, foi utilizada a abordagem bayesiana da tomada de decisão e avaliação estatística. Sim, nós do DashaMail realmente amamos a matemática e a teoria das probabilidades.

Bayes vs A / B / N testes


Com os testes A / B / N, por um lado, tudo é simples e, por outro, sua precisão pode ser muito duvidosa. Tudo parece bem direto: se precisamos testar, por exemplo, a eficácia de correspondências com um design diferente, no caso de duas opções, podemos enviar uma delas para a base de assinantes e a outra para a segunda. Depois analise os resultados.

Mas você precisa entender o número mínimo de usuários que as duas opções devem ver para obter resultados estatisticamente significativos. De fato, se for suficiente alocar apenas 20% da base de assinantes para o teste, então, para os 80% restantes, poderemos lançar a versão mais eficaz da carta e obter o melhor resultado. Mas não há garantia de que uma simples seleção de dois grupos de 10% dê o resultado correto. Se em uma versão da carta houver mais cor vermelha, pode ser que aqueles que não gostem dessa cor caiam acidentalmente em um grupo de 10% dos usuários. Além disso, se mais pessoas participarem do teste, essa opção poderá vencer. Então chegamos ao conceito de erros do primeiro e do segundo tipo - há artigos suficientes sobre eles no Habré. Esses erros têm sua própria probabilidade de ocorrência.

Como resultado, a análise desse método de teste leva ao fato de que ele não elimina a incerteza, ou seja, o teste não fornece uma resposta exata à pergunta "O que é melhor?" O trabalho foi feito, mas não ficou mais claro.

Em contraste com esse método, são usados ​​os chamados bandidos multi-armados bayesianos. A essência desse método é que ele permite não apenas realizar um teste de hipóteses, mas também obter uma resposta para a pergunta sobre qual é mais provável que seja mais eficaz. E o importante: as estimativas mudam dinamicamente da mesma maneira que os tamanhos das amostras para cada hipótese são determinados em tempo real (ou seja, quanto tráfego / cartas devem ser enviados para testar uma opção específica).

Imagine uma situação em que chegamos a um cassino com máquinas caça-níqueis do tipo "bandido armado". Temos uma quantidade limitada de dinheiro, o tempo também não é infinito. É necessário, o mais rápido possível, determinar a máquina "promissora" e, ao mesmo tempo, com custos mínimos. Esta é uma tarefa de bandido com vários braços. Existem muitas opções para resolvê-lo, uma delas é baseada na amostragem de Thompson e no teorema de Bayes; é descrita em detalhes neste artigo sobre Habré .

Para listas de discussão, isso funciona da seguinte maneira. No processo de testar duas ou mais hipóteses (opções de correspondência), não queremos enviar muitas cartas com parâmetros obviamente perdedores (nos testes A / B, é necessário enviar compartilhamentos iguais). Mas, ao mesmo tempo, eu gostaria de acompanhar essas variações também, porque há uma chance de que, com o tempo, elas comecem a funcionar melhor (no início, apenas sem sorte) e até se tornem líderes - e mais tráfego será direcionado a elas.

Essa teoria formou a base de uma nova ferramenta chamada teste Gestalt.



A principal diferença dos testes A / B tradicionais: apesar do fato de a maioria das letras combinar com a opção vencedora, outras opções sempre têm a última chance, porque se o padrão de comportamento dos assinantes mudar, você precisará reagir e enviar a opção mais adequada à situação a tempo.

O teste da Gestalt é, além disso, a capacidade de usar o marketing emocional em boletins, criando diferentes temas para a coloração emocional da carta. Funciona assim: o profissional de marketing por e-mail que envia o boletim define o tópico básico; então, você pode reformular esse tópico com emoções diferentes - podem haver até dez opções (medo, gratidão etc.).



A rede neural parafraseia o texto do tópico, usando as cores emocionais fornecidas, e as oferece para consideração. Nesse caso, o profissional de marketing por email pode fazer alterações a seu critério.

Um exemplo de emoções e seus respectivos tópicos, bem como indicadores de descobertas para cada um deles:



Após o início, o sistema começa a enviar cartas em grupos - cada pacote contém todas as opções propostas. Toda correspondência demora cerca de 10 horas, um pacote a cada meia hora. Como você pode ver, a ferramenta não é adequada para estoques de curto prazo que precisam ser enviados rapidamente. Em vez disso, você pode considerar a opção de promoções de médio prazo ou distribuição de conteúdo. As estatísticas estão disponíveis para cada opção - para que você possa ver imediatamente o que funciona melhor.

No exemplo abaixo, com relação às descobertas e cliques, a variante com o tema reescrita pela rede neural nas emoções “amor” leva: “Você é a mais bonita do escritório! -30% para modelos de escritório da nossa seleção. ” No entanto, também mostra a maior entre todas as outras opções, a taxa de cancelamento de assinatura. Isso pode indicar que o conteúdo da carta foi mais fraco que o tópico ou conseguimos chamar a atenção do segmento de assinantes que dormia anteriormente.



Como o envio de correspondências com o teste da Gestalt é estendido no tempo, o teste de um momento específico do envio também é realizado automaticamente. Além disso, o serviço se lembra de qual emoção do boletim e em que momento cada assinante em particular responde melhor e, durante os envios subsequentes que usam essa funcionalidade, serão ajustados a ele. Portanto, com o tempo, a eficácia do uso do teste Gestalt aumenta.



Por que isso funciona


A idéia da nova ferramenta de teste é que ela permite que você leve em consideração o fato de que os destinatários respondem melhor às mensagens personalizadas e emocionalmente coloridas do que ao texto seco.

Ao mesmo tempo, nos testes da Gestalt, os métodos de aprendizado de máquina são aplicados a todas as variantes de tópicos. A opção mais bem-sucedida durante o teste é usada mais ativamente, mas outros participantes da comparação também recebem um pouco de tráfego. Isso permite que você monitore os padrões de comportamento dos assinantes ao longo do tempo: geralmente o tópico, que apresentou um bom desempenho ao mesmo tempo, perde o restante das opções com um estrondo. Se o sistema "detectar" essa alteração de padrão, o boletim será otimizado em tempo real para manter a máxima eficiência.

Os padrões de comportamento são analisados ​​para cada assinante. Com base no histórico de descoberta de um destinatário específico, um horário de envio individual é selecionado para ele. Os padrões temporários também podem mudar - por exemplo, uma pessoa pode alterar os horários de início e término de um dia útil e a capacidade de verificar correspondências pessoais pode ocorrer em outro momento. A função gestalt se ajusta automaticamente a essas alterações.

Um ponto importante: o teste Gestalt é um método que requer uma certa quantidade de dados; caso contrário, será difícil manter alta eficiência. É por isso que está disponível apenas para bancos de dados de 10 mil endereços e acima.

Conclusão: com quais resultados você pode contar


Parece lógico, mas com quais resultados você realmente pode contar com a ferramenta de teste proposta? Vejamos um exemplo. É assim que o relatório sobre o uso da função Gestalt para correspondência é exibido: inclui a taxa de abertura final (OR), o resultado relativo ao tópico base e a comparação com os indicadores que seriam alcançados com o teste multivariado usual com a mesma distribuição de cartas por assunto.



Segundo as estatísticas dos clientes do DashaMail, o aumento médio nas taxas de abertura de boletins com testes da Gestalt é de 20%. Com o tempo, a eficácia do uso dessa função aumenta, à medida que o sistema aprende e se lembra a que horas e qual emoção um determinado assinante responde melhor e, como resultado, pode aumentar a taxa de abertura (OR) de correspondências em 1,5 a 2 vezes em comparação com tema básico.

Bem, talvez você tenha uma pergunta: o que o termo “gestalt” tem a ver com isso? .. Não, não fechamos nossa gestalt, mas decidimos desenvolver uma ferramenta para experimentos com o formulário de correspondência. E traduzido do alemão, "gestalt" é uma "forma". Assim, é possível através de experimentos com o formulário chegar a uma lista de discussão ideal.

Para acompanhar as tendências atuais do marketing por e-mail na Rússia, para receber dicas sobre a vida útil e nossos materiais - assine a página do DashaMail no Facebook e leia nosso blog .

Source: https://habr.com/ru/post/pt472560/


All Articles