Teste A / B não é suficiente
Existe uma opinião comum de que o teste A / B é uma ferramenta semi-automática universal que sempre ajuda a aumentar a conversão, a lealdade e o UX. No entanto, a interpretação incorreta dos resultados ou a amostragem incorreta levam à perda de público leal e à diminuição da margem. Porque A / B baseia-se no pressuposto básico de que esta amostra é homogênea e representativa, escalabilidade de resultados. Na realidade, o público é heterogêneo - lembre-se da distribuição “20/80” para renda. Heterogeneidade significa que a sensibilidade a A / B varia significativamente dentro da amostra.
O agrupamento de público-alvo é um efeito real (regra, não exceção de acordo com Pareto), o que significa a presença de diferentes grupos de perfis psicológicos de clientes em um pool. A avaliação do intervalo de confiança da conversão implica uniformidade. Portanto, a violação desses critérios significa que a precisão dos resultados é incomensurável. Resultado sem precisão é lixo. Cada perfil psicológico único reage com sensibilidade diferente à campanha ou recurso. Assumimos que um perfil é um conjunto exclusivo de recursos. Para simplificar, dois conjuntos de perfis X e Y podem ser considerados. Alguns recursos de vários perfis podem se cruzar - sua namorada também adora café e chocolate. Ilustremos esse efeito na forma de três topologias:

Por padrão, assumimos que cobrimos todos os segmentos de uma só vez - o caso I. Os casos II e III envolvem cenários não triviais. Considere um cenário típico do caso II. A conversão aumentou significativamente - o conjunto Y mostra uma reação positiva, enquanto X deu uma reação negativa e alteração negativa do NPS. O conjunto Y é maior na amostra aleatória sem pesos, portanto o efeito cumulativo é positivo. A conversão aumentou duas vezes. Agora imagine que a verificação média de X é 10 vezes maior e a conversão do segmento X caiu pela metade. Finalmente: aumento da conversão, perda de audiência, declínio do lucro. O problema é agravado por truques intuitivos. Às vezes, os modelos automotivos testam a hipótese no segmento X (Caso III) e tentam generalizar para a união (X + Y). O que está errado? A técnica de amostragem não leva em consideração a segmentação. Soluções?
- Caminho # 1 . Agrupe a audiência usando k-means, outros modelos de ML ou análise de RFM. Você precisa conhecer o hiperparâmetro - o número de grupos como entrada. Sua definição não é trivial. O próximo passo é determinar a conversão individual do segmento. Personalize a campanha - ofereça o script A ou B, dependendo do perfil.
- Caminho # 2 . Meça a margem A / B. Lembre-se de que a margem é o produto da conversão, do tráfego e do preço médio. Os dois últimos parâmetros podem ser corrigidos selecionando uma categoria separada de mercadorias e escolhendo um período de tráfego uniforme - parâmetros lentos. Você pode aumentar a discrição da medição de tráfego (toda segunda-feira durante um mês) para reduzir o componente aleatório.
- Caminho # 3 . Análise de estabilidade. Amostragem com substituição é usada neste caso. Todos os segmentos são considerados. O tamanho da amostra é aumentado gradualmente. A representação log-log do tamanho da amostra de conversão vice fornece a inclinação da regressão (fator Hurst). Ele fornece entendimento da uniformidade e renomeia a estabilidade.
No entanto. Independentemente do caminho escolhido, o público mudará com maior frequência. Isso significa que o teste A / B é um experimento repetido regularmente. Um experimento que deve ser supervisionado por um analista experiente, apesar de um número significativo de soluções automatizadas comerciais. Não esqueça que todos os modelos estão errados, mas alguns são temporariamente úteis ... sob certas condições.
Dedicado ao meu pai que me ensinou que a intuição é tão importante quanto a matemática