Prós e contras dos testes A / B: experiência de grandes empresas

Olá, Habrovsk. Amanhã lançaremos o curso “Gerente de Produto de Projetos de TI” . Antecipando o início do curso, nos apressamos em compartilhar com você a experiência de nossos professores existentes.




Uma das ferramentas mais populares do gerente de produtos são os testes A / B, e o próximo seminário on-line no OTUS foi dedicado a este tópico. Três especialistas participaram de uma vez:

Sergey Koloskov - Gerente de Produto da OZON.
Alexander Povarov - Gerente de Produto da TransferWise.
Andrey Mende - Product Owner na Booking.com.

A discussão acabou sendo substantiva e quente. Discutido:

  • Em que casos é melhor usar testes A / B?
  • Como definir métricas e interpretar corretamente os resultados?
  • Como posso prejudicar os testes A / B?
  • Quais podem ser alternativas aos testes A / B?
  • o que é melhor para realizar testes?
  • casos de fintech, comércio eletrônico e mercados.

Curiosamente, eles realmente concordaram com os limites de aplicação dos testes A / B. Mas vamos falar sobre tudo em ordem.

O que são testes A / B?


O teste A / B é um método bem conhecido de pesquisa de marketing. Em termos simples, dividimos o público no site em algumas coortes iguais ou desiguais e realizamos uma alteração / aprimoramento no site, como resultado do qual descobrimos qual das páginas resolve com mais eficácia as tarefas da empresa e do produto como um todo. Verificamos na estrutura de um teste não mais que uma hipótese (máximo dois).

Exemplo real de teste A / B para OZON:



Neste exemplo, lançamos o botão de compra com um clique para algumas categorias de produtos. Durante o experimento, eles analisaram métricas e funis, testando a hipótese sobre se seria melhor para os usuários usar o script em um clique, sem "cair" no "Lixo", ou seja, sem fazer gestos desnecessários. As categorias de produtos não foram escolhidas aleatoriamente - tratava-se de produtos que, segundo as estatísticas, costumam ser comprados com apenas um produto.



Como regra, durante os testes A / B, analisamos as métricas , entre as quais:

  • conversões (compartilhamento de ações principais);
  • indicadores financeiros (crescimento da GMV, receita, fatura média);
  • métricas comportamentais (cliques, transições).

Aqui está o painel real no OZON para maior clareza:



Observe que é possível personalizar segmentos , o que também é importante para o teste A / B, porque podemos ver qual público é afetado por uma melhoria específica. Suponha que possam ser usuários de Moscou com idades entre 35 e 50 anos com uma verificação média de mais de 2500 rublos e uma criança na família.

Usando testes A / B na Booking.com (Andrey Mende)


De acordo com Andrei Mende , dentro da Booking.com existe uma firme convicção de que a empresa alcançou seu sucesso através de testes. Isso inclui testes A / B, sem os quais quase nada está sendo feito no Booking.com agora. O número de versões disponíveis simultaneamente do site Booking.com é muito grande, e os testes A / B são diferentes aqui, e quase tudo relacionado ao produto é testado, e quaisquer alterações são feitas somente após os testes A / B. A propósito, essa abordagem ajudou a evitar tantas bobagens.



Mas há outro lado da moeda: as estatísticas de longo prazo da Booking.com sugerem que 90% das hipóteses falham de acordo com os resultados do teste . E isso é realmente bom, pois permite ter certeza dos 10% restantes. No entanto, você não deve tentar todas as hipóteses seguidas, jogando em uma espécie de loteria, porque gasta tempo e dinheiro desenvolvendo e testando qualquer hipótese.

Vamos analisar um caso curioso: por exemplo, no site há uma pesquisa de lista e uma pesquisa de mapa . Segundo as estatísticas, os usuários que pesquisam por mapa têm uma taxa de conversão mais alta. Isso foi observado pelo produto "inteligente", que não deixou de tirar vantagem. Ele começou a enviar visitantes para cartões de várias maneiras, às vezes até insidiosas. Por exemplo, os usuários vêm de uma pesquisa - encontram-se em um mapa, comparam algo -, novamente, o botão "Mostrar no mapa" é exibido com presteza, etc. Muito tempo foi gasto com a inovação, mas o resultado foi zero . E se o usuário não comparecesse às cartas por sua própria iniciativa, nada funcionaria. Muitas vezes, piora, nunca melhora . E tudo porque temos um ótimo exemplo de viés de seleção (amostragem tendenciosa):



Aqui você pode se lembrar da famosa história sobre aviões , alguns dos quais retornaram à base, enquanto outros não. Os buracos no estojo foram estudados para entender onde mais armaduras eram necessárias. Esse é o chamado erro de seleção sistemática quando há muitos dados para um grupo (“sobreviventes”) e praticamente nenhum dado para o outro (“morto”), como resultado dos quais os pesquisadores estão tentando procurar por características comuns entre os “sobreviventes” e são negligenciados que nenhuma informação menos importante está escondida entre os "mortos".

A situação é semelhante a nós: estudamos pessoas que atingiram o estágio de reserva no Booking.com por meio de cartões, mas não estudamos pessoas que não atingiram esse estágio. Como resultado, foram tiradas conclusões falsas.

Vamos seguir em frente. O que é uma cultura super útil na qual os testes A / B desempenham um papel importante:



As vantagens dos testes A / B são óbvias:

  1. Em primeiro lugar, muitas coisas são testadas e existe uma base de conhecimento apropriada. Se uma idéia "brilhante" chegar até você, você poderá descobrir em 15 segundos que sua idéia brilhante já ocorreu a um dos produtos há dois anos, além disso, ele conseguiu testá-la e falhou miseravelmente. Como não lembrar os clássicos:
    “Ouça o que pulverizei ontem à noite com a luz tremeluzente de uma lâmpada elétrica:“ Lembro-me de um momento maravilhoso, você apareceu diante de mim, como uma visão fugaz, como um gênio de pura beleza. ” Realmente bom? Talentoso? E somente ao amanhecer, quando as últimas linhas foram adicionadas, lembrei-me de que esse versículo já havia sido escrito por A. Pushkin. Um golpe do lado do clássico! Hein? "

    Umas citações de Ostap Bender da novela O bezerro de ouro, I. Ilf, E. Petrov
  2. Em segundo lugar, é confortável trabalhar em tal cultura, já que quase não há competição de opiniões. As soluções de produtos, como se costuma dizer, se cristalizam, inclusive através de testes. E não importa quem você é, sénior ou secundário - desde que não tenha um bom teste, você não fará nenhuma alteração.
  3. Em terceiro lugar, o aprendizado de máquina e os algoritmos de máquina inteligente são muito populares agora. E o aprendizado de máquina e os testes A / B são apenas uma mistura explosiva que determinará o desenvolvimento do produto em um futuro próximo.

Uma visão diferente dos testes A / B das startups (Alexander Povarov)


Segundo Alexander Povarov , o sucesso da Booking.com é, obviamente, louvável. Mas se estamos falando de testes de qualidade, eles exigirão muitos dados. A Booking.com tem um grande público e a capacidade de experimentar muitas coisas ao mesmo tempo. Se estamos falando de algum projeto de tamanho médio, muitas vezes dados e tráfego não são suficientes nesses projetos. Se o tráfego for maior que o teto, isso não é uma panacéia, porque o usuário pode acessar seu site para resolver vários casos de usuários, relacionados às especificidades do produto. Se este é um banco da Internet, alguém vem pagar pelo telefone e alguém olha o extrato. E assim por diante Além disso, você costuma testar com um teste A / B, apenas uma ação do usuário.

Para fazer uma breve conclusão, o teste A / B tem as seguintes limitações :

  • requer muitos dados;
  • Adequado apenas para casos de usuário homogêneos;
  • focado em uma etapa (clique).

O próximo ponto - o teste A / B não fornece crescimento múltiplo :

  • aumento de conversão de 1 pp (por exemplo, 1% → 2%);
  • mesmo após 30 iterações não crescem 1% → 31%;
  • é provável que os funis vizinhos se deteriorem;
  • a conversão melhorará, mas em uma única etapa.

Se estivermos falando de um produto complexo, depois de jogar com testes A / B, é provável que você conecte funis vizinhos e a conversão para eles poderá cair. O exemplo mais comum é quando vários recursos são vendidos na página promocional de um serviço grande. Destacando um, a conversão para os outros certamente passará. Mas mesmo que tudo corra bem, você começará um histórico de interação com um usuário que usa seu produto todos os dias e toda a conversão que você melhorou de alguma forma não afeta em nada.

Portanto, de acordo com Alexander Povarov, é melhor usar o recurso dos gerentes de produto para aumentar o produto várias vezes . Idealmente, você deve procurar esses pontos de crescimento do produto que ajudarão a crescer dezenas de por cento.

Para o qual você pode direcionar sua energia:

  • melhoria da experiência do usuário;
  • criação de valor adicional;
  • melhorar a economia unitária;
  • procure novos produtos / modelos de negócios.

Podemos dizer com confiança que o recurso do produto é muitas vezes melhor que a otimização de pouso . Por exemplo, o Yandex.Money lançou cartões plásticos coloridos, muito legais e com uma camada transparente. Eles simplesmente se lançaram e as pessoas responderam com alta demanda, porque simplesmente queriam tais cartões para si. E nenhum teste A / B é necessário. Ou seja, o funil de saída cresceu e agora está em um nível muito mais alto, e o próprio produto como serviço financeiro não mudou nada!



Sim, nem todos os recursos de compras proporcionam um aumento de dezenas de por cento. Por outro lado, nenhuma melhoria nos testes A / B produzirá crescimento múltiplo.

E mais uma coisa: uma nova audiência dará mais do que uma melhoria na conversão . Para entender melhor esse ponto, vamos dar um exemplo de caso real para o TransferWise:



Na figura acima, vemos a forma de pagamento, para a qual um gerente de produto experiente pode ter dúvidas. E, provavelmente, ele estará certo, porque com a ajuda dos testes A / B, é possível tornar esse formulário mais agradável e até aumentar a conversão, digamos, seis meses depois, com várias iterações.

No entanto, a TransferWise seguiu o caminho de encontrar pontos de crescimento do produto. Abaixo está um gráfico em que o indicador MNU é fixo - o número de novos usuários ingressando:



Qual a razão do crescimento? O fato é que a empresa está envolvida em transferências de dinheiro e, para um dos países, não havia suporte para pagamentos com cartão, mas havia tráfego a partir daí. Depois de adicionar a capacidade de oferecer suporte a mapas para esse país, recebemos mais informações e aumentamos nossa base de usuários ativos. E nossa forma de pagamento longe do ideal permaneceu não ideal . De qualquer forma, nunca teríamos alcançado esse crescimento se passássemos meio ano otimizando a forma de pagamento.

Isso sugere mais uma vez que é igualmente importante se concentrar no crescimento essencial do produto , ou seja, nas coisas que mudam seu produto, trazendo novos usuários.

Então você precisa de testes A / B ou não?




Depois que os palestrantes falaram, chegou a hora de uma animada discussão, que é melhor assistir ao vivo . Vamos resumir imediatamente.

Recursos e limites de aplicação dos testes A / B:

  1. grande público (DAU, MAU);
  2. não mais que uma (no máximo duas) hipóteses no teste;
  3. sucesso do produto em 10% dos testes no nível de crescimento de um ponto percentual e falta de resultados em 90% dos testes;
  4. influência limitada nessas métricas de métricas de negócios;
  5. inaplicabilidade para produtos B2B e aplicabilidade limitada para produtos fintech (onde cada clique na conta).

Ao mesmo tempo, é claro, o teste dividido é a resposta mais transparente a qualquer pergunta e a oportunidade de não recorrer à intuição e não pensar no usuário. Além disso, os testes A / B também são bons amigos, com base nos quais você pode obter informações sobre produtos existentes. Além disso, graças ao teste A / B, as métricas do produto e o NPS são aprimorados, portanto, é recomendável sempre usar testes se for barato e se estivermos procurando pontos de crescimento nos produtos existentes. Ainda assim, os testes A / B têm mais a ver com extrair o máximo do modelo e produto de negócios atual.


E onde procurar crescimento de produtos e negócios (Sergey Koloskov)?

Ele está no CustDev, analisando concorrentes (através da mesma Web semelhante), analisando seu produto (ao analisar funis-chave e métricas relacionadas onde as informações são pesquisadas e localizadas), análises de mercado e projetar cenários de usuário (CJM, onde você pode ver o que agrada, e o que perturba o usuário).

Por exemplo, uma das decisões elegantes tomadas uma vez na OZON depois de analisar concorrentes e conduzir sessões de entrevista e projetar cenários de usuário é a troca de tecnologia . A ideia não é nova, mas dá novos pontos de crescimento nos negócios. E, de fato, e se sua namorada quisesse um novo iPhone, enquanto a versão anterior, comprada, a propósito, também pelo seu dinheiro suado, ainda não estava coberta de poeira? A solução é simples - obtenha um desconto substancial no novo iPhone, devolvendo o antigo. Para fazer isso, você nem precisa sair de casa:



São os produtos que dão crescimento aos negócios que se tornam a base do trabalho de um gerente de produtos. É o trabalho que traz para a empresa o dinheiro que o produto deve ser a primeira prioridade. Isso sempre deve ser lembrado.

Talvez nesta nota positiva e final. Se o tópico for interessante, assista ao vídeo completo . Ao mesmo tempo, você verá casos adicionais e outros detalhes.

E até o curso !

Source: https://habr.com/ru/post/pt481936/


All Articles