Hola habrovsk Mañana lanzaremos el curso "Product Manager de proyectos de TI" . En previsión del comienzo del curso, nos apresuramos a compartir con ustedes la experiencia de nuestros maestros existentes.
Una de las herramientas más populares del gerente de producto son las pruebas A / B, y el
próximo seminario web en OTUS se dedicó a este tema. Tres expertos participaron al mismo tiempo:
Sergey Koloskov - Gerente de producto en OZON.
Alexander Povarov - Gerente de producto en TransferWise.
Andrey Mende - Propietario del producto en Booking.com.
La discusión resultó ser sustantiva y candente. Discutido:
- ¿En qué casos es mejor usar pruebas A / B?
- ¿Cómo definir métricas e interpretar correctamente los resultados?
- ¿Cómo puedo dañar las pruebas A / B?
- ¿Cuáles pueden ser alternativas a las pruebas A / B?
- ¿Qué es mejor realizar pruebas?
- casos de fintech, comercio electrónico y mercados.
Curiosamente, realmente acordaron los límites de aplicación de las pruebas A / B. Pero hablemos de todo en orden.
¿Qué son las pruebas A / B?
Las pruebas A / B son un método bien conocido de investigación de mercado. En términos simples, dividimos a la audiencia en el sitio en algunas cohortes iguales o desiguales y realizamos un cambio / mejora en el sitio, como resultado de lo cual descubrimos qué páginas resuelve de manera más efectiva las tareas de la empresa y el producto en su conjunto. Verificamos en el marco de una prueba no más de una hipótesis (máximo dos).
Ejemplo real de prueba A / B para OZON:
En este ejemplo, desplegamos el botón de compra con un clic para algunas categorías de productos. Durante el experimento, analizaron las métricas y los embudos, probando la hipótesis sobre si sería mejor para los usuarios usar el script con un solo clic, sin "caer" la "Papelera", es decir, sin hacer gestos innecesarios. Las categorías de productos no se eligieron al azar: se trataba de productos que, según las estadísticas, con mayor frecuencia se compran con un solo producto.

Como regla general, durante las pruebas A / B, analizamos las
métricas , entre las cuales:
- conversiones (participación de acciones clave);
- indicadores financieros (crecimiento de GMV, ingresos, factura promedio);
- métricas de comportamiento (clics, transiciones).
Aquí está el tablero real en OZON para mayor claridad:

Tenga en cuenta que es posible personalizar
segmentos , lo que también es importante para las pruebas A / B, porque podemos ver qué audiencia se ve afectada por una mejora particular. Supongamos que estos pueden ser usuarios de Moscú de 35 a 50 años con un control promedio de más de 2500 rublos y un niño en la familia.
Uso de pruebas A / B en Booking.com (Andrey Mende)
Según Andrei Mende , dentro de Booking.com existe la firme creencia de que la compañía logró su éxito a través de las pruebas. Esto incluye pruebas A / B, sin las cuales
casi nada se está haciendo en Booking.com ahora. El número de versiones disponibles simultáneamente de Booking.com es muy grande, y las pruebas A / B son diferentes, y casi todo se prueba con respecto al producto, y cualquier cambio se realiza solo después de las pruebas A / B. Por cierto, este enfoque ayudó a evitar tantas tonterías.

Pero hay otro lado de la moneda: las estadísticas a largo plazo de Booking.com sugieren que el
90% de las hipótesis fallan de acuerdo con los resultados de la prueba . Y esto es realmente bueno, ya que le permite estar seguro del 10% restante. Sin embargo, no debes probar todas las hipótesis seguidas, jugando en una especie de lotería, porque gastas tiempo y dinero en desarrollar y probar cualquier hipótesis.
Analicemos un caso curioso: por ejemplo, en el sitio hay una
búsqueda de lista
y una búsqueda de mapa . Según las estadísticas, los usuarios que buscan por mapa tienen una tasa de conversión más alta. Esto fue notado por el producto "inteligente", que no dejó de aprovechar. Comenzó a enviar visitantes a las tarjetas de varias maneras, a veces incluso insidiosas. Por ejemplo, los usuarios provienen de una búsqueda - se encuentran en un mapa, comparan algo, - nuevamente, el botón "Mostrar en el mapa" se muestra útilmente, etc. Se dedicó mucho tiempo a la innovación, pero el
resultado fue cero . Y si el usuario no acudió a las tarjetas por iniciativa propia, nada funcionó.
Muy a menudo empeora, nunca mejora . Y todo porque tenemos un gran ejemplo de
sesgo de
selección (muestreo sesgado):

Aquí puede recordar la
famosa historia sobre los aviones , algunos de los cuales regresaron a la base, mientras que otros no. Los agujeros en su caja fueron estudiados para comprender dónde se necesitaba más armadura. Estamos hablando del llamado
error de selección sistemática cuando hay muchos datos para un grupo ("sobrevivientes") y prácticamente no hay datos para el otro ("sobrevivientes"), como resultado de lo cual los investigadores están tratando de buscar características comunes entre los "sobrevivientes" y se pasan por alto que no menos información importante se esconde entre los "muertos".
La situación es similar con nosotros: estudiamos a las personas que llegaron a la etapa de reserva en Booking.com a través de tarjetas, pero no estudiamos a las personas que no llegaron a esta etapa. Como resultado, se sacaron conclusiones falsas.
Sigamos adelante. ¿Qué es una cultura súper útil en la que las pruebas A / B juegan un papel importante?

Las ventajas de las pruebas A / B son obvias:
- En primer lugar, se prueban muchas cosas y hay una base de conocimiento adecuada. Si se te ocurre una idea "brillante", puedes descubrir en 15 segundos que tu idea brillante ya se le ocurrió a uno de los productos hace dos años, además, logró probarla y falló miserablemente. ¿Cómo no recordar los clásicos?
"Escucha lo que rocié anoche con la luz parpadeante de una lámpara eléctrica:" Recuerdo un momento maravilloso, apareciste ante mí, como una visión fugaz, como un genio de pura belleza ". Muy bueno? Talentoso? Y solo al amanecer, cuando se agregaron las últimas líneas, recordé que este verso ya fue escrito por A. Pushkin. ¡Qué golpe del lado del clásico! ¿Eh?
Una cita de Ostap Bender de la novela El becerro de oro, I. Ilf, E. Petrov
- En segundo lugar, es cómodo trabajar en una cultura así, ya que casi no hay competencia de opiniones. Las soluciones de productos, como dicen, cristalizan, incluso a través de pruebas. Y no importa quién sea usted, senior o junior , siempre que no tenga una buena prueba, no implementará ningún cambio.
- En tercer lugar, el aprendizaje automático y los algoritmos de máquina inteligente son muy populares ahora. Y el aprendizaje automático y las pruebas A / B son solo una mezcla explosiva que determinará el desarrollo del producto en un futuro muy cercano.
Una mirada diferente a las pruebas A / B de las startups (Alexander Povarov)
Según Alexander Povarov , el éxito de Booking.com es, por supuesto, encomiable. Pero si hablamos de pruebas de calidad, requerirán muchos datos. Booking.com tiene una gran audiencia y la capacidad de experimentar con muchas cosas a la vez. Si hablamos de algún proyecto de tamaño mediano, muy a menudo los datos y el tráfico no son suficientes en dichos proyectos. Si el tráfico es más alto que el techo, entonces esto no es una panacea, porque el usuario puede visitar su sitio para resolver varios casos de usuarios, lo que está relacionado con los detalles del producto. Si se trata de un banco de Internet, alguien viene a pagar el teléfono y alguien mira el estado de cuenta. Y así sucesivamente. Además, a menudo prueba con una prueba A / B solo una acción del usuario.
Para hacer una breve conclusión, las pruebas A / B tienen las siguientes
limitaciones :
- requieren muchos datos;
- Adecuado solo para casos de usuarios homogéneos;
- centrado en un paso (clic).
El siguiente punto: las
pruebas A / B no proporcionan un crecimiento múltiple :
- aumento de conversión de 1 pp (por ejemplo, 1% → 2%);
- incluso después de 30 iteraciones no crecen 1% → 31%;
- los embudos vecinos probablemente se deterioren;
- la conversión mejorará, pero en un solo paso.
Si estamos hablando de un producto complejo, entonces jugando con pruebas A / B,
es probable que conecte embudos vecinos y la conversión a ellos pueda caer. El ejemplo más común es cuando se venden varias funciones en la página de promoción de un servicio grande. Destacando uno, la conversión a los demás seguramente pasará. Pero incluso si todo va bien, comenzará un historial de interacción con un usuario que usa su producto todos los días y esta conversión, que de alguna manera mejoró, no tiene ningún efecto.
Por lo tanto, según Alexander Povarov, es mejor usar el recurso de los gerentes de producto
para hacer crecer el producto varias veces . Idealmente, debe buscar esos puntos de crecimiento del producto que ayudarán a crecer en decenas de por ciento.
A qué puede dirigir su energía para:
- mejora de la experiencia del usuario;
- creación de valor adicional;
- mejorando la economía de la unidad;
- buscar nuevos productos / modelos de negocio.
Podemos decir con confianza que la
característica del
producto es muchas veces mejor que la optimización de aterrizaje . Por ejemplo,
Yandex.Money lanzó tarjetas de plástico de colores, que son muy geniales y con una capa transparente. Simplemente se lanzaron y la gente respondió con gran demanda, porque simplemente querían esas tarjetas para sí mismas. Y no se necesita prueba A / B. Es decir, el embudo de salida ha crecido y ahora está en un nivel mucho más alto, ¡y el producto en sí mismo como servicio financiero no ha cambiado en absoluto!

Sí, no todas las funciones de comestibles darán un aumento del diez por ciento. Por otro lado, ninguna mejora en las pruebas A / B producirá un crecimiento múltiple.
Y una cosa más: una
nueva audiencia dará más que una mejora en la conversión . Para comprender mejor este punto, demos un ejemplo de un caso real para TransferWise:

En la imagen de arriba vemos la forma de pago, a la cual un gerente de producto experimentado puede tener preguntas. Y, muy probablemente, tendrá razón, porque con la ayuda de las pruebas A / B, es posible hacer que este formulario sea más agradable en unas pocas iteraciones e incluso aumentar la conversión, por ejemplo, seis meses después.
Sin embargo, TransferWise ha tomado el camino de encontrar puntos de crecimiento del producto. A continuación se muestra un gráfico donde se fija el indicador MNU: la cantidad de nuevos usuarios que se unen:

¿Cuál es la razón del crecimiento? El hecho es que la compañía se dedica a transferencias de dinero, y para uno de los países no había soporte para pagos con tarjeta, pero se observó tráfico desde allí. Después de agregar la capacidad de admitir mapas para este país, recibimos más información y aumentamos nuestra base de usuarios activos. Y nuestra
forma de pago lejos de ser óptima ha permanecido no óptima . De todos modos, nunca hubiéramos logrado tal crecimiento si hubiéramos pasado medio año optimizando la forma de pago.
Esto sugiere una vez más que es igualmente importante concentrarse en el
crecimiento esencial del producto , es decir, en las cosas que cambian su producto, trayendo nuevos usuarios.
Entonces, ¿necesitas pruebas A / B o no?

Después de que los conferenciantes hablaron, llegó el momento de una discusión animada, que es mejor ver en
vivo . Lo resumiremos de inmediato.
Características y límites de aplicación de las pruebas A / B:- gran audiencia (DAU, MAU);
- no más de una (máximo dos) hipótesis en la prueba;
- éxito del producto en el 10% de las pruebas al nivel de crecimiento de un punto porcentual y la falta de resultados en el 90% de las pruebas;
- influencia limitada en estas métricas de métricas comerciales;
- inaplicabilidad para productos B2B y aplicabilidad limitada para productos fintech (donde cada clic en la cuenta).
Al mismo tiempo, por supuesto, la prueba dividida es la respuesta más transparente a cualquier pregunta y la oportunidad de no recurrir a la intuición y no pensar por el usuario. Además, las pruebas A / B también son un buen amigo, en base al cual puede obtener información sobre los productos existentes. Y también, gracias a la prueba A / B, se mejoran las métricas del producto y NPS, por lo que se recomienda usar siempre pruebas si es económico y si estamos buscando puntos de crecimiento en productos existentes.
Pero aún así, las pruebas A / B tienen más que ver con exprimir al máximo el modelo y producto comercial actual.
¿Y dónde buscar crecimiento de productos y negocios (Sergey Koloskov)?Está en CustDev, analizando a los competidores (a través de la misma Web similar), analizando su producto (cuando analiza embudos clave y métricas relacionadas donde se buscan y localizan los conocimientos), análisis de mercado y diseño de escenarios de usuario (CJM, donde puede ver qué agrada, y lo que molesta al usuario).
Por ejemplo, una de las decisiones elegantes tomadas una vez en OZON después de analizar competidores y realizar sesiones de entrevistas y diseñar escenarios de usuarios es el intercambio
de tecnología . La idea no es nueva, pero ofrece nuevos puntos de crecimiento empresarial. Y, de hecho, ¿qué pasaría si su novia quisiera un nuevo iPhone, mientras que la versión anterior, comprada, por cierto, también por su dinero duramente ganado, aún no estaba cubierta de polvo? La solución es simple: obtenga un descuento sustancial en el nuevo iPhone, devolviendo el anterior. Para hacer esto, ni siquiera necesita salir de la casa:

Son los productos que dan crecimiento al negocio los que se convierten en la base del trabajo de un gerente de producto. Es el trabajo que le da dinero a la empresa que el producto debe ser la primera prioridad. Esto siempre debe ser recordado.
Quizás en esta nota positiva y final. Si el tema es interesante,
mira el video completo . Al mismo tiempo, verá casos adicionales y otros detalles.
Y nos vemos en el curso !