🙇🏻 👩🏿‍🚒 🆎 Experimentos múltiples: teoría y práctica 👐🏾 🧕🏼 🌌

En el mundo actual, es difícil imaginar el desarrollo de productos sin pruebas A / B. Para lanzar con éxito un producto o una nueva funcionalidad, debe diseñar correctamente A / B, calcular e interpretar sus resultados. A veces necesitamos pruebas para más de dos grupos. En este artículo, consideraremos un caso así: pruebas múltiples:

Hablaremos sobre cuándo y por qué realizar múltiples pruebas;
considerar los principales métodos para calcular los resultados de las pruebas y los principios matemáticos en los que se basan los métodos;
damos ejemplos de la implementación de software de los métodos; Puede usar estos ejemplos en sus proyectos.

Entonces comencemos.

Múltiples experimentos: cuándo y por qué

Obviamente, cualquier complicación técnica del experimento debe justificarse por necesidad práctica. Esto también se aplica a múltiples pruebas. Si la audiencia se divide en más de dos subgrupos, la probabilidad de obtener un error de primer tipo durante el experimento aumenta exponencialmente:

1 - (1 - a l p h a)^{n},

$1 - (1 - \ alpha) ^ n,$

donde

n

$n$ - el número de subgrupos,

a l p h a

$\ alpha$ - un determinado nivel de significación estadística.
Por lo tanto, al agregar solo un subgrupo adicional a la prueba de pares habitual (

n = 3

$n = 3$ ) en un nivel estándar dado

a l p h a = 0.05

$\ alpha = 0.05$ obtenemos la probabilidad de un error de primer tipo

p = 0.14

$p = 0.14$ que excede significativamente nuestro objetivo

a l p h a = 0.05

$\ alpha = 0.05$ .

¿Por qué hacer múltiples experimentos si reducen la precisión de los resultados de la investigación? Puede haber varias razones:

Es necesario probar varios cambios y su efecto acumulativo en las métricas del producto. Un ejemplo es mostrar al usuario en la página de servicio dos elementos nuevos que están ubicados de manera diferente entre sí.
Los cambios solo se pueden probar en un período de tiempo, ya que son interdependientes y sensibles a la estacionalidad semanal. Un ejemplo es deshabilitar los canales publicitarios para calcular el efecto de la canibalización entre canales.
El cliente desea recibir una respuesta lo antes posible y más barata, cuál de las opciones se debe elegir, ahorrando al mismo tiempo el desarrollo y la implementación del experimento.

Si nos enfrentamos a uno de estos problemas y tenemos que calcular la significancia estadística para la prueba, debemos considerar la necesidad de correcciones para pruebas múltiples. Sobre qué es y cómo hacerlo bien, y se discutirá a continuación.

Múltiples experimentos: características de cálculo

Conceptos basicos

Considere el caso general cuando se trata de

n

$n$ hipótesis

H_{0 i}

$H_ {0i}$ ,

i = 1, . . ., n

$i = 1, ..., n$ sobre igualdad de pares de mediana o promedio

m

$m$ subgrupos En este caso, tanto el resultado verdadero como el incorrecto son posibles.

H_{0 i}

$H_ {0i}$

V S

$VS$

H_{1 i}

$H_ {1i}$ para cada uno de

i = 1, . . ., n

$i = 1, ..., n$ hipótesis Presente los resultados como un experimento de matriz de confusión:

$Total$ $k - R$	$R$	$n$
	$H_ {0i}$ no rechazado	$H_ {0i}$ rechazado	$Total$
$H_ {0i}$ cierto	$U$	$V$	$n_0$
$H_ {0i}$ mal	$T$	$S$	$n_1$

Por lo tanto, rechazado incorrectamente

V

$V$ de

R

$R$ rechazó hipótesis básicas.

En base a estos parámetros, presentamos dos conceptos importantes de errores, que se controlan durante las pruebas múltiples:

F W E R

$FWER$ y

F d r

$Fdr$ .

Probabilidad de error grupal

F W E R

$FWER$ (Tasa de error familiar) es la probabilidad de obtener al menos un error del primer tipo y está determinada por la fórmula:

F W E R = p (V > 0) .

$FWER = p (V> 0).$

F d r

$Fdr$ (False Discovery Rate) es la expectativa matemática de la relación de errores del primer tipo al número total de desviaciones de la hipótesis principal:

F D R = E (V / R | R > 0) .

$FDR = E (V / R | R> 0).$

Considere los métodos para controlar estos errores utilizando el ejemplo de un caso de producto estándar.

Descripción del caso

Como un ejemplo simple, considere un experimento en el que a tres grupos de usuarios aislados y disjuntos se les mostraron tres opciones de página con una oferta para hacer clic en el botón de llamada de un anuncio. Como métrica básica para la simplicidad de cálculo, tomamos el número total de llamadas en cada grupo.

Veamos cómo cambió la métrica en estudio:

Fig. 1. El gráfico de la dinámica de presionar el botón de llamada

Usaremos el método estándar

b o o t s t r a p

$bootstrap$ para que la distribución de la métrica objetivo en las muestras sea normal, y observe los histogramas y los gráficos de rango de los valores promedio en las muestras:

Fig. 2. El histograma de la distribución de valores promedio en grupos.

Fig. 3. El rango de valores promedio en grupos

A juzgar por los gráficos, el grupo C gana por el número de clics en el botón de llamada. Sin embargo, es necesario verificar la significación estadística de los resultados. Para hacer esto, llevamos la métrica estimada a la forma de la distribución normal y usamos el criterio t de Student habitual para la comparación por pares de grupos en el experimento, y luego - métodos de control

F W E R

$FWER$ y

F d r

$Fdr$ para tener en cuenta las correcciones para comparaciones múltiples.

Control FWER

Existen muchos métodos para controlar este error, pero dos son los más comunes:

1) procedimiento de un paso con ajuste simultáneo

v a l o r p

$valor p$ para todas las hipótesis probadas utilizando el método Bonferroni;

2) ajuste secuencial e iterativo

v a l o r p

$valor p$ c toma de decisiones en cada paso de acuerdo con el resultado del método Hill.

1. Enmienda de Bonferroni

Este procedimiento de un solo paso reduce la probabilidad de un resultado falso positivo del experimento. La esencia del método es aceptar una hipótesis alternativa si:

p \geq a l p h a / n,

$p ≥ \ alpha / n,$

donde

n

$n$ - el número de hipótesis probadas.

El método puede implementarse simplemente usando la biblioteca estándar

b o o t s t r a p p e d

$bootstrapped$ :

from bootstrapped import bootstrap as bs from bootstrapped import compare_functions as bs_cmp from bootstrapped import stats_functions as bs_st bs_ab_estims = bs.bootstrap_ab(np.array(group_A), np.array(group_B), bs_st.mean bs_cmp.difference, num_iterations=5000, alpha=0.05/3, iteration_batch_size=100, scale_test_by=1, num_threads=4) bs_bc_estims = bs.bootstrap_ab(np.array(group_B), np.array(group_C), bs_st.mean bs_cmp.difference, num_iterations=5000, alpha=0.05/3, iteration_batch_size=100, scale_test_by=1, num_threads=4) bs_ac_estims = bs.bootstrap_ab(np.array(group_A), np.array(group_C), bs_st.mean bs_cmp.difference, num_iterations=5000, alpha=0.05/3, iteration_batch_size=100, scale_test_by=1, num_threads=4)

Una vez obtenidos los resultados de una evaluación estadística, podemos concluir si los grupos difieren o no.

El principal inconveniente del enfoque: cuantos más subgrupos, menor es el poder del criterio, lo que aumenta la probabilidad de aceptar la hipótesis incorrecta. Por ejemplo, para diez pruebas y

α_{i} = 0.05

$α_i = 0.05$ necesita conseguir

p_{i} \leq 510^{-} 3

$p_i ≤ 510 ^ -3$ decir que la diferencia es significativa. Para nivelar estas deficiencias, puede elegir el método Hill.

2. Método de la colina

Este es un procedimiento de cambio secuencial hacia abajo.

v a l o r p

$valor p$ . En el primer paso del algoritmo del método, real

v a l o r p

$valor p$ ordenados ascendentes:

p_{1} \leq \cdot \cdot \cdot \leq p_{n},

$p_1 ≤ ··· ≤ p_n,$

entonces el original

a l p h a

$\ alpha$ -nivel:

a l p h a_{i}^{^{'}} = a l p h a / (n - i + 1),

$\ alpha ^ {’} _ i = \ alpha / (n - i + 1),$

después de lo cual se verifica la condición

p_{i} \geq a l p h a_{i}^{^{'}}

$p_i ≥ \ alpha ^ {’} _ i$ y concluye si la hipótesis principal es verdadera

H_{0 i}

$H_ {0i}$ .

Punto de corte del algoritmo: momento i cuando se acepta la primera hipótesis principal

H_{0 i}

$H_ {0i}$ y todos los posteriores

H_{0 j}, j > i

$H_ {0j}, j> i$ .
Puede implementar este método usando el procedimiento

m u l t i p l e t e s t s ()

$multipletests ()$ de la biblioteca

s t a t s m o d e l s

$statsmodels$ con parámetro

m é t o d o =" h o l m "

$método = "holm"$ :

 from bootstrapped import bootstrap as bs from bootstrapped import stats_functions as bs_st from scipy.stats import ttest_ind from statsmodels.sandbox.stats.multicomp import multipletests bs_a = bs.bootstrap(np.array(group_A), stat_func=bs_st.mean, num_iterations=10000, iteration_batch_size=300, return_distribution=True) bs_b = bs.bootstrap(np.array(group_B), stat_func=bs_st.mean, num_iterations=10000, iteration_batch_size=300, return_distribution=True) bs_c = bs.bootstrap(np.array(group_C), stat_func=bs_st.mean, num_iterations=10000, iteration_batch_size=300, return_distribution=True) stat_ab, p_ab = stats.ttest_ind(pd.DataFrame(bs_a), pd.DataFrame(bs_b)) stat_bc, p_bc = stats.ttest_ind(pd.DataFrame(bs_b), pd.DataFrame(bs_c)) stat_ac, p_ac = stats.ttest_ind(pd.DataFrame(bs_a), pd.DataFrame(bs_c)) print(sorted([p_ab, p_bc, p_ac])) print("FWER: " + str(multipletests(sorted([p_ab, p_bc, p_ac]), alpha=0.05, method='holm', is_sorted = True)))

Control FDR

Control

F d r

$Fdr$ significa que se cumple la condición

F D R = E (V / R) < a l p h a

$FDR = E (V / R) <\ alpha$ . Al mismo tiempo

F D R \leq F W E R

$FDR ≤ FWER$ , es decir, la probabilidad de obtener un error de primer orden en el control

F d r

$Fdr$ en declive

Método Benjamini-Hochberg

Este procedimiento ascendente implica un cambio secuencial.

v a l o r p

$valor p$ pre-ordenado ascendente:

p_{1} \leq \cdot \cdot \cdot \leq p_{n} .

$p_1 ≤ ··· ≤ p_n.$

Entonces fuente

α

$α$ -nivel se ajusta mediante la fórmula:

a l p h a_{i}^{^{'}} = i \cdot a l p h a / n,

$\ alpha ^ {’} _ i = i · \ alpha / n,$

entonces, como en el método Holm, se verifica la condición

p_{i} \geq a l p h a_{i}^{^{'}}

$p_i ≥ \ alpha ^ {’} _ i$ y concluye si la hipótesis principal es verdadera

H_{0 i}

$H_ {0i}$ y todo posterior

H_{0 j}, j > i

$H_ {0j}, j> i$ .

El método Benjamini-Hochberg, así como el método Holm, se pueden implementar utilizando el procedimiento

m u l t i p l e t e s t s ()

$multipletests ()$ :

 print("FDR: " + str(multipletests([p_ab, p_bc, p_ac], alpha=0.05, method='fdr_bh', is_sorted = False)))

Conclusión

En el artículo hablamos sobre los principales métodos para evaluar los resultados de múltiples pruebas y proporcionamos ejemplos de código de programa que implementa estos métodos. Esperamos que haya pasado tiempo con beneficio e interés y pueda poner en práctica los procedimientos descritos. Y si tiene alguna pregunta, estaremos encantados de responderla.

Gracias por su atencion!

Experimentos múltiples: teoría y práctica