Una explicación simple del teorema de Bayes

El teorema de Bayes se describe en detalle en un artículo separado . Este es un trabajo maravilloso, pero tiene 15,000 palabras. La misma traducción de un artículo de Kalid Azad explica brevemente la esencia misma del teorema.

  • La investigación y los resultados de las pruebas no son eventos. Existe un método para diagnosticar el cáncer, pero hay un evento en sí mismo: la presencia de una enfermedad. El algoritmo verifica si el mensaje contiene spam, pero el evento (el spam realmente llegó al correo) debe considerarse por separado del resultado de su trabajo.
  • Hay errores en los resultados de la prueba. A menudo, nuestros métodos de investigación revelan lo que no es (falso positivo), y no revelan lo que es (falso negativo).
  • Con la ayuda de pruebas, obtenemos las probabilidades de un determinado resultado. Con demasiada frecuencia examinamos los resultados de la prueba por nuestra cuenta y no tenemos en cuenta el error del método.
  • Los resultados falsos positivos distorsionan la imagen. Suponga que está tratando de identificar algún fenómeno muy raro (1 caso por cada 1,000,000). Incluso si su método es preciso, lo más probable es que su resultado positivo sea falso positivo.
  • Es más conveniente trabajar con números naturales. Mejor decir: 100 de 10,000, no 1%. Con este enfoque, habrá menos errores, especialmente al multiplicar. Digamos que necesitamos continuar trabajando con este 1%. El razonamiento en porcentaje es torpe: "en el 80% de los casos, el 1% recibió un resultado positivo". La información es mucho más fácil de percibir de la siguiente manera: "en 80 casos de cada 100, se observó un resultado positivo".
  • Incluso en ciencia, cualquier hecho es solo el resultado de aplicar un método. Desde un punto de vista filosófico, un experimento científico es solo una prueba con un error probable. Hay un método que revela una sustancia química o cualquier fenómeno, y hay un evento en sí mismo: la presencia de este fenómeno. Nuestros métodos de prueba pueden dar un resultado falso, y cualquier equipo tiene un error inherente.

El teorema de Bayes convierte los resultados de las pruebas en eventos de probabilidad.

  • Si conocemos la probabilidad de un evento y la probabilidad de resultados falsos positivos y falsos negativos, podemos corregir los errores de medición.
  • El teorema relaciona la probabilidad de un evento con la probabilidad de un determinado resultado. Podemos correlacionar Pr (A | X): la probabilidad del evento A, si se da el resultado X, y Pr (X | A): la probabilidad del resultado X, si se da el evento A.

Entenderemos el método


El artículo al que se hace referencia al comienzo de este ensayo examina el método de diagnóstico (mamografía) que detecta el cáncer de seno. Considere este método en detalle.

  • El 1% de todas las mujeres tienen cáncer de mama (y, en consecuencia, el 99% no)
  • El 80% de las mamografías detectan la enfermedad cuando realmente es (y, en consecuencia, el 20% no la detecta)
  • El 9.6% de los estudios detectan el cáncer cuando no lo es (y, en consecuencia, el 90.4% determina correctamente un resultado negativo)

Ahora hagamos una tabla como esta:


Enfermarse (1%)No te enfermes (99%)
Resultado positivo del método
80%9.6%
Resultado del método negativo
20%
90,4%

¿Cómo trabajar con estos datos?

  • 1% de las mujeres tienen cáncer de seno
  • Si el paciente tiene una enfermedad, mire en la primera columna: hay un 80% de posibilidades de que el método haya dado el resultado correcto y un 20% de probabilidades de que el resultado de la prueba sea incorrecto (falso negativo)
  • Si el paciente no ha sido diagnosticado con una enfermedad, mire la segunda columna. Con una probabilidad del 9.6%, se puede decir que un resultado positivo de la prueba es incorrecto, y con una probabilidad del 90.4% se puede decir que el paciente está realmente sano.

¿Qué tan preciso es el método?


Ahora analizaremos el resultado positivo de la prueba. ¿Cuál es la probabilidad de que una persona esté realmente enferma: 80%, 90%, 1%?

Pensemos:

  • Hay un resultado positivo. Analizaremos todos los resultados posibles: el resultado obtenido puede ser verdadero positivo o falso positivo.
  • La probabilidad de un resultado positivo verdadero es: la probabilidad de enfermarse, multiplicada por la probabilidad de que la prueba realmente revelara la enfermedad. 1% * 80% = .008
  • La probabilidad de un resultado falso positivo es: la probabilidad de que no haya enfermedad, multiplicada por la probabilidad de que el método haya detectado la enfermedad incorrectamente. 99% * 9.6% = .09504

Ahora la tabla se ve así:
Enfermarse (1%)No te enfermes (99%)
Resultado positivo del método
Verdadero positivo:
1% * 80% = .008
Falso positivo:
99% * 9.6% = .09504
Resultado del método negativo
Falso negativo:
1% * 20% = .002
Cierto
negativo:
99% * 90.4% = .89496

¿Cuál es la probabilidad de que una persona esté realmente enferma si se obtiene una mamografía positiva? La probabilidad de un evento es la relación entre el número de resultados posibles de un evento y el número total de todos los resultados posibles.

probabilidad de evento = resultados del evento / todos los resultados posibles

La probabilidad de un verdadero resultado positivo es .008. La probabilidad de un resultado positivo es la probabilidad de un resultado positivo verdadero + la probabilidad de un falso positivo.

(.008 + 0.09504 = .10304)

Entonces, la probabilidad de una enfermedad con un resultado positivo del estudio se calcula de la siguiente manera: .008 / .10304 = 0.0776. Este valor es de aproximadamente 7.8%.

Es decir, un resultado positivo de una mamografía significa solo que la probabilidad de tener una enfermedad es del 7,8% y no del 80% (el último valor es solo la precisión estimada del método). Al principio, este resultado parece incomprensible y extraño, pero debe tenerse en cuenta: el método da un resultado falso positivo en el 9.6% de los casos (y esto es bastante), por lo que habrá muchos resultados falsos positivos en la muestra. Para una enfermedad rara, los resultados más positivos serán falsos positivos.

Repasemos la tabla e intentemos comprender el significado del teorema intuitivamente. Si tenemos 100 personas, solo una de ellas tiene una enfermedad (1%). Esta persona tiene una probabilidad del 80% de que el método dé un resultado positivo. Del 99% restante, el 10% tendrá resultados positivos, lo que nos da, en términos generales, 10 de 100 resultados falsos positivos.Si consideramos todos los resultados positivos, solo 1 de 11 será correcto. Por lo tanto, si se obtiene un resultado positivo, la probabilidad de la enfermedad es 1/11.

Arriba, calculamos que esta probabilidad es 7.8%, es decir el número está realmente más cerca de 1/13, pero aquí, usando un razonamiento simple, pudimos encontrar una estimación aproximada sin una calculadora.

Teorema de Bayes


Ahora describimos el curso de nuestros pensamientos con una fórmula llamada teorema de Bayes. Este teorema nos permite corregir los resultados del estudio de acuerdo con la distorsión introducida por los resultados falsos positivos:

Pr(A|X)= fracPr(X|A)Pr(A)Pr(X|A)Pr(A)+Pr(X|noA)Pr(noA)


  • Pr (A | X) = probabilidad de enfermedad (A) con un resultado positivo (X). Esto es exactamente lo que queremos saber: cuál es la probabilidad del evento en caso de un resultado positivo. En nuestro ejemplo, es 7.8%.
  • Pr (X | A) = probabilidad de un resultado positivo (X) cuando el paciente está realmente enfermo (A). En nuestro caso, este es el verdadero valor positivo: 80%
  • Pr (A) = posibilidad de enfermarse (1%)
  • Pr (no A) = probabilidad de no enfermarse (99%)
  • Pr (X | no A) = probabilidad de un resultado positivo para el estudio si no hay enfermedad. Este valor es falso positivo: 9.6%.

Podemos concluir: para obtener la probabilidad de un evento, debe dividir la probabilidad de un resultado positivo verdadero por la probabilidad de todos los resultados positivos. Ahora podemos simplificar la ecuación:

Pr(A|X)= fracPr(X|A)Pr(A)Pr(X)


Pr (X) es la constante de normalización. Ella nos sirvió bien: sin ella, un resultado positivo de la prueba nos daría un 80% de posibilidades de un evento.
Pr (X) es la probabilidad de cualquier resultado positivo, ya sea un resultado positivo real en el estudio de pacientes (1%) o falso positivo en el estudio de personas sanas (99%).

En nuestro ejemplo, Pr (X) es un número bastante grande, porque la probabilidad de resultados falsos positivos es alta.

Pr (X) produce un resultado del 7,8%, que a primera vista parece contrario al sentido común.

El significado del teorema


Realizamos pruebas para descubrir el verdadero estado de las cosas. Si nuestras pruebas son perfectas y precisas, entonces las probabilidades de las pruebas y las probabilidades de los eventos coinciden. Todos los resultados positivos serán verdaderamente positivos y negativos serán negativos. Pero vivimos en el mundo real. Y en nuestro mundo, las pruebas dan resultados incorrectos. El teorema de Bayes tiene en cuenta los resultados distorsionados, corrige errores, recrea a toda la población y encuentra la probabilidad de un verdadero resultado positivo.

Filtro de spam


El teorema de Bayes se aplica con éxito en los filtros de spam.

Tenemos:

  • evento A - en un correo electrónico no deseado
  • resultado de la prueba: el contenido en la letra de ciertas palabras:

Pr(spam|palabras)= fracPr(palabras|spam)Pr(spam)Pr(palabras)


El filtro tiene en cuenta los resultados de la prueba (el contenido de ciertas palabras en la carta) y predice si la carta contiene spam. Todos entienden que, por ejemplo, la palabra "viagra" es más común en el correo no deseado que en las cartas normales.

El filtro de spam de la lista negra tiene sus inconvenientes: a menudo produce resultados falsos positivos.

Un filtro de spam basado en el teorema bayesiano utiliza un enfoque equilibrado y razonable: funciona con probabilidades. Cuando analizamos las palabras en una carta, podemos calcular la probabilidad de que la carta sea spam y no tomar decisiones sobre el tipo de "sí / no". Si la probabilidad de que el mensaje contenga spam es del 99%, entonces el mensaje realmente lo es.

Con el tiempo, el filtro se entrena en una muestra más grande y actualiza las probabilidades. Entonces, los filtros avanzados basados ​​en el teorema bayesiano verifican muchas palabras seguidas y las usan como datos.

Fuentes adicionales:

Source: https://habr.com/ru/post/es408775/


All Articles