Uma explicação simples do teorema de Bayes

O teorema de Bayes é descrito em detalhes em um artigo separado . Este é um trabalho maravilhoso, mas possui 15.000 palavras. A mesma tradução de um artigo de Kalid Azad explica brevemente a própria essência do teorema.

  • Os resultados de pesquisas e testes não são eventos. Existe um método para diagnosticar câncer, mas há um evento em si - a presença de uma doença. O algoritmo verifica se a mensagem contém spam, mas o evento (o spam chegou ao correio) deve ser considerado separadamente do resultado do seu trabalho.
  • Há erros nos resultados do teste. Muitas vezes, nossos métodos de pesquisa revelam o que não é (falso positivo) e não revelam o que é (falso negativo).
  • Através de testes, obtemos as probabilidades de um determinado resultado. Frequentemente examinamos os resultados do teste por conta própria e não levamos em conta o erro do método.
  • Resultados falso-positivos distorcem a imagem. Suponha que você esteja tentando identificar um fenômeno muito raro (1 caso por 1.000.000). Mesmo que seu método seja preciso, provavelmente o resultado positivo será falso positivo.
  • É mais conveniente trabalhar com números naturais. Melhor dizer: 100 de 10.000, não 1%. Com essa abordagem, haverá menos erros, especialmente ao multiplicar. Digamos que precisamos continuar trabalhando com esse 1%. O raciocínio em porcentagem é desajeitado: "em 80% dos casos, 1% recebeu um resultado positivo". A informação é muito mais facilmente percebida da seguinte forma: "em 80 casos em 100, foi observado um resultado positivo".
  • Mesmo na ciência, qualquer fato é apenas o resultado da aplicação de um método. Do ponto de vista filosófico, um experimento científico é apenas um teste com um provável erro. Existe um método que revela uma substância química ou qualquer fenômeno, e há um evento em si - a presença desse fenômeno. Nossos métodos de teste podem dar um resultado falso e qualquer equipamento possui um erro inerente.

O teorema de Bayes transforma os resultados dos testes em eventos de probabilidade.

  • Se soubermos a probabilidade de um evento e a probabilidade de resultados falso-positivos e falso-negativos, podemos corrigir os erros de medição.
  • O teorema relaciona a probabilidade de um evento com a probabilidade de um determinado resultado. Podemos correlacionar Pr (A | X): a probabilidade do evento A, se o resultado X for dado, e Pr (X | A): a probabilidade do resultado X, se o evento A for dado.

Vamos entender o método


O artigo mencionado no início deste ensaio examina o método de diagnóstico (mamografia) que detecta o câncer de mama. Considere esse método em detalhes.

  • 1% de todas as mulheres têm câncer de mama (e, consequentemente, 99% não)
  • 80% das mamografias detectam a doença quando realmente é (e, consequentemente, 20% não a detectam)
  • 9,6% dos estudos detectam câncer quando não o é (e, consequentemente, 90,4% determinam corretamente um resultado negativo)

Agora vamos fazer uma tabela como esta:


Ficar doente (1%)Não fique doente (99%)
Resultado positivo do método
80%9,6%
Resultado do método negativo
20%
90,4%

Como trabalhar com esses dados?

  • 1% das mulheres têm câncer de mama
  • se o paciente tiver uma doença, procure na primeira coluna: há uma probabilidade de 80% de que o método deu o resultado correto e uma probabilidade de 20% de que o resultado do estudo esteja incorreto (falso negativo)
  • se o paciente não foi diagnosticado com uma doença, olhe para a segunda coluna. Com uma probabilidade de 9,6%, pode-se dizer que um resultado positivo é incorreto, e com uma probabilidade de 90,4%, pode-se dizer que o paciente é realmente saudável.

Qual é a precisão do método?


Agora vamos analisar o resultado do teste positivo. Qual é a probabilidade de uma pessoa estar realmente doente: 80%, 90%, 1%?

Vamos pensar:

  • Existe um resultado positivo. Analisaremos todos os resultados possíveis: o resultado obtido pode ser verdadeiro positivo ou falso positivo.
  • A probabilidade de um verdadeiro resultado positivo é: a probabilidade de adoecer, multiplicada pela probabilidade de o teste realmente revelar a doença. 1% * 80% = 0,008
  • A probabilidade de um resultado falso positivo é: a probabilidade de não haver doença, multiplicada pela probabilidade de o método ter detectado a doença incorretamente. 99% * 9,6% = 0,09504

Agora a tabela fica assim:
Ficar doente (1%)Não fique doente (99%)
Resultado positivo do método
Verdadeiro positivo:
1% * 80% = 0,008
Falso positivo:
99% * 9,6% = 0,09504
Resultado do método negativo
Falso Negativo:
1% * 20% = 0,002
Verdadeiro
negativo:
99% * 90,4% = 0,89496

Qual é a probabilidade de uma pessoa estar realmente doente se uma mamografia positiva for obtida? A probabilidade de um evento é a razão entre o número de resultados possíveis de um evento e o número total de todos os resultados possíveis.

probabilidade de evento = resultados de eventos / todos os resultados possíveis

A probabilidade de um resultado positivo verdadeiro é 0,008. A probabilidade de um resultado positivo é a probabilidade de um resultado positivo verdadeiro + a probabilidade de um falso positivo.

(0,008 + 0,09504 = 0,10304)

Assim, a probabilidade de uma doença com um resultado positivo do estudo é calculada da seguinte forma: 0,008 / .10304 = 0,0776. Este valor é de cerca de 7,8%.

Ou seja, um resultado positivo de uma mamografia significa apenas que a probabilidade de ter uma doença é de 7,8% e não de 80% (o último valor é apenas a precisão estimada do método). A princípio, esse resultado parece incompreensível e estranho, mas deve ser levado em consideração: o método fornece um resultado falso positivo em 9,6% dos casos (e isso é bastante), então haverá muitos resultados positivos falsos na amostra. Para uma doença rara, os resultados mais positivos serão falsos positivos.

Vamos examinar a mesa e tentar entender intuitivamente o significado do teorema. Se tivermos 100 pessoas, apenas uma delas tem uma doença (1%). Essa pessoa tem 80% de probabilidade de o método dar um resultado positivo. Dos 99% restantes, 10% terão resultados positivos, o que nos dá, grosso modo, 10 em 100 resultados falso-positivos.Se considerarmos todos os resultados positivos, apenas 1 em 11 estará correto. Assim, se um resultado positivo for obtido, a probabilidade da doença é 1/11.

Acima, calculamos que essa probabilidade é de 7,8%, ou seja, o número está realmente mais próximo de 1/13, mas aqui, usando um raciocínio simples, conseguimos encontrar uma estimativa aproximada sem uma calculadora.

Teorema de Bayes


Agora, descrevemos o curso de nossos pensamentos com uma fórmula chamada teorema de Bayes. Este teorema nos permite corrigir os resultados do estudo de acordo com a distorção introduzida pelos resultados falso-positivos:

Pr(A|X)= fracPr(X|A)Pr(A)Pr(X|A)Pr(A)+Pr(X|nãoA)Pr(nãoA)

ãã


  • Pr (A | X) = probabilidade de doença (A) com resultado positivo (X). É exatamente isso que queremos saber: qual é a probabilidade do evento no caso de um resultado positivo. No nosso exemplo, é 7,8%.
  • Pr (X | A) = probabilidade de resultado positivo (X) quando o paciente está realmente doente (A). No nosso caso, esse é o verdadeiro valor positivo - 80%
  • Pr (A) = chance de adoecer (1%)
  • Pr (não A) = probabilidade de não adoecer (99%)
  • Pr (X | não A) = probabilidade de um resultado positivo para o estudo se não houver doença. Este valor é falso positivo - 9,6%.

Podemos concluir: para obter a probabilidade de um evento, é necessário dividir a probabilidade de um resultado positivo verdadeiro pela probabilidade de todos os resultados positivos. Agora podemos simplificar a equação:

Pr(A|X)= fracPr(X|A)Pr(A)Pr(X)


Pr (X) é a constante de normalização. Ela nos serviu bem: sem ela, um resultado positivo nos daria 80% de chance de um evento.
Pr (X) é a probabilidade de qualquer resultado positivo, seja um resultado realmente positivo no estudo de pacientes (1%) ou falso positivo no estudo de pessoas saudáveis ​​(99%).

No nosso exemplo, Pr (X) é um número bastante grande, porque a probabilidade de resultados falso-positivos é alta.

Pr (X) produz um resultado de 7,8%, o que à primeira vista parece contrário ao senso comum.

O significado do teorema


Realizamos testes para descobrir o verdadeiro estado das coisas. Se nossas tentativas são perfeitas e precisas, as probabilidades das tentativas e as probabilidades dos eventos coincidem. Todos os resultados positivos serão verdadeiramente positivos e negativos serão negativos. Mas nós vivemos no mundo real. E em nosso mundo, os ensaios dão resultados errados. O teorema de Bayes leva em consideração resultados distorcidos, corrige erros, recria toda a população e encontra a probabilidade de um verdadeiro resultado positivo.

Filtro de spam


O teorema de Bayes é aplicado com sucesso em filtros de spam.

Nós temos:

  • evento A - em um email de spam
  • resultado do teste - o conteúdo da letra de certas palavras:

Pr(spam|palavras)= fracPr(palavras|spam)Pr(spam)Pr(palavras)


O filtro leva em consideração os resultados do teste (o conteúdo de certas palavras da carta) e prevê se a carta contém spam. Todo mundo entende que, por exemplo, a palavra "viagra" é mais comum em spam do que em letras comuns.

O filtro de spam da lista negra tem suas desvantagens - geralmente produz resultados falsos positivos.

Um filtro de spam baseado no teorema bayesiano usa uma abordagem equilibrada e razoável: funciona com probabilidades. Quando analisamos as palavras em uma carta, podemos calcular a probabilidade de que a carta seja spam e não tomar decisões sobre o tipo de "sim / não". Se a probabilidade de a mensagem conter spam é de 99%, a mensagem realmente é.

Com o tempo, o filtro treina em uma amostra maior e atualiza as probabilidades. Portanto, filtros avançados baseados no teorema bayesiano verificam muitas palavras seguidas e as usam como dados.

Fontes adicionais:

Source: https://habr.com/ru/post/pt408775/


All Articles