Une explication simple du théorème de Bayes

Le théorème de Bayes est décrit en détail dans un article séparé . C'est un travail merveilleux, mais il compte 15 000 mots. La même traduction d'un article de Kalid Azad explique brièvement l'essence même du théorème.

  • Les résultats des recherches et des tests ne sont pas des événements. Il existe une méthode pour diagnostiquer le cancer, mais il y a un événement lui-même - la présence d'une maladie. L'algorithme vérifie si le message contient du spam, mais l'événement (le spam est effectivement arrivé au courrier) doit être considéré séparément du résultat de son travail.
  • Il y a des erreurs dans les résultats du test. Souvent, nos méthodes de recherche révèlent ce qui n'est pas (faux positif) et ne révèlent pas ce qui est (faux négatif).
  • Grâce à des tests, nous obtenons les probabilités d'un certain résultat. Trop souvent, nous examinons nous-mêmes les résultats des tests et ne tenons pas compte de l'erreur de la méthode.
  • De faux résultats positifs déforment l'image. Supposons que vous essayez d'identifier un phénomène très rare (1 cas pour 1 000 000). Même si votre méthode est précise, son résultat positif sera probablement faux.
  • Il est plus pratique de travailler avec des nombres naturels. Mieux vaut dire: 100 sur 10 000, pas 1%. Avec cette approche, il y aura moins d'erreurs, surtout lors de la multiplication. Disons que nous devons continuer à travailler avec ce 1%. Le raisonnement en pourcentage est maladroit: "dans 80% des cas, 1% a obtenu un résultat positif". Les informations sont beaucoup plus faciles à percevoir comme suit: "dans 80 cas sur 100, un résultat positif a été observé".
  • Même en science, tout fait n'est que le résultat de l'application d'une méthode. D'un point de vue philosophique, une expérience scientifique n'est qu'un test avec une erreur probable. Il existe une méthode qui révèle une substance chimique ou tout phénomène, et il y a un événement lui-même - la présence de ce phénomène. Nos méthodes de test peuvent donner un faux résultat, et tout équipement a une erreur inhérente.

Le théorème de Bayes transforme les résultats des tests en événements de probabilité.

  • Si nous connaissons la probabilité d'un événement et la probabilité de résultats faussement positifs et faux négatifs, nous pouvons corriger les erreurs de mesure.
  • Le théorème relie la probabilité d'un événement à la probabilité d'un certain résultat. Nous pouvons corréler Pr (A | X): la probabilité de l'événement A, si le résultat X est donné, et Pr (X | A): la probabilité du résultat X, si l'événement A est donné.

Nous comprendrons la méthode


L'article référencé au début de cet essai examine la méthode de diagnostic (mammographie) qui détecte le cancer du sein. Considérez cette méthode en détail.

  • 1% de toutes les femmes ont un cancer du sein (et, par conséquent, 99% n'en ont pas)
  • 80% des mammographies détectent la maladie lorsqu'elle l'est réellement (et, par conséquent, 20% ne la détectent pas)
  • 9,6% des études détectent le cancer lorsqu'il ne l'est pas (et, par conséquent, 90,4% déterminent correctement un résultat négatif)

Faisons maintenant un tableau comme celui-ci:


Tomber malade (1%)Ne tombez pas malade (99%)
Résultat de méthode positif
80%9,6%
Résultat de la méthode négative
20%
90,4%

Comment travailler avec ces données?

  • 1% des femmes ont un cancer du sein
  • si le patient a une maladie, regardez dans la première colonne: il y a 80% de chances que la méthode donne le résultat correct et 20% de chances que le résultat du test soit incorrect (faux négatif)
  • si le patient n'a pas été diagnostiqué avec une maladie, regardez la deuxième colonne. Avec une probabilité de 9,6%, on peut dire qu'un résultat de test positif est incorrect et avec une probabilité de 90,4%, on peut dire que le patient est vraiment en bonne santé.

Quelle est la précision de la méthode?


Nous allons maintenant analyser le résultat positif du test. Quelle est la probabilité qu'une personne soit vraiment malade: 80%, 90%, 1%?

Pensons:

  • Il y a un résultat positif. Nous analyserons tous les résultats possibles: le résultat obtenu peut être soit vrai positif, soit faux positif.
  • La probabilité d'un vrai résultat positif est: la probabilité de tomber malade, multipliée par la probabilité que le test révèle réellement la maladie. 1% * 80% = .008
  • La probabilité d'un résultat faussement positif est: la probabilité qu'il n'y ait pas de maladie, multipliée par la probabilité que la méthode ait détecté la maladie de manière incorrecte. 99% * 9,6% = 0,09504

Maintenant, le tableau ressemble à ceci:
Tomber malade (1%)Ne tombez pas malade (99%)
Résultat de méthode positif
Vrai positif:
1% * 80% = .008
Faux positif:
99% * 9,6% = 0,09504
Résultat de la méthode négative
Faux négatif:
1% * 20% = .002
Vrai
négatif:
99% * 90,4% = 0,89496

Quelle est la probabilité qu'une personne soit vraiment malade si une mammographie positive est obtenue? La probabilité d'un événement est le rapport entre le nombre de résultats possibles d'un événement et le nombre total de tous les résultats possibles.

probabilité d'événement = résultats de l'événement / tous les résultats possibles

La probabilité d'un vrai résultat positif est de 0,008. La probabilité d'un résultat positif est la probabilité d'un vrai résultat positif + la probabilité d'un faux positif.

(.008 + 0.09504 = .10304)

Ainsi, la probabilité d'une maladie avec un résultat positif de l'étude est calculée comme suit: .008 / .10304 = 0.0776. Cette valeur est d'environ 7,8%.

Autrement dit, un résultat positif d'une mammographie signifie seulement que la probabilité d'avoir une maladie est de 7,8% et non de 80% (cette dernière valeur n'est que la précision estimée de la méthode). Au début, un tel résultat semble incompréhensible et étrange, mais il doit être pris en compte: la méthode donne un résultat faussement positif dans 9,6% des cas (ce qui est beaucoup), il y aura donc beaucoup de faux positifs dans l'échantillon. Pour une maladie rare, la plupart des résultats positifs seront faux positifs.

Passons en revue la table et essayons de saisir intuitivement la signification du théorème. Si nous avons 100 personnes, une seule d'entre elles a une maladie (1%). Cette personne a une probabilité de 80% que la méthode donne un résultat positif. Sur les 99% restants, 10% auront des résultats positifs, ce qui nous donne, en gros, 10 résultats faussement positifs sur 100. Si nous considérons tous les résultats positifs, seulement 1 sur 11 sera correct. Ainsi, si un résultat positif est obtenu, la probabilité de la maladie est de 1/11.

Ci-dessus, nous avons calculé que cette probabilité est de 7,8%, soit le nombre est en fait plus proche de 1/13, mais ici, en utilisant un raisonnement simple, nous avons pu trouver une estimation approximative sans calculatrice.

Théorème de Bayes


Nous décrivons maintenant le cours de nos pensées avec une formule appelée le théorème de Bayes. Ce théorème nous permet de corriger les résultats de l'étude en fonction de la distorsion introduite par les faux positifs:

Pr(A|X)= fracPr(X|A)Pr(A)Pr(X|A)Pr(A)+Pr(X|pasA)Pr(pasA)


  • Pr (A | X) = probabilité de maladie (A) avec un résultat positif (X). C'est exactement ce que nous voulons savoir: quelle est la probabilité de l'événement en cas de résultat positif. Dans notre exemple, c'est 7,8%.
  • Pr (X | A) = probabilité d'un résultat positif (X) lorsque le patient est vraiment malade (A). Dans notre cas, c'est la vraie valeur positive - 80%
  • Pr (A) = risque de tomber malade (1%)
  • Pr (pas A) = probabilité de ne pas tomber malade (99%)
  • Pr (X | pas A) = probabilité d'un résultat positif pour l'étude en l'absence de maladie. Cette valeur est faux positif - 9,6%.

Nous pouvons conclure: pour obtenir la probabilité d'un événement, vous devez diviser la probabilité d'un vrai résultat positif par la probabilité de tous les résultats positifs. Maintenant, nous pouvons simplifier l'équation:

Pr(A|X)= fracPr(X|A)Pr(A)Pr(X)


Pr (X) est la constante de normalisation. Elle nous a bien servis: sans elle, un résultat de test positif nous donnerait 80% de chances d'avoir un événement.
Pr (X) est la probabilité de tout résultat positif, qu'il s'agisse d'un résultat réellement positif dans l'étude des patients (1%) ou faux positif dans l'étude des personnes en bonne santé (99%).

Dans notre exemple, Pr (X) est un nombre assez important, car la probabilité de résultats faussement positifs est élevée.

Pr (X) produit un résultat de 7,8%, ce qui à première vue semble contraire au bon sens.

La signification du théorème


Nous effectuons des tests pour découvrir le véritable état des choses. Si nos essais sont parfaits et précis, alors les probabilités des essais et les probabilités des événements coïncident. Tous les résultats positifs seront vraiment positifs et négatifs seront négatifs. Mais nous vivons dans le monde réel. Et dans notre monde, les essais donnent de mauvais résultats. Le théorème de Bayes prend en compte les résultats déformés, corrige les erreurs, recrée toute la population et trouve la probabilité d'un vrai résultat positif.

Filtre anti-spam


Le théorème de Bayes est appliqué avec succès dans les filtres anti-spam.

Nous avons:

  • événement A - dans un courrier indésirable
  • résultat du test - le contenu dans la lettre de certains mots:

Pr(spam|mots)= fracPr(mots|spam)Pr(spam)Pr(mots)


Le filtre prend en compte les résultats du test (le contenu de certains mots de la lettre) et prédit si la lettre contient du spam. Tout le monde comprend que, par exemple, le mot "viagra" est plus courant dans le spam que dans les lettres ordinaires.

Le filtre anti-spam de la liste noire a ses inconvénients - il produit souvent des résultats faussement positifs.

Un filtre anti-spam basé sur le théorème bayésien utilise une approche équilibrée et raisonnable: il fonctionne avec des probabilités. Lorsque nous analysons les mots d'une lettre, nous pouvons calculer la probabilité que la lettre soit du spam et ne pas prendre de décisions sur le type de «oui / non». Si la probabilité que le message contienne du spam est de 99%, alors le message l'est vraiment.

Au fil du temps, le filtre s'exerce sur un échantillon plus grand et met à jour les probabilités. Ainsi, les filtres avancés basés sur le théorème bayésien vérifient de nombreux mots d'affilée et les utilisent comme données.

Sources supplémentaires:

Source: https://habr.com/ru/post/fr408775/


All Articles