Eine einfache Erklärung des Bayes-Theorems

Der Satz von Bayes wird in einem separaten Artikel ausführlich beschrieben . Dies ist eine wundervolle Arbeit, aber sie hat 15.000 Wörter. Die gleiche Übersetzung eines Artikels von Kalid Azad erklärt kurz das Wesentliche des Satzes.

  • Forschungs- und Testergebnisse sind keine Ereignisse. Es gibt eine Methode zur Diagnose von Krebs, aber es gibt ein Ereignis selbst - das Vorhandensein einer Krankheit. Der Algorithmus prüft, ob die Nachricht Spam enthält, aber das Ereignis (Spam kam tatsächlich in die E-Mail) muss getrennt vom Ergebnis seiner Arbeit betrachtet werden.
  • Es gibt Fehler in den Testergebnissen. Oft zeigen unsere Forschungsmethoden, was nicht ist (falsch positiv), und offenbaren nicht, was ist (falsch negativ).
  • Durch Tests erhalten wir die Wahrscheinlichkeiten eines bestimmten Ergebnisses. Zu oft überprüfen wir die Testergebnisse selbst und berücksichtigen den Fehler der Methode nicht.
  • Falsch positive Ergebnisse verzerren das Bild. Angenommen, Sie versuchen, ein sehr seltenes Phänomen zu identifizieren (1 Fall pro 1.000.000). Selbst wenn Ihre Methode korrekt ist, ist das positive Ergebnis höchstwahrscheinlich falsch positiv.
  • Es ist bequemer, mit natürlichen Zahlen zu arbeiten. Besser zu sagen: 100 von 10.000, nicht 1%. Bei diesem Ansatz treten weniger Fehler auf, insbesondere beim Multiplizieren. Nehmen wir an, wir müssen weiter mit diesen 1% arbeiten. Die prozentuale Begründung ist ungeschickt: "In 80% der Fälle erhielt 1% ein positives Ergebnis." Informationen werden viel einfacher wie folgt wahrgenommen: "In 80 von 100 Fällen wurde ein positives Ergebnis beobachtet."
  • Selbst in der Wissenschaft ist jede Tatsache nur das Ergebnis der Anwendung einer Methode. Aus philosophischer Sicht ist ein wissenschaftliches Experiment nur ein Test mit einem wahrscheinlichen Fehler. Es gibt eine Methode, die eine chemische Substanz oder ein Phänomen aufdeckt, und es gibt ein Ereignis selbst - das Vorhandensein dieses Phänomens. Unsere Testmethoden können zu falschen Ergebnissen führen, und jedes Gerät weist einen inhärenten Fehler auf.

Der Satz von Bayes wandelt Testergebnisse in Wahrscheinlichkeitsereignisse um.

  • Wenn wir die Wahrscheinlichkeit eines Ereignisses und die Wahrscheinlichkeit falsch positiver und falsch negativer Ergebnisse kennen, können wir die Messfehler korrigieren.
  • Der Satz bezieht die Wahrscheinlichkeit eines Ereignisses auf die Wahrscheinlichkeit eines bestimmten Ergebnisses. Wir können Pr (A | X) korrelieren: die Wahrscheinlichkeit von Ereignis A, wenn Ergebnis X gegeben ist, und Pr (X | A): die Wahrscheinlichkeit von Ergebnis X, wenn Ereignis A gegeben ist.

Wir werden die Methode verstehen


Der Artikel, auf den zu Beginn dieses Aufsatzes verwiesen wird, untersucht die diagnostische Methode (Mammographie) zur Erkennung von Brustkrebs. Betrachten Sie diese Methode im Detail.

  • 1% aller Frauen haben Brustkrebs (und dementsprechend 99% nicht)
  • 80% der Mammogramme erkennen die Krankheit, wenn sie tatsächlich vorliegt (und dementsprechend erkennen 20% sie nicht).
  • 9,6% der Studien erkennen Krebs, wenn dies nicht der Fall ist (und 90,4% bestimmen dementsprechend ein negatives Ergebnis korrekt).

Nun machen wir eine Tabelle wie folgt:


Krank werden (1%)Nicht krank werden (99%)
Positives Methodenergebnis
80%9,6%
Negatives Methodenergebnis
20%
90,4%

Wie arbeite ich mit diesen Daten?

  • 1% der Frauen haben Brustkrebs
  • Wenn der Patient eine Krankheit hat, schauen Sie in die erste Spalte: Es besteht eine 80% ige Wahrscheinlichkeit, dass die Methode das richtige Ergebnis liefert, und eine 20% ige Wahrscheinlichkeit, dass das Ergebnis der Studie falsch ist (falsch negativ).
  • Wenn bei dem Patienten keine Krankheit diagnostiziert wurde, sehen Sie sich die zweite Spalte an. Mit einer Wahrscheinlichkeit von 9,6% kann gesagt werden, dass ein positives Testergebnis falsch ist, und mit einer Wahrscheinlichkeit von 90,4% kann gesagt werden, dass der Patient wirklich gesund ist.

Wie genau ist die Methode?


Jetzt werden wir das positive Testergebnis analysieren. Wie hoch ist die Wahrscheinlichkeit, dass eine Person wirklich krank ist: 80%, 90%, 1%?

Denken wir mal:

  • Es gibt ein positives Ergebnis. Wir werden alle möglichen Ergebnisse analysieren: Das erzielte Ergebnis kann entweder wahr positiv oder falsch positiv sein.
  • Die Wahrscheinlichkeit eines wirklich positiven Ergebnisses ist: die Wahrscheinlichkeit, krank zu werden, multipliziert mit der Wahrscheinlichkeit, dass der Test die Krankheit tatsächlich aufgedeckt hat. 1% * 80% = 0,008
  • Die Wahrscheinlichkeit eines falsch positiven Ergebnisses ist: die Wahrscheinlichkeit, dass keine Krankheit vorliegt, multipliziert mit der Wahrscheinlichkeit, dass die Methode die Krankheit falsch erkannt hat. 99% * 9,6% = 0,09504

Jetzt sieht die Tabelle so aus:
Krank werden (1%)Nicht krank werden (99%)
Positives Methodenergebnis
Richtig positiv:
1% * 80% = 0,008
Falsch positiv:
99% * 9,6% = 0,09504
Negatives Methodenergebnis
Falsch Negativ:
1% * 20% = 0,002
Stimmt
negativ:
99% * 90,4% = 0,89496

Wie hoch ist die Wahrscheinlichkeit, dass eine Person wirklich krank ist, wenn eine positive Mammographie durchgeführt wird? Die Wahrscheinlichkeit eines Ereignisses ist das Verhältnis der Anzahl möglicher Ergebnisse eines Ereignisses zur Gesamtzahl aller möglichen Ergebnisse.

Ereigniswahrscheinlichkeit = Ereignisergebnisse / alle möglichen Ergebnisse

Die Wahrscheinlichkeit eines wirklich positiven Ergebnisses beträgt 0,008. Die Wahrscheinlichkeit eines positiven Ergebnisses ist die Wahrscheinlichkeit eines wahrhaft positiven Ergebnisses + die Wahrscheinlichkeit eines falsch positiven Ergebnisses.

(0,008 + 0,09504 = 0,10304)

Die Wahrscheinlichkeit einer Krankheit mit einem positiven Ergebnis der Studie wird also wie folgt berechnet: .008 / .10304 = 0.0776. Dieser Wert beträgt ca. 7,8%.

Das heißt, ein positives Ergebnis einer Mammographie bedeutet nur, dass die Wahrscheinlichkeit einer Krankheit 7,8% und nicht 80% beträgt (der letztere Wert ist nur die geschätzte Genauigkeit der Methode). Ein solches Ergebnis erscheint zunächst unverständlich und seltsam, muss jedoch berücksichtigt werden: Die Methode liefert in 9,6% der Fälle ein falsch positives Ergebnis (und das ist ziemlich viel), sodass die Stichprobe viele falsch positive Ergebnisse enthält. Bei einer seltenen Krankheit sind die meisten positiven Ergebnisse falsch positiv.

Lassen Sie uns über den Tisch gehen und versuchen, die Bedeutung des Satzes intuitiv zu erfassen. Wenn wir 100 Menschen haben, hat nur einer von ihnen eine Krankheit (1%). Diese Person hat eine Wahrscheinlichkeit von 80%, dass die Methode ein positives Ergebnis liefert. Von den verbleibenden 99% haben 10% positive Ergebnisse, was ungefähr 10 von 100 falsch positiven Ergebnissen ergibt. Wenn wir alle positiven Ergebnisse berücksichtigen, ist nur 1 von 11 korrekt. Wenn also ein positives Ergebnis erzielt wird, beträgt die Wahrscheinlichkeit der Krankheit 1/11.

Oben haben wir berechnet, dass diese Wahrscheinlichkeit 7,8% beträgt, d.h. Die Zahl liegt tatsächlich näher bei 1/13, aber hier konnten wir mit einfachen Überlegungen eine grobe Schätzung ohne Taschenrechner finden.

Bayes-Theorem


Nun beschreiben wir den Verlauf unserer Gedanken mit einer Formel, die als Bayes-Theorem bezeichnet wird. Dieser Satz ermöglicht es uns, die Ergebnisse der Studie in Übereinstimmung mit der durch falsch positive Ergebnisse verursachten Verzerrung zu korrigieren:

Pr(A|X)= fracPr(X|A)Pr(A)Pr(X|A)Pr(A)+Pr(X|nichtA)Pr(nichtA)


  • Pr (A | X) = Wahrscheinlichkeit einer Krankheit (A) mit positivem Ergebnis (X). Genau das wollen wir wissen: Wie hoch ist die Wahrscheinlichkeit des Ereignisses bei einem positiven Ergebnis? In unserem Beispiel sind es 7,8%.
  • Pr (X | A) = Wahrscheinlichkeit eines positiven Ergebnisses (X), wenn der Patient wirklich krank ist (A). In unserem Fall ist dies der wahre positive Wert - 80%
  • Pr (A) = Wahrscheinlichkeit, krank zu werden (1%)
  • Pr (nicht A) = Wahrscheinlichkeit, nicht krank zu werden (99%)
  • Pr (X | nicht A) = Wahrscheinlichkeit eines positiven Ergebnisses für die Studie, wenn keine Krankheit vorliegt. Dieser Wert ist falsch positiv - 9,6%.

Wir können daraus schließen: Um die Wahrscheinlichkeit eines Ereignisses zu erhalten, müssen Sie die Wahrscheinlichkeit eines echten positiven Ergebnisses durch die Wahrscheinlichkeit aller positiven Ergebnisse dividieren. Jetzt können wir die Gleichung vereinfachen:

Pr(A|X)= fracPr(X|A)Pr(A)Pr(X)


Pr (X) ist die Normalisierungskonstante. Sie hat uns gute Dienste geleistet: Ohne sie würde uns ein positives Testergebnis eine 80% ige Chance auf ein Ereignis geben.
Pr (X) ist die Wahrscheinlichkeit eines positiven Ergebnisses, unabhängig davon, ob es sich bei der Untersuchung von Patienten (1%) um ein wirklich positives Ergebnis oder bei der Untersuchung von gesunden Menschen (99%) um ein falsch positives Ergebnis handelt.

In unserem Beispiel ist Pr (X) eine ziemlich große Zahl, da die Wahrscheinlichkeit falsch positiver Ergebnisse hoch ist.

Pr (X) ergibt ein Ergebnis von 7,8%, was auf den ersten Blick dem gesunden Menschenverstand zu widersprechen scheint.

Die Bedeutung des Satzes


Wir führen Tests durch, um den wahren Zustand der Dinge herauszufinden. Wenn unsere Versuche perfekt und genau sind, stimmen die Wahrscheinlichkeiten der Versuche und die Wahrscheinlichkeiten von Ereignissen überein. Alle positiven Ergebnisse werden wirklich positiv und negativ werden negativ sein. Aber wir leben in der realen Welt. Und in unserer Welt führen Versuche zu falschen Ergebnissen. Der Bayes-Satz berücksichtigt verzerrte Ergebnisse, korrigiert Fehler, erstellt die gesamte Population neu und ermittelt die Wahrscheinlichkeit eines echten positiven Ergebnisses.

Spamfilter


Der Bayes-Satz wird erfolgreich in Spam-Filtern angewendet.

Wir haben:

  • Ereignis A - in einer Spam-E-Mail
  • Testergebnis - der Inhalt bestimmter Wörter im Buchstaben:

Pr(Spam|Wörter)= fracPr(Wörter|Spam)Pr(Spam)Pr(Wörter)


Der Filter berücksichtigt die Testergebnisse (den Inhalt bestimmter Wörter im Buchstaben) und sagt voraus, ob der Buchstabe Spam enthält. Jeder versteht, dass beispielsweise das Wort "Viagra" in Spam häufiger vorkommt als in normalen Buchstaben.

Der Blacklist-Spamfilter hat seine Nachteile - er führt häufig zu falsch positiven Ergebnissen.

Ein auf dem Bayes'schen Theorem basierender Spamfilter verwendet einen ausgewogenen und vernünftigen Ansatz: Er arbeitet mit Wahrscheinlichkeiten. Wenn wir die Wörter in einem Buchstaben analysieren, können wir die Wahrscheinlichkeit berechnen, dass es sich bei dem Buchstaben um Spam handelt, und keine Entscheidungen über die Art von "Ja / Nein" treffen. Wenn die Wahrscheinlichkeit, dass die Nachricht Spam enthält, 99% beträgt, ist dies tatsächlich der Fall.

Im Laufe der Zeit trainiert der Filter eine größere Stichprobe und aktualisiert die Wahrscheinlichkeiten. Erweiterte Filter, die auf dem Bayes'schen Theorem basieren, überprüfen also viele Wörter hintereinander und verwenden sie als Daten.

Zusätzliche Quellen:

Source: https://habr.com/ru/post/de408775/


All Articles