贝叶斯定理的简单解释

另一篇文章中详细描述了贝叶斯定理。 这是一个很棒的作品,但是它有15,000个单词。 Kalid Azad的文章的相同译本简要地解释了该定理的本质。

  • 研究和测试结果不是事件。 有一种诊断癌症的方法,但本身就有一个事件-疾病的存在。 该算法检查邮件中是否包含垃圾邮件,但是必须将事件(垃圾邮件实际发送到邮件)与工作结果分开考虑。
  • 测试结果有误。 通常,我们的研究方法会揭示什么不是假阳性,而不会揭示什么是假阴性。
  • 借助测试,我们可以获得特定结果的概率。 我们经常检查自己的测试结果,而不考虑方法的错误。
  • 假阳性结果使图片失真。 假设您正在尝试识别一些非常罕见的现象(每1,000,000个案例1个)。 即使您的方法是准确的,其肯定结果也很可能实际上是假阳性。
  • 使用自然数更方便。 最好说:10,000中的100,而不是1%。 使用这种方法,将减少错误,尤其是在相乘时。 假设我们需要继续使用这1%的资源。 百分数的推理很笨拙:“在80%的病例中,有1%的结果是肯定的。” 信息更容易理解如下:“每100例中有80例观察到阳性结果。”
  • 即使在科学中,任何事实都只是应用方法的结果。 从哲学的角度来看,科学实验只是一个可能有错误的测试。 有一种方法可以揭示化学物质或任何现象,并且本身就有一个事件-该现象的存在。 我们的测试方法可能会得出错误的结果,并且任何设备都有固有的错误。

贝叶斯定理将检验结果转化为概率事件。

  • 如果我们知道事件的概率以及假阳性和假阴性结果的概率,则可以校正测量误差。
  • 该定理将事件的概率与某个结果的概率相关联。 我们可以关联Pr(A | X):如果给出了结果X,则为事件A的概率,而Pr(X | A):如果给出了事件A,则为结果X的概率。

我们将了解方法


本文开头引用的文章探讨了检测乳腺癌的诊断方法(乳房X线照片)。 详细考虑此方法。

  • 所有妇女中有1%患有乳腺癌(因此,有99%没有)
  • 80%的乳房X线照片在实际情况下会检测出疾病(因此,有20%不能检测到)
  • 9.6%的研究在未发现癌症时进行检测(因此90.4%的患者正确地确定了阴性结果)

现在让我们制作一个这样的表:


生病(1%)不要生病(99%)
方法结果肯定
80%9.6%
阴性方法结果
20%
90.4%

如何处理这些数据?

  • 1%的女性患有乳腺癌
  • 如果患者患有疾病,请看第一列:该方法给出正确结果的可能性为80%,该研究结果不正确的可能性为20%(假阴性)
  • 如果尚未诊断出患者患有疾病,请查看第二列。 以9.6%的概率可以说阳性测试结果是不正确的,以90.4%的概率可以说患者确实很健康。

该方法的准确性如何?


现在我们将分析阳性测试结果。 一个人真正生病的可能性是:80%,90%,1%?

让我们考虑一下:

  • 有一个积极的结果。 我们将分析所有可能的结果:获得的结果可以是真阳性或假阳性。
  • 真正阳性结果的概率是:生病的概率乘以该测试真正发现该疾病的概率。 1%* 80%= .008
  • 假阳性结果的概率为:没有疾病的概率乘以该方法错误地检测出疾病的概率。 99%* 9.6%= .09504

现在该表如下所示:
生病(1%)不要生病(99%)
方法结果肯定
真实肯定:
1%* 80%= .008
误报:
99%* 9.6%= .09504
阴性方法结果
假阴性:
1%* 20%= .002
是的
负面:
99%* 90.4%= .89496

如果获得阳性的乳房X线照片,一个人真正生病的可能性是什么? 事件的概率是事件可能结果的数量与所有可能结果的总数之比。

事件概率=事件结果/所有可能的结果

真实阳性结果的可能性是0.008。 阳性结果的概率是真实阳性结果的概率+假阳性的概率。

(.008 + 0.09504 = .10304)

因此,具有阳性研究结果的疾病概率计算如下:.008 / .10304 = 0.0776。 该值约为7.8%。

即,乳房X线照片的阳性结果仅意味着患病的概率为7.8%,而不是80%(后者的值仅是该方法的估计准确性)。 起初,这样的结果似乎难以理解且奇怪,但是必须加以考虑:该方法在9.6%的情况下给出了假阳性结果(这是很多),因此样本中会有很多假阳性结果。 对于罕见疾病,大多数阳性结果将是假阳性。

让我们翻阅表格,尝试直观地理解该定理的含义。 如果我们有100人,那么只有一个人患有疾病(1%)。 此人该方法给出正面结果的可能性为80%。 在其余的99%中,有10%会产生积极的结果,大致而言,我们得出100个假阳性结果中的10个,如果我们将所有阳性结果都考虑在内,那么11个中只有1个是正确的。 因此,如果获得阳性结果,则该疾病的可能性为1/11。

以上,我们计算出该概率为7.8%,即 该数字实际上接近1/13,但是在这里,使用简单的推理,我们能够在没有计算器的情况下找到大概的估计。

贝叶斯定理


现在,我们用称为贝叶斯定理的公式描述我们的思想历程。 该定理使我们能够根据假阳性结果引起的失真来校正研究结果:

PrA|X= fracPrX|APrAPrX|APrA+PrX|notAPrnotA


  • Pr(A | X)=疾病的可能性(A),结果为阳性(X)。 这正是我们想知道的:在产生积极结果的情况下发生该事件的概率是多少。 在我们的示例中,该值为7.8%。
  • Pr(X | A)=当患者真正生病(A)时出现阳性结果的可能性(X)。 在我们的案例中,这是真实的正值-80%
  • Pr(A)=生病的机会(1%)
  • Pr(非A)=未患病的可能性(99%)
  • Pr(X |不是A)=如果没有疾病,则研究结果为阳性的可能性。 该值为假阳性-9.6%。

我们可以得出结论:要获得事件的概率,您需要将真正的积极结果的概率除以所有积极结果的概率。 现在我们可以简化方程式:

PrA|X= fracPrX|APrAPrX


Pr(X)是归一化常数。 她为我们服务很好:没有她,积极的测试结果将使我们有80%的机会参加比赛。
Pr(X)是任何阳性结果的可能性,无论是在患者研究中是真实阳性结果(1%)还是在健康人研究中是假阳性(99%)。

在我们的示例中,Pr(X)是一个相当大的数字,因为假阳性结果的可能性很高。

Pr(X)得出的结果为7.8%,乍一看似乎与常识相反。

定理的含义


我们进行测试以找出事物的真实状态。 如果我们的试验是完美且准确的,则试验的概率与事件的概率是一致的。 所有积极的结果将是真正积极的,消极的将是消极的。 但是我们生活在现实世界中。 在我们的世界中,审判给出了错误的结果。 贝叶斯定理考虑了失真的结果,纠正了错误,重新创建了整个总体,并找到了获得真实肯定结果的可能性。

垃圾邮件过滤器


贝叶斯定理已成功应用于垃圾邮件过滤器。

我们有:

  • 事件A-垃圾邮件中
  • 测试结果-某些单词的字母中的内容:

Pr|= fracPr|PrPr


筛选器会考虑测试结果(字母中某些单词的内容),并预测字母是否包含垃圾邮件。 每个人都知道,例如,“ viagra”一词在垃圾邮件中比在普通信件中更常见。

黑名单垃圾邮件过滤器有其缺点-它经常产生假阳性结果。

基于贝叶斯定理的垃圾邮件过滤器使用一种平衡且合理的方法:它以概率工作。 当我们分析字母中的单词时,我们可以计算出该字母为垃圾邮件的可能性,而不用对“是/否”的类型做出决定。 如果邮件包含垃圾邮件的可能性为99%,则该邮件确实为。

随着时间的流逝,过滤器会训练更大的样本并更新概率。 因此,基于贝叶斯定理的高级过滤器可以连续检查许多单词并将其用作数据。

其他来源:

Source: https://habr.com/ru/post/zh-CN408775/


All Articles