شرح بسيط لنظرية بايز

نظرية بايز موصوفة بالتفصيل في مقال منفصل . هذا عمل رائع ، لكنه يحتوي على 15000 كلمة. نفس الترجمة لمقال من كاليد آزاد تشرح باختصار جوهر النظرية.

  • نتائج البحث والاختبار ليست أحداثا. هناك طريقة لتشخيص السرطان ، ولكن هناك حدث بحد ذاته - وجود مرض. تتحقق الخوارزمية مما إذا كانت الرسالة تحتوي على رسائل غير مرغوب فيها أم لا ، ولكن يجب النظر في الحدث (الذي تم إرساله بالفعل إلى البريد) بشكل منفصل عن نتيجة عملها.
  • هناك أخطاء في نتائج الاختبار. غالبًا ما تكشف طرق البحث لدينا ما هو غير (إيجابي كاذب) ، ولا تكشف ما هو (سلبي كاذب).
  • بمساعدة الاختبارات ، نحصل على احتمالات نتيجة معينة. في كثير من الأحيان نقوم بفحص نتائج الاختبار بمفردنا ولا نأخذ في الاعتبار خطأ الطريقة.
  • نتائج إيجابية كاذبة تشوه الصورة. لنفترض أنك تحاول تحديد بعض الظواهر النادرة جدًا (حالة واحدة لكل 1،000،000). حتى إذا كانت طريقتك دقيقة ، فمن المرجح أن تكون نتيجتها الإيجابية إيجابية كاذبة.
  • إنه أكثر ملاءمة للعمل مع الأرقام الطبيعية. من الأفضل أن نقول: 100 من 10000 ، وليس 1٪. مع هذا النهج ، ستكون هناك أخطاء أقل ، خاصة عند الضرب. لنفترض أننا بحاجة إلى مواصلة العمل مع هذه النسبة 1٪. المنطق بالنسبة المئوية خرقاء: "في 80٪ من الحالات ، حصل 1٪ على نتيجة إيجابية". تعتبر المعلومات أسهل بكثير على النحو التالي: "في 80 حالة من أصل 100 ، لوحظت نتيجة إيجابية".
  • حتى في العلم ، أي حقيقة هي مجرد نتيجة لتطبيق طريقة. من وجهة نظر فلسفية ، التجربة العلمية هي مجرد اختبار مع خطأ محتمل. هناك طريقة تكشف عن مادة كيميائية أو أي ظاهرة ، وهناك حدث بحد ذاته - وجود هذه الظاهرة. يمكن أن تعطي طرق الاختبار لدينا نتيجة خاطئة ، ولدى أي جهاز خطأ متأصل.

تحول نظرية بايز نتائج الاختبار إلى أحداث محتملة.

  • إذا علمنا احتمالية وقوع حدث واحتمالية نتائج سلبية كاذبة وسلبية خاطئة ، فيمكننا تصحيح أخطاء القياس.
  • تربط النظرية احتمالية وقوع حدث باحتمالية نتيجة معينة. يمكننا ربط Pr (A | X): احتمال الحدث A ، إذا تم إعطاء النتيجة X ، و Pr (X | A): احتمال النتيجة X ، إذا تم إعطاء الحدث A.

سوف نفهم الطريقة


تتناول المقالة المشار إليها في بداية هذا المقال طريقة التشخيص (الماموجرام) التي تكتشف سرطان الثدي. فكر في هذه الطريقة بالتفصيل.

  • 1 ٪ من جميع النساء مصابات بسرطان الثدي (وبالتالي ، 99 ٪ لا)
  • 80٪ من تصوير الثدي بالأشعة يكتشف المرض عندما يكون حقًا (وبالتالي ، 20٪ لا يكتشفون)
  • 9.6٪ من الدراسات تكتشف السرطان عندما لا تكون (وبالتالي 90.4٪ تحدد النتيجة السلبية بشكل صحيح)

الآن لنقم بإنشاء جدول مثل هذا:


مرض (1٪)لا تمرض (99٪)
نتيجة طريقة إيجابية
80٪9.6٪
نتيجة الطريقة السلبية
20٪
90.4٪

كيف تعمل مع هذه البيانات؟

  • 1٪ من النساء مصابات بسرطان الثدي
  • إذا كان المريض مصابًا بمرض ، فابحث في العمود الأول: هناك احتمال 80٪ أن الطريقة أعطت النتيجة الصحيحة ، واحتمال 20٪ أن نتيجة الدراسة غير صحيحة (سلبية كاذبة)
  • إذا لم يتم تشخيص المريض بمرض ، انظر إلى العمود الثاني. مع احتمال 9.6 ٪ ، يمكن القول أن نتيجة الاختبار الإيجابية غير صحيحة ، ومع احتمال 90.4 ٪ يمكن القول أن المريض بصحة جيدة.

ما مدى دقة الطريقة؟


الآن سنقوم بتحليل نتيجة الاختبار الإيجابية. ما احتمال أن يكون الشخص مريضًا حقًا: 80٪ ، 90٪ ، 1٪؟

دعونا نفكر:

  • هناك نتيجة إيجابية. سنقوم بتحليل جميع النتائج المحتملة: يمكن أن تكون النتيجة التي تم الحصول عليها إما إيجابية صحيحة أو إيجابية خاطئة.
  • احتمال وجود نتيجة إيجابية حقيقية هو: احتمال الإصابة بالمرض ، مضروبًا في احتمال أن الاختبار كشف بالفعل عن المرض. 1٪ * 80٪ = .008
  • احتمال وجود نتيجة إيجابية كاذبة هو: احتمال عدم وجود مرض ، مضروبًا في احتمال اكتشاف الطريقة للمرض بشكل غير صحيح. 99٪ * 9.6٪ = .09504

الآن يبدو الجدول مثل هذا:
مرض (1٪)لا تمرض (99٪)
نتيجة طريقة إيجابية
إيجابي حقيقي:
1٪ * 80٪ = .008
إيجابية كاذبة:
99٪ * 9.6٪ = .09504
نتيجة الطريقة السلبية
سلبي كاذب:
1٪ * 20٪ = .002
صحيح
سلبي:
99٪ * 90.4٪ = 89496

ما احتمال أن يكون الشخص مريضًا بالفعل إذا تم الحصول على صورة شعاعية للثدي إيجابية؟ احتمال وقوع حدث هو نسبة عدد النتائج المحتملة للحدث إلى العدد الإجمالي لجميع النتائج المحتملة.

احتمال الحدث = نتائج الحدث / جميع النتائج المحتملة

احتمال وجود نتيجة إيجابية حقيقية هو .008. احتمالية النتيجة الإيجابية هي احتمالية النتيجة الإيجابية الحقيقية + احتمالية النتيجة الإيجابية الخاطئة.

(.008 + 0.09504 = .10304)

لذلك ، يتم احتساب احتمال حدوث مرض بنتيجة إيجابية للدراسة على النحو التالي: .008 / .10304 = 0.0776. هذه القيمة حوالي 7.8٪.

وهذا يعني أن النتيجة الإيجابية للتصوير الشعاعي للثدي تعني فقط أن احتمال الإصابة بالمرض هو 7.8 ٪ وليس 80 ٪ (القيمة الأخيرة هي فقط الدقة المقدرة للطريقة). في البداية ، تبدو هذه النتيجة غير مفهومة وغريبة ، ولكن يجب أخذها في الاعتبار: تعطي الطريقة نتيجة إيجابية خاطئة في 9.6 ٪ من الحالات (وهذا كثير جدًا) ، لذلك سيكون هناك العديد من النتائج الإيجابية الزائفة في العينة. بالنسبة لمرض نادر ، ستكون معظم النتائج الإيجابية إيجابية كاذبة.

دعنا نذهب إلى الطاولة ونحاول فهم معنى النظرية بشكل حدسي. إذا كان لدينا 100 شخص ، واحد منهم فقط مصاب بمرض (1٪). هذا الشخص لديه احتمال 80٪ أن تعطي الطريقة نتيجة إيجابية. من بين 99٪ المتبقية ، 10٪ سيكون لها نتائج إيجابية ، وهذا يعطينا ، تقريبًا ، 10 من أصل 100 نتيجة إيجابية كاذبة. إذا أخذنا في الاعتبار جميع النتائج الإيجابية ، فإن 1 فقط من أصل 11 ستكون صحيحة. وبالتالي ، إذا تم الحصول على نتيجة إيجابية ، فإن احتمال المرض هو 1/11.

أعلاه ، حسبنا أن هذا الاحتمال هو 7.8 ٪ ، أي الرقم في الواقع أقرب إلى 1/13 ، ولكن هنا ، باستخدام المنطق البسيط ، تمكنا من العثور على تقدير تقريبي بدون آلة حاسبة.

نظرية بايز


الآن نصف مسار أفكارنا بصيغة تسمى نظرية بايز. تسمح لنا هذه النظرية بتصحيح نتائج الدراسة وفقًا للتشويه الناتج عن نتائج إيجابية خاطئة:

Pr(A|X)= fracPr(X|A)Pr(A)Pr(X|A)Pr(A)+Pr(X|notA)Pr(notA)


  • Pr (A | X) = احتمالية المرض (A) بنتيجة إيجابية (X). هذا هو بالضبط ما نريد معرفته: ما هو احتمال الحدث في حالة النتيجة الإيجابية. في مثالنا ، هو 7.8٪.
  • Pr (X | A) = احتمال نتيجة إيجابية (X) عندما يكون المريض مريضًا حقًا (A). في حالتنا ، هذه هي القيمة الإيجابية الحقيقية - 80٪
  • Pr (A) = فرصة الإصابة بالمرض (1٪)
  • Pr (not A) = احتمال عدم المرض (99٪)
  • Pr (X | not A) = احتمال نتيجة إيجابية للدراسة إذا لم يكن هناك مرض. هذه القيمة إيجابية كاذبة - 9.6٪.

يمكننا أن نستنتج: للحصول على احتمال وقوع حدث ، تحتاج إلى تقسيم احتمالية النتيجة الإيجابية الحقيقية من خلال احتمال جميع النتائج الإيجابية. الآن يمكننا تبسيط المعادلة:

Pr(A|X)= fracPr(X|A)Pr(A)Pr(X)


Pr (X) هو ثابت التطبيع. لقد خدمتنا جيدًا: بدونها ، ستمنحنا نتيجة اختبار إيجابية فرصة بنسبة 80 ٪ لحدث ما.
Pr (X) هو احتمال أي نتيجة إيجابية ، سواء كانت نتيجة إيجابية حقيقية في دراسة المرضى (1٪) أو إيجابية كاذبة في دراسة الأشخاص الأصحاء (99٪).

في مثالنا ، Pr (X) هو رقم كبير إلى حد ما ، لأن احتمال النتائج الإيجابية الكاذبة مرتفع.

Pr (X) ينتج نتيجة 7.8٪ ، والتي تبدو للوهلة الأولى متناقضة مع الحس السليم.

معنى النظرية


نجري اختبارات لمعرفة الحالة الحقيقية للأشياء. إذا كانت تجاربنا مثالية ودقيقة ، فإن احتمالات التجارب واحتمالات الأحداث تتزامن. جميع النتائج الإيجابية ستكون إيجابية حقًا وستكون سلبية. لكننا نعيش في العالم الحقيقي. وفي عالمنا ، تعطي التجارب نتائج خاطئة. تأخذ نظرية بايز في الاعتبار النتائج المشوهة وتصحح الأخطاء وتعيد إنشاء المجتمع بأكمله وتجد احتمال نتيجة إيجابية حقيقية.

مرشح البريد المزعج


تم تطبيق نظرية بايز بنجاح في مرشحات البريد العشوائي.

لدينا:

  • الحدث أ - في بريد إلكتروني غير مرغوب فيه
  • نتيجة الاختبار - المحتوى في حرف كلمات معينة:

Pr(spam|words)= fracPr(words|spam)Pr(spam)Pr(words)


يأخذ المرشح في الاعتبار نتائج الاختبار (محتوى بعض الكلمات في الحرف) ويتنبأ بما إذا كان الحرف يحتوي على رسائل غير مرغوب فيها. يفهم الجميع ، على سبيل المثال ، أن كلمة "الفياجرا" أكثر شيوعًا في الرسائل غير المرغوب فيها من الرسائل العادية.

لمرشح البريد العشوائي في القائمة السوداء عوائق - غالبًا ما ينتج عنه نتائج إيجابية خاطئة.

يستخدم مرشح الرسائل غير المرغوب فيها القائم على نظرية بايزي نهجًا متوازنًا ومعقولًا: فهو يعمل مع الاحتمالات. عندما نحلل الكلمات في الرسالة ، يمكننا حساب احتمالية أن الرسالة غير مرغوب فيها ، ولا نتخذ قرارات بشأن نوع "نعم / لا". إذا كانت احتمالية احتواء الرسالة على رسائل غير مرغوب فيها هي 99٪ ، فإن الرسالة تكون كذلك بالفعل.

بمرور الوقت ، يتدرب المرشح على عينة أكبر ويقوم بتحديث الاحتمالات. لذا ، تقوم الفلاتر المتقدمة المستندة إلى نظرية بايزي بفحص العديد من الكلمات المتتالية واستخدامها كبيانات.

مصادر إضافية:

Source: https://habr.com/ru/post/ar408775/


All Articles