Teorema Bayes dijelaskan secara rinci dalam
artikel terpisah . Ini adalah pekerjaan yang luar biasa, tetapi memiliki 15.000 kata. Terjemahan yang sama dari sebuah artikel dari
Kalid Azad secara singkat menjelaskan inti dari teorema tersebut.
- Hasil penelitian dan tes bukan peristiwa. Ada metode untuk mendiagnosis kanker, tetapi ada peristiwa itu sendiri - adanya penyakit. Algoritma memeriksa apakah pesan berisi spam, tetapi peristiwa (spam benar-benar datang ke email) harus dipertimbangkan secara terpisah dari hasil kerjanya.
- Ada kesalahan dalam hasil tes. Seringkali metode penelitian kami mengungkapkan apa yang tidak (false positive), dan tidak mengungkap apa yang (false negative).
- Dengan bantuan tes, kami memperoleh probabilitas hasil tertentu. Terlalu sering kita memeriksa hasil tes kita sendiri dan tidak memperhitungkan kesalahan metode ini.
- Hasil positif palsu mengubah gambar. Misalkan Anda mencoba mengidentifikasi beberapa fenomena yang sangat langka (1 kas per 1.000.000). Sekalipun metode Anda akurat, kemungkinan besar hasil positifnya akan benar-benar positif palsu.
- Lebih nyaman bekerja dengan bilangan asli. Lebih baik mengatakan: 100 dari 10.000, bukan 1%. Dengan pendekatan ini, akan ada lebih sedikit kesalahan, terutama saat mengalikan. Katakanlah kita harus terus bekerja dengan 1% ini. Alasannya dalam persentase adalah canggung: "dalam 80% kasus, 1% menerima hasil positif." Informasi lebih mudah dipahami sebagai berikut: "dalam 80 kasus dari 100, hasil positif diamati."
- Bahkan dalam sains, fakta apa pun hanyalah hasil dari penerapan suatu metode. Dari sudut pandang filosofis, percobaan ilmiah hanyalah sebuah ujian dengan kemungkinan kesalahan. Ada metode yang mengungkapkan zat kimia atau fenomena apa pun, dan ada peristiwa itu sendiri - kehadiran fenomena ini. Metode pengujian kami dapat memberikan hasil yang salah, dan peralatan apa pun memiliki kesalahan bawaan.
Teorema Bayes mengubah hasil tes menjadi peristiwa probabilitas.- Jika kita mengetahui probabilitas suatu peristiwa dan probabilitas hasil positif palsu dan negatif palsu, kita dapat memperbaiki kesalahan pengukuran.
- Teorema mengaitkan probabilitas suatu peristiwa dengan probabilitas hasil tertentu. Kita dapat mengkorelasikan Pr (A | X): probabilitas peristiwa A, jika hasil X diberikan, dan Pr (X | A): probabilitas hasil X, jika peristiwa A diberikan.
Kami akan mengerti metodenya
Artikel yang dirujuk pada awal esai ini membahas metode diagnostik (mammogram) yang mendeteksi kanker payudara. Pertimbangkan metode ini secara rinci.
- 1% dari semua wanita menderita kanker payudara (dan, karenanya, 99% tidak)
- 80% mammogram mendeteksi penyakit ketika itu sebenarnya (dan, karenanya, 20% tidak mendeteksi)
- 9,6% dari studi mendeteksi kanker ketika tidak (dan, karenanya, 90,4% dengan benar menentukan hasil negatif)
Sekarang mari kita membuat tabel seperti ini:
| Sakit (1%) | Jangan sakit (99%) |
Hasil metode positif
| 80% | 9,6% |
Hasil Metode Negatif
| 20%
| 90,4%
|
Bagaimana cara kerjanya dengan data ini?
- 1% wanita menderita kanker payudara
- jika pasien memiliki penyakit, lihat di kolom pertama: ada probabilitas 80% bahwa metode memberikan hasil yang benar, dan probabilitas 20% bahwa hasil penelitian tidak benar (false negative)
- jika pasien belum didiagnosis menderita penyakit, lihat kolom kedua. Dengan probabilitas 9,6%, dapat dikatakan bahwa hasil tes positif tidak benar, dan dengan probabilitas 90,4% dapat dikatakan bahwa pasien benar-benar sehat.
Seberapa akurat metodenya?
Sekarang kita akan menganalisis hasil tes positif. Apa kemungkinan seseorang benar-benar sakit: 80%, 90%, 1%?
Mari berfikir:
- Ada hasil positif. Kami akan menganalisis semua hasil yang mungkin: hasil yang diperoleh dapat benar positif atau positif salah.
- Peluang dari hasil positif yang sebenarnya adalah: kemungkinan sakit, dikalikan dengan probabilitas bahwa tes tersebut benar-benar mengungkapkan penyakit tersebut. 1% * 80% = .008
- Probabilitas hasil positif palsu adalah: probabilitas bahwa tidak ada penyakit, dikalikan dengan probabilitas bahwa metode mendeteksi penyakit secara tidak benar. 99% * 9,6% = .09504
Sekarang tabelnya terlihat seperti ini:
| Sakit (1%) | Jangan sakit (99%) |
Hasil metode positif
| Benar-benar positif: 1% * 80% = .008
| Positif salah: 99% * 9,6% = .09504
|
Hasil Metode Negatif
| Negatif Salah: 1% * 20% = 0,002
| Benar negatif: 99% * 90,4% = 0,89496
|
Apa kemungkinan seseorang benar-benar sakit jika mammogram positif diperoleh? Probabilitas suatu peristiwa adalah rasio dari jumlah hasil yang mungkin dari suatu peristiwa dengan jumlah total semua hasil yang mungkin.
probabilitas kejadian = hasil acara / semua hasil yang mungkin
Probabilitas hasil positif sejati adalah 0,008. Probabilitas hasil positif adalah probabilitas hasil positif sejati + probabilitas positif palsu.
(.008 + 0,09504 = .10304)
Jadi, probabilitas suatu penyakit dengan hasil penelitian yang positif dihitung sebagai berikut: .008 / .10304 = 0,0776. Nilai ini sekitar 7,8%.
Yaitu, hasil positif dari mammogram hanya berarti bahwa probabilitas memiliki penyakit adalah 7,8%, dan bukan 80% (nilai terakhir hanya perkiraan akurasi metode). Pada awalnya, hasil seperti itu tampaknya tidak dapat dipahami dan aneh, tetapi harus diperhitungkan: metode ini memberikan hasil positif palsu pada 9,6% kasus (dan ini cukup banyak), sehingga akan ada banyak hasil positif palsu dalam sampel. Untuk penyakit langka, sebagian besar hasil positif akan menjadi positif palsu.
Mari kita pergi ke atas meja dan mencoba memahami makna teorema secara intuitif. Jika kita memiliki 100 orang, hanya satu dari mereka yang memiliki penyakit (1%). Orang ini memiliki probabilitas 80% bahwa metode ini akan memberikan hasil positif. Dari 99% sisanya, 10% akan memiliki hasil positif, yang secara kasar memberi kita 10 dari 100 hasil positif palsu.Jika kita menganggap semua hasil positif, hanya 1 dari 11 yang benar. Jadi, jika hasil positif diperoleh, kemungkinan penyakit adalah 1/11.
Di atas, kami menghitung bahwa probabilitas ini adalah 7,8%, yaitu jumlahnya sebenarnya mendekati 1/13, tetapi di sini, menggunakan alasan sederhana, kami dapat menemukan perkiraan kasar tanpa kalkulator.
Teorema Bayes
Sekarang kita menggambarkan jalan pikiran kita dengan formula yang disebut teorema Bayes. Teorema ini memungkinkan kita untuk mengoreksi hasil penelitian sesuai dengan distorsi yang diperkenalkan oleh hasil positif palsu:
Pr(A|X)= fracPr(X|A)Pr(A)Pr(X|A)Pr(A)+Pr(X|bukanA)Pr(bukanA)
- Pr (A | X) = probabilitas penyakit (A) dengan hasil positif (X). Inilah yang ingin kita ketahui: berapa probabilitas kejadian jika terjadi hasil positif. Dalam contoh kita, ini adalah 7,8%.
- Pr (X | A) = probabilitas hasil positif (X) ketika pasien benar-benar sakit (A). Dalam kasus kami, ini adalah nilai positif sejati - 80%
- Pr (A) = kemungkinan jatuh sakit (1%)
- Pr (bukan A) = probabilitas tidak sakit (99%)
- Pr (X | bukan A) = probabilitas hasil yang positif untuk penelitian jika tidak ada penyakit. Nilai ini salah positif - 9,6%.
Kita dapat menyimpulkan: untuk mendapatkan probabilitas suatu peristiwa, Anda perlu membagi probabilitas hasil positif sejati dengan probabilitas semua hasil positif. Sekarang kita dapat menyederhanakan persamaan:
Pr(A|X)= fracPr(X|A)Pr(A)Pr(X)
Pr (X) adalah konstanta normalisasi. Dia melayani kami dengan baik: tanpa dia, hasil tes positif akan memberi kita peluang 80% dari sebuah acara.
Pr (X) adalah probabilitas dari setiap hasil positif, apakah itu akan menjadi hasil positif nyata dalam studi pasien (1%) atau positif palsu dalam studi orang sehat (99%).
Dalam contoh kami, Pr (X) adalah angka yang agak besar, karena probabilitas hasil positif palsu tinggi.
Pr (X) menghasilkan hasil 7,8%, yang pada pandangan pertama tampaknya bertentangan dengan akal sehat.
Arti teorema
Kami melakukan tes untuk mengetahui keadaan sebenarnya. Jika uji coba kita sempurna dan akurat, maka probabilitas uji coba dan probabilitas peristiwa bersamaan. Semua hasil positif akan benar-benar positif dan negatif akan negatif. Tapi kita hidup di dunia nyata. Dan di dunia kita, cobaan memberikan hasil yang salah. Teorema Bayes memperhitungkan hasil yang terdistorsi, mengoreksi kesalahan, menciptakan kembali seluruh populasi, dan menemukan probabilitas hasil positif yang sesungguhnya.
Filter spam
Teorema Bayes berhasil diterapkan dalam filter spam.
Kami memiliki:
- acara A - dalam email spam
- hasil tes - konten dalam surat kata-kata tertentu:
Pr(spam|kata)= fracPr(kata|spam)Pr(spam)Pr(kata)
Filter memperhitungkan hasil pengujian (konten kata-kata tertentu dalam surat) dan memprediksi apakah surat itu mengandung spam. Semua orang mengerti bahwa, misalnya, kata "viagra" lebih umum di spam daripada dalam surat biasa.
Filter spam daftar hitam memiliki kelemahan - sering menghasilkan hasil positif palsu.
Filter spam berbasis teorema Bayesian menggunakan pendekatan yang seimbang dan masuk akal: ia bekerja dengan probabilitas. Ketika kami menganalisis kata-kata dalam surat, kami dapat menghitung kemungkinan bahwa surat itu adalah spam, dan tidak membuat keputusan tentang jenis "ya / tidak". Jika probabilitas bahwa pesan tersebut mengandung spam adalah 99%, maka pesan itu benar-benar ada.
Seiring waktu, filter melatih sampel yang lebih besar dan memperbarui probabilitas. Jadi, filter lanjutan berdasarkan teorema Bayesian memeriksa banyak kata secara berurutan dan menggunakannya sebagai data.
Sumber tambahan: