Bisakah statistik dibaca dengan sejumlah kecil data?

Secara umum, jawabannya adalah ya. Terutama ketika Anda memiliki otak dan pengetahuan tentang teorema Bayes.

Biarkan saya mengingatkan Anda bahwa mean dan varians hanya dapat dipertimbangkan jika Anda memiliki sejumlah peristiwa. Dalam manual lama USSR, RTM (materi teknis terkemuka) mengatakan bahwa untuk menghitung rata-rata dan varians, diperlukan 29 pengukuran. Sekarang universitas sedikit membulat dan menggunakan pengukuran nomor 30. Apa alasannya adalah pertanyaan filosofis. Mengapa saya tidak bisa mengambil dan menghitung rata-rata jika saya memiliki 5 pengukuran? Secara teori, tidak ada yang mengganggu, hanya rata-rata yang tidak stabil. Setelah pengukuran dan penghitungan ulang yang lain, ini dapat banyak berubah dan Anda dapat mengandalkannya mulai dari sekitar 30 pengukuran. Tetapi bahkan setelah pengukuran ke-31, itu juga akan bergetar, hanya saja tidak begitu terasa. Plus, masalahnya ditambahkan bahwa rata-rata dapat dianggap berbeda dan mendapatkan nilai yang berbeda. Artinya, dari sampel besar, Anda dapat memilih 30 pertama dan menghitung rata-rata, lalu pilih 30 lainnya dan seterusnya ... dan mendapatkan banyak rata-rata, yang juga dapat dirata-ratakan. Rata-rata sebenarnya tidak dapat dicapai dalam praktik, karena kami selalu memiliki jumlah pengukuran yang terbatas. Dalam hal ini, rata-rata adalah kuantitas statistik dengan rata-rata dan variansnya. Artinya, dengan mengukur rata-rata dalam praktiknya, yang kami maksud adalah "perkiraan rata-rata", yang mungkin mendekati nilai teoritis ideal.

Mari kita coba memahami masalahnya, pada input kami memiliki sejumlah fakta dan ingin membangun ide tentang sumber fakta-fakta ini di output. Kami akan membangun model mat dan menggunakan teori Bayesian untuk menghubungkan model dan fakta.


Pertimbangkan model yang sudah usang dengan ember, ke mana banyak bola hitam dan putih dituangkan dan dicampur secara menyeluruh. Biarkan hitam sesuai dengan nilai 0, dan putih menjadi 1. Kami akan menariknya secara acak dan mengambil nilai rata-rata yang terkenal. Sebenarnya, ini adalah pengukuran yang disederhanakan, karena angka ditetapkan dan oleh karena itu, dalam hal ini, ada nilai pengukuran rata-rata, yang tergantung pada rasio bola yang berbeda.

Di sini kita menemukan momen yang menarik. Rasio persis bola yang bisa kita hitung dengan sejumlah besar pengukuran. Tetapi jika jumlah pengukuran kecil, maka efek khusus dimungkinkan dalam bentuk penyimpangan dari statistik. Jika ada 50 bola putih dan 50 bola hitam di keranjang, muncul pertanyaan - apakah mungkin untuk mengeluarkan 3 bola putih berturut-turut? Dan jawabannya tentu saja! Dan jika dalam 90 putih dan 10 hitam, maka probabilitas ini meningkat. Dan apa yang harus dipikirkan tentang isi guci, jika sangat beruntung bahwa tepat 3 bola putih ditarik keluar secara tidak sengaja di awal? - kami memiliki opsi.

Jelas, mendapatkan 3 bola putih secara berurutan sama dengan satu ketika kita memiliki 100% bola putih. Dalam kasus lain, probabilitas ini lebih kecil. Dan jika semua bola berwarna hitam, maka probabilitasnya adalah nol. Mari kita coba mensistematisasikan argumen ini dan memberikan formula. Metode Bayesian datang untuk menyelamatkan, yang memungkinkan Anda untuk membuat peringkat asumsi dan memberi mereka nilai-nilai numerik yang menentukan kemungkinan bahwa asumsi ini akan sesuai dengan kenyataan. Yaitu, untuk beralih dari interpretasi probabilistik data ke interpretasi probabilistik penyebab.

Bagaimana tepatnya satu atau lainnya asumsi dapat dikuantifikasi? Ini akan membutuhkan model di mana kita akan bertindak. Syukurlah dia simpel. Kita dapat menuliskan banyak asumsi tentang isi keranjang sebagai model dengan parameter. Dalam hal ini, satu parameter sudah cukup. Parameter ini pada dasarnya menetapkan serangkaian asumsi berkelanjutan. Hal utama adalah dia sepenuhnya menjelaskan opsi yang mungkin. Dua opsi ekstrem hanya bola putih atau hanya bola hitam. Kasing yang tersisa ada di antara keduanya.

Asumsikan itu  theta Apakah proporsi bola putih di keranjang. Jika kita menyortir seluruh keranjang dan menambahkan semua nol dan yang sesuai dengan bola dan membaginya dengan jumlah total, maka  theta - Juga akan berarti nilai rata-rata pengukuran kami.  theta dalam[0,1] . (sekarang  theta sering digunakan dalam literatur sebagai satu set parameter gratis yang memerlukan optimasi).

Sudah waktunya untuk pergi ke Bayes. Thomas Bayes sendiri membuat istrinya secara tidak sengaja melempar bola, duduk dengan membelakanginya, dan menuliskan bagaimana asumsinya berhubungan dengan fakta di mana ia benar-benar terbang. Berdasarkan fakta, Thomas Bayes mencoba meningkatkan prediksi lemparan berikut. Kita akan berpikir dan berpikir seperti Thomas Bayes, dan seorang pacar yang spontan dan tidak terduga akan mengambil bola.

Biarkan D Merupakan array pengukuran (data). Kami menggunakan notasi standar, di mana tandanya | berarti probabilitas acara di sebelah kiri, jika sudah diketahui bahwa acara lain di sebelah kanan telah selesai. Dalam kasus kami, ini adalah probabilitas untuk memperoleh data jika parameternya diketahui  theta . Dan ada juga kasus sebaliknya - kemungkinan memiliki  theta jika data diketahui.

P( theta|D)= fracP(D| theta) cdotP( theta)P(D)


Formula Bayes memungkinkan Anda untuk mempertimbangkan  theta sebagai variabel acak, dan temukan nilai yang paling mungkin. Artinya, temukan koefisien yang paling mungkin  theta jika tidak diketahui.

 theta=argmaxP( theta|D)



Di sisi kanan kami memiliki 3 anggota yang perlu dievaluasi. Kami menganalisisnya.

1) Diperlukan untuk mengetahui atau menghitung probabilitas untuk memperoleh data tersebut untuk hipotesis tertentu P(D| theta) . Anda bisa mendapatkan tiga bola putih berturut-turut, bahkan jika ada banyak bola hitam. Tetapi kemungkinan besar mendapatkannya dengan jumlah putih yang besar. Probabilitas mendapatkan bola putih sama dengan Pwhite= theta tapi hitam Pblack=(1βˆ’ theta) . Karena itu kalau jatuh N bola putih, dan M bola hitam kemudian P(D| theta)= thetaN cdot(1βˆ’ theta)M . N dan M kami akan mempertimbangkan parameter input dari perhitungan kami, dan  theta - parameter output.

2) Anda perlu mengetahui probabilitas a priori P( theta) . Di sini kita menemukan momen pemodelan yang rumit. Kami tidak tahu fungsi ini dan akan membuat asumsi. Jika tidak ada pengetahuan tambahan, maka kami menganggap itu  theta kemungkinan yang sama dalam kisaran dari 0 hingga 1. Jika kami memiliki informasi orang dalam, kami akan tahu lebih banyak tentang nilai mana yang lebih mungkin dan akan membuat perkiraan yang lebih akurat. Tetapi karena informasi tersebut tidak tersedia, kami menaruh  theta simsecaramerata[0,1] . Karena kuantitas P( theta) independen dari  theta maka saat menghitung  theta dia tidak akan masalah. P( theta)=1

3) P(D) Apakah probabilitas memiliki set data seperti itu jika semua nilai acak. Kita bisa mendapatkan kit ini dengan berbeda  theta dengan probabilitas berbeda. Oleh karena itu, semua cara yang memungkinkan untuk mendapatkan suatu set dipertimbangkan D . Karena pada tahap ini nilainya masih belum diketahui  theta , maka perlu diintegrasikan P(D)= int10P(D| theta)P( theta)d theta . Untuk lebih memahami hal ini, perlu untuk memecahkan masalah dasar di mana grafik Bayesian dibangun, dan kemudian beralih dari jumlah ke integral. Hasilnya adalah ekspresi wolframalpha , yaitu untuk mencari yang maksimal  theta tidak akan mempengaruhi, karena nilai ini tidak bergantung pada  theta . Hasilnya dinyatakan melalui faktorial untuk nilai integer atau, secara umum, melalui fungsi gamma.

Faktanya, probabilitas hipotesis tertentu proporsional dengan probabilitas untuk memperoleh kumpulan data. Dengan kata lain, dalam skenario mana kita paling mungkin mendapatkan hasil, bahwa penyelarasan adalah yang paling benar.

Kami mendapatkan formula ini

P(D| theta)=const cdotP( theta|D)



Untuk mencari maksimum, kami membedakan dan menyamakan menjadi nol:
0= thetaNβˆ’1 cdot(1βˆ’ theta)Mβˆ’1 cdot(N( thetaβˆ’1)+M theta) .
Agar suatu karya sama dengan nol, salah satu anggota harus sama dengan nol.
Kami tidak tertarik  theta=0 dan  theta=1 , karena tidak ada maksimum lokal pada titik-titik ini, dan faktor ketiga menunjukkan maksimum lokal

 theta= fracNN+M

.

Kami mendapatkan formula yang dapat digunakan untuk perkiraan. Jika jatuh N putih dan M kulit hitam maka probabilitas  fracNN+M Yang berikutnya akan menjadi putih. Misalnya ada 2 hitam dan 8 putih, maka putih berikutnya akan dengan probabilitas 80%.

Pihak yang berminat dapat bermain - main dengan jadwal dengan memasukkan eksponen yang berbeda: tautan ke wolframalpha .


Seperti dapat dilihat dari grafik, satu-satunya kasus di mana P(D| theta) tidak memiliki titik maksimum - ini karena tidak adanya data N=0,M=0 . Jika kita memiliki setidaknya satu fakta, maka maksimum tercapai pada interval [0,1] pada satu titik. Jika N=0 , maka maksimum tercapai pada titik 0, yaitu, jika semua bola berwarna hitam, maka kemungkinan besar semua bola lainnya juga akan menjadi hitam dan sebaliknya. Tetapi seperti yang telah disebutkan, kombinasi mustahil juga dimungkinkan, terutama jika kubah distribusi kami lembut. Untuk mengevaluasi ketidakjelasan perkiraan kami, perlu untuk memperkirakan varians. Dapat dilihat dari grafik bahwa, dengan sejumlah kecil fakta, dispersi besar dan kubah lembut, dan ketika fakta baru ditambahkan, dispersi berkurang dan kubah menjadi lebih tajam.

Sekunder (momen pertama) menurut definisi
 mathbbM1= int10 theta cdotP( theta|D)d theta .

Menurut definisi, varians (momen sentral kedua). Kami akan mempertimbangkannya nanti di bagian tersembunyi.
 mathbbM2= int10( thetaβˆ’ mathbbM1)2P( theta|D)d theta .

--- bagian untuk menanyakan pikiran ---
Ayo pergi P( theta|D) lengkap secara analitis, jika belum lelah. Untuk melakukan ini, kami mengutip sekali lagi semua istilah dari rumus Bayes, termasuk yang konstan:
P( theta)=1
P(D)= int10P(D| theta)P( theta)d theta= int10 thetaN cdot(1βˆ’ theta)Md theta= fracN!M!(N+M+1)! tautan ke wolframalpha
P(D| theta)= thetaN cdot(1βˆ’ theta)M

Formula Bayes untuk kasus kami terlihat seperti ini:

P( theta|D)= thetaN cdot(1βˆ’ theta)M cdot frac(N+M+1)!N!M!



Karenanya rata-rata setelah substitusi
 mathbbM1= int10 theta cdotP( theta|D)d theta= int10 theta cdot thetaN cdot(1βˆ’ theta)M cdot( fracN!M!(N+M+1)!)D theta= frac(N+1)!M!(N+M+2)! Cdot frac(N+M+1)!N!M! .

Kami menggunakan pengetahuan dasar (N+1)!=(N+1) cdotN! dan mengurangi pecahan

 mathbbM1= fracN+1N+M+2



Rumus momen pertama sesuai dengan makna percobaan. Dengan dominasi bola putih, momennya menjadi 1, sedangkan dengan dominasi bola hitam cenderung ke 0. Bola ini bahkan tidak bertingkah ketika tidak ada bola, dan dengan jujur ​​menunjukkan 1/2.

Dispersi juga diungkapkan oleh formula yang dengannya kami akan bekerja.
 mathbbM2= mathbbM1( theta2)βˆ’ mathbbM1( theta)2 .
Anggota pertama  mathbbM1( theta2) untuk sebagian besar mengulangi rumus untuk  mathbbM1( theta) digunakan -  theta2
 mathbbM1( theta2)= int10 theta2 cdot thetaN cdot(1βˆ’ theta)M cdot( frac(N+M+1)!N!M!)d theta= frac(N+2)!M!(N+M+3)! cdot( frac(N+M+1)!N!M!)

= frac(N+2)(N+1)(N+M+3)(N+M+2)

Oleh karena itu, yang kedua sudah dihitung
 mathbbM2= frac(N+2)(N+1)(N+M+3)(N+M+2)βˆ’ fracN+1N+M+2 cdot fracN+1N+M+2

Pada akhirnya, kita mendapatkan:
 m a t h b b M 2 = f r a c ( M + 1 ) c d o t ( N + 1 ) ( N + M + 2 ) 2 c d o t ( N + M + 3 )   
Seperti yang Anda lihat, varians berkurang ketika data ditambahkan dan simetris sehubungan dengan perubahan N dan M. di beberapa tempat.

Anda dapat merangkum perhitungannya. Dengan sejumlah kecil data, Anda perlu memiliki model yang parameternya akan kami optimalkan. Model tersebut menggambarkan serangkaian asumsi tentang keadaan sebenarnya, dan kami memilih asumsi yang paling tepat. Kami mempertimbangkan probabilitas posteriori, jika apriori sudah diketahui. Model tersebut harus mencakup opsi yang memungkinkan yang akan kita temui dalam praktik. Dengan jumlah data yang kecil, model akan menghasilkan varians yang besar untuk parameter output, tetapi ketika jumlah data meningkat, varians akan berkurang dan ramalan akan lebih jelas.

Anda harus memahami bahwa model hanyalah model yang tidak memperhitungkan banyak hal. Itu diciptakan oleh seseorang dan menempatkan peluang terbatas di dalamnya. Dengan sejumlah kecil data, intuisi seseorang lebih cenderung bekerja, karena seseorang menerima lebih banyak sinyal dari dunia luar, dan akan dapat menarik kesimpulan lebih cepat. Model semacam itu lebih cocok sebagai elemen perhitungan yang lebih kompleks, karena Bayes berskala dan memungkinkan Anda membuat kaskade dari formula yang saling memurnikan.

Tentang ini, saya ingin menyelesaikan posting saya. Saya akan senang dengan komentar Anda.


Referensi

Wikipedia: Bayes Theorem
Wikipedia: Penyebaran

Source: https://habr.com/ru/post/id436668/


All Articles