Alih-alih memperkenalkan
Artikel ini menjelaskan penelitian yang dilakukan untuk memverifikasi pernyataan teorema limit pusat bahwa jumlah
N variabel bebas independen dan terdistribusi identik dipilih dari hampir semua distribusi memiliki distribusi mendekati normal. Namun, sebelum kita melanjutkan ke deskripsi penelitian dan pengungkapan yang lebih rinci tentang makna teorema batas pusat, itu tidak akan keluar dari tempatnya untuk memberi tahu mengapa penelitian dilakukan sama sekali dan kepada siapa artikel mungkin berguna.
Pertama-tama, artikel ini dapat bermanfaat bagi semua pemula untuk memahami dasar-dasar pembelajaran mesin, terutama jika pembaca yang dihormati juga berada di tahun pertama spesialisasi "Pembelajaran Mesin dan Analisis Data". Ini adalah jenis penelitian yang perlu dilakukan pada minggu terakhir dari kursus pertama, spesialisasi di atas, untuk menerima sertifikat yang diidamkan.
Pendekatan penelitian
Jadi, kembali ke pertanyaan penelitian. Apa yang dikatakan teorema limit pusat kepada kita. Tapi dia mengatakan ini. Jika ada nilai acak
X dari hampir semua distribusi, dan sampel volume
N dihasilkan secara acak dari distribusi ini, maka rata-rata sampel yang ditentukan berdasarkan sampel dapat diperkirakan dengan distribusi normal dengan nilai rata-rata yang bertepatan dengan ekspektasi matematis dari populasi asli.
Untuk melakukan percobaan, kita perlu memilih distribusi dari mana sampel akan dihasilkan secara acak. Dalam kasus kami, kami akan menggunakan distribusi eksponensial.
Jadi, kita tahu bahwa kepadatan probabilitas dari distribusi eksponensial dari variabel acak
X memiliki bentuk:
dimana
,
Harapan matematis dari variabel acak X , sesuai dengan hukum distribusi eksponensial ditentukan, berbanding terbalik
:
Varians dari variabel acak X didefinisikan sebagai
Penelitian kami menggunakan parameter distribusi eksponensial
lalu
,
Untuk menyederhanakan persepsi nilai dan eksperimen itu sendiri, anggaplah kita berbicara tentang operasi perangkat dengan harapan rata-rata waktu kerja 80 jam. Kemudian, semakin banyak waktu perangkat akan bekerja, semakin kecil kemungkinan bahwa tidak akan ada kegagalan, dan sebaliknya - ketika perangkat cenderung ke waktu nol (jam, menit, detik), probabilitas kegagalannya juga cenderung ke nol.
Sekarang dari distribusi eksponensial dengan parameter yang diberikan
pilih 1000 nilai pseudo-acak. Bandingkan hasil sampel dengan kerapatan probabilitas teoretis.
Selanjutnya, dan ini adalah hal yang paling penting dalam penelitian kecil kami, kami akan membentuk sampel berikut. Kami mengambil 3, 15, 50, 100, 150, 300, dan 500 variabel acak dari distribusi eksponensial, menentukan untuk setiap volume (dari 3 hingga 500) rata-rata aritmatika, dan mengulangi 1000 kali. Untuk setiap sampel, kami membuat histogram dan menempatkannya di atasnya grafik kepadatan distribusi normal yang sesuai. Kami memperkirakan parameter yang dihasilkan dari mean sampel, varians, dan standar deviasi.
Ini bisa menyelesaikan artikel, tetapi ada proposal untuk memperluas batas percobaan. Mari kita perkirakan berapa banyak parameter ini, dengan peningkatan ukuran sampel dari 3 menjadi 500, akan berbeda dari rekan-rekan mereka - parameter yang sama dari distribusi normal yang sesuai. Dengan kata lain, kita diundang untuk menjawab pertanyaan, tetapi apakah kita akan mengamati penurunan penyimpangan dengan meningkatnya ukuran sampel?
Jadi, dalam perjalanan. Alat kami hari ini adalah bahasa Python dan notebook Jupyter.
Kami mempelajari pernyataan teorema limit pusat
Kode sumber penelitian diposting di
githubPerhatian! File ini membutuhkan notebook Jupyter!Sampel nilai pseudo-acak yang dihasilkan oleh kami sesuai dengan hukum distribusi eksponensial 1000 kali cukup baik mencirikan populasi teoritis (awal) (grafik 1 *, tabel 1).
Bagan 1 “Set awal distribusi eksponensial dan pengambilan sampel”
Tabel 1 “Parameter populasi awal dan sampel”
Sekarang mari kita lihat apa yang terjadi jika kita mengambil tidak hanya satu nilai pseudo-acak 1000 kali, tetapi rata-rata aritmatika 3, 15, 50, 100, 150, 300, atau 500 nilai pseudo-acak dan membandingkan parameter dari setiap sampel dengan parameter dari distribusi normal yang sesuai (grafik 2 ** tabel 2).
Bagan 2.1 "Contoh 5"
Bagan 2.2 “Sampel 50”
Bagan 2.3 "Sampel 100"
Bagan 2.4 "Sampel 150"
Bagan 2.5 "300 Sampel"
Bagan 2.6 "500 Sampel"
Tabel 2 "Opsi Sampel"
Sesuai dengan representasi grafis dari hasil, keteraturan berikut terlihat jelas: dengan meningkatnya ukuran sampel, distribusi mendekati normal dan konsentrasi variabel pseudorandom di sekitar rata-rata sampel terjadi, dan rata-rata sampel mendekati ekspektasi matematis dari distribusi awal.
Sesuai dengan data yang disajikan dalam tabel, pola yang ditunjukkan dalam grafik dikonfirmasi - dengan meningkatnya ukuran sampel, varians dan nilai standar deviasi menurun, menunjukkan konsentrasi yang lebih padat dari nilai pseudorandom di sekitar rata-rata sampel.
Tapi itu belum semuanya. Kita ingat bahwa pada awal artikel, sebuah proposal dibuat untuk memeriksa apakah, dengan bertambahnya ukuran sampel, penyimpangan parameter sampel sehubungan dengan parameter penurunan distribusi normal yang sesuai.
Seperti yang dapat Anda lihat (grafik 3, tabel 3), tidak ada penurunan penyimpangan yang terlihat secara sewenang-wenang - parameter sampel melonjak menjadi plus atau minus pada jarak yang berbeda dan tidak ingin secara stabil mendekati nilai yang dihitung. Kami akan mencoba menemukan penjelasan tentang kurangnya dinamika positif dalam studi berikut.
Bagan 3 “Penyimpangan parameter sampel dari perhitungan teoritis”

Tabel 3 "Penyimpangan parameter sampel dari teori yang dihitung"

Alih-alih kesimpulan
Studi kami, di satu sisi, sekali lagi, mengkonfirmasi kesimpulan teorema limit pusat pada pendekatan nilai-nilai independen yang terdistribusi secara acak ke distribusi normal dengan peningkatan ukuran sampel, di sisi lain, adalah mungkin untuk berhasil menyelesaikan tahun pertama spesialisasi utama.
* Mengembangkan logika contoh dengan peralatan, waktu upayanya adalah 80 jam, di sepanjang sumbu "X" kita menentukan jam - semakin sedikit waktu kerjanya, semakin sedikit kemungkinan kegagalan.
** Diperlukan interpretasi berbeda dari nilai sumbu X - probabilitas bahwa perangkat akan bekerja pada sekitar 80 jam adalah yang tertinggi dan, karenanya, berkurang seiring dengan peningkatan waktu operasi (artinya, tidak mungkin perangkat akan bekerja lebih lama dari 80 jam) , dan dengan penurunan waktu operasi (kemungkinan perangkat akan gagal dalam waktu kurang dari 80 jam juga kecil).
Karya penulis selanjutnya - “Kami menyelesaikan persamaan regresi linier sederhana”