Sinopsis tentang Pembelajaran Mesin. Statistik matematika. Metode kemungkinan maksimum



Ingat beberapa definisi statistik matematika.


Biarkan ruang probabilitas diberikan ( Omega, Sigma,P) .

Definisi 1:

Variabel acak  xi= xi(w) mengambil nilai di set S c  sigma -Aljabar himpunan bagian  Phi disebut apa saja ( Sigma, Phi) fungsi yang terukur  xi colon Omega hinggaS itu adalah  forallA subseteqS,A in Phi kondisinya puas \ xi ^ {- 1} (A) = \ {\ omega \ di \ Omega \ space \ colon \ space \ xi (w) \ dalam A \} \ dalam \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ di \ Omega \ space \ colon \ space \ xi (w) \ dalam A \} \ dalam \ Sigma .

Definisi 2:

Ruang sampel adalah ruang dari semua nilai yang mungkin dari pengamatan atau sampel bersama  sigma - Aljabar himpunan bagian terukur dari ruang ini.
Penunjukan: (B, mathscrB) .

Didefinisikan pada ruang probabilitas ( Omega, Sigma,P) variabel acak  xi, eta, ldots colon Omega hinggaB muncul di angkasa (B, mathscrB) langkah-langkah probabilistik P_ \ xi \ {C \} = P \ {\ xi \ dalam C \}, P_ \ eta \ {C \} = P \ {\ eta \ dalam C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ dalam C \}, P_ \ eta \ {C \} = P \ {\ eta \ dalam C \}, \ ldots Pada ruang sampel, tidak satu ukuran probabilitas ditentukan, tetapi keluarga terbatas atau tak terbatas ukuran probabilitas.

Dalam masalah statistik matematika , keluarga ukuran probabilitas diketahui. \ {P_ \ theta, \ space \ theta \ di \ Theta \}\ {P_ \ theta, \ space \ theta \ di \ Theta \} didefinisikan dalam ruang pengambilan sampel, dan diperlukan dari sampel untuk menentukan mana dari langkah-langkah probabilitas keluarga ini yang sesuai dengan sampel.

Definisi 3:

Model statistik adalah agregat yang terdiri dari ruang sampel dan keluarga ukuran probabilitas yang didefinisikan.

Penunjukan: (B, mathscrB, mathscrP) dimana \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ di \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ di \ Theta \} .

Biarkan B= mathbbRn dan ( mathbbRn, mathscrB) - ruang selektif.

Sampling X=(x1, ldots,xn) dapat dianggap sebagai kombinasi n bilangan real Tetapkan setiap elemen sampel probabilitas sama dengan  frac1n .

Biarkan

Ix(B)= begincases1, quadx diB0, quadx tidak diB endcases


Definisi 4:

Distribusi empiris yang dibangun dari sampel X adalah ukuran probabilitas Pn :

Pn(B)= frac1n sumnk=1Ixk(B)


Yaitu Pn(B) - rasio jumlah elemen sampel yang dimiliki B , ke jumlah total item sampel: Pn(B)= frac nun(B)n, space nun(B)= jumlah limitnk=1I(xk dalamB), spaceB in mathscrB .

Definisi 5:

Urutan momen selektif k disebut

 hatmk= hatmk(X)= frac1n sumnj=1xkj

 hatm1= overlineX= frac1n jumlah limitnj=1xj - Sampel rata-rata .

Definisi 6:

Momen sentral pesanan yang selektif k ditentukan oleh kesetaraan

 hatm(0)k= hatm(0)k(X)= frac1n sumnj=1(xj overlineX)k

S2=S2(X)= hatm(0)2= frac1n jumlah limitnj=1(xj overlineX)2 - varians sampel .

Dalam pembelajaran mesin, banyak tugas adalah mempelajari cara memilih parameter dari data yang tersedia  theta yang paling menggambarkan data ini. Dalam statistik matematika, metode kemungkinan maksimum sering digunakan untuk memecahkan masalah yang sama.

Dalam kehidupan nyata, distribusi kesalahan sering memiliki distribusi normal. Untuk beberapa pembenaran, kami menyatakan teorema batas pusat .

Teorema 1 (CLT):

Jika variabel acak  xi1, ldots, xin - ekspektasi matematika yang independen, terdistribusi merata, M( xii)=a perbedaan D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n lalu

\ lim \ limit_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limit _ {- \ infty} ^ xe ^ {- u ^ 2/2} du


Di bawah ini kami merumuskan metode kemungkinan maksimum dan menganggap operasinya sebagai contoh keluarga distribusi normal.

Metode kemungkinan maksimum


Biarkan untuk model statistik (B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ di \ Theta \}) dua kondisi terpenuhi:

  • jika  theta1 tidak= theta2 lalu P theta1 not=P theta2 ;
  • ada ukuran seperti itu  mu pada (B, mathscrB) tentang yang untuk ukuran apa pun P theta ,  theta in Theta , ada kepadatan f theta(x)= fracdP theta(x)d mu(x) itu adalah  forallC in mathscrB quadP theta(C)= int limitCf theta(x) mu(dx) .

Definisi 7:

Penilaian Kemungkinan Maksimum (OMP)  hat theta parameter  theta disebut dibangun secara empiris Pn sesuai dengan sampel X=(x1, ldots,xn) , nilai  theta in Theta dimana  max limit theta in Theta int lnf theta(x)Pn(dx)= max limit theta in Theta frac1n jumlah limitni=1 lnf theta(x).

Definisi 8:

Fungsi  Lambda theta(X)= prod limitni=1f theta(xi) sebagai fungsi dari  theta disebut fungsi kemungkinan , dan fungsi L(X, theta)= jumlah limitni=1 lnf theta(xi) - fungsi kemungkinan logaritmik .

Fungsi-fungsi ini memuncak pada nilai yang sama.  theta sejak itu  lnx - Fungsi peningkatan monoton .

Contoh:

\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - keluarga distribusi normal dengan kepadatan \ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Dengan sampel X=(x1, ldots,xn)

\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ jumlah \ limit_ {i = 1} ^ n (x_j-a) ^ 2 \};

L(X,(a, sigma))= fracn2 ln2 pin ln sigma frac12 sigma2 jumlah limitni=1(xia)2;

 frac partialL partiala= frac1 sigma2 jumlah limitni=1(xia), quad frac partialL partial sigma= fracn sigma+ frac1 sigma3 jumlah limitni=1(xia)2;

 frac partialL partiala=0 quad Rightarrow quad jumlah limitni=1xina=0 quad Rightarrow quad frac1n jumlah limitni=1xi= overlineX= hata;

 frac partialL partial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 jumlah limitni=1(xia)2 quad Rightarrow quad hat sigma= sqrt frac1n jumlah limitni=1(xi overlineX)2= sqrtS2.

Estimasi untuk harapan matematika dan varians diperoleh.

Jika Anda perhatikan formula ini dengan cermat

L(X,(a, sigma))= fracn2 ln2 pin ln sigma frac12 sigma2 jumlah limitni=1(xia)2

kita dapat menyimpulkan bahwa fungsinya L(X,(a, sigma)) mengasumsikan nilai maksimumnya ketika  jumlah limitni=1(xia)2 minimal. Dalam masalah pembelajaran mesin, metode kuadrat-terkecil sering digunakan, di mana jumlah deviasi kuadrat dari nilai-nilai yang diprediksi dari yang benar diminimalkan.

Daftar literatur yang digunakan:


  • Catatan kuliah tentang statistik matematika, penulis tidak diketahui;
  • “Pembelajaran yang mendalam. Perendaman dalam dunia jaringan saraf ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.

Source: https://habr.com/ru/post/id474478/


All Articles