
Ingat beberapa definisi statistik matematika.
Biarkan 
ruang probabilitas diberikan 
( Omega, Sigma,P) .
Definisi 1:Variabel acak  xi= xi(w) mengambil nilai di set 
S c 
 sigma -Aljabar himpunan bagian 
 Phi disebut apa saja 
( Sigma, Phi) fungsi yang terukur 
 xi colon Omega hinggaS itu adalah 
 forallA subseteqS,A in Phi kondisinya puas 
\ xi ^ {- 1} (A) = \ {\ omega \ di \ Omega \ space \ colon \ space \ xi (w) \ dalam A \} \ dalam \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ di \ Omega \ space \ colon \ space \ xi (w) \ dalam A \} \ dalam \ Sigma .
Definisi 2:Ruang sampel adalah ruang dari semua nilai yang mungkin dari pengamatan atau sampel bersama 
 sigma - Aljabar himpunan bagian terukur dari ruang ini.
Penunjukan: (B, mathscrB) .
Didefinisikan pada ruang probabilitas 
( Omega, Sigma,P) variabel acak 
 xi, eta, ldots colon Omega hinggaB muncul di angkasa 
(B, mathscrB) langkah-langkah probabilistik 
P_ \ xi \ {C \} = P \ {\ xi \ dalam C \}, P_ \ eta \ {C \} = P \ {\ eta \ dalam C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ dalam C \}, P_ \ eta \ {C \} = P \ {\ eta \ dalam C \}, \ ldots Pada ruang sampel, tidak satu ukuran probabilitas ditentukan, tetapi keluarga terbatas atau tak terbatas ukuran probabilitas.
Dalam 
masalah statistik matematika , keluarga ukuran probabilitas 
diketahui. \ {P_ \ theta, \ space \ theta \ di \ Theta \}\ {P_ \ theta, \ space \ theta \ di \ Theta \} didefinisikan dalam ruang pengambilan sampel, dan 
diperlukan dari sampel untuk menentukan mana dari langkah-langkah probabilitas keluarga ini yang sesuai dengan sampel.
Definisi 3:Model statistik adalah agregat yang terdiri dari ruang sampel dan keluarga ukuran probabilitas yang didefinisikan.
Penunjukan: (B, mathscrB, mathscrP) dimana 
\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ di \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ di \ Theta \} .
Biarkan 
B= mathbbRn dan 
( mathbbRn, mathscrB) - ruang selektif.
Sampling 
X=(x1, ldots,xn) dapat dianggap sebagai kombinasi 
n bilangan real Tetapkan setiap elemen sampel probabilitas sama dengan 
 frac1n .
Biarkan
Ix(B)= begincases1, quadx diB0, quadx tidak diB endcases
Definisi 4:Distribusi empiris yang dibangun dari sampel X adalah ukuran probabilitas 
P∗n :
P∗n(B)= frac1n sumnk=1Ixk(B)
Yaitu 
P∗n(B) - rasio jumlah elemen sampel yang dimiliki 
B , ke jumlah total item sampel: 
P∗n(B)= frac nun(B)n, space nun(B)= jumlah limitnk=1I(xk dalamB), spaceB in mathscrB .
Definisi 5:Urutan momen selektif k disebut
 hatm∗k= hatm∗k(X)= frac1n sumnj=1xkj
 hatm∗1= overlineX= frac1n jumlah limitnj=1xj - 
Sampel rata-rata .
Definisi 6:Momen sentral pesanan yang selektif k ditentukan oleh kesetaraan
 hatm∗(0)k= hatm∗(0)k(X)= frac1n sumnj=1(xj− overlineX)k
S2=S2(X)= hatm∗(0)2= frac1n jumlah limitnj=1(xj− overlineX)2 - 
varians sampel .
Dalam pembelajaran mesin, banyak tugas adalah mempelajari cara memilih parameter dari data yang tersedia 
 theta yang paling menggambarkan data ini. Dalam statistik matematika, 
metode kemungkinan maksimum sering digunakan untuk memecahkan masalah yang sama.
Dalam kehidupan nyata, distribusi kesalahan sering memiliki distribusi normal. Untuk beberapa pembenaran, kami menyatakan 
teorema batas pusat .
Teorema 1 (CLT):Jika variabel acak 
 xi1, ldots, xin - 
ekspektasi matematika yang independen, terdistribusi merata, 
M( xii)=a perbedaan D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n lalu
\ lim \ limit_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limit _ {- \ infty} ^ xe ^ {- u ^ 2/2} du
Di bawah ini kami merumuskan metode kemungkinan maksimum dan menganggap operasinya sebagai contoh keluarga distribusi normal.
Metode kemungkinan maksimum
Biarkan untuk model statistik 
(B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ di \ Theta \}) dua kondisi terpenuhi:
- jika  theta1 tidak= theta2 lalu P theta1 not=P theta2 ;
- ada ukuran seperti itu  mu pada (B, mathscrB) tentang yang untuk ukuran apa pun P theta ,  theta in Theta , ada kepadatan f theta(x)= fracdP theta(x)d mu(x) itu adalah  forallC in mathscrB quadP theta(C)= int limitCf theta(x) mu(dx) .
Definisi 7:Penilaian Kemungkinan Maksimum (OMP) 
 hat theta parameter 
 theta disebut dibangun secara empiris 
P∗n sesuai dengan sampel 
X=(x1, ldots,xn) , nilai 
 theta in Theta dimana 
 max limit theta in Theta int lnf theta(x)P∗n(dx)= max limit theta in Theta frac1n jumlah limitni=1 lnf theta(x).Definisi 8:Fungsi 
 Lambda theta(X)= prod limitni=1f theta(xi) sebagai fungsi dari 
 theta disebut 
fungsi kemungkinan , dan fungsi 
L(X, theta)= jumlah limitni=1 lnf theta(xi) - 
fungsi kemungkinan logaritmik .
Fungsi-fungsi ini memuncak pada nilai yang sama. 
 theta sejak itu 
 lnx - Fungsi peningkatan 
monoton .
Contoh:\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - keluarga 
distribusi normal dengan kepadatan 
\ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Dengan sampel 
X=(x1, ldots,xn)\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ jumlah \ limit_ {i = 1} ^ n (x_j-a) ^ 2 \};
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 jumlah limitni=1(xi−a)2;
 frac partialL partiala= frac1 sigma2 jumlah limitni=1(xi−a), quad frac partialL partial sigma=− fracn sigma+ frac1 sigma3 jumlah limitni=1(xi−a)2;
 frac partialL partiala=0 quad Rightarrow quad jumlah limitni=1xi−na=0 quad Rightarrow quad frac1n jumlah limitni=1xi= overlineX= hata;
 frac partialL partial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 jumlah limitni=1(xi−a)2 quad Rightarrow quad hat sigma= sqrt frac1n jumlah limitni=1(xi− overlineX)2= sqrtS2.
Estimasi untuk harapan matematika dan varians diperoleh.
Jika Anda perhatikan formula ini dengan cermat
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 jumlah limitni=1(xi−a)2
kita dapat menyimpulkan bahwa fungsinya 
L(X,(a, sigma)) mengasumsikan nilai maksimumnya ketika 
 jumlah limitni=1(xi−a)2 minimal. Dalam masalah pembelajaran mesin, 
metode kuadrat-terkecil sering digunakan, di mana jumlah deviasi kuadrat dari nilai-nilai yang diprediksi dari yang benar diminimalkan.
Daftar literatur yang digunakan:
- Catatan kuliah tentang statistik matematika, penulis tidak diketahui;
- “Pembelajaran yang mendalam. Perendaman dalam dunia jaringan saraf ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.