
أذكر بعض التعاريف للإحصاءات الرياضية.
واسمحوا
مساحة الاحتمال تعطى
( Omega، Sigma،P) .
التعريف 1:متغير عشوائي xi= xi(w) أخذ القيم في المجموعة
S ج
سيجما -الجبر من مجموعات فرعية
Phi دعا أي
( سيجما، فاي) وظيفة قابلة للقياس
xi colon Omega إلىS هذا هو
forallA subseteqS،A in Phi الشرط راض
\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma .
التعريف 2:مساحة العينة هي مساحة كل القيم الممكنة للرصد أو العينة مع
سيجما -الجبر من مجموعات فرعية قابلة للقياس من هذا الفضاء.
تعيين: (B، mathscrB) .
محدد في مساحة الاحتمال
( Omega، Sigma،P) متغيرات عشوائية
xi، eta، ldots colon Omega toB تفرخ في الفضاء
(B، mathscrB) تدابير احتمالية
P_ \ xi \ {C \} = P \ {\ xi \ in C \} ، P_ \ eta \ {C \} = P \ {\ eta \ in C \} ، \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ in C \} ، P_ \ eta \ {C \} = P \ {\ eta \ in C \} ، \ ldots في مساحة العينة ، لا يتم تحديد مقياس احتمالي واحد ، ولكن عائلة محدودة أو لا نهائية من مقاييس الاحتمال.
في
مشاكل الإحصاءات الرياضية ، تُعرف عائلة التدابير الاحتمالية
. \ {P_ \ theta، \ space \ theta \ in \ Theta \}\ {P_ \ theta، \ space \ theta \ in \ Theta \} المحدد في مساحة أخذ العينات ،
وهو مطلوب من العينة لتحديد أي من التدابير الاحتمالية لهذه العائلة يتوافق مع العينة.
التعريف 3:النموذج الإحصائي عبارة عن مجموع يتكون من مساحة عينة ومجموعة من تدابير الاحتمالات المحددة عليها.
تعيين: (B، mathscrB، mathscrP) حيث
\ mathscr {P} = \ {P_ \ theta ، \ space \ theta \ in \ Theta \}\ mathscr {P} = \ {P_ \ theta ، \ space \ theta \ in \ Theta \} .
سمح
B= mathbbRn و
( mathbbRn، mathscrB) - مساحة انتقائية.
أخذ العينات
X=(x1، ldots،xn) يمكن اعتباره مزيج
ن أرقام حقيقية. تعيين لكل عنصر من عناصر الاحتمال تساوي
frac1n .
سمح
Ix(B)= startcases1، quadx inB0، quadx not inB endcases
التعريف 4:التوزيع التجريبي الذي تم إنشاؤه من العينة X هو مقياس الاحتمال
P∗n :
P∗n(B)= frac1n sumnk=1Ixk(B)
هذا هو
P∗n(B) - نسبة عدد عناصر العينة التي تنتمي
B ، إلى إجمالي عدد عناصر العينة:
P∗n(B)= frac nun(B)n، space nun(B)= sum limitnk=1I(xk inB)، spaceB in mathscrB .
التعريف 5:ترتيب لحظة انتقائية ك ودعا
hatm∗k= hatm∗k(X)= frac1n sumnj=1xkj
hatm∗1= overlineX= frac1n sum limitnj=1xj -
يعني العينة .
التعريف 6:لحظة المركزية الانتقائية للنظام ك يتحدد بالمساواة
hatm∗(0)k= hatm∗(0)k(X)= frac1n sumnj=1(xj− overlineX)k
S2=S2(X)= hatm∗(0)2= frac1n sum limitnj=1(xj− overlineX)2 -
تباين العينة .
في التعلم الآلي ، تتمثل العديد من المهام في تعلم كيفية اختيار معلمة من البيانات المتاحة
theta الذي يصف أفضل هذه البيانات. في الإحصائيات الرياضية ، غالبًا ما تستخدم
طريقة الاحتمالية القصوى لحل مشكلة مماثلة.
في الحياة الواقعية ، يكون توزيع الأخطاء غالبًا توزيعًا طبيعيًا. لبعض المبررات ، نذكر
نظرية الحد المركزي .
نظرية 1 (CLT):إذا المتغيرات العشوائية
xi1، ldots، xin -
توقعات مستقلة موزعة بالتساوي
M( xii)= ،
الفرق D( xii)= sigma2 in(0،+ infty) space foralli in overline1،n ثم
\ lim \ limit_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limit _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.
نضع أدناه طريقة الحد الأقصى للاحتمالية ونعتبر تشغيلها مثالاً على عائلة من التوزيعات الطبيعية.
طريقة الاحتمالية القصوى
دع لنموذج إحصائي
(B، \ mathscr {B}، \ mathscr {P} = \ {P_ \ theta، \ space \ theta \ in \ Theta \}) يتم استيفاء شرطين:
- إذا theta1 not= theta2 ثم P theta1 not=P theta2 .
- هناك مثل هذا التدبير mu في (B، mathscrB) فيما يتعلق بأي تدبير P theta . theta in Theta ، هناك كثافة f theta(x)= fracdP theta(x)d mu(x) هذا هو forallC in mathscrB quadP theta(C)= int limitCf theta(x) mu(dx) .
التعريف 7:تقييم الاحتمالات القصوى (OMP)
hat theta معلمة
theta دعا شيدت تجريبيا
P∗n المقابلة للعينة
X=(x1، ldots،xn) القيمة
theta in Theta في أي
max limit theta in Theta int lnf theta(x)P∗n∗(dx)= max limit theta in Theta frac1n sum limitni=1 lnf theta(x).التعريف 8:وظيفة
Lambda theta(X)= prod limitni=1f theta(xi) بوصفها وظيفة من
theta يسمى
وظيفة الاحتمال ، والوظيفة
L(X، theta)= sum limitni=1 lnf theta(xi) -
وظيفة احتمال لوغاريتمي .
هذه الوظائف ذروتها في نفس القيم.
theta كما
lnx - زيادة
رتابة وظيفة.
مثال:\ mathscr {P} = \ {N (a، \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}، \ space \ sigma \ in (0، + \ infty) \} - عائلة
توزيعات طبيعية كثيفة
\ phi_ {a، \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . حسب العينة
X=(x1، ldots،xn)\ Lambda_ {a، \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ limit_ {i = 1} ^ n (x_j-a) ^ 2 \}؛
L(X،(a، sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitni=1(xi−a)2؛
frac جزئيةL جزئيةa= frac1 sigma2 sum limitni=1(xi−a)، quad frac جزئيةL جزئي sigma=− fracn sigma+ frac1 sigma3 sum limitni=1(xi−a)2؛
frac جزئيةL جزئيةa=0 quad Rightarrow quad sum limitni=1xi−na=0 quad Rightarrow quad frac1n sum limitni=1xi= overlineX= hata؛
frac جزئيةL جزئية sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitni=1(xi−a)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitni=1(xi− overlineX)2= sqrtS2.
تم الحصول على تقديرات للتوقع الرياضي والتباين.
إذا كنت تبحث عن كثب في الصيغة
L(X،(a، sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitni=1(xi−a)2
يمكننا أن نستنتج أن وظيفة
L(X،(a، sigma)) يفترض قيمته القصوى عندما
sum limitni=1(xi−a)2 هو الحد الأدنى. في مشكلات التعلم الآلي ، غالبًا ما يتم استخدام
طريقة المربعات الصغرى ، حيث يتم تقليل مجموع الانحرافات التربيعية للقيم المتوقعة عن القيم الحقيقية.
قائمة الأدبيات المستخدمة:
- ملاحظات محاضرة عن الإحصاء الرياضي ، المؤلف غير معروف ؛
- "التعلم العميق. الانغماس في عالم الشبكات العصبية "، S. Nikulenko ، A. Kadurin ، E. Arkhangelskaya ، PETER ، 2018.