
回顾一下数学统计的一些定义。
给出一个
概率空间 ( Omega, Sigma,P) 。
定义1:随机变量 xi= xi(w) 在集合中取值
S ç
sigma -子集
代数 \皮皮 叫任何
(西格玛, Phi) 可测功能
xi\冒号 Omega\至S 那就是
forallA subseteqS,A in Phi 条件满足
\ xi ^ {-1}(A)= \ {\ omega \ in \ Omega \ space \ Colon \ space \ xi(w)\ in A \} \ in \ Sigma\ xi ^ {-1}(A)= \ {\ omega \ in \ Omega \ space \ Colon \ space \ xi(w)\ in A \} \ in \ Sigma 。
定义2:样本空间是观测值或样本的所有可能值以及
sigma -此空间的可测量子集的代数。
名称: (B, mathscrB) 。
在概率空间上定义
( Omega, Sigma,P) 随机变量
xi, eta, ldots\冒号 Omega\至B 在太空中产生
(B, mathscrB) 概率测度
P_ \ xi \ {C \} = P \ {\ xi \ in C \},P_ \ eta \ {C \} = P \ {\ eta \ in C \},\ ldotsP_ \ xi \ {C \} = P \ {\ xi \ in C \},P_ \ eta \ {C \} = P \ {\ eta \ in C \},\ ldots 在样本空间上,不是确定一个概率度量,而是一个有限或无限的概率度量族。
在
数理统计问题中 ,已知一系列概率测度
。 \ {P_ \ theta,\ space \ theta \ in \ Theta \}\ {P_ \ theta,\ space \ theta \ in \ Theta \} 在样本空间中定义,
需要从样本中确定该族中哪些概率测度与样本相对应。
定义3:统计模型是由样本空间和在其上定义的一系列概率度量组成的集合。
名称: (B, mathscrB, mathscrP) 在哪里
\ mathscr {P} = \ {P_ \ theta,\ space \ theta \ in \ Theta \}\ mathscr {P} = \ {P_ \ theta,\ space \ theta \ in \ Theta \} 。
让
B= mathbbRn 和
( mathbbRn, mathscrB) -选择性空间。
取样方式
X=(x1, ldots,xn) 可以视为组合
n 实数。 给样本的每个元素分配等于的概率
frac1n 。
让
I_x(B)= \开始{cases} 1,\ quad x \ in B \\ 0,\ quad x \ not \ in B \ end {cases
I_x(B)= \开始{cases} 1,\ quad x \ in B \\ 0,\ quad x \ not \ in B \ end {cases
定义4:由样本X构造
的经验分布是概率度量
P∗n :
P∗n(B)= frac1n sumnk=1Ixk(B)
那是
P∗n(B) -属于样本元素的数量的比率
B ,占样本总数:
P∗n(B)= frac nun(B)n, space nun(B)= sum limitsnk=1I(xk inB), spaceB in mathscrB 。
定义5:选择性矩顺序 k 叫
hatm∗k= hatm∗k(X)= frac1n sumnj=1xkj
hatm∗1= overlineX= frac1n sum limitsnj=1xj -
样本均值 。
定义6:选择性中心矩 k 由平等决定
hatm∗(0)k= hatm∗(0)k(X)= frac1n sumnj=1(xj−\上线X)k
S2=S2(X)=\帽子m∗(0)2= frac1n sum limitsnj=1(xj− overlineX)2 -
样本方差 。
在机器学习中,许多任务是学习如何从可用数据中选择参数
theta 最好地描述了这些数据。 在数学统计中,
最大似然法通常用于解决类似问题。
在现实生活中,误差分布通常具有正态分布。 为了证明这一点,我们陈述了
中心极限定理 。
定理1(CLT):如果随机变量
xi1, ldots, xin -独立的,平均分布的
数学期望 M( xii)=一个 方差 D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n 然后
\ lim \ limits_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n-na} {\ sigma \ sqrt {n}} \ leq x \} = F(x)= \ frac {1} {\ sqrt {2 \ pi}} \ int \极限_ {-\ infty} ^ xe ^ {-u ^ 2/2} du。
下面,我们制定最大似然法,并将其操作作为一个正态分布族的例子。
最大似然法
建立统计模型
(B,\ mathscr {B},\ mathscr {P} = \ {P_ \ theta,\ space \ theta \ in \ Theta \}) 满足两个条件:
- 如果 theta1 not= theta2 然后 P theta1 not=P theta2 ;
- 有这样的措施 \亩 在 (B, mathscrB) 关于任何措施 P theta , theta in Theta ,有密度 f theta(x)= fracdP theta(x)d mu(x) 那就是 forallC in mathscrB quadP theta(C)= int limitsCf theta(x) mu(dx) 。
定义7:最大可能性评估 (OMP)
\帽子 theta 参数
theta 称为经验构造
P∗n 对应样本
X=(x1, ldots,xn) ,值
theta in Theta 在哪
max\极限 theta in Theta int lnf theta(x)P∗n(dx)= max limits theta in Theta frac1n sum limitsni=1 lnf theta(x)定义8:功能介绍
Lambda theta(X)= prod limitsni=1f theta(xi) 根据
theta 称为
似然函数 ,该函数
L(X, theta)= sum limitsni=1 lnf theta(xi) -
对数似然函数 。
这些函数的峰值相同。
theta 从
lnx -
单调递增功能。
一个例子:\ mathscr {P} = \ {N(a,\ sigma ^ 2)\ space | \ space a \ in \ mathbb {R},\ space \ sigma \ in(0,+ \ infty)\} -具有密度的
正态分布族
\ phi_ {a,\ sigma ^ 2}(x)= \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {-\ frac {1} {2 \ sigma ^ 2}(xa )^ 2 \} 。 按样品
X=(x1, ldots,xn)\ Lambda_ {a,\ sigma}(X)= \ frac {1} {(2 \ pi)^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {-\ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ {i = 1} ^ n(x_j-a)^ 2 \};
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2;
frac\部分L\部分a= frac1 sigma2 sum limitsni=1(xi−a), quad frac\部分L\部分 sigma=− fracn sigma+ frac1 sigma3 sum limitsni=1(xi−a)2;
frac\部分L\部分a=0 quad Rightarrow quad sum limitsni=1xi−na=0 quad Rightarrow quad frac1n sum limitsni=1xi=\上线X= hata;
frac\部分L\部分 sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1(xi−a)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitsni=1(xi−\上划线X)2= sqrtS2
获得了数学期望和方差的估计。
如果您仔细看一下公式
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2
我们可以得出结论,该功能
L(X,(a, sigma)) 在以下情况下取其最大值
sum limitsni=1(xi−a)2 是最小的。 在机器学习问题中,经常使用
最小二乘法 ,其中将预测值与真实值的平方偏差之和最小化。
二手文献清单:
- 关于数学统计的讲义,作者不详;
- “深度学习。 沉浸在神经网络世界中”,S。Nikulenko,A。Kadurin,E。Arkhangelskaya,PETER,2018年。