机器学习简介。 数理统计。 最大似然法



回顾一下数学统计的一些定义。


给出一个概率空间  Omega SigmaP

定义1:

随机变量  xi= xiw 在集合中取值 S ç  sigma -子集代数 \皮 叫任何 西 Phi西 可测功能  xi\冒 Omega\至S 那就是  forallA subseteqSA in Phi 条件满足 \ xi ^ {-1}(A)= \ {\ omega \ in \ Omega \ space \ Colon \ space \ xi(w)\ in A \} \ in \ Sigma\ xi ^ {-1}(A)= \ {\ omega \ in \ Omega \ space \ Colon \ space \ xi(w)\ in A \} \ in \ Sigma

定义2:

样本空间是观测值或样本的所有可能值以及  sigma -此空间的可测量子集的代数。
名称: B mathscrB

在概率空间上定义  Omega SigmaP 随机变量  xi eta ldots\冒 Omega\至B 在太空中产生 B mathscrB 概率测度 P_ \ xi \ {C \} = P \ {\ xi \ in C \},P_ \ eta \ {C \} = P \ {\ eta \ in C \},\ ldotsP_ \ xi \ {C \} = P \ {\ xi \ in C \},P_ \ eta \ {C \} = P \ {\ eta \ in C \},\ ldots 在样本空间上,不是确定一个概率度量,而是一个有限或无限的概率度量族。

数理统计问题中 ,已知一系列概率测度 \ {P_ \ theta,\ space \ theta \ in \ Theta \}\ {P_ \ theta,\ space \ theta \ in \ Theta \} 在样本空间中定义, 需要从样本中确定该族中哪些概率测度与样本相对应。

定义3:

统计模型是由样本空间和在其上定义的一系列概率度量组成的集合。

名称: B mathscrB mathscrP 在哪里 \ mathscr {P} = \ {P_ \ theta,\ space \ theta \ in \ Theta \}\ mathscr {P} = \ {P_ \ theta,\ space \ theta \ in \ Theta \}

B= mathbbRn mathbbRn mathscrB -选择性空间。

取样方式 X=x1 ldotsxn 可以视为组合 n 实数。 给样本的每个元素分配等于的概率  frac1n

I_x(B)= \开始{cases} 1,\ quad x \ in B \\ 0,\ quad x \ not \ in B \ end {cases

I_x(B)= \开始{cases} 1,\ quad x \ in B \\ 0,\ quad x \ not \ in B \ end {cases


定义4:

由样本X构造的经验分布是概率度量 Pn

PnB= frac1n sumnk=1IxkB


那是 PnB -属于样本元素的数量的比率 B ,占样本总数: PnB= frac nunBn space nunB= sum limitsnk=1Ixk inB spaceB in mathscrB

定义5:

选择性矩顺序 k

 hatmk= hatmkX= frac1n sumnj=1xkj

 hatm1= overlineX= frac1n sum limitsnj=1xj - 样本均值

定义6:

选择性中心矩 k 由平等决定

 hatm0k= hatm0kX= frac1n sumnj=1xj\上线Xk

线

S2=S2X=\帽m02= frac1n sum limitsnj=1xj overlineX2 - 样本方差

在机器学习中,许多任务是学习如何从可用数据中选择参数  theta 最好地描述了这些数据。 在数学统计中, 最大似然法通常用于解决类似问题。

在现实生活中,误差分布通常具有正态分布。 为了证明这一点,我们陈述了中心极限定理

定理1(CLT):

如果随机变量  xi1 ldots xin -独立的,平均分布的数学期望 M xii= 方差 D xii= sigma2 in0+ infty space foralli in overline1n 然后

\ lim \ limits_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n-na} {\ sigma \ sqrt {n}} \ leq x \} = F(x)= \ frac {1} {\ sqrt {2 \ pi}} \ int \极限_ {-\ infty} ^ xe ^ {-u ^ 2/2} du。


下面,我们制定最大似然法,并将其操作作为一个正态分布族的例子。

最大似然法


建立统计模型 (B,\ mathscr {B},\ mathscr {P} = \ {P_ \ theta,\ space \ theta \ in \ Theta \}) 满足两个条件:

  • 如果  theta1 not= theta2 然后 P theta1 not=P theta2 ;
  • 有这样的措施 \亩B mathscrB 关于任何措施 P theta theta in Theta ,有密度 f thetax= fracdP thetaxd mux 那就是  forallC in mathscrB quadP thetaC= int limitsCf thetax mudx

定义7:

最大可能性评估 (OMP) \帽 theta 参数  theta 称为经验构造 Pn 对应样本 X=x1 ldotsxn ,值  theta in Theta 在哪  max\极 theta in Theta int lnf thetaxPndx= max limits theta in Theta frac1n sum limitsni=1 lnf thetax

定义8:

功能介绍  Lambda thetaX= prod limitsni=1f thetaxi 根据  theta 称为似然函数 ,该函数 LX theta= sum limitsni=1 lnf thetaxi - 对数似然函数

这些函数的峰值相同。  theta lnx - 单调递增功能。

一个例子:

\ mathscr {P} = \ {N(a,\ sigma ^ 2)\ space | \ space a \ in \ mathbb {R},\ space \ sigma \ in(0,+ \ infty)\} -具有密度的正态分布\ phi_ {a,\ sigma ^ 2}(x)= \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {-\ frac {1} {2 \ sigma ^ 2}(xa )^ 2 \} 。 按样品 X=x1 ldotsxn

\ Lambda_ {a,\ sigma}(X)= \ frac {1} {(2 \ pi)^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {-\ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ {i = 1} ^ n(x_j-a)^ 2 \};

LXa sigma= fracn2 ln2 pin ln sigma frac12 sigma2 sum limitsni=1xia2;

 frac\部L\部a= frac1 sigma2 sum limitsni=1xia quad frac\部L\部 sigma= fracn sigma+ frac1 sigma3 sum limitsni=1xia2;

 frac\部L\部a=0 quad Rightarrow quad sum limitsni=1xina=0 quad Rightarrow quad frac1n sum limitsni=1xi=\上线X= hata;

 frac\部L\部 sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1xia2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitsni=1xi\上线X2= sqrtS2

获得了数学期望和方差的估计。

如果您仔细看一下公式

LXa sigma= fracn2 ln2 pin ln sigma frac12 sigma2 sum limitsni=1xia2

我们可以得出结论,该功能 LXa sigma 在以下情况下取其最大值  sum limitsni=1xia2 是最小的。 在机器学习问题中,经常使用最小二乘法 ,其中将预测值与真实值的平方偏差之和最小化。

二手文献清单:


  • 关于数学统计的讲义,作者不详;
  • “深度学习。 沉浸在神经网络世界中”,S。Nikulenko,A。Kadurin,E。Arkhangelskaya,PETER,2018年。

Source: https://habr.com/ru/post/zh-CN474478/


All Articles