而不是介绍
本文描述了一项研究,以验证中心极限定理的陈述:从几乎任何分布中选择的
N个独立且分布均匀的随机变量之和具有接近正态分布。 但是,在我们继续进行这项研究的描述以及更详细地披露中心极限定理的含义之前,并不能说出为什么进行这项研究以及这篇文章可能对谁有用。
首先,对于所有初学者来说,这篇文章对于理解机器学习的基础都是很有用的,特别是如果受人尊敬的读者也正处于其专业化的第一年“机器学习和数据分析”。 为了获得令人垂涎的证书,需要在第一门课程的最后一周,以上专业中进行这种研究。
研究方法
因此,回到研究问题。 中心极限定理告诉我们什么。 但是她这样说。 如果几乎从任何分布都存在一个随机值
X ,并且从该分布中随机生成了一个体积为
N的样本,则可以通过一个正态分布来近似基于样本确定的样本平均值,该正态分布的平均值应与原始种群的数学期望相符。
为了进行实验,我们需要选择一种分布,从中可以随机生成样本。 在我们的例子中,我们将使用指数分布。
因此,我们知道随机变量
X的指数分布的概率密度具有以下形式:
在哪里
,
反之 ,根据指数分布定律确定
随机变量X的数学期望 :
随机变量X的方差定义为
我们的研究使用指数分布参数
然后
,
为了简化对数值和实验本身的理解,假设我们正在谈论设备的运行,平均预期正常运行时间为80小时。 然后,设备工作的时间越长,发生故障的可能性就越小,反之亦然-当设备趋于零时间(小时,分钟,秒)时,其发生故障的可能性也趋于零。
现在从具有给定参数的指数分布
选择1000个伪随机值。 将样本的结果与理论概率密度进行比较。
此外,这是我们的小型研究中最重要的事情,我们将形成以下样本。 我们从指数分布中选取3、15、50、100、150、300和500个随机变量,为每个体积(从3到500)确定算术平均值,并重复1000次。 对于每个样本,我们构造一个直方图,并在其上叠加一个相应正态分布密度的图。 我们估计样本均值,方差和标准差的结果参数。
这样可以完成本文,但是建议在某种程度上扩展实验的范围。 让我们估计一下,随着样本数量从3增加到500,这些参数与相应参数有多少不同-相应正态分布的相同参数。 换句话说,我们被邀请回答这个问题,但是随着样本量的增加,我们会观察到偏差的减少吗?
所以,在途中。 今天我们的工具将是Python语言和Jupyter笔记本。
我们研究中心极限定理的陈述
研究的源代码发布在
github上注意! 该文件需要Jupyter笔记本!我们根据指数分布定律生成的伪随机值样本的1000倍很好地表征了理论(初始)种群(图1 *,表1)。
图1“指数分布和采样的初始集合”
表1“初始种群和样本的参数”
现在让我们看看如果不仅仅取一个伪随机值1000倍,而是取3、15、50、100、150、300或500个伪随机值的算术平均值并将每个样本的参数与相应正态分布的参数进行比较会发生什么(图2 **表2)。
图2.1“ 5个样本”
图2.2“ 50个样本”
图2.3“ 100个样本”
图2.4“ 150个样本”
图2.5“ 300个样本”
图2.6“ 500个样本”
表2“样本选项”
根据结果的图形表示,可以清楚地看到以下规律性:随着样本量的增加,分布趋于正态,并且在样本均值周围出现了伪随机变量的集中,并且样本均值接近初始分布的数学期望。
根据表中显示的数据,确认了图中显示的规律性-随着样本数量的增加,方差和标准偏差值显着降低,表明样本平均值周围的伪随机值浓度更高。
但这还不是全部。 我们记得在本文开始时提出了一个建议,即检查是否随着样本量的增加而减少了样本参数相对于相应正态分布参数的偏差。
可以看出(表3,表3),不会出现明显的偏差减少-样本的参数在不同距离处跳到正负,并且不想稳定地接近计算值。 在下面的研究中,我们将尝试解释缺乏积极动力的原因。
图表3“样本参数与理论计算的偏差”

表3“从理论计算得出的样品参数的偏差”

而不是结论
我们的研究一方面再次证实了中心极限定理的结论,即随着样本量的增加,独立的随机分布值逼近正态分布,另一方面,有可能成功完成大专业第一年的训练。
*使用设备(其正常运行时间为80小时)沿“ X”轴开发示例逻辑,我们指定时钟-它工作的时间越短,发生故障的可能性就越小。
**这里需要对X轴值进行不同的解释-设备在大约80小时工作的可能性最高,因此,随着工作时间的增加,设备工作的可能性也会降低(也就是说,设备工作的时间不可能超过80小时) ,并且操作时间减少了(设备在不到80小时内发生故障的可能性也很小)。
作者的下一个工作-“我们解决了简单线性回归方程”