可以使用少量数据读取统计信息吗?

通常,答案是肯定的。 尤其是当您具有贝叶斯定理的知识和知识时。

让我提醒您,只有在您有一定数量的事件时,才可以考虑均值和方差。 RTM(领先的技术资料)在苏联的旧手册中表示,为了计算平均值和方差,需要进行29次测量。 现在,大学略显四舍五入,并使用数字30进行测量。 这是什么原因,这是一个哲学问题。 如果我进行5次测量,为什么不能只取平均值并计算出来? 理论上,没有任何干扰,只有平均值不稳定。 进行另一次测量并重新计数后,它可能会发生很大变化,您可以依靠它开始进行大约30次测量。 但是即使在第31次测量之后,它也会摇晃,但不会那么明显。 此外,还增加了一个问题,即平均值可以被不同地考虑并获得不同的值。 也就是说,从一个大样本中,您可以选择前30个并计算平均值,然后选择其他30个,依此类推...并获得大量平均值,也可以将其取平均值。 实际上,由于我们总是有有限数量的测量值,因此无法获得真实的平均值。 在这种情况下,平均值是具有平均值和方差的统计量。 也就是说,通过在实践中测量平均值,我们指的是“估计平均值”,它可能接近理想理论值。

让我们尝试理解问题,在输入时我们有很多事实,并希望在输出中建立关于这些事实来源的想法。 我们将建立一个垫模型并使用贝叶斯理论将模型与事实联系起来。


考虑一下已经破旧的带有桶的模型,将许多黑白球倒入桶中并充分混合。 假设黑色对应于值0,白色对应于1。我们将随机抽取它们,并取其臭名昭著的平均值。 实际上,这是一种简化的测量,因为分配了数字,因此,在这种情况下,存在一个平均测量值,该值取决于不同球的比率。

在这里,我们遇到了一个有趣的时刻。 我们可以通过大量测量计算出球的精确比例。 但是,如果测量次数很少,则可能会出现与统计数据偏离的特殊效果。 如果篮子里有50个白球和50个黑球,就会出现问题-是否可以连续拉出3个白球? 答案当然是! 如果使用90白色和10黑色,则这种可能性会增加。 如果很幸运在刚开始时偶然将3个白球意外拉出,又该如何考虑contents的内容呢? -我们有选择。

显然,当我们有100%白球时,连续获得3个白球等于一个。 在其他情况下,此可能性较小。 如果所有球都是黑色的,则概率为零。 让我们尝试系统化这些参数并给出公式。 贝叶斯方法可助您一臂之力,它使您可以对假设进行排名,并为它们提供确定该假设与现实相对应的可能性的数值。 即,从数据的概率解释转变为原因的概率解释。

如何准确地量化一个或另一个假设? 这将需要一个我们将采取行动的模型。 谢天谢地,她很简单​​。 我们可以写下许多关于篮子内容的假设,作为带有参数的模型。 在这种情况下,一个参数就足够了。 此参数实质上设置了一系列连续的假设。 最主要的是,他充分描述了可能的选择。 两种极端选择只是白色或黑色球。 其余的情况介于两者之间。

假设  theta 是篮子里白球的比例。 如果我们对整个购物篮进行排序,然后将所有零和与球对应的数字相加并除以总数,则  theta -也将表示我们测量的平均值。  theta in[0,1] 。 (现在  theta 通常在文献中用作一组需要优化的自由参数)。

现在该去贝叶斯了。 托马斯·贝斯(Thomas Bayes)亲自让他的妻子不小心扔了一个球,与她坐在一起,写下了他的假设与他实际飞行的事实之间的关系。 基于这些事实,托马斯·贝叶斯(Thomas Bayes)试图改善随后掷球的预测。 我们会像托马斯·贝叶斯(Thomas Bayes)那样思考和思考,一个自发而又变幻莫测的女友会掏腰包。

D 是一组测量值(数据)。 我们使用标准符号,其中的符号 | 表示左侧事件发生的概率(如果已经知道右侧另一事件已完成)。 在我们的例子中,如果参数已知,这就是获取数据的概率  theta 。 而且还有相反的情况-  theta 如果数据已知。

P theta|D= fracPD| theta cdotP thetaPD


贝叶斯公式让您考虑  theta 作为随机变量,并找到最可能的值。 也就是说,找到最可能的系数  theta 如果未知。

 theta=argmaxP theta|D



在右侧,我们有3个成员需要评估。 我们对其进行分析。

1)需要知道或计算获得特定假设的此类数据的概率 PD| theta 。 即使有很多黑球,您也可以连续获得三个白球。 但是最有可能让他们拥有大量的白人。 拿到白球的概率等于 Pwhite= theta 但是黑色 Pblack=1 theta 。 因此,如果它跌倒了 N 白球,和 M 那么黑球 PD| theta= thetaN cdot1 thetaMNM 我们将考虑计算的输入参数,以及  theta -输出参数。

2)您需要知道先验概率 P theta 。 在这里,我们遇到了建模的微妙时刻。 我们不知道此功能,因此会做一些假设。 如果没有其他知识,那么我们假设  theta 可能性范围从0到1。如果我们具有内部信息,我们将更了解哪些值更有可能发生,并做出更准确的预测。 但是由于此类信息不可用,我们将  theta sim[0,1] 。 由于数量 P theta 独立于  theta 然后在计算时  theta 她没关系。 P theta=1

3) PD 如果所有值都是随机的,则具有此类数据集的概率。 我们可以用不同的方式获得此套件  theta 具有不同的概率。 因此,考虑了获取集合的所有可能方式 D 。 由于在此阶段值仍然未知  theta ,那么有必要整合 PD= int10PD| thetaP thetad theta 。 为了更好地理解这一点,有必要解决构造贝叶斯图的基本问题,然后从和求积分。 结果是一个表达式wolframalpha ,它将搜索最大值  theta 不会影响,因为此值不取决于  theta 。 结果通过阶乘表示整数值,或者通常通过伽马函数表示。

实际上,特定假设的概率与获取数据集的概率成正比。 换句话说,在哪种情况下我们最有可能获得结果,那么对齐是最正确的。

我们得到这个公式

PD| theta=const cdotP theta|D



为了搜索最大值,我们求和等于零:
0= thetaN1 cdot1 thetaM1 cdotN theta1+M theta
为了使作品等于零,成员之一必须等于零。
我们不感兴趣  theta=0 theta=1 ,因为在这些点上没有局部最大值,并且第三个因子表示局部最大值,因此

 theta= fracNN+M



我们得到一个可用于预测的公式。 如果跌倒了 N 白人和 M 黑人然后概率  fracNN+M 下一个将是白色。 例如,有2个黑色和8个白色,那么下一个白色将以80%的概率出现。

有兴趣的各方可以通过输入不同的指数来制定时间表: 链接到wolframalpha


从图中可以看出,唯一的情况是 PD| theta 没有最大点数-没有数据 N=0M=0 。 如果我们至少有一个事实,则在间隔上达到最大值 [0,1] 在一个点上。 如果 N=0 ,则最大值在点0处达到,也就是说,如果所有球都为黑色,则其他所有球也很可能也是黑色,反之亦然。 但是,正如已经提到的,不可能的组合也是可能的,特别是如果我们的分销渠道比较温和。 为了评估我们的预测的明确性,有必要估计方差。 从图中已经可以看出,事实少,分散大,圆顶平缓,添加新事实,分散减小,圆顶变尖。

中学(第一刻)的定义
 mathbbM1= int10 theta cdotP theta|Dd theta

根据定义,方差(第二中心矩)。 我们将在后面的隐藏部分中考虑它。
 mathbbM2= int10 theta mathbbM12P theta|Dd theta

---询问心灵的部分---
让我们得到 P theta|D 分析完成,如果还不累的话。 为此,我们再次引用贝叶斯公式中的所有术语,包括常数:
P theta=1
PD= int10PD| thetaP thetad theta= int10 thetaN cdot1 thetaMd theta= fracNMN+M+1 链接到wolframalpha
PD| theta= thetaN cdot1 thetaM

我们的案例的贝叶斯公式如下所示:

P theta|D= thetaN cdot1 thetaM cdot fracN+M+1NM



因此,替换后的平均值
 mathbbM1= int10 theta cdotP theta|Dd theta= int10 theta cdot thetaN cdot1 thetaM cdot fracNMN+M+1D theta= fracN+1MN+M+2 Cdot fracN+M+1NM

我们使用基础知识 N+1=N+1 cdotN 和减少分数

 mathbbM1= fracN+1N+M+2



第一时刻的公式与实验的含义相对应。 在白色球占优势的情况下,该力矩变为1,而在黑色球占优势的情况下,该力矩趋向于0。在没有球的情况下,力矩甚至不起作用,说实话显示为1/2。

色散也由我们将使用的公式表示。
 mathbbM2= mathbbM1 theta2 mathbbM1 theta2
第一成员  mathbbM1 theta2 大部分重复公式  mathbbM1 theta 二手-  theta2
 mathbbM1 theta2= int10 theta2 cdot thetaN cdot1 thetaM cdot fracN+M+1NMd theta= fracN+2MN+M+3 cdot fracN+M+1NM

= fracN+2N+1N+M+3N+M+2

,已经计算了一秒钟,因此
 mathbbM2= fracN+2N+1N+M+3N+M+2 fracN+1N+M+2 cdot fracN+1N+M+2

最后,我们得到:
 mathbbM2= fracM+1 cdotN+1N+M+22 cdotN+M+3
如您所见,添加数据时方差减小,并且相对于移位是对称的 NM 在地方。

您可以汇总计算。 在少量数据的情况下,您需要一个模型,我们将对其参数进行优化。 该模型描述了一组有关事务真实状态的假设,我们选择最合适的假设。 如果先验已知,我们考虑后验概率。 该模型应涵盖我们将在实践中遇到的可能选项。 如果数据量少,该模型将为输出参数产生较大的方差,但是随着数据量的增加,方差将减小,并且预测将更加明确。

您必须了解,模型只是一个没有太多考虑的模型。 它是由一个人创建的,机会有限。 用少量的数据,一个人的直觉更有可能起作用,因为一个人从外界接收到更多的信号,并且能够更快地得出结论。 这样的模型很可能适合作为更复杂的计算的元素,因为贝叶斯可以缩放并允许您根据相互完善的公式进行级联。

在此,我想结束我的文章。 我很高兴您的评论。


参考文献

维基百科:贝叶斯定理
维基百科:分散

Source: https://habr.com/ru/post/zh-CN436668/


All Articles