通常,答案是肯定的。 尤其是当您具有贝叶斯定理的知识和知识时。
让我提醒您,只有在您有一定数量的事件时,才可以考虑均值和方差。 RTM(领先的技术资料)在苏联的旧手册中表示,为了计算平均值和方差,需要进行29次测量。 现在,大学略显四舍五入,并使用数字30进行测量。 这是什么原因,这是一个哲学问题。 如果我进行5次测量,为什么不能只取平均值并计算出来? 理论上,没有任何干扰,只有平均值不稳定。 进行另一次测量并重新计数后,它可能会发生很大变化,您可以依靠它开始进行大约30次测量。 但是即使在第31次测量之后,它也会摇晃,但不会那么明显。 此外,还增加了一个问题,即平均值可以被不同地考虑并获得不同的值。 也就是说,从一个大样本中,您可以选择前30个并计算平均值,然后选择其他30个,依此类推...并获得大量平均值,也可以将其取平均值。 实际上,由于我们总是有有限数量的测量值,因此无法获得真实的平均值。 在这种情况下,平均值是具有平均值和方差的统计量。 也就是说,通过在实践中测量平均值,我们指的是“估计平均值”,它可能接近理想理论值。
让我们尝试理解问题,在输入时我们有很多事实,并希望在输出中建立关于这些事实来源的想法。 我们将建立一个垫模型并使用贝叶斯理论将模型与事实联系起来。
考虑一下已经破旧的带有桶的模型,将许多黑白球倒入桶中并充分混合。 假设黑色对应于值0,白色对应于1。我们将随机抽取它们,并取其臭名昭著的平均值。 实际上,这是一种简化的测量,因为分配了数字,因此,在这种情况下,存在一个平均测量值,该值取决于不同球的比率。
在这里,我们遇到了一个有趣的时刻。 我们可以通过大量测量计算出球的精确比例。 但是,如果测量次数很少,则可能会出现与统计数据偏离的特殊效果。 如果篮子里有50个白球和50个黑球,就会出现问题-是否可以连续拉出3个白球? 答案当然是! 如果使用90白色和10黑色,则这种可能性会增加。 如果很幸运在刚开始时偶然将3个白球意外拉出,又该如何考虑contents的内容呢? -我们有选择。
显然,当我们有100%白球时,连续获得3个白球等于一个。 在其他情况下,此可能性较小。 如果所有球都是黑色的,则概率为零。 让我们尝试系统化这些参数并给出公式。 贝叶斯方法可助您一臂之力,它使您可以对假设进行排名,并为它们提供确定该假设与现实相对应的可能性的数值。 即,从数据的概率解释转变为原因的概率解释。
如何准确地量化一个或另一个假设? 这将需要一个我们将采取行动的模型。 谢天谢地,她很简单。 我们可以写下许多关于篮子内容的假设,作为带有参数的模型。 在这种情况下,一个参数就足够了。 此参数实质上设置了一系列连续的假设。 最主要的是,他充分描述了可能的选择。 两种极端选择只是白色或黑色球。 其余的情况介于两者之间。
假设
theta 是篮子里白球的比例。 如果我们对整个购物篮进行排序,然后将所有零和与球对应的数字相加并除以总数,则
theta -也将表示我们测量的平均值。
theta in[0,1] 。 (现在
theta 通常在文献中用作一组需要优化的自由参数)。
现在该去贝叶斯了。 托马斯·贝斯(Thomas Bayes)亲自让他的妻子不小心扔了一个球,与她坐在一起,写下了他的假设与他实际飞行的事实之间的关系。 基于这些事实,托马斯·贝叶斯(Thomas Bayes)试图改善随后掷球的预测。 我们会像托马斯·贝叶斯(Thomas Bayes)那样思考和思考,一个自发而又变幻莫测的女友会掏腰包。
让
D 是一组测量值(数据)。 我们使用标准符号,其中的符号
| 表示左侧事件发生的概率(如果已经知道右侧另一事件已完成)。 在我们的例子中,如果参数已知,这就是获取数据的概率
theta 。 而且还有相反的情况-
theta 如果数据已知。
P( theta|D)= fracP(D| theta) cdotP( theta)P(D)
贝叶斯公式让您考虑
theta 作为随机变量,并找到最可能的值。 也就是说,找到最可能的系数
theta 如果未知。
theta=argmaxP( theta|D)
在右侧,我们有3个成员需要评估。 我们对其进行分析。
1)需要知道或计算获得特定假设的此类数据的概率
P(D| theta) 。 即使有很多黑球,您也可以连续获得三个白球。 但是最有可能让他们拥有大量的白人。 拿到白球的概率等于
Pwhite= theta 但是黑色
Pblack=(1− theta) 。 因此,如果它跌倒了
N 白球,和
M 那么黑球
P(D| theta)= thetaN cdot(1− theta)M 。
N 和
M 我们将考虑计算的输入参数,以及
theta -输出参数。
2)您需要知道先验概率
P( theta) 。 在这里,我们遇到了建模的微妙时刻。 我们不知道此功能,因此会做一些假设。 如果没有其他知识,那么我们假设
theta 可能性范围从0到1。如果我们具有内部信息,我们将更了解哪些值更有可能发生,并做出更准确的预测。 但是由于此类信息不可用,我们将
theta sim平均[0,1] 。 由于数量
P( theta) 独立于
theta 然后在计算时
theta 她没关系。
P( theta)=13)
P(D) 如果所有值都是随机的,则具有此类数据集的概率。 我们可以用不同的方式获得此套件
theta 具有不同的概率。 因此,考虑了获取集合的所有可能方式
D 。 由于在此阶段值仍然未知
theta ,那么有必要整合
P(D)= int10P(D| theta)P( theta)d theta 。 为了更好地理解这一点,有必要解决构造贝叶斯图的基本问题,然后从和求积分。 结果是一个表达式
wolframalpha ,它将搜索最大值
theta 不会影响,因为此值不取决于
theta 。 结果通过阶乘表示整数值,或者通常通过伽马函数表示。
实际上,特定假设的概率与获取数据集的概率成正比。 换句话说,在哪种情况下我们最有可能获得结果,那么对齐是最正确的。
我们得到这个公式
P(D| theta)=const cdotP( theta|D)
为了搜索最大值,我们求和等于零:
0= thetaN−1 cdot(1− theta)M−1 cdot(N( theta−1)+M theta) 。
为了使作品等于零,成员之一必须等于零。
我们不感兴趣
theta=0 和
theta=1 ,因为在这些点上没有局部最大值,并且第三个因子表示局部最大值,因此
theta= fracNN+M
。
我们得到一个可用于预测的公式。 如果跌倒了
N 白人和
M 黑人然后概率
fracNN+M 下一个将是白色。 例如,有2个黑色和8个白色,那么下一个白色将以80%的概率出现。
有兴趣的
各方可以通过输入不同的指数
来制定时间表:
链接到wolframalpha 。
从图中可以看出,唯一的情况是
P(D| theta) 没有最大点数-没有数据
N=0,M=0 。 如果我们至少有一个事实,则在间隔上达到最大值
[0,1] 在一个点上。 如果
N=0 ,则最大值在点0处达到,也就是说,如果所有球都为黑色,则其他所有球也很可能也是黑色,反之亦然。 但是,正如已经提到的,不可能的组合也是可能的,特别是如果我们的分销渠道比较温和。 为了评估我们的预测的明确性,有必要估计方差。 从图中已经可以看出,事实少,分散大,圆顶平缓,添加新事实,分散减小,圆顶变尖。
中学(第一刻)的定义
mathbbM1= int10 theta cdotP( theta|D)d theta 。
根据定义,方差(第二中心矩)。 我们将在后面的隐藏部分中考虑它。
mathbbM2= int10( theta− mathbbM1)2P( theta|D)d theta 。
---询问心灵的部分---让我们得到
P( theta|D) 分析完成,如果还不累的话。 为此,我们再次引用贝叶斯公式中的所有术语,包括常数:
P( theta)=1P(D)= int10P(D| theta)P( theta)d theta= int10 thetaN cdot(1− theta)Md theta= fracN!M!(N+M+1)! 链接到wolframalphaP(D| theta)= thetaN cdot(1− theta)M我们的案例的贝叶斯公式如下所示:
P( theta|D)= thetaN cdot(1− theta)M cdot frac(N+M+1)!N!M!
因此,替换后的平均值
mathbbM1= int10 theta cdotP( theta|D)d theta= int10 theta cdot thetaN cdot(1− theta)M cdot( fracN!M!(N+M+1)!)D theta= frac(N+1)!M!(N+M+2)! Cdot frac(N+M+1)!N!M! 。
我们使用基础知识
(N+1)!=(N+1) cdotN! 和减少分数
mathbbM1= fracN+1N+M+2
第一时刻的公式与实验的含义相对应。 在白色球占优势的情况下,该力矩变为1,而在黑色球占优势的情况下,该力矩趋向于0。在没有球的情况下,力矩甚至不起作用,说实话显示为1/2。
色散也由我们将使用的公式表示。
mathbbM2= mathbbM1( theta2)− mathbbM1( theta)2 。
第一成员
mathbbM1( theta2) 大部分重复公式
mathbbM1( theta) 二手-
theta2 mathbbM1( theta2)= int10 theta2 cdot thetaN cdot(1− theta)M cdot( frac(N+M+1)!N!M!)d theta= frac(N+2)!M!(N+M+3)! cdot( frac(N+M+1)!N!M!)= frac(N+2)(N+1)(N+M+3)(N+M+2),已经计算了一秒钟,因此
mathbbM2= frac(N+2)(N+1)(N+M+3)(N+M+2)− fracN+1N+M+2 cdot fracN+1N+M+2 最后,我们得到:
mathbbM2= frac(M+1) cdot(N+1)(N+M+2)2 cdot(N+M+3)如您所见,添加数据时方差减小,并且相对于移位是对称的
N 和
M 在地方。
您可以汇总计算。 在少量数据的情况下,您需要一个模型,我们将对其参数进行优化。 该模型描述了一组有关事务真实状态的假设,我们选择最合适的假设。 如果先验已知,我们考虑后验概率。 该模型应涵盖我们将在实践中遇到的可能选项。 如果数据量少,该模型将为输出参数产生较大的方差,但是随着数据量的增加,方差将减小,并且预测将更加明确。
您必须了解,模型只是一个没有太多考虑的模型。 它是由一个人创建的,机会有限。 用少量的数据,一个人的直觉更有可能起作用,因为一个人从外界接收到更多的信号,并且能够更快地得出结论。 这样的模型很可能适合作为更复杂的计算的元素,因为贝叶斯可以缩放并允许您根据相互完善的公式进行级联。
在此,我想结束我的文章。 我很高兴您的评论。
参考文献
维基百科:贝叶斯定理维基百科:分散