🐒 🤲🏿 👼🏾 可以使用少量数据读取统计信息吗？ 🆖 👩🏿‍🏫 👨🏽‍⚖️

通常，答案是肯定的。尤其是当您具有贝叶斯定理的知识和知识时。

让我提醒您，只有在您有一定数量的事件时，才可以考虑均值和方差。 RTM（领先的技术资料）在苏联的旧手册中表示，为了计算平均值和方差，需要进行29次测量。现在，大学略显四舍五入，并使用数字30进行测量。这是什么原因，这是一个哲学问题。如果我进行5次测量，为什么不能只取平均值并计算出来？理论上，没有任何干扰，只有平均值不稳定。进行另一次测量并重新计数后，它可能会发生很大变化，您可以依靠它开始进行大约30次测量。但是即使在第31次测量之后，它也会摇晃，但不会那么明显。此外，还增加了一个问题，即平均值可以被不同地考虑并获得不同的值。也就是说，从一个大样本中，您可以选择前30个并计算平均值，然后选择其他30个，依此类推...并获得大量平均值，也可以将其取平均值。实际上，由于我们总是有有限数量的测量值，因此无法获得真实的平均值。在这种情况下，平均值是具有平均值和方差的统计量。也就是说，通过在实践中测量平均值，我们指的是“估计平均值”，它可能接近理想理论值。

让我们尝试理解问题，在输入时我们有很多事实，并希望在输出中建立关于这些事实来源的想法。我们将建立一个垫模型并使用贝叶斯理论将模型与事实联系起来。

考虑一下已经破旧的带有桶的模型，将许多黑白球倒入桶中并充分混合。假设黑色对应于值0，白色对应于1。我们将随机抽取它们，并取其臭名昭著的平均值。实际上，这是一种简化的测量，因为分配了数字，因此，在这种情况下，存在一个平均测量值，该值取决于不同球的比率。

在这里，我们遇到了一个有趣的时刻。我们可以通过大量测量计算出球的精确比例。但是，如果测量次数很少，则可能会出现与统计数据偏离的特殊效果。如果篮子里有50个白球和50个黑球，就会出现问题-是否可以连续拉出3个白球？答案当然是！如果使用90白色和10黑色，则这种可能性会增加。如果很幸运在刚开始时偶然将3个白球意外拉出，又该如何考虑contents的内容呢？ -我们有选择。

显然，当我们有100％白球时，连续获得3个白球等于一个。在其他情况下，此可能性较小。如果所有球都是黑色的，则概率为零。让我们尝试系统化这些参数并给出公式。贝叶斯方法可助您一臂之力，它使您可以对假设进行排名，并为它们提供确定该假设与现实相对应的可能性的数值。即，从数据的概率解释转变为原因的概率解释。

如何准确地量化一个或另一个假设？这将需要一个我们将采取行动的模型。谢天谢地，她很简单。我们可以写下许多关于篮子内容的假设，作为带有参数的模型。在这种情况下，一个参数就足够了。此参数实质上设置了一系列连续的假设。最主要的是，他充分描述了可能的选择。两种极端选择只是白色或黑色球。其余的情况介于两者之间。

假设

$\ theta$ 是篮子里白球的比例。如果我们对整个购物篮进行排序，然后将所有零和与球对应的数字相加并除以总数，则

$\ theta$ -也将表示我们测量的平均值。

$\ theta \ in [0,1]$ 。（现在

$\ theta$ 通常在文献中用作一组需要优化的自由参数）。

现在该去贝叶斯了。托马斯·贝斯（Thomas Bayes）亲自让他的妻子不小心扔了一个球，与她坐在一起，写下了他的假设与他实际飞行的事实之间的关系。基于这些事实，托马斯·贝叶斯（Thomas Bayes）试图改善随后掷球的预测。我们会像托马斯·贝叶斯（Thomas Bayes）那样思考和思考，一个自发而又变幻莫测的女友会掏腰包。

让

$D$ 是一组测量值（数据）。我们使用标准符号，其中的符号

$|$ 表示左侧事件发生的概率（如果已经知道右侧另一事件已完成）。在我们的例子中，如果参数已知，这就是获取数据的概率

$\ theta$ 。而且还有相反的情况-

$\ theta$ 如果数据已知。

$P（\ theta | D）= \ frac {P（D | \ theta）\ cdot P（\ theta）} {P（D）}$

贝叶斯公式让您考虑

$\ theta$ 作为随机变量，并找到最可能的值。也就是说，找到最可能的系数

$\ theta$ 如果未知。

$\ theta = argmax P（\ theta | D）$

在右侧，我们有3个成员需要评估。我们对其进行分析。

1）需要知道或计算获得特定假设的此类数据的概率

$P（D | \ theta）$ 。即使有很多黑球，您也可以连续获得三个白球。但是最有可能让他们拥有大量的白人。拿到白球的概率等于

$P_ {white} = \ theta$ 但是黑色

$P_ {black} =（1- \ theta）$ 。因此，如果它跌倒了

$N$ 白球，和

$M$ 那么黑球

$P（D | \ theta）= \ theta ^ {N} \ cdot（1- \ theta）^ {M}$ 。

$N$ 和

$M$ 我们将考虑计算的输入参数，以及

$\ theta$ -输出参数。

2）您需要知道先验概率

$P（\ theta）$ 。在这里，我们遇到了建模的微妙时刻。我们不知道此功能，因此会做一些假设。如果没有其他知识，那么我们假设

$\ theta$ 可能性范围从0到1。如果我们具有内部信息，我们将更了解哪些值更有可能发生，并做出更准确的预测。但是由于此类信息不可用，我们将

$\ theta \ sim平均[0,1]$ 。由于数量

$P（\ theta）$ 独立于

$\ theta$ 然后在计算时

$\ theta$ 她没关系。

$P（\ theta）= 1$

3）

$P（D）$ 如果所有值都是随机的，则具有此类数据集的概率。我们可以用不同的方式获得此套件

$\ theta$ 具有不同的概率。因此，考虑了获取集合的所有可能方式

$D$ 。由于在此阶段值仍然未知

$\ theta$ ，那么有必要整合

$P（D）= \ int_ {0} ^ {1} P（D | \ theta）P（\ theta）d \ theta$ 。为了更好地理解这一点，有必要解决构造贝叶斯图的基本问题，然后从和求积分。结果是一个表达式wolframalpha ，它将搜索最大值

$\ theta$ 不会影响，因为此值不取决于

$\ theta$ 。结果通过阶乘表示整数值，或者通常通过伽马函数表示。

实际上，特定假设的概率与获取数据集的概率成正比。换句话说，在哪种情况下我们最有可能获得结果，那么对齐是最正确的。

我们得到这个公式

$P（D | \ theta）= const \ cdot P（\ theta | D）$

为了搜索最大值，我们求和等于零：

$0 = \ theta ^ {N-1} \ cdot（1- \ theta）^ {M-1} \ cdot（N（\ theta-1）+ M \ theta）$ 。
为了使作品等于零，成员之一必须等于零。
我们不感兴趣

$\ theta = 0$ 和

$\ theta = 1$ ，因为在这些点上没有局部最大值，并且第三个因子表示局部最大值，因此

$\ theta = \ frac {N} {N + M}$

。

我们得到一个可用于预测的公式。如果跌倒了

$N$ 白人和

$M$ 黑人然后概率

$\ frac {N} {N + M}$ 下一个将是白色。例如，有2个黑色和8个白色，那么下一个白色将以80％的概率出现。

有兴趣的各方可以通过输入不同的指数来制定时间表：链接到wolframalpha 。

从图中可以看出，唯一的情况是

$P（D | \ theta）$ 没有最大点数-没有数据

$N = 0，M = 0$ 。如果我们至少有一个事实，则在间隔上达到最大值

$[0,1]$ 在一个点上。如果

$N = 0$ ，则最大值在点0处达到，也就是说，如果所有球都为黑色，则其他所有球也很可能也是黑色，反之亦然。但是，正如已经提到的，不可能的组合也是可能的，特别是如果我们的分销渠道比较温和。为了评估我们的预测的明确性，有必要估计方差。从图中已经可以看出，事实少，分散大，圆顶平缓，添加新事实，分散减小，圆顶变尖。

中学（第一刻）的定义

$\ mathbb {M_ {1}} = \ int_ {0} ^ {1} \ theta \ cdot P（\ theta | D）d \ theta$ 。

根据定义，方差（第二中心矩）。我们将在后面的隐藏部分中考虑它。

$\ mathbb {M_ {2}} = \ int_ {0} ^ {1}（\ theta-\ mathbb {M_ {1}}）^ {2} P（\ theta | D）d \ theta$ 。

---询问心灵的部分---

让我们得到

$P（\ theta | D）$ 分析完成，如果还不累的话。为此，我们再次引用贝叶斯公式中的所有术语，包括常数：

$P（\ theta）= 1$

$P（D）= \ int_ {0} ^ {1} P（D | \ theta）P（\ theta）d \ theta = \ int_ {0} ^ {1} \ theta ^ {N} \ cdot（1 -\ theta）^ {M} d \ theta = \ frac {N！M！} {（N + M + 1）！}$ 链接到wolframalpha

$P（D | \ theta）= \ theta ^ {N} \ cdot（1- \ theta）^ {M}$

我们的案例的贝叶斯公式如下所示：

$P（\ theta | D）= \ theta ^ {N} \ cdot（1- \ theta）^ {M} \ cdot \ frac {（N + M + 1）！} {N！M！}$

因此，替换后的平均值

$\ mathbb {M_ {1}} = \ int_ {0} ^ {1} \ theta \ cdot P（\ theta | D）d \ theta = \ int_ {0} ^ {1} \ theta \ cdot \ theta ^ {N} \ cdot（1- \ theta）^ {M} \ cdot（\ frac {N！M！} {（N + M + 1）！}）D \ theta = \ frac {（N + 1）！ M！} {（N + M + 2）！} \ Cdot \ frac {（N + M + 1）！} {N！M！}$ 。

我们使用基础知识

$（N + 1）！=（N +1）\ cdot N！$ 和减少分数

$\ mathbb {M_ {1}} = \ frac {N +1} {N + M + 2}$

第一时刻的公式与实验的含义相对应。在白色球占优势的情况下，该力矩变为1，而在黑色球占优势的情况下，该力矩趋向于0。在没有球的情况下，力矩甚至不起作用，说实话显示为1/2。

色散也由我们将使用的公式表示。

$\ mathbb {M_ {2}} = \ mathbb {M_ {1}}（\ theta ^ 2）-\ mathbb {M_ {1}}（\ theta）^ 2$ 。
第一成员

$\ mathbb {M_ {1}}（\ theta ^ 2）$ 大部分重复公式

$\ mathbb {M_ {1}}（\ theta）$ 二手-

$\ theta ^ 2$

$\ mathbb {M_ {1}}（\ theta ^ 2）= \ int_ {0} ^ {1} \ theta ^ 2 \ cdot \ theta ^ {N} \ cdot（1- \ theta）^ {M} \ cdot（\ frac {（N + M + 1）！} {N！M！}）d \ theta = \ frac {（N + 2）！M！} {（N + M + 3）！} \ cdot（ \ frac {（N + M + 1）！} {N！M！}）$

$= \ frac {（N + 2）（N + 1）} {（N + M + 3）（N + M + 2）}$

，已经计算了一秒钟，因此

$\ mathbb {M_ {2}} = \ frac {（N + 2）（N + 1）} {（N + M + 3）（N + M + 2）}-\ frac {N + 1} {N + M + 2} \ cdot \ frac {N +1} {N + M + 2}$

最后，我们得到：

$\ mathbb {M_ {2}} = \ frac {（M + 1）\ cdot（N + 1）} {（N + M + 2）^ 2 \ cdot（N + M + 3）}$
如您所见，添加数据时方差减小，并且相对于移位是对称的

$N$ 和

$M$ 在地方。

您可以汇总计算。在少量数据的情况下，您需要一个模型，我们将对其参数进行优化。该模型描述了一组有关事务真实状态的假设，我们选择最合适的假设。如果先验已知，我们考虑后验概率。该模型应涵盖我们将在实践中遇到的可能选项。如果数据量少，该模型将为输出参数产生较大的方差，但是随着数据量的增加，方差将减小，并且预测将更加明确。

您必须了解，模型只是一个没有太多考虑的模型。它是由一个人创建的，机会有限。用少量的数据，一个人的直觉更有可能起作用，因为一个人从外界接收到更多的信号，并且能够更快地得出结论。这样的模型很可能适合作为更复杂的计算的元素，因为贝叶斯可以缩放并允许您根据相互完善的公式进行级联。

在此，我想结束我的文章。我很高兴您的评论。

参考文献

维基百科：贝叶斯定理
维基百科：分散

可以使用少量数据读取统计信息吗？

More articles: