可信度,P值和可再现性危机

或者:从发布P值到发布可信度函数的过渡如何帮助应对可再现性危机:Eliezer Yudkovsky的个人观点。

如果门罗(Monroe)在存在的有趣问题中抽取了大约75%的漫画,而我的文章中有四分之一是有趣的,那么我迟早不得不在其他地方寻找KDPV的可能性是什么?

译者的评论:HPMOR的作者, Lesswrong等人和其他人的作者Yudkovsky以对话的形式表达了他对贝叶斯统计在自然科学中的好处的立场。 这种来自上古或文艺复兴时期的直接经典对话,人物表达思想,分享倒钩,散布着纠结的争论,不可避免地愚蠢的辛普利齐奥。 对话时间很长,大约需要20分钟才能阅读,但我认为这是值得的。

免责声明
  • 该对话是由贝叶斯支持者撰写 。 科学家在下面的对话中的言论可能未通过图灵对摩擦主义的思想测验 。 他们有可能不对频率方法概率论的支持者的论点和反论点表示敬意。
  • 作者并不期望下面描述的建议在未来十年内会被广大科学界所接受。 但是,值得写。

如果您不熟悉贝叶斯规则,则仲裁网站会提供详细的介绍

主持人:晚上好。 今天在我们的工作室:化学心理学或类似学科的科学家 ,实践者; 他的对手贝叶索维茨(Bayesovets )试图证明科学重现性的危机,可以通过用贝叶斯统计数据中的P值代替P值来克服。
学生:对不起,它的拼写如何?
主持人: ...,最后是我右边的理解学生。

主持人:贝耶索维兹 ,您能否先告诉我您的建议的实质是什么?
Bayesovets:粗略地说,这就是重点。 假设我们有一枚硬币。 我们将其抛掷六次,并观察到“ LLCOOR”系列(大约:以下简称O- Oryol,R-Reshka) 。 我们应该怀疑硬币有问题吗?
科学家:没有。
Bayesovets:这里的硬币只是举例。 假设我们为志愿者提供了一个带有两个饼干的盘子:一个撒上绿色的饼干,另一个撒上红色的饼干。 前五个人拿绿色饼干,第六个人拿红色饼干。 人们是否偏爱绿色散落的饼干,还是这样的结果更好地被认为是随机的?
学生:可能会怀疑人们是否更喜欢绿色洒水。 至少,倾向于自愿参加像绿色这样的奇怪实验的心理学专业学生会更多地撒手。 即使经过六次观察,也可以怀疑这一点,尽管我怀疑存在某种捕获。
科学家:我认为这并不可疑。 在N = 6时,许多假设看起来很有希望,但在N = 60时尚未得到证实。
Bayesovets:就我个人而言,我怀疑我们的志愿者不太喜欢红色打顶 ,或者至少不是很喜欢它。 但总的来说,我想出了这些示例,只是为了说明在现代科学统计中如何考虑P值,以及从贝叶斯角度来看它们有什么问题。
科学家:但是您不能与30名志愿者一起提出一个更现实的例子吗?
Bayesovets:可以,但是学生已经不了解任何东西。
学生:当然可以。
Bayesovets:所以,亲爱的专家:老鹰,老鹰,老鹰,老鹰,老鹰,尾巴。 请注意,问题是:您是否将此结果称为“具有统计意义的结果”?
科学家:师父,这并不重要。 使用硬币是公平的零假设(或使用类似的零假设,即洒的颜色不会影响cookie的选择),则在64个案例中有14个可以得到相同或更明显的结果。
学生:是的。 我的理解是正确的:这是因为我们认为LLCOOO和RRORRR的结果“相同或更加明显”,共有14个结果,可能的结果总数为6次抛出2 6 = 64。 14/64为22%,高于5%,因此,在p <0.05的水平下,结果被认为不显着。 那呢
科学家:是的。 我还要指出,即使使用LLCOOO的结果,在实践中,您也不应停止实验并撰写有关硬币总是被老鹰掉下的事实的文章。
贝叶索维茨:事实是,如果您可以随时停止扔硬币,您必须问自己:“我有这么大的机会停止实验,公开展示鹰的数量的可能性有多大?” 在P值范式中,这是一个完全不同的故事。
科学家:我只是说只有六个实验-即使我们研究饼干的颜色,这也不是很严重。 但是,是的,你也是对的。
学生:为什么停止扔硬币还是不扔硬币很重要?
Bayesovets:多么美妙的问题。
科学家:事实是P值很复杂。 您不仅可以获取数字,然后将其放入程序中,然后发布该程序将给出的内容。 如果您预先决定将硬币正确翻转六次,然后不管结果如何都停止,则LLOOOO或RRRRRR的结果将平均获得64次中的2次,或3.1%的情况。 这在p <0.05时很显着。 但是,假设您实际上是一个欺骗性和不道德的伪造者。 或者只是一个不称职的学生,他自己不了解自己在做什么。 无需预先选择掷骰数,而是投掷硬币直到获得看起来具有统计意义的结果。 如果您事先决定将硬币投掷完全相同的次数, 那么统计上将具有重要意义。 但实际上,您并未事先决定。 您决定仅在获得结果后停止。 你做不到
学生:好的,我在某处读到它,但是我不明白这里有什么不好的。 这是我的研究,我应该更好地了解是否有足够的数据。
科学家: P值的全部要点是创建一个检验,该检验不能通过原假设。 换句话说,要确保没有火的烟雾不是太普遍。 为此,有必要以一种在没有所需现象的情况下不产生“具有统计意义的”发现的方式组织研究。 如果将硬币精确翻转六次(并事先确定此数字),那么从一枚公平硬币中得到六鹰或六尾的概率就小于5%。 如果您根据需要多次投掷硬币,并在每次投掷后计数P值( 假装事先知道掷数),则迟早获得小于p <0.05的机会远大于 5%。 因此,这样的实验比20例中的1例更频繁地检测到无火烟雾。
Bayesovets:就我个人而言,我喜欢这样表述这个问题:假设您扔硬币并得到OOOOOR。 如果同时您只在真主所知的内心深处(因为真主是明智的,博学多识的) 预先决定了掷出的次数,那么结果并不重要; p = 0.22。 如果在三个月的禁食后发誓要向圣弗朗西斯投掷硬币直到尾巴掉落 ,那么同样的结果在统计上就很有意义,p = 0.03。 因为概率为1:1的尾巴将不得不等待六次或更多的投掷,即1/32。
学生:什么?
科学家:当然,这更像是一个模仿。 在实践中,只有在画完一条尾巴后再停下来,没人会扔硬币。 但是实际上,贝叶索韦茨是正确的,P值就是这样工作的。 严格来说,我们正在尝试找出结果是多么罕见。 在前尾巴前扔硬币的人可以获得结果{P,OR,OOR,LLC,OOOOR,LLCOOR ...},依此类推。 进行六次或更多次射击的结果类别为{LLCOOOR,LLCOOOR,OOOOOOOR ...},其总概率为1/64 + 1/128 + 1/256 ... = 1/32。 而将硬币精确地投掷六次的人将获得{RRRRRR,LLCOOR,LLCORO,OOOOORR ...}类的结果之一,该类包含64个元素。 为了我们的实验目的,LLCOOOR等效于LLCORO,LLCOROOO等。 所以是的,所有这些都是违反直觉的。 如果我们真的进行了第一个实验,LLCOOR将会是一个重要的结果,用诚实的硬币是不可能的。 如果我们要进行第二个实验,LLCOOR不会很重要,因为即使有了诚实的代币,有时也会发生类似的情况。
贝叶索维茨:实验结果取决于您的想法,您是否碰到了麻烦?
科学家:这是一个良心问题。 如果您对结果进行谎言,那么任何类型的研究都将花费很少,也就是说,从字面上讲出硬币掉到哪一边的谎言。 如果您对进行的实验类型撒谎,效果将是相同的。 因此,您只需要接受它并诚实地说出抛出规则是什么。 当然,科学家头上的内容并不比硬币在哪一侧明显。 因此,总是可以调整分析参数,而不用写出如何确定主题数,而是选择统计检验来确认您最喜欢的假设……如果您愿意,可以想到很多事情。 这比伪造源数据更容易。 在英语中,这称为p-hacking。 当然,实际上,与事实之后发明的愚蠢的零假设相比,使用不明显的方法来产生无烟烟雾的方法要少得多。 这是一个严重的问题,在某种程度上与重现性危机有关,尽管尚不清楚是哪一个。
学生:听起来...合理吗? 也许这是您需要长时间处理并通过大量示例进行排序的事情之一,然后一切都变得清晰起来了?
Bayesovets:无。
学生:我的意思是?
贝叶索维茨:在某种意义上,“学生,你从一开始就是对的。” 如果实验者的想法不会以任何方式影响硬币掉到哪一边,那么他的想法就不会影响投掷的结果告诉我们有关宇宙的事实。 我亲爱的学生,向您传授的统计信息不过是一堆过于复杂的弯曲拐杖,您甚至不愿为了使内部保持一致。 为了天堂,她会根据您的头部状况给出不同的错误结果! 这比一些科学家倾向于在“材料和方法”中作弊的趋势要严重得多。
科学家:至少可以说,这是一个严肃的声明。 但是告诉我,我问你:不幸的是,我们该怎么办?
Bayesovets:分析如下:可以通过六次完美平衡硬币的投掷来获得这个LLCOOR结果,概率为1/64,或约1.6%。 假设我们已经怀疑我们的硬币不平衡。 而且不仅是不完美的,而且以这样的方式,它平均每六次中有五次成为老鹰。 当然,这是一个疯狂的简化,但是稍后我将继续进行现实的假设。 因此,该假冒代币给出了LLCOOR序列,概率为(5/6) 5 *(1/6) 1 。 大约是6.7%。 因此,我们有两个假设:“硬币是最常见的”和“在5/6例中,硬币被鹰扔掉了”。 在第二种情况下,此特定结果的可能性是第一种情况下的4.3倍 。 另一种假设的作弊币发生LLCOOR序列的概率为0.01%,在六分之五的情况下为尾巴。 因此,如果有人突然认为这是我们面前的第二枚硬币,那么我们现在有一个很好的论据来反对他的假设。 对于特殊的硬币,这种特殊的结果是比老鹰只丢掉六分之一的硬币高146倍。 同样,我们假设的红色饼干爱好者将不太可能吃绿色食品。
学生:好的,我似乎理解数学。 但老实说,我不明白它的含义是什么。
Bayesovets:现在,我要解释一下,但是首先,请注意这一点:我的计算结果并不取决于为什么硬币被精确地翻转了六次。 也许在第六次抛出之后,您认为数据已经足够了。 可能经过了五次抛掷之后, 纳马吉里·塔亚尔(Namagiri Tayyar)在梦中向您显现,并建议您再次扔硬币。 硬币不在乎。 事实依然存在:这种特殊的LLCOOR系列对于诚实的硬币来说,比老鹰掉落的硬币(六分之五)要少四倍。
科学家:我同意您的计算中至少有一个有用的功能是。 接下来是什么?
Bayesovets:然后将结果发布在杂志上。 最好与原始数据一起使用,因为这样任何人都可以计算任何假设的可能性。 假设某人意外地对以下假设感兴趣:“一枚硬币被10颗鹰砸掉9次,而不是6颗5倍投掷”。在这种情况下,一系列LLCOOR观测值的概率为5.9%,略低于我们关于六次投掷五鹰的假设(6 (7%),但是硬币完全平衡的假设(1.6%)的3.7倍。 事先提出所有可能的假设是不可能的,也没有必要。 发布完整的数据就足够了-然后任何有假设的人都可以轻松计算出他需要的可能性。 贝叶斯范式要求发布原始数据,因为主要关注的是特定结果 ,而不是某些所谓的相同结果。
科学家:对此,我表示同意,发布完整的数据集是克服可重复性危机的最重要步骤之一。 但是就我个人而言,我不知道该如何处理所有这些“ A的可能性比B的可能性大很多倍”。
学生:我也是。
贝叶斯人:这并不完全是琐碎的……您读过我们对贝叶斯规则介绍吗?
学生:太好了。 那只是下一本三百页的统计教科书,而我还不够。
Bayesovets:您实际上可以在一小时内阅读它。 仅仅是所有这些在字面上都不是琐碎的 ,也就是说,它需要解释。 但是好吧,由于缺乏完整的介绍,我将尝试提出一些建议。 这很可能听起来是合理的-逻辑确实是正确的-但事实并非如此,这是不言而喻的。 走吧 有一个定理证明以下推理的正确性:
(贝叶斯逐渐普及)
Bayesovets:假设Plume教授和Scarlet小姐涉嫌谋杀。 研究了两者的传记后,我们认为,教授杀人的难度是斯嘉丽小姐的两倍。 我们将从这个假设开始。 事实证明,死者被毒死。 我们知道,如果Plume教授要杀死某人,那么他使用毒药的可能性为10%(在十分之九的情况下,他会更喜欢使用左轮手枪)。 斯嘉丽小姐决定杀人时,以60%的概率使用毒药。 换句话说,教授使用毒药的可能性比使用斯嘉丽小姐的毒药低六倍 。 由于我们掌握了新的信息,即谋杀方法,因此我们必须更新假设,并假设Plume成为杀手的可能性降低了三倍:2 * 1/6 = 1/3。
学生:不确定我明白了。 “ Plume教授是杀人犯的可能性比Scarlet小姐低三倍”是什么意思?
Bayesovets:这意味着,如果我们没有其他犯罪嫌疑人,则Plume杀死受害者的概率为1/4。 剩下的3/4是凶手是猩红色小姐的概率。 因此,教授的罪恶感是猩红小姐的三倍。
科学家:现在我想知道您所说的“内几率”。 Plume犯下了谋杀罪,或者他没有犯下谋杀罪。 我们无法查看杀人事件的样本,也无法发现Plume确实造成了其中的四分之一。
Bayesovets:我本来希望不参加,但是哦。 我的好科学家,我的意思是,如果您以1:1的赌注向我投注,以了解Plume是否杀死了受害者,那么我敢打赌他没有。 但是,如果按照赌注的条款,如果我无辜的话我愿意付给你1美元,如果他有罪的话我要付给你5美元,我很乐意指责。 2012年总统大选仅举行了一次,奥巴马的胜利机会在概念上与普尔姆的罪恶感一样明确。 但是,如果在11月7日有人提议您向奥巴马下注10美元,并承诺如果奥巴马获胜将获得1000美元,那么您几乎不会拒绝这种下注。 一般而言,当预测市场和大型流动性下注池在某些事件下以6:4进行下注时,大约60%的情况下会发生此事件。 市场和池已针对此范围内的概率进行了很好的校准 。 如果它们的校准不佳,也就是说,如果在80%的情况下发生了以6:4进行下注的事件,那么有人可能会注意到这一点并以这种下注为代价来充实自己。 同时,他将提高利率的价格,直到市场得到良好的校准。 而且,由于市场概率估计为70%的事件实际上真的发生了10次中的7次,因此我不明白为什么要坚持认为这种可能性没有道理。
学生:我承认,这听起来很有说服力。 但可以肯定的是,在我看来,事实上,有很多支持和反对的狡猾论点。
Bayesovets: 确实有 很多争论,但是从中得出的一般结论是您的直觉非常接近事实。
科学家:好的,我们再回到这一点。 但是,如果有两个座席,以您的说法都“经过良好校准”,而其中一个座席说“ 60%”,而另一个座席说“ 70%”呢?
Bayesovets:假设我抛硬币,而不看它掉到哪一边。 在这种情况下,我的无知不是关于硬币的信息,而是关于我的信息。 它存在于头部中,而不存在于周围世界中,就像地图上的白色斑点并不意味着该地方没有领土。 如果您看着硬币,但我没有看,那么您和我处于不确定的状态是很合理的。 考虑到我不是百分百肯定的,因此用概率表达我的不安全感对我来说是有意义的。 大约有300个定理指出,如果某人的不确定性表达实际上不是概率分布,那么通常来说,他就需要它。 由于某种原因,总是会发生这样的情况:如果不确定因素下的行为人思维违反了概率论的任何标准公理,那么地球将开放,水将变成血液,主导策略和明显的失败赌注将从天堂倾泻而下。
科学家:好的,我错了。 我们也将回到这一点,但是首先,请回答我的问题:在获得信誉后,我们应该如何做才能做到信誉?
Bayesovets:根据概率论定律,这些可能性证据。是他们使我们将先验概率从赞成Plume的2:1更改为赞成猩红的3:1。如果我有两个假设以及两个数据的可能性,那么我应该如上所述改变主意。如果我以不同的方式更改它,那么天堂将打开,战略将涌入等等。贝叶斯定理:这不仅是一种统计技术,还是定律。
学生:对不起,但我还是不明白。假设我们正在进行一项实验。而且,如果说普鲁皮先生杀死马戏团的结果,那是她成为斯嘉丽小姐的杀手的六倍。(大约每人-学生显然混合了两个杀手使用毒药的合理性。接下来,讨论这个比率)。是否逮捕我们教授?
科学家:我想,对于初学者来说,您需要提出一个或多或少现实的先验概率,例如,“ 先验,我相信杀死剧团Plume的概率为20%”。然后必须将其乘以6:1的似然比,并得出3:2的后验概率之比,这使烟柱杀死了剧团。然后可以说Plume有罪的可能性为60%,然后检察官办公室应该了解。
Bayesovets: 。看在天堂的份上!您是否真的认为贝叶斯统计工作如此?
科学家:它工作不正确吗?我一直认为,它的主要优点是可以为我们提供后验概率,而P值却不能给出后验概率,而主要的缺点是为此需要先验概率。由于必须从天花板上或多或少地提取它们,因此后验概率的正确性可能会引起争议,直到时间结束。
Bayesovets:文章需要发布信誉。更准确地说,我们需要发布原始数据,并为它们计算一些我们感兴趣的可能性。但是肯定不是后验概率。
学生:我又感到困惑。什么是后验概率?
Bayesovets:后验 概率-这是“有60%的Herr Troupe杀害Plume教授的可能性”的声明。正如我的同事已经指出的那样,此类陈述并非遵循P值。而且我认为它们在实验文章中没有位置,因为这些不是实验的结果
学生:但是……好吧,科学家,有一个问题要问:假设我们得到p <0.01的结果,也就是说,以零假设“ Plume教授没有杀死马戏团先生”的概率小于1%。我们应该逮捕他吗?
科学家:首先,这不是一个现实的零假设。零假设很可能类似于“没有人杀害马戏团”或“所有嫌疑犯同样有罪”。但是,即使您描述的原假设成立了,即使我们可以拒绝p <0.01的Plume的纯真,仍然不可能说出Plume有99%的概率是有罪的。 P值不能告诉我们这一点。
学生:而且他们随即报案?
科学家:他们报告说,观察到的数据是一类可能结果的一部分,如果原假设为真,则只有不到1%的情况下观察到此类结果。更多的P值意味着什么。您不能仅仅从p <0.01转到“ Plume教授有罪的概率为99%”。贝叶斯(最有可能比我更好)将能够解释原因。通常,在科学中,不可能将一件事解释为另一件事。数字准确地表示了它们的意思,没有更多也没有更少。
学生:总体上很好。起初我不了解如何处理合理性,现在我仍然不了解如何处理P值。最终将Plume送入监狱需要进行哪些实验?
科学家:在实践中?如果其他实验室的其他几次实验证实他有罪,且p <0.01,则很可能他确实有罪。
Bayesovets:A“重现危机” -这是当事情被提高,后来事实证明,他并没有犯谋杀。
科学家:是的,是的。
学生:不知何故。
科学家:生活通常是一件令人不愉快的事情。
学生:那么... Bayesovets,您可能有一个类似的答案?像这样的事实:如果似然比足够大,例如100:1,那么在实践中可以将相应的假设视为正确吗?
Bayesovets:是的,但是稍微复杂一些。假设我抛硬币20次,得到OOOOOROOORORORROOROOOROOOROROR。问题在于,假设“保证硬币给出序列LLCOROOORORORROOOOOOOROROROR”的可能性比假设“硬币可能由鹰或尾巴同样地概率”的可能性高约一百万倍。在实践中,如果您在实验开始之前没有将这个假设交给我,那么我会认为它是经过重新训练的。我必须给这个假设一个至少 2 20:1的复杂度的惩罚,因为仅序列的描述就需要20位。换句话说,将先验概率降低得太多,以至于不能补偿似然优势。这不是唯一的陷阱。但是尽管如此,如果您了解贝叶斯规则的工作原理和原因,那么在每种情况下,您都可以一路了解。如果Plume的合理性比率是与其他任何犯罪嫌疑人的1000:1相对,并且只有六个犯罪嫌疑人,则可以假定先验概率几乎不超过10:1,这是因为他是杀手。如果是这样,那么我们可以假设他有罪的可能性为99%。
科学家:尽管如此,文章写作是不是值得呢?
Bayesovets:是的。如何制定...条件贝叶斯重点分析的是,有必要考虑到所有相关信息。您不能仅仅因为不喜欢就将数据排除在分析之外。不管使用何种统计,这实际上都是科学的关键条件。有很多文章之所以得出结论,只是因为未考虑某些因素或该样本在某些参数上没有代表性。我在说什么我(作为实验者)如何知道“所有相关信息”呢?我是谁来计算后验概率?也许有人发表了一篇文章,其中有我应该考虑的其他数据和可信度,但我尚未阅读。因此,我只是发布数据和似然函数-就是这样!我不能声称已经考虑了一切论据,现在我可以提供可靠的后验概率。即使我可以,一个星期后也可能会发表另一篇文章,而这些可能性将变得过时。
学生:粗略地说,实验者应该发布他的数据,为他们计算一些可能性以及所有可能性?只有这样,其他人才能决定如何处理他们?
Bayesovets:有人将不得不选择先验概率-相等,或者具有最大熵,或者由于复杂性而受到惩罚,或者其他任何原因-然后尝试收集所有可能的数据,计算可能性,确保结果不疯狂,以及其他。其他。如果一周内有新文章发布,还必须计算它们。
学生:听起来很耗时间
Bayesovets:如果我们对P值进行荟萃分析,那就更糟了。更新贝叶斯概率容易得多。只需旧的后验概率乘以新的似然函数并进行标准化就足够了。仅此而已。如果实验1给出了假设A和B的似然比为4:1,而实验2给出了它们的似然比为9:1,则它们加在一起得出的比值是36:1。仅此而已。
学生:您不能使用P值吗?一个实验的p = 0.05和另一个实验的p = 0.01并不意味着实际上p <0.0005?
科学家:
Bayesovets:尊敬的观众,请注意我傲慢的笑容。
科学家:但是我仍然担心需要提出先验概率。
贝叶索维茨:为什么每个人都决定考虑一个实验和两个重复且p <0.01为真相标准的事实令您感到困扰呢?
科学家:您想说的是,对先验值的选择比对P值的解释更主观吗?我想指出,例如p <0.001的要求应保证客观性。但是随后您会回答,同样从手指上吸了0.001(而不是0.1或1e-10)的数字。
Bayesovets:我补充道,要求任意P值比从同一根手指吸取先验概率的效率低。亚伯拉罕·瓦尔德(Abraham Wald)于1947年证明了最早的定理,其中一个定理用埃及的惩罚手段威胁了违反概率公理的人。他试图描述所有可接受的策略,并以某种方式对您所观察的内容做出反应。当然,不同情况下的不同策略可能会或多或少地获利。可接受的策略他称自己在所有可能的条件下都不受其他策略支配。因此,Wald发现可接受策略的类别与包含概率分布的策略类别相吻合,根据贝叶斯规则的观察对其进行更新,并优化效用函数。
学生:对不起,我会说俄语吗?
Bayesovets:如果您根据自己的观察做某件事,并根据实际情况获得或多或少的收入(例如,金钱),那么两者之一就是正确的。无论你在某种意义上策略包含的概率分布,并更新其贝叶斯法则,还有其他一些策略永远不会屈服于您,有时甚至会超越它。就是说,例如,您说:“直到看到一篇文章证明吸烟与癌症之间的关系为p <0.0001时,我才会戒烟”。至少从理论上讲,有一种方法可以说:“我认为吸烟与癌症之间的联系以0.01%的概率存在。您的可能性是什么?”,无论存在这种联系的先验概率如何,这都不会比第一种表述更糟。
科学家:真的吗?
Bayesovets:是的贝叶斯革命始于这个定理。从那以后,它一直在缓慢地发展。值得注意的是,瓦尔德在发明P值后的几十年证明了他的定理。我认为,这解释了如何证明所有现代科学都与明显无效的统计联系在一起。
科学家:那么,您建议扔掉P值,而只发布似然关系?
Bayesovets:简而言之,是的。
科学家:我真的不相信适合任何条件的理想解决方案。我怀疑-请不要认为这是侮辱-您是理想主义者。以我的经验,在不同的情况下,需要使用不同的工具,而只扔掉一个工具是不合理的。
Bayesovets:好吧,我准备解释我是一个理想主义者,而不是一个理想主义者。单靠可能性功能并不能解决可重复性的危机。简单地命令每个人使用更有效的统计数据并不能完全解决该问题。开放存取杂志的受欢迎程度并不取决于可能性和P值之间的选择。审查系统的问题也与之无关。
科学家:还有其他一切,这取决于吗?
Bayesovets:不是一切,但他们有很多东西来帮助。让我们数。
Bayesovets:首先。似然函数不会强制在“统计上显着”和“无关紧要”的结果之间进行区分。实验不能有“阳性”或“阴性”结果。所谓的零假设现在只是假设之一,原则上与所有其他假设没有区别。如果您投掷硬币并得到OORORRROOO,则不能说实验无法“拒绝p <0.05时的原假设”或“再现先前获得的结果”。他只是添加了支持“ 5/6鹰”假设的诚实硬币假设的数据,似然比为3.78:1。因此,随着贝叶斯统计的大量采用,此类实验的结果将不太可能发送到表格中。从来没有因为杂志的编辑对诚实的钱币仍然更感兴趣,因此您必须直接处理。但是,P值不仅没有在这种方法上苦苦挣扎,它们是他的刺激!正是由于他,p-hacking普遍存在。因此,向信誉的过渡不会给所有人带来幸福,也不会一劳永逸,但绝对会有所帮助
Bayesovets:其次。由于贝叶斯分析建立在给定模型中这些特定结果的可能性之上,因此似然系统更加强调了源数据的重要性,并将尽可能地刺激其发布。相反,P值系统使研究人员将数据视为“相等极端”结果类别的成员之一。一些科学家喜欢将所有宝贵的数据保存在一起。这不仅仅是统计。但是P值会刺激这是因为数据本身对于文章而言并不重要,而是数据是否属于特定类。一旦确定了这些内容,其中包含的所有信息似乎就会崩溃为一点点的“重要性”或“无关紧要”。
Bayesovets:第三。从概率论的观点来看,从贝叶斯观点来看,不同大小的效应是不同的假设。这是合乎逻辑的,因为不同的似然函数以及相应的观测数据的不同概率对应于它们。如果一个实验发现效应值为0.4,而另一实验发现相同效应为“统计学显着”值0.1,则该实验不会重现而且我们不知道到底有什么。当“具有统计意义的”效应的大小随着样本量的增加而减小时,这将避免出现一种相当普遍的情况。
Bayesovets:第四。可能性函数极大地简化了数据聚合和元分析。他们甚至可以帮助我们注意到数据是在异构条件下收集的,或者我们没有考虑真实的假设。在这种情况下,要么所有函数的所有可能参数都接近于零,要么最佳假设对组合数据的可能性比其本身预测的可能性小得多。一种更严格的可重复性方法将使我们能够快速了解​​这样的实验是否可以视为重复这样的实验。
Bayesovets:第五。似然函数不取决于他们对它们的看法。这些是关于数据的客观陈述。如果发布似然值,那么只有一种方法可以欺骗读者-伪造数据本身。 P骇客无法使用。
科学家:嗯,我对此表示强烈怀疑。假设我决定说服您,一枚硬币经常被老鹰掉落,尽管实际上这是诚实的。我将拿一个硬币,我将其扔掉,直到偶然我得到更多的鹰,然后停下来。那怎么办
Bayesovets:继续。如果您不伪造数据,您将不会欺骗我。
科学家:问题是,如果我在每次掷球后检查似然比并支持我最喜欢的理论就立即停止,那将会发生什么。
贝叶索韦茨:作为一个理想主义者,被概率论的欺骗性美所吸引,我回答你:当你给我诚实的原始数据时,我只能而且应该做一件事-根据贝叶斯定律相乘。
科学家:真的吗?
Bayesovets:认真的。
科学家:所以您不介意在我喜欢之前可以检查似然比吗?
Bayesovets:继续。
科学家:好的。然后,我将编写一个Python脚本来模拟一个诚实硬币的抛弃比方说300次,我将看到我多久可以得到20:1的比率,以支持以下假设:“在55%的情况下,一枚硬币被老鹰扔掉” ...什么?
Bayesovets:是的,只是一个有趣的巧合。当我刚发现有关它的所有内容并怀疑似然关系不能以任何棘手的方式欺骗​​时,我便用Python编写了相同的程序。后来,我的一个朋友也发现了似然关系,并且出于某种原因也使用Python编写了相同的程序。他启动了这项研究,发现在铸造系列的1.4%中至少发现一次55%Eagles假设的20:1比率。例如,如果您要求30:1或50:1,它们的频率下降甚至更快。
科学家:如果您考虑一个半百分点的P值,那么它看起来不错。但这是愚弄分析的一种非常不礼貌的方式。也许有更复杂和有效的方法?
Bayesovets:当我刚开始了解加法时,我大概……大约五岁。我最早的回忆之一。我坐着,加了3到5,并一直试图想出一种不加8的方法。当然,这是理解加法是什么(通常是数学)的非常好且通常很重要的一步。但是,现在这正是可爱的事物,因为我们是成年人,并且理解5加3不可避免地等于8。一个不断检查似然比的脚本与我小时候所做的一样。了解了这一理论后,我意识到试图欺骗贝叶斯定律是显而易见的注定。这就像试图以某种棘手的方式将3分解为2和1,然后将其分别添加到5,或者尝试先添加1,然后再添加2。2.这两种方法都不可行。加法的结果是一个定理,我们执行哪个操作序列都没有关系。如果确实等于将3加5,则输出只能是8。概率论定理也是定理。如果脚本能够真正发挥作用,那么这将意味着概率论中的矛盾,因此也就意味着Peano算术中的矛盾,而Peano算术中使用有理数的概率分析就是基于此。你和我试图做的正是和标准算术公理学中的3和5相加并得到7一样困难。
学生: E,为什么呢?
科学家:我也不明白。
贝叶斯:e表示观测值,H表示假设,!X表示“非X”,P(H)表示假设的概率,并且P(X | Y)表示X 条件概率,前提是Y为真。即

P(H)= P(H |电子)* P(电子))+(P(H |!一封)(* P !一封

因此,用于概率函数有没有这是p-hacking的任意复杂类比,不包括数据篡改,因为贝叶斯代理不知道任何程序都可以迫使他以故意不正确的方向更新其先验概率。对于每一个变化,我们可以通过观察得到一个电子,则有可能从观察可以预期相反的变化!一封
学生:什么?
科学家:我也不明白。
Bayesovets:好的,让我们暂时推迟数学运算,看看……是的,可重复性危机。这位科学家说,他对理想的通用解决方案表示怀疑。但是我认为向似然函数的过渡确实应该一次解决许多问题。假设...我现在想。假设公司在会计方面存在很大的问题。这些问题与所有记帐都使用浮点数有关。这将是麻烦的一半,但是使用了三种不同的实现方式(每种实现方式约占公司的三分之一),因此事实证明上帝知道。例如,某人取1.0,一千次相加0.0001,然后减去0.1,得到0.999999999999989。然后他去另一层楼,在他们的计算机上重复计算,得到1.000000000000004。每个人都认为是这样。我们假设错误确实很大,所有这三种实现都是洞穴绘画和罗马数字不自然结合的结果。因此,由于它们之间的差异,您可以在结果中获得相当明显的差异。当然啦每个人都选择销售,以便他们有季度报告。因此,如果部门的预算至少不与自身矛盾,并且认知启动部门很可能在20年前破产,这将是一个很好的结果。然后我出去,全是白色,我说:“下午好。但是,如果您使用无法通过这种方式操纵的,很酷的东西而不是您的三个实现,那将解决一半的问题该怎么办?”不能以这种方式进行操作,它将解决您一半的问题。”不能以这种方式进行操作,它将解决您一半的问题。”
贝叶佐维兹,用科学家的声音:“我对这样的普遍解决方案感到怀疑,”总会计师回答我。 “不要认为这是侮辱,但您,老人,是理想主义者。以我的经验,不同的浮点符号非常适合于不同的操作,因此,除了一个工具,您不应该立即丢弃所有工具。”
Bayesovets:我要回答的是:“也许听起来太大胆了,但我将向您展示完美分数的表示形式,其结果不取决于您添加数字的顺序或进行计算的计算机。也许是在1920年,刚创建系统时,它需要太多内存。但是现在不是1920年,您可以负担得起不节省计算资源。特别是因为您有3000万个银行帐户?这实际上是胡说八道。是的,我的观点有其缺点。例如,平方根要困难得多。但是,老实说,您需要多久计算一次别人工资的平方根?对于大多数现实世界中的任务,此系统并不逊色于您的系统,此外,如果不伪造输入值,就无法上当。之后我向他们解释如何在内存中表示任意长度的整数,以及如何将有理数表示为两个整数的比率。也就是说,我们现在称之为不言而喻的代表方式计算机内存中的有理数。关于有理数的唯一且唯一的定理系统,其浮点数只是一个近似值。如果您处理了不幸的3000万张钞票,在实践中,如果您的近似值彼此不一致,或者与您自己不一致;或者是否还允许每个人窃取您的钱;如果最后不是1920年,而且您可以买得起普通计算机,那么将会计转换为实际有理数的需求就很明显了。同样,贝叶斯规则及其后果是唯一基于公理的概率定理系统,并经过严格证明。因此,p-hacking在其中不起作用。
科学家:这是...大胆的。即使您所说的一切都是正确的,仍然存在实际困难。我们现在使用的统计数据已经形成了十多年了。她证明了自己的价值。您的明亮贝叶斯道路是如何被实践证明的?
Bayesovets:在自然科学中,几乎从未使用过。在机器学习中,更确切地说是,很容易注意到模型是不正确的-因为基于模型的AI不起作用-因此,在机器学习中,我上次看到频率的概率法是大约十年前。我不记得一个AI会考虑某些假设的P值的工作。如果概率至少以某种方式出现在研究中,那么几乎可以肯定是贝叶斯。如果某事物是根据单一代码分类的,那么交叉熵就会降到最低,而不是……我什至不知道AI中P值的类似物是什么。我敢建议这一点。机器学习中的统计数据有效与否,并且立即显而易见:AI要么按预期运行,要么崩溃。在自然科学中,每个人都首先需要出版物。由于碰巧习惯在文章中指出P值,但不会因为无法弥补的结果而受到惩罚,因此我们拥有了自己的东西。
科学家:也就是说,您是数学家还是程序员,而不是博物学家?由于某种原因,这并不令我感到惊讶。毫无疑问,可以存在一个更成功的统计工具,但是使用P值的经验也很有价值。是的,现在它们经常以一种或另一种方式扭曲,但是我们知道如何去做,并且我们开始理解如何去处理它。坑陷阱至少是已知的。在任何新系统中,它们都将是。但是确切的地方-只有几十年后它才会变得清晰。也许它们将比当前的更加危险。
Bayesovets:是的,小偷会计可能会想出一些新颖且令人兴奋的有理数操作。尤其是在那些情况下,确切的操作仍然在计算上过于昂贵,并且必须以某种方式近似。但是我仍然相信,如果现在相同的实验心理学因可再现性危机而破裂,并且如果这种危机显然与P值的使用有关,坦率地说,P值不过是一群相互冲突的拐杖,那么至少尝试使用更多合理的方法。尽管我也不敦促拆除和重建所有设施。在实践中,对于初学者来说,您可以放弃任何一个领域(甚至在心理学领域)的P值,然后看看会发生什么。
科学家:您将如何让心理学家进行这样的实验?
Bayesovets:我不知道。坦白说,我并不真正希望任何人都会真正改变任何东西。人们很可能会一直使用P值直到时间结束。这样的事情。但是有一个机会,这个想法仍然是受欢迎的。我对Open Access扎根的速度感到惊讶。令人惊讶的是,人们普遍注意到可再现性危机,而且人们对此也很关心。也许P值仍会被拉到市场上,并受到一大群人的欢迎(大约每人:2015年,至少一本心理学杂志拒绝检验无效假设))如果是这样,那么我会感到惊喜。在这种情况下,事实证明,我关于推广贝叶斯规则真实性的工作没有白费。
科学家:也许没有人喜欢实验科学中的可能性,每个人都认为P值既方便又有用。
Bayesovets:如果大学的统计学课程是如此可怕,以至于在概率论的思想上他们都会感到震颤-那么,是的,变化将必须来自外部。我个人希望我们亲爱的学生阅读贝叶斯概率论简短而有趣的介绍。,将其与他出色的统计教科书进行比较,并在接下来的六个月里恳求您“好吧,请问我能算出信誉吗,就是这样,请允许我。”
学生:嗯...好,我先读了,好吗?
Bayesovets:亲爱的学生,请考虑您的选择。科学的某些变化仅是由于学生在不同的想法下成长并从中选择合适的想法而发生的。这是著名的马克斯·普朗克格言,马克斯·普朗克不会胡说八道。因此,科学分辨坏点和好点子的能力完全取决于学生的才智。
科学家:嗯,那已经是……
主持人:这是我们完成移转的地方。感谢您的关注!

Source: https://habr.com/ru/post/zh-CN430190/


All Articles