如何建立概率显微镜
据传言,二十世纪福克斯将在几年内发行1966年科幻电影《神奇之旅》的翻拍。根据情节,主角被压缩并注入人体,它们在微观尺寸的潜艇中通过。在这样的规模下,血液流动会变成危险的湍流,白色物体会吞噬船,而液滴的表面张力会变成无法逾越的屏障。扩大规模破坏了我们对什么对我们重要,什么有权力以及什么是危险的直觉理解。为了生存,您需要重新配置直觉。即使可以忽略对熟悉音阶的任何影响,对不熟悉音阶的影响也可以忽略不计。
我们如何理解陌生范围内的重要内容?事实证明,存在着一个大偏差的数学理论,该理论对概率有效,就像递减的射线与奇幻旅行团队一样。尽管经典的概率论处理的是普通事件的概率,但大偏差理论专门研究了当几个相当不寻常的事件合并时出现的极为罕见的事件。它使我们能够放大概率显微镜,以确定发生极不可能的事件的可能性最小的方式。从50年前提出该理论开始,数学家S.R. Srinivasa Varadhan,经过仔细研究和开发。它显示了随机系统的平均行为如何偏离典型值。通过仔细比较所有罕见的可能性,您可以看到当我们将注意力集中在通常的发生方式上时,我们经常会低估异常事件的可能性。让我们带着显微镜去旅行高频交易员
高频交易者进行很长的交易序列。在每个人身上,他的初始价值为$ 1,000,000的情况增加0.5%或减少0.5%,任何结果的可能性为½。他在一百万笔交易中可能有多少钱?他可以这样说:每笔交易的涨跌幅相同,因此平均金额不会改变,最终他应该剩下一百万美元。这是另一个论点:当他获胜时,他的财富将乘以1.005。下跌时为0.995。两者之和乘以1,005 x 0,995 = 0,999975。对于一百万笔交易,将发生其中的500,000件,因此原始的一百万笔将变成$ 1,000,000 x(0,999975)500,000,大约等于3.73美元。哪个推理是正确的?两者都奇怪,但是第二个将更重要。最有可能的是,交易者将一无所有,但是如果我们增加他获胜的不太可能的事件的集合,我们将看到他获胜的这样的选择。这里的关键函数是I(x),它是一个关系函数,它表示随着交易数量的增加,获得结果x的概率如何降低。这里x是一个数字,但是根据任务的不同,它可以是宇宙的随机轨迹,随机网络结构或随机几何形状。 I(x)= 0对应于一个概率不大的典型情况-在我们的情况下,这是一种选择,其中交易者的状态以指数速率下降。 I(x)的大值对应于x的指数最小概率。平均值确定指数下降的概率与指数增长的状态之间的折衷。尽管x的概率很小,但x却很大。这种折衷方案的优化证实了幼稚的直觉概念,即平均交易结果将等于100万美元-即使您可以确定几乎所有交易者都会损失几乎所有资金。如果有100万交易者,并且每个交易者以100万美元的资本进行100万笔交易,那么平均结果将实际上等于100万美元。但是这个平均数将由1-2个交易者确定,其帐户上将有数千亿美元。大部分资金将存入少量随机交易者的账户中,大多数交易者将失去一切。获胜或独居的机会不超过100分之一。电话节点
通信网络的主要问题是确定拥塞的可能性。电话节点或Internet的数据缓冲区的容量足以应付平均负载,但不足以处理异常数量的同时请求。贝拉实验室的数学家艾伦·韦斯(Alan Weiss)和亚当·斯沃兹(Adam Shwartz)指出,大偏差理论在1995年应用于通信网络。从理论上讲,罕见事件的概率随系统规模的增长呈指数下降。用数学语言来说,概率变化为e -n * I(x),其中n表示大小,x是罕见事件的路径,I是给出选择该路径的相对概率的比率函数。稀有事件通常以一种可预测的方式发生(使关系函数最小化),并以较长的时间间隔分隔开。在任何任务中,困难都在于确定(并成功解释)关系函数。它给出了所有载荷序列的相对可能性,从中可以得出导致过载并具有比率函数的最小值(即最大概率)的组合。这些组合决定了拥塞的频率及其性质:活跃的源有多少,它们将是什么源以及它能在多快的时间内解决拥塞。举一个简单的例子,考虑一个电话网络,其中大量用户(例如,一百万)中的每个用户都是随机连接的,因此平均而言,他们保持线路在线的时间为1%。 (我们假设他们在一天中的任何时候都可以彼此独立地进行呼叫,并且机会均等)。该网络需要10,000条通讯线才能满足平均需求。该公司使用较大的偏差估计,当调试10,500条通信线路时,每年将处于过载状态约2分钟。想象一下,除了网络之外,还有五百万玩家开始使用控制台,尽管这些控制台有1%的时间处于联机状态,但需要很大的带宽-他们各自选择5条线路。新用户平均还需要10,000条线路,因此该公司决定将其容量增加一倍,达到21,000条。但是结果是,网络每周要过载几分钟。对关系函数的分析显示,在拥塞期间,与其他用户平均使用相同网络容量的播放器使用的线路多出8%,另外250条线路将恢复网络正常运行时间。如果我们在拥塞发生前几秒钟绘制网络负载,我们将看到它几乎总是遵循某种模式,在网络拥塞之前逐渐向上弯曲如何突然达到顶峰-这条曲线也可以计算为最小比率函数。在现代分散式数据包交换网络中,关联功能可以帮助检测僵尸网络,犯罪分子用来发送垃圾邮件和攻击系统的受病毒感染的计算机网络。这个想法是要识别与大量其他计算机通信的僵尸网络控制计算机,然后通过在与之通信的计算机中发现异常关联来确认标识。为此,波士顿大学的研究人员使用了一种关系函数,该函数可以在所有原因中描述为什么不太可能出现的大量未连接计算机可以与同一远程服务器进行通信,最有可能使它们之间的通信相关联的选项。 (Wang,J.&Paschalidis,IC基于异常和社区检测的僵尸网络检测。 IEEE网络系统控制交易(2016)。摘自DOI:10.1109 / TCNS.2016.2532804。)沉睡的种子
滞育-发育迟缓,通常发生在早期。许多植物物种产生的种子不会立即开始生长,而是长时间处于休眠状态并形成稳定的供应。鉴于生存之战通常会变成“谁先到达那里,然后再到达那里”,所以随机的发育延迟是一个环境谜团。为了了解这种情况,Shripad Tuljapurkar和我在我们的共同工作中研究了一个简单的模型:一个具有两年生命周期的物种,其第一年从种子生长到成年,第二年用于种子生产。(Steinsaltz,D.和Tuljapurkar,S.具有罕见迁徙或滞育的生活史的随机增长率。ArXiv:1505.00116(2015)。)我们提出了以下问题:增长率将如何影响某些种子保持冬眠的事实一年?如果每年的种子生长,存活和产量保持恒定,答案是显而易见的:个体的生长迟缓会延迟种群的增长。但是在变化的环境条件下,一切都不同。即使稍有延迟,也会导致人口急剧增加。
如果1%的种子等待一年,人们会期望典型的族谱轨迹经历100年的1次延迟,并在成长时陷入典型的环境条件。但是后代的种子将具有非常罕见的轨迹,这种轨迹会更加频繁地徘徊,这些延迟仅发生在最坏的年份,那时生长几乎意味着一定的死亡或无法生产种子。这些轨迹具有很大的偏差-极少出现-但随着时间的推移,它们会产生更多的后代。人口增长率最终取决于这些不太可能的路径。换句话说,如果我们追溯今天一个人的生活轨迹,它将看起来像一系列成功的事故。相同的数学原理对迁移有效,支持了栖息地保护的重要原则:这种观点将受益于在两个条件相同的地区之间移动的能力,在这些地区天气条件每年都在随机变化。每个追踪家族史的人都会发现祖先谁是在大灾变发生之前偶然从一个地方逃离的,或者是在有足够食物的情况下逃往另一个地方的。这是平凡进化的一个特例:大多数活生物体死后都不会离开后代,但是您可以追踪数十亿世代的祖先,而不会遇到这样一个失败者。真幸运!百岁老人
活到一定年龄(事实证明这比大多数人想象的要少,因为您再活一年的可能性最大为12岁),您将面临这样一个事实,即即使您即使再度活下去,您的身体状况和可能性也一直在降低在短期内您可以取得进步。理论上的人口统计学家考虑了衰老模型,其中个体的“生存能力”充当随机变量,其以小步长变化,并且更可能向下变化而不是向上变化,并且死亡概率越大,生存能力越低。毫不奇怪,遵循该模型,可以计算出人口的平均生存能力随着年龄的增长而降低……直到某个点。但是一小部分人口可以存活到一定年龄,这些都是杰出的个体。也许他们很幸运赢得了基因彩票。也许生活的随机颠簸将他们引向了一个相对积极的方向。无论如何,该模型预测幸存者的生存能力将逐渐停止下降。每个人仍在减少,但那些减少的人被带镰刀的老妇人带走。幸存者的总生存能力达到下降的个体轨迹之间的平衡,并在生存能力分布的下部筛选出多余的个体,从而达到“准静态分布”的平衡。用大偏差的语言来说,这是比率I(x)的函数-其中x是生命的生存能力的记录-对于保持接近平均值的轨迹,该比率为零。那些严重偏离平均值的变量具有正关系函数,也就是说,它们的概率呈指数减小。在典型模型中,您会发现在所有生命周期中,它们的寿命通常都异常长,而最有可能的是那些意外地将生存能力维持在异常高水平的生命,而不是那些沿着正常下降路径而没有意外死亡的生命。随之而来的是,死亡率-某个年龄的人第二年死亡的可能性-成年后增加,然后在一个非常可敬的年龄达到平均水平。如果在相同的实验室条件下大量观察到这样的模式,即“死亡的高原”,就可以在果蝇和线虫等生物中清楚地看到这种情况-在最常见的果蝇蝇果蝇(Drosophila melanogaster)中,其死亡率已经达到4周,这是相等的。 (Vaupel,JW等人的寿命的生物人口学轨迹。Science280,855-860(1998)。)在人口增长和医疗保健改善之前,直到人们才出现死亡率的稳定状态,这样足够的人才能活到100岁以上。平均而言,一个人的死亡率每8年翻一番,从30 s到90 s。如果我们对1900年出生的美国人进行抽样调查,他们90岁时的死亡率约为0.16,即今年他们中有16%死亡。到98岁时,它的容量增加了一倍以上,然后再也没有增加过。记录的最高死亡率是108岁时的0.62。此后,数据变得非常小,但是对全世界110岁以上的人们进行的全面分析令人信服地显示,在当前条件下,该系数将在0.4到0.7的范围内相等。(Vaupel,JW和Robine,JM在低死亡率国家出现超百岁老人。《北美精算杂志》第6卷,第54-63页(2002年))Source: https://habr.com/ru/post/zh-CN401517/
All Articles