宇宙射线-随机计算机崩溃的原因?



如果您的计算机突然死机,显示“蓝屏死机”或无法复制文件,请不要急于责怪计算机设备或错误的内存制造商。 失败的原因也许是宇宙辐射。 此类事件称为“ 单事件失败 (SEU)违规”。

单个事件导致的违规是由单个电离辐射粒子(离子,光子,质子,中子等)引起的电子组件状态变化,该粒子与系统中的敏感节点(例如微处理器,半导体存储器或功能强大的晶体管)发生碰撞。 状态变化的发生是由于发生了自由电荷,这是由于系统或逻辑元素(例如存储位)的敏感节点内部或附近的电离而出现的。 结果,设备产生错误。 此单一错误也称为“由于单个事件导致的违规”,SEU或简称为随机错误(软错误)。

实际上,即使在地球上,由于宇宙辐射引起的偶然破坏确实确实会定期发生,并且它们在飞机上发生在高空和近地轨道的可能性要大数百倍。 更高-更有可能,因为存在的气氛更加稀少,并且对宇宙辐射的防护能力较弱。

SEU的后果可能有所不同。 例如,在数码照片中,一个像素可能会丢失。 不用担心。 由于太空中子,飞机的计算机系统是否出现故障,这又是另一回事,而他必须紧急降落。 C-141B Starlifter军用运输机曾经发生过这种情况 ,该飞机在有100多名乘客的日本海上空飞行时发生了意外坠毁。 在飞行过程中,飞机突然掉落到右翼。 机组人员设法拉直了防滚架并降落了飞机。 随后的研究表明,自动控制系统中的微芯片突然以错误的位给出了错误的读数-可能是由于与中子的碰撞。

据统计,在高海拔地区,每秒约有1600个宇宙粒子穿过每平方米的表面。 也就是说,每小时大约有600个宇宙粒子穿过每个平方厘米。 基于这样的假设,随机故障可能不像某人那样罕见。

在9000米以上的海拔高度,中子通量强度比海平面高300倍。 单个事件导致违规的可能性也在增加。 不幸的是,没有针对宇宙射线的真正保护措施,因此剩下的就是依靠运气了。


2008年10月7日,澳洲航空公司的空中客车A330-303客机从澳大利亚的珀斯飞往新加坡。 在11,300米的高度上,三个参考惯性块之一发生故障,其结果是错误的数据被发送到计算机控制系统。 因此,飞机突然坠落,将不系安全带的乘客抛出。 303名乘客中的110名受伤,以及12名机组人员中的9名受伤。 在乘客中,有12人受了重伤,另有39人去了医院。 在惯性块失效的所有可能原因中,只有SEU未被排除,其余被认为是“不太可能”或“非常不可能”。 但是,澳大利亚运输安全委员会认为“没有足够的证据评估这种可能性”是由SEU引起的。

尽管在地球上,由宇宙辐射引起的单个故障的可能性比在9000米的高度低300倍,但是有时计算机技术发生的最莫名其妙的事件是由于这种现象造成的。 例如,2003年,位于舍尔贝克(比利时)的一台电子投票机为其中一名候选人增加了4,096票。 一项调查显示,此故障是由设备内存中的一位更改引起的。 原因被称为宇宙辐射。 通常,仅由于候选人获得的选票多于可能的事实才发现该错误。 否则,该故障将不会引起注意。

范德比尔特大学辐射效应研究小组成员,电气工程学教授巴拉特·布瓦 Bharat Bhuva) 说: “这是一个很大的问题,但在社会上仍然基本上看不见。”美国)。 这个研究小组成立于1987年,旨在研究宇宙辐射对电子系统的影响。 该小组最初从事军事和航天系统,但自2001年以来,它的兴趣范围已扩展到消费电子领域。

尽管设备故障的例子非常明显,但SEU仍然是极为罕见的现象。 但是专家们注意到,电子微电路越来越多地用于各种家用电器中。 芯片上晶体管的密度以及数量都在增加。 因此,每年遇到“空间故障”的可能性都在增加。 电气制造商正在研究该问题。 例如,2008年,富士通的工程师爬上了夏威夷的一座火山,以测量4200米高空的宇宙辐射。 那里大约比海平面高16倍。

为了防止宇宙辐射,消费电子制造商正在尝试使用不太敏感的材料和纠错码。 较昂贵的设备可以使用复制系统。

工程师,系统管理员和程序员现在有了一个很好的借口来解释计算机技术的奇怪毛病。

Source: https://habr.com/ru/post/zh-CN401681/


All Articles