大气中的骤雨会导致超级计算机的故障:该怎么办


1970年代最快的Cray-1超级计算机看起来并不像超级计算机。 它看起来像是对景点的改造,其中一个人站在墙上,系好自己,然后放松。 他周围是一个圆凳子,上面藏着类似甜甜圈的食物-如果只有一个甜甜圈的洞能发出与核武器有关的宝贵想法。

西摩·克雷(Seymour Cray)首次创建这台计算机后,他给了洛斯阿拉莫斯国家实验室六个月的免费使用时间。 但是在这六个月中发生了一些有趣的事情:152个无法解释的内存错误发生在计算机上。 直到后来,研究人员才知道宇宙射线中的中子会与处理器的某些部分发生碰撞,并破坏存储在计算机中的数据。 您的身份越高,计算机越大,这个问题对您的影响就越大。 位于海拔2.2公里的洛斯阿拉莫斯(Los Alamos)已成为主要目标。


超级计算机的创造者西摩·克雷(Seymour Cray)紧随其后

从那时起,世界发生了变化,计算机也发生了变化。 但是宇宙保持不变。 因此,洛斯·阿拉莫斯(Los Alamos)必须适应-他的工程师开始考虑设备和软件中的宇宙粒子。 高性能计算机开发团队的Nathan Debardeleben解释说:“这不是需要解决的问题。” “这是我们可以阻止的问题。”

对于现代计算机,从Q超级计算机开始,这是一件很严肃的事情。 Q于2003年安装,比Cray-1快得多,后者是为与美国核武器库存有关的计算而设计的。 但是他坠毁的次数比预期的要多-这些是使洛斯阿拉莫斯的科学家们严重担心来自深空的宇宙射线的头一次失败。 它们与大气中的化学元素发生碰撞,然后全部分解成较小的颗粒 。 该小组的另一名成员肖恩·布兰查德(Sean Blanchard)说:“从字面上看,它们形成了我们身上特有的阵雨。” 这些“液滴”中的一些实际上是中子-这是非常糟糕的。

DeBardeleben说:“它们可能导致位在计算机内存中切换,从0到1,或从1到0。” 对于家用计算机,这是胡说八道。 但是洛斯阿拉莫斯(Los Alamos)拥有大量的脱粒者。 本世纪初的同一季度类似超市货架。 如今,在实验室中,有像足球场大小的计算机室,并且该室中的所有计算机都可以完成同一任务。 而且,正如足球场上的降雨比避暑别墅上的降雨多一样,超级计算机比您的笔记本电脑能够穿透更多的宇宙射线。


在洛斯阿拉莫斯,中子探测器遍布整个超级计算机中心

在Q之后,工程师们真的意识到中子不是那么中性的粒子,因此现在他们正试图预见问题。 在安装新设备之前,工程师会进行类似空间压力测试的工作,将电子设备放在中子束中-那里的电子束要比大气中的淋浴多得多-然后观察会发生什么。 Blanchard解释说:“我们将各个零件分开,使它们具有放射性,使它们在失效时起作用。” 不久,他们将把中子探测器放置在超级计算机中心内部,以测量“风暴”的强度。 实验室的太空和应用科学小组的物理学家Susan Novichki说,如果您知道有多少中子到达,并且知道它们如何影响计算机组件的运行,“您可以预测电子设备的寿命。”

通常,超级计算机足够聪明,可以理解出了什么问题,并且感觉就像您拔掉头发一样,感觉有点像开关。 [ 原始文章作者是一个女孩/大约。 佩雷夫 ]在这种情况下,系统通常只报告错误并自行纠正。 但是布兰查德说,有时候,计算机更加悲观。 他描述了一台计算机,“我错了,切换的位太多了,我无法修复,但是我想告诉你。”

在Los Alamos发生这种情况时,人们会故意停止所有计算机。 这与下山滑雪一样,因为它比尝试抵抗要痛苦的多。 但是,在这种情况下,您无需回到顶部再重新开始-工程师在搜索答案中设置了“ 检查点 ”。 这与游戏中的保存点相同-如果您死了,则不必从头开始。 从保存成就的最后一点开始。 超级计算机也有类似的存储系统。

真正的问题是“ 静默数据损坏”。 这是当位切换时,没有人注意到它。 您认为是正确的答案实际上可能是中子激发的梦想。 这就是为什么先发制人的工作如此重要的原因:人们知道期望什么,应该多久监视一次。 同时,在获得这些知识之后,团队希望将无声的错误变成大声尖叫。 但是,如果在防御中漏了一点东西,也许有生命的人会看到它。 通常在洛斯阿拉莫斯,他们不会说“这是您的答案!”,直到有人检查工作的结果是否有意义。

进行人为干预的部分原因是,洛斯·阿拉莫斯(Los Alamos)正在就影响许多其他人的话题进行批判性研究。 Blanchard解释说:“实验室以及整个能源部门正在研究气候变化,新药,流行病学,疾病传播,火灾模型,材料科学和金属的易碎性。” 而且,正如他在这份清单之后所补充的那样,存在洛斯阿拉莫斯的原因在于人类创造的核武器(其中一些甚至属于这个实验室)。 “我们是一个核武器实验室,”布兰查德说。 “我们的工作是管理其储备。” 我们必须保证它的安全性和应有的作用,并且在不需要时不起作用。”

由于禁止进行核武器试验 ,唯一消除烦恼并了解如何维持炸弹供应的合法方法是模拟超级计算机内部发生的事情。 这就是担心地球辐射的实验室应该如何担心来自太空的辐射。 因为无论未来超级计算机的工作如何,都有一件事很明确:“每年它们都成为一个更大的目标,”布兰查德说。

Source: https://habr.com/ru/post/zh-CN414835/


All Articles