GitHub已创建了一个具有数千年历史的存储库,它将在其中保存开源存储库以供后代使用


托管北极世界档案馆的前煤矿。 照片 :Guy Martin /彭博商业周刊

自由软件是现代文明的基石,是全人类的共同遗产。 GitHub Archive程序的任务是为后代保留此代码,以使Alexandria库的历史永远不会重演。

为此,GitHub将在不同的介质上维护许多备份,包括在Svalbard上的长期Arctic Code Vault存储。 它位于以前的煤矿中,永久冻土深度为250米,设计的货架寿命至少为1000年。

人工密码的快照将在2020年2月2日拍摄

长期数据存储项目是与Long Now Foundation,Internet Archive,Software Heritage Foundation,Arctic World Archive和其他合作伙伴共同发起的。

LOCKSS项目


随着时间的流逝,当今的重要代码可能会被遗忘或丢失。 最糟糕的是,如果发生全球性灾难,我们会丢失存储在“临时”介质上的所有信息:设计了几十年的HDD,SSD,CD和DVD在条件寿命为30年的磁带上需要严格控制温度和湿度。

解决该问题的方法是重复备份,即由多个组织以不同形式归档软件。 这个名为LOCKSS的项目开始了将近20年 。 在2019年5月,引入了LOCKSS 2.0-alpha程序-长期以来第一个用于分布式数据存储的原型软件,在许多参与者和外部存储的支持下。

该系统的开发者基于这样一个事实,即硬件比临时媒体要耐用得多:因此,“现代工作计算机存在许多可能的未来选择,但它们的软件却大量丢失了”。

GitHub回忆了许多可能有用的丢失的技术: 罗马混凝土 (它的配方仅在2014年重新发现), 抗疟疾药物DFDT ,丢失了土星5火箭的图纸 。 可以轻松想象一个未来,在这种未来中,除非有意料之外的需求,否则今天的软件将被视为古怪而长期以来被遗忘了。封存

Github档案


GitHub Archive提供三个级别的备份:

  • 热门 :几乎实时
  • :每月更新一次
  • 寒冷 :每5年以上更新一次

GitHub用户采取任何措施后,所有Git数据都会复制到世界各地的多个数据中心。 GitHub上的Git备份,发布,池请求和所有用户数据存储在多个位置。 该信息可通过GitHub API实时获得。

此外,GHTorrent搜寻器还组织了递归索引编制,它将每天或每月上载档案。 通过GH存档,可以通过BigQuery查询检索存档中的快照。 代码的其他副本位于Internet档案库的著名“时间机器”中,该档案库将副本存储在多个位置。 最后,Software Heritage Foundation将定期扫描GitHub,并将其公共存储库添加到其归档中,该库具有公共API。

北极GitHub存储


2020年2月2日,GitHub将复制所有活动的公共存储库-并将它们放置在Arctic GitHub存储库中。

数据将存储在挪威公司Piql提供的3500英尺的胶卷上,该公司专门从事长期数据存储。 根据ISO测量,这种在聚酯中含有卤化银的薄膜的使用寿命为500年。 模拟老化测试表明,Piql胶片存储的信息至少长两倍。

此外,GitHub Archive正在与Microsoft Silica项目的研究人员合作,使用飞秒激光在石英玻璃板上记录所有公共存储库。 该介质将确保数据安全超过10,000年。

GitHub北极代码存储库是根据北极世界档案馆(AWA)创建的,其永久冻土深度为250米。 该档案馆位于斯匹次卑尔根群岛上的一个前煤矿中,该煤矿距离北极不太远。 全球变暖只会影响几米的永久冻土,并且在不久的将来(几千年)不会对矿山构成威胁。

斯瓦尔巴群岛被国际条约规定为非军事区。 GitHub说,这是地球上最偏远,地缘政治最稳定​​的人类住区之一。 附近有著名的世界种子库,这是人类在发生世界末日时的主要希望。


斯瓦尔巴特群岛世界种子商店

AWA是挪威国家矿业公司Norske Spitsbergen Kulkompani(SNSK)与数字保存提供商Piql AS的一项联合计划。 来自意大利,巴西,挪威,梵蒂冈和其他国家的历史和文化数据已经存储在那里。


照片 :Guy Martin /彭博商业周刊

GitHub线圈将存储在带有钢制壁的容器中,该容器位于密封室内。 所有活动的GitHub存储库和不活动的很大一部分存储库(通过星标,依赖项等判断),所有最大100 KB的二进制文件,都将落入快照02.02.2020。 每个存储库位于单独的tar文件中。 一切都应安装在200个120 GB的线圈上。

他们将与档案一起将人类可读的目录和技术手册放在QR解码,文件格式,字符编码和其他重要的元数据上,以便后代可以将数据转换回源代码。

存档中还将包含Tech Tech一般指南,以防将来的读者没有可用的计算机并且必须从头开始恢复技术。

Source: https://habr.com/ru/post/zh-CN475808/


All Articles