背景:“ Internet档案”-创建历史,任务和附属项目



Habr上可能没有多少用户从未听说过 Internet存档”,该服务可以搜索和存储对全人类都很重要的数字数据,无论是网页,书籍,视频还是其他类型的信息。

谁负责运行在线档案,当它出现时,其任务是什么? 在今天的帮助中了解它。

为什么我们需要“存档”?


这远不只是娱乐。 该组织的使命是普及所有信息。 互联网档案馆试图与两家电信公司(谷歌,Facebook等)和各州在信息提供方面的垄断作斗争。

此外,“存档”是一个守法组织。 如果美国法律要求删除任何信息,则组织会这样做。

互联网档案馆还为科学家,情报机构,历史学家(例如考古学家)以及许多其他领域的代表提供了工具,更不用说个人用户了。

“ Internet存档”何时出现?


档案的创建者是创建了Alexa Internet的American Brewster Cale。 他的两种服务都变得非常受欢迎,现在都在蓬勃发展。

自1996年以来,Internet档案库开始从站点存档信息并存储网页副本。 该非营利组织的总部位于美国旧金山。

没错,五年来这些数据不可公开访问-数据存储在存档服务器上,仅此而已,只有服务管理员才能查看网站的旧副本。 自2001年以来,该服务的管理部门决定向所有人提供对存储数据的访问权限。

最初,“ Internet档案”只是一个网络档案,但随后该组织开始存储书籍,音频,运动图像和软件。 现在,“ Internet存档”充当NASA照片和其他图像,开放库文本等的存储库。

组织的作用是什么?


对组织和个人的自愿捐款均存在“存档”。 您可以在比特币,钱包1Archive1n2C579dMsAu3iC6tWzuQJz8dN中提供支持。 顺便说一下,这个钱包已经收到了357.47245492 BTC的全部款项,按当前汇率计算约为225万美元。

存档如何工作?


大多数员工受雇于书籍扫描中心,从事日常但费力的工作。 该组织在美国加利福尼亚州拥有三个数据中心。 一个在旧金山,第二个在雷德伍德城,第三个在里士满。 为了避免发生自然灾害或其他灾害时数据丢失的危险,档案馆在埃及和阿姆斯特丹拥有备用容量。

“数以百万计的人们已经花费了大量的时间和精力,以互联网的形式与他人分享我们所知道的东西。 我们希望为这个新的发布平台创建一个图书馆,” Internet Archive的创始人Brewster Kahle说

存档现在有多大?


“ Internet档案”分为几个部分,从站点收集信息的部分有其自己的名称-Wayback Machine。 在撰写“查询”时,档案馆保存了3390亿个保存的网页。 2017年,“存档” 存储了 30 PB的信息,大约3,000亿个网页,1200万本书,400万录音,330万视频,150万照片和17万种不同的软件发行版。 在仅仅一年的时间里,该服务就显着“增加了重量”,现在“存档”存储了3390亿个网页,1900万本书,450万视频文件,470万音频文件,320万各种图像,38.1万发行软件。

数据存储如何组织?


信息存储在所谓的“数据节点”中的硬盘驱动器上。 这些是服务器,每个服务器包含36个硬盘(加上两个带有操作系统的磁盘)。 数据节点分为10台计算机的阵列,是一个集群存储库。 2016年,“归档”使用了8 TB的HDD,现在情况大致相同。 事实证明,一个节点可容纳约288 TB的数据。 通常,还使用其他大小的硬盘驱动器:2、3和4 TB。

2016年,大约有20,000个硬盘驱动器,档案数据中心配备了气候系统,以保持具有恒定特征的微气候。 一个10个节点的群集存储消耗约5 kW的能量。

Internet档案库的结构是一个虚拟的“图书馆”,分为书籍,电影,音乐等部分。 对于每个元素,在目录中都会输入描述-通常是名称,作者姓名和其他信息。 从技术角度来看,元素是结构化的,并驻留在Linux目录中。

“归档”存储的数据总量为22 PB,而现在仍有22 PB的空间。 服务代表说:“因为我们偏执。”



查看目录内容的屏幕快照-有一个名称以“ _files.xml”结尾的文件。 这是一个目录,其中包含目录中所有文件的信息。

如果一台或多台服务器发生故障,数据将如何处理?


不会发生任何可怕的事情- 重复数据 。 一旦新元素出现在存档库中,就会立即对其进行复制并将其放置在不同服务器上的各种硬盘驱动器上。 “镜像”内容的过程有助于解决断电和文件系统崩溃等问题。

如果硬盘驱动器发生故障,则将其替换为新的硬盘驱动器。 由于镜像和重复的数据结构,新手会立即被旧HDD上发生故障的数据填充。

“归档”具有专门的系统,用于监视HDD的状态。 在当天,您必须更换6-7个故障驱动器。

什么是Wayback机?


这只是“ Internet存档”的服务之一,专门用于保存网页。 该服务具有自己的“蜘蛛”,可以定期检查网络上所有可用站点并将它们存储在专用服务器上。 网站越受欢迎,机器人复制其内容的频率就越高。 如果资源管理员不希望该漫游器复制站点信息,则在robots.txt文件中写入一个禁令就足够了。


经常复制流行资源-几乎每天复制一次。 Wayback Machine甚至可以索引社交网络,包括Twitter,Facebook



2017年,Archive 启动了更新的Wayback Machine服务 ,承诺可以更方便地访问保存的网页。 如果不是从头开始编写服务,则将重新设计。 现在,它支持许多以前无法保存的文件格式。在同一年2017年,该组织宣布其服务器上每周存储约10亿个网页。


那就是Twitter在2007年的样子

在“ Internet存档”数据库中还能找到什么?


书籍。 该组织的藏书庞大,其中包括数字化书籍,包括普通版和非常稀有版。 书籍不仅以英语存储,还以许多其他语言存储。 档案馆设有专门的图书扫描中心,共有33个这样的中心,它们位于世界五个国家。

中心工作人员每天扫描约1,000本书。 该服务数据库包含数百万种出版物,其数字化工作由普通人和包括图书馆和基金会在内的各种组织共同资助。

自2007年以来,Internet档案库在其数据库中维护了Google图书搜索中可公开访问的图书。 推出后,图书基础迅速扩大-2013年,已经有超过90万本书从Google服务中保存下来。

“存档”服务之一还提供对完全开放的书籍的访问,其中已经有超过一百万本。 该服务称为开放库。

录影带 该服务存储了450万个剪辑。 它们按主题划分并且具有非常不同的重点。 “存档”的服务器存储电影,纪录片,体育赛事记录,电视节目和许多其他材料。

2015年,“档案”引发了一个大型项目- 录像带数字化 。 最初,玛丽昂·斯托克斯(Marion Stokes)的档案中有大约4万条录像带,她是一位数十年来在录像带上录制新闻的女人。 然后,添加了其他录像带,这些录像带被影迷们发送到了“存档”,其思想是将对人类重要的数据数字化。

音讯 与视频类似,“存档”也存储音频文件,音频文件也按主题划分。 去年,“存档”开始实施其新项目-解码虫胶唱片(最早的录音格式)。 声音保留在虫胶板上,虫胶板是雌虫分泌的一种天然树脂。 总的来说, Great 78 Project档案有数十万条记录

软件。 当然,即使对于档案馆,也根本不可能存储人类创建的所有软件。 服务器存储旧版本,例如Macintosh程序,DOS软件和其他软件。 在2016年,Archive的员工发布了1,500多个Windows 3.1程序 ,您可以直接在浏览器中工作。 2017年,Internet存档发布了第一台Macintosh软件存档

游戏类 是的,档案库提供对大量游戏的访问。 其中一些可以在浏览器仿真器的环境中播放。 游戏的存储方式非常不同,包括便携式模数游戏机 。 有适用于MS-DOS的 游戏和适用于Atari和ColecoVision的控制台游戏



该组织最早于2013年发布旧游戏档案。 我们谈论的是30-40年前的标题,可以直接在浏览器中播放。 这些是适用于Atari 2600游戏机(1977),Atari 7800(1986),ColecoVision(1982),Philips Videopac G7000(1978)和Astrocade(1983)的游戏。 最有趣的是Internet Archive使合法播放成为可能。 现在,该系列拥有3400多种游戏,并将继续进行补充。

Source: https://habr.com/ru/post/zh-CN427875/


All Articles