
在Habr上可能没有多少用户从未听说过
“ Internet存档” ,该服务可以搜索和存储对全人类都很重要的数字数据,无论是Internet页面,书籍,视频还是其他类型信息。
谁负责管理Internet归档文件,何时显示以及它的任务是什么? 在今天的“查询”中阅读有关此内容的信息。
为什么我们甚至需要“存档”?
这远不只是娱乐。 该组织的任务是提供对所有信息的通用访问。 “互联网档案”试图与电信公司(谷歌,脸书等)和政府垄断信息提供的斗争。
同时,“档案”是一个守法组织。 如果根据美国法律需要删除某些信息,则组织会这样做。
“互联网档案”还用作科学家,安全机构,历史学家(例如考古学家)和许多其他领域的代表的工具,更不用说个人用户了。
什么时候出现“ Internet存档”?
“档案”的创建者是美国的Brewster Cale,他创建了Alexa Internet公司。 他的两种服务都变得非常受欢迎,但仍然很繁荣。
“ Internet档案”已开始在1996年存档来自网站的信息并保留网页的副本。该非营利组织的总部位于美国旧金山。
但是,五年来这些数据都无法公开访问-数据存储在“存档”的服务器上,仅此而已,只有服务管理人员才能查看站点的旧副本。 自2001年以来,服务管理部门决定向所有人提供对存储数据的访问。
最初,“ Internet档案”只是一个网络档案,但随后该组织开始保存书籍,音频文件,运动图像和软件。 现在,“ Internet档案”充当NASA照片和其他图像,开放图书馆文本等的存储库。
该组织如何存在?
“存档”存在于组织和个人的自愿捐款上。 您可以在比特币中提供支持,钱包号为1Archive1n2C579dMsAu3iC6tWzuQJz8dN。 顺便说一下,这个钱包在其存在期间已收到357.47245492 BTC,按当前汇率约合225万美元。
“存档”如何工作?
大部分员工都在书籍扫描中心工作,从事例行的工作,但是却很耗时。 该组织在美国加利福尼亚州拥有三个数据中心。 一位在旧金山,一位在红木城,一位在里士满。 为了避免发生自然灾害或其他灾难时丢失数据的风险,“归档”在埃及和阿姆斯特丹具有备用容量。
“数以百万计的人们已经花费了大量的时间和精力,以互联网的形式与他人分享我们所知道的东西。 我们想为此新的发布平台创建一个图书馆,” Internet Archive的创始人Brewster Kahle说。
现在“存档”有多大?
“ Internet档案”分为几个部分,从站点收集信息的部分有其自己的名称-Wayback Machine。 在撰写“查询”时,档案库包含3390亿个保存的网页。 2017年,“档案”
存储了 30 PB的信息,即约3000亿个网页,1200万本书,400万录音,330万视频,150万照片和17万种不同的软件发行版。 在短短一年内,该服务就大大增加了重量。 现在,“档案”存储着3390亿个网页,1900万本书,450万视频文件,470万音频文件,320万各种图像,38.1万软件发行版。
数据存储如何组织?
信息存储在所谓的“数据节点”中的硬盘驱动器上。 这些是服务器。 每个驱动器包含36个硬盘驱动器(加上两个操作系统驱动器)。 数据节点分为10台计算机的阵列,代表一个群集存储。 2016年,“存档”使用了8 TB硬盘,现在情况大致相同。 事实证明,一个节点存储约288 TB的数据。 通常,还使用其他大小的硬盘驱动器:2.3 TB和4 TB。
2016年,大约有20,000个硬盘驱动器。 “ Archive”的数据中心配备了具有恒定特性的用于气候控制的空调单元。 10个节点的群集存储消耗约5千瓦的能源。
Internet档案库的结构是一个虚拟的“图书馆”,分为书籍,电影,音乐等部分。 目录中每个元素都有一个描述-通常是名称,作者的名字和其他信息。 从技术角度来看,这些元素是结构化的,并位于Linux目录中。
“归档”存储的数据总量为22 PB,现在还有空间可以容纳22 PB。 “因为我们偏执,”-指出服务代表。

查看目录内容的屏幕快照-有一个名称以“ _files.xml”结尾的文件。 这是一个目录,其中包含有关目录中所有文件的信息。
如果一台或多台服务器发生故障,数据将如何处理?
没什么不好-数据是重复的。 一旦新项目出现在“存档”库中,它将
立即被复制并放置在不同服务器上的不同硬盘驱动器上。 内容“镜像”的过程有助于解决断电和文件系统故障等问题。
如果硬盘发生故障,则将其替换为新的硬盘。 由于镜像和重复的数据结构,它立即充满了旧HDD发生故障的数据。
“归档”具有专门的系统,用于监视HDD的状态。 在一天中,您必须更换6到7个故障驱动器。
什么是Wayback Machine?
这只是专门保存网页的“ Internet存档”服务之一。 该服务具有自己的“蜘蛛”,可以定期检查网络上所有可用站点并将它们存储在专用服务器上。 网站越受欢迎,机器人越会复制其内容。 如果资源管理员不希望该漫游器复制站点信息,则只需在robots.txt文件中注册一个禁令即可。
热门资源经常被复制-几乎每天复制一次。 Wayback Machine甚至为社交网络(包括Twitter,Facebook)编制索引
2017年,“存档”推出了更新的Wayback Machine,承诺更便捷地访问保存的网页。 如果没有从头开始编码,则对服务进行了重新设计。 现在,它支持许多以前无法保存的文件格式。 在同一2017年,该组织表示其服务器每周保存约10亿个网页。
这就是Twitter在2007年的样子在“ Internet归档”数据库中还能找到什么?
书本 该组织的馆藏非常丰富,包括普通和非常罕见的数字化书籍。 这些书籍不仅以英语保存,还以许多其他语言保存。 “档案”设有专门的书籍扫描中心,总共33个。 他们位于全球五个国家。
该中心的工作人员每天扫描约1,000本书。 该服务的数据库包含数百万种出版物。 数字化工作由普通人和包括图书馆和基金会在内的各种组织共同资助。
自2007年以来,“互联网档案库”一直将Google图书搜索中的公共图书存储在其数据库中。 发布后,图书数据库发展迅速-2013年,通过Google服务保存的图书超过90万册。
“存档”的一项服务还提供对完全开放的书籍的访问。 已经有超过一百万了。 该服务称为开放库。
录影带 该服务存储了450万个视频。 它们分为不同的主题,并且重点完全不同。 “存档”服务器存储电影,纪录片,体育赛事,电视节目和许多其他材料。
2015年,“档案”引发了一个
大型项目 -录像带的数字化。 最初,这是来自玛丽昂·斯托克斯(Marion Stokes)档案中的约4万盒磁带,后者是一名数十年来一直在磁带上录制新闻的妇女。 然后添加其他录像带。 粉丝们将对人类至关重要的数据数字化的想法将它们发送到“存档”。
音频文件。 与视频类似,“存档”存储音频文件,音频文件也按主题划分。 去年,“档案”开始实施其新项目-虫胶唱片的解码,这是最古老的录音格式。 声音被保留在虫胶板上,虫胶是一种天然树脂,被雌性昆虫隔离。 总的来说,
Great 78 Project档案包含
数十万条记录 。
软体类 当然,即使对于“存档”,也几乎不可能存储人类创建的所有软件。 服务器存储旧版本,例如Macintosh程序,DOS软件和其他软件。 2016年,“存档”员工发布
了1500多个 Windows 3.1
程序 。 您可以直接在浏览器中工作。 2017年,Internet存档发布
了第一台Macintosh的软件存档 。
游戏类 是的,“存档”提供了访问大量游戏的权限。 其中一些可以在浏览器仿真器环境中播放。 存储了多种游戏,其中包括用于
便携式模拟数字游戏机的游戏 。 有适用
于MS-DOS的 游戏和适用于Atari和ColecoVision的控制台
游戏 。

该组织于2013年首次
上传了旧游戏的档案。我们谈论的是30-40年前的标题,可以直接在浏览器中播放。 这些是Atari 2600(1977),Atari 7800(1986),ColecoVision(1982),Philips Videopac G7000(1978)和Astrocade(1983)的游戏。 最有趣的是Internet档案库确保您可以合法地进行游戏。 现在,该系列拥有
3400多种游戏,并且还在不断增长。