
Provavelmente, não há muitos usuários no Habr que nunca ouviram falar do
“ Internet Archive”, um serviço que pesquisa e armazena dados digitais importantes para toda a humanidade, sejam páginas da Web, livros, vídeos ou outros tipos de informação. .
Quem administra o arquivo on-line quando ele apareceu e qual é a sua missão? Leia sobre isso na Ajuda de hoje.
Por que precisamos de um "arquivo"?
Isso está longe de ser apenas entretenimento. A missão da organização é o acesso universal a todas as informações. O Internet Archive procura combater o monopólio do fornecimento de informações de empresas de telecomunicações (Google, Facebook, etc.) e estados.
Além disso, o "Arquivo" é uma organização cumpridora da lei. Se a lei dos EUA exigir que qualquer informação seja excluída, a organização o fará.
O Internet Archive também serve como uma ferramenta para cientistas, agências de inteligência, historiadores (como arqueógrafos) e representantes de muitos outros campos, sem mencionar usuários individuais.
Quando o “Internet Archive” apareceu?
O criador do arquivo é American Brewster Cale, que criou o Alexa Internet. Ambos os serviços dele se tornaram extremamente populares, agora estão florescendo.
O Internet Archive começou a arquivar informações de sites e a armazenar cópias de páginas da Web desde 1996. A sede desta organização sem fins lucrativos está localizada em San Francisco, EUA.
É verdade que, por cinco anos, os dados não estavam disponíveis para acesso público - os dados foram armazenados nos servidores de arquivamento, e isso é tudo, apenas a administração do serviço pôde visualizar cópias antigas dos sites. Desde 2001, a administração do serviço decidiu fornecer acesso a todos os dados armazenados.
No início, o “arquivo da Internet” era apenas um arquivo da web, mas a organização começou a salvar livros, áudio, imagens em movimento e software. Agora, o "Internet Archive" funciona como um repositório de fotos e outras imagens da NASA, textos da Open Library, etc.
Para que existe uma organização?
Existe um “arquivo” em doações voluntárias - organizações e indivíduos. Você pode fornecer suporte em bitcoins, carteira 1Archive1n2C579dMsAu3iC6tWzuQJz8dN. A propósito, essa carteira recebeu 357.47245492 BTC por toda a sua existência, que é de aproximadamente US $ 2,25 milhões à taxa de câmbio atual.
Como o arquivo funciona?
A maioria dos funcionários trabalha em centros de digitalização de livros, executando trabalhos rotineiros, mas trabalhosos. A organização possui três data centers localizados na Califórnia, EUA. Um é em San Francisco, o segundo é Redwood City, o terceiro é Richmond. Para evitar o risco de perda de dados no caso de um desastre natural ou de outros desastres, o Arquivo possui capacidades disponíveis no Egito e Amsterdã.
“Milhões de pessoas gastaram muito tempo e esforço para compartilhar com outras pessoas o que sabemos na forma da Internet. Queremos criar uma biblioteca para esta nova plataforma de publicação ”, disse Brewster Kahle, fundador do Internet Archive
Qual é o tamanho do arquivo agora?
O "arquivo da Internet" possui várias divisões, e o que coleta informações dos sites tem seu próprio nome - Wayback Machine. No momento da redação do “Inquérito”, o arquivo mantinha 339 bilhões de páginas da web salvas. Em 2017, o “Arquivo”
armazenou 30 petabytes de informações, que são aproximadamente 300 bilhões de páginas da web, 12 milhões de livros, 4 milhões de gravações de áudio, 3,3 milhões de vídeos, 1,5 milhão de fotos e 170 mil diferentes distribuições de software. Em apenas um ano, o serviço visivelmente "ganhou peso", agora o "Arquivo" armazena 339 bilhões de páginas da web, 19 milhões de livros, 4,5 milhões de arquivos de vídeo, 4,7 milhões de arquivos de áudio, 3,2 milhões de imagens de vários tipos, 381 mil distribuições Software.
Como é organizado o armazenamento de dados?
As informações são armazenadas em discos rígidos nos chamados "nós de dados". Estes são servidores, cada um dos quais contém 36 discos rígidos (mais dois discos com sistemas operacionais). Os nós de dados são agrupados em matrizes de 10 máquinas e são um repositório de cluster. Em 2016, o “Arquivo” usava HDs de 8 terabytes, agora a situação é a mesma. Acontece que um nó contém cerca de 288 terabytes de dados. Em geral, discos rígidos de outros tamanhos também são usados: 2, 3 e 4 TB.
Em 2016, havia cerca de 20.000 discos rígidos, e os data centers de arquivo são equipados com sistemas climáticos para manter um microclima com características constantes. Um armazenamento de cluster de 10 nós consome cerca de 5 kW de energia.
A estrutura do Internet Archive é uma “biblioteca” virtual, dividida em seções como livros, filmes, música etc. Para cada elemento, há uma descrição inserida no catálogo - geralmente esse é o nome, o nome do autor e informações adicionais. Do ponto de vista técnico, os elementos são estruturados e residem nos diretórios Linux.
A quantidade total de dados armazenados pelo “Archive” é 22 PB, enquanto agora ainda há espaço para 22 PB. "Porque somos paranóicos", dizem representantes de serviço.

Veja a captura de tela do conteúdo do diretório - há um arquivo com um nome que termina em "_files.xml". Este é um diretório com informações sobre todos os arquivos no diretório.
O que acontecerá com os dados se um ou vários servidores falharem?
Nada de terrível vai acontecer - os
dados são duplicados . Assim que um novo elemento aparece na biblioteca Archive, é imediatamente replicado e colocado em vários discos rígidos em servidores diferentes. O processo de "espelhar" o conteúdo ajuda a lidar com problemas como falta de energia e falhas no sistema de arquivos.
Se o disco rígido falhar, ele será substituído por um novo. Graças à estrutura de dados espelhada e reduplicada, o iniciante é imediatamente preenchido com dados que estavam no disco rígido antigo que falharam.
O "Arquivo" possui um sistema especializado que monitora o status do disco rígido. No dia em que você precisar substituir de 6 a 7 unidades com falha.
O que é uma Wayback Machine?
Este é apenas um dos serviços do "arquivo da Internet", especializado na preservação de páginas da web. O serviço possui sua própria "aranha", que examina regularmente todos os sites disponíveis na rede e os armazena em servidores especializados. Quanto mais popular o site, mais frequentemente o robô copia seu conteúdo. Se o administrador do recurso não quiser que as informações do site sejam copiadas pelo bot, basta escrever uma proibição no arquivo robots.txt.
Os recursos populares são copiados frequentemente - quase diariamente. Wayback Machine indexa até redes sociais, incluindo Twitter, Facebook
Em 2017, o Archive
lançou o serviço Wayback Machine atualizado , prometendo acesso mais conveniente às páginas da web salvas. O serviço foi escrito, se não a partir do zero, então legal redesenhado. Agora, ele suporta vários formatos de arquivo que anteriormente não eram salvos.No mesmo 2017, a organização anunciou que cerca de 1 bilhão de páginas da Web são armazenadas em seus servidores toda semana.
Era assim que o Twitter era em 2007O que mais pode ser encontrado no banco de dados "Internet Archive"?
Livros. A coleção da organização é enorme, inclui livros digitalizados, edições comuns e muito raras. Os livros são armazenados não apenas em inglês, mas também em muitos outros idiomas. O Arquivo possui centros especializados para digitalizar livros, existem 33 no total, localizados em cinco países ao redor do mundo.
A equipe do centro digitaliza cerca de 1.000 livros por dia. O banco de dados do serviço contém milhões de publicações; o trabalho de digitalização é financiado por pessoas comuns e por várias organizações, incluindo bibliotecas e fundos.
Desde 2007, o Internet Archive mantém livros acessíveis ao público da Pesquisa de Livros do Google em seu banco de dados. Após o lançamento, a base de livros se expandiu rapidamente - em 2013, já havia mais de 900 mil livros salvos no serviço do Google.
Um dos serviços do “Arquivo” também fornece acesso a livros totalmente abertos, já existem mais de um milhão deles. Este serviço é chamado de Biblioteca Aberta.
Vídeo O serviço armazena 4,5 milhões de clipes. Eles são divididos por assunto e têm um foco muito diferente. Os servidores do “Arquivo” armazenam filmes, documentários, gravações de eventos esportivos, programas de TV e muitos outros materiais.
Em 2015, o “Arquivo” deu origem a um projeto de grande escala - a
digitalização de fitas de vídeo . A princípio, foram cerca de 40 mil fitas do arquivo de Marion Stokes, uma mulher que durante décadas registrou notícias em fitas. Em seguida, foram adicionadas outras fitas de vídeo, que foram enviadas ao “Arquivo” pelos fãs da idéia de digitalizar dados importantes para a humanidade.
Áudio Assim como o vídeo, o “Archive” também armazena arquivos de áudio, que também são divididos por assunto. No ano passado, o “Archive” começou a implementar seu novo projeto - decodificando registros shellac, o formato de gravação de áudio mais antigo. O som foi preservado em placas de goma-laca, uma resina natural secretada por vermes fêmeas. No total, o arquivo do
Great 78 Project possui várias
centenas de milhares de registros .
Software. Obviamente, é simplesmente impossível armazenar todo o software criado pela humanidade, mesmo para o Archive. Os servidores armazenam vintage - por exemplo, programas para Macintosh, software para DOS e outros softwares. Em 2016, os funcionários do Archive publicaram mais de
1.500 programas para o Windows 3.1 . Você pode trabalhar diretamente no navegador. Em 2017, o Internet Archive lançou um
arquivo de software para o primeiro Macintosh .
Jogos Sim, o arquivo fornece acesso a um grande número de jogos. Alguns deles podem ser reproduzidos no ambiente de um emulador de navegador. Os jogos são armazenados de maneira muito diferente, inclusive nos
consoles portáteis de analógico para digital . Existem jogos para
MS-DOS e
jogos de console para Atari e ColecoVision.

A organização
publicou o arquivo de jogos antigos pela primeira vez em 2013. Estamos falando de títulos de 30 a 40 anos atrás, que poderiam ser reproduzidos diretamente no navegador. Estes são jogos para os consoles Atari 2600 (1977), Atari 7800 (1986), ColecoVision (1982), Philips Videopac G7000 (1978) e Astrocade (1983). O mais interessante é que o Internet Archive possibilitou a reprodução legalmente. Agora, a coleção tem
mais de 3400 jogos e continua a ser reabastecida.