
Probablemente no haya muchos usuarios en Habr que nunca hayan oído hablar del
" Archivo de Internet", un servicio que busca y almacena datos digitales que son importantes para toda la humanidad, ya sean páginas web, libros, videos u otro tipo de información. .
¿Quién ejecuta el archivo en línea cuando apareció y cuál es su misión? Lea sobre esto en la Ayuda de hoy.
¿Por qué necesitamos un "Archivo"?
Esto está lejos de ser solo entretenimiento. La misión de la organización es el acceso universal a toda la información. El Internet Archive busca combatir el monopolio en el suministro de información tanto de compañías de telecomunicaciones (Google, Facebook, etc.) como de los estados.
Además, el "Archivo" es una organización respetuosa de la ley. Si la ley de los Estados Unidos requiere que se elimine cualquier información, la organización lo hace.
El Archivo de Internet también sirve como herramienta para científicos, agencias de inteligencia, historiadores (como arqueógrafos) y representantes de muchos otros campos, sin mencionar a los usuarios individuales.
¿Cuándo apareció el "Archivo de Internet"?
El creador del Archivo es American Brewster Cale, quien creó Alexa Internet. Sus dos servicios se han vuelto extremadamente populares, ambos están floreciendo ahora.
Internet Archive comenzó a archivar información de sitios y a almacenar copias de páginas web desde 1996. La sede de esta organización sin fines de lucro se encuentra en San Francisco, EE. UU.
Es cierto que durante cinco años los datos no estuvieron disponibles para el acceso público: los datos se almacenaron en los servidores de Archivo, y eso es todo, solo la administración del servicio podía ver copias antiguas de los sitios. Desde 2001, la administración del servicio decidió proporcionar acceso a los datos almacenados a todos.
Al principio, el "archivo de Internet" era solo un archivo web, pero luego la organización comenzó a guardar libros, audio, imágenes en movimiento y software. Ahora, el "Archivo de Internet" actúa como un depósito de fotos y otras imágenes de la NASA, textos de Open Library, etc.
¿Para qué existe una organización?
El "Archivo" existe en donaciones voluntarias, tanto organizaciones como individuos. Puede proporcionar soporte en bitcoins, billetera 1Archive1n2C579dMsAu3iC6tWzuQJz8dN. Esta billetera, por cierto, ha recibido 357.47245492 BTC durante toda su existencia, que es de aproximadamente $ 2.25 millones al tipo de cambio actual.
¿Cómo funciona el archivo?
La mayoría de los empleados trabajan en centros de escaneo de libros, realizando trabajos rutinarios pero laboriosos. La organización tiene tres centros de datos ubicados en California, EE. UU. Uno está en San Francisco, el segundo es Redwood City, el tercero es Richmond. Para evitar el peligro de pérdida de datos en caso de un desastre natural u otros desastres, el Archivo cuenta con capacidades adicionales en Egipto y Amsterdam.
“Millones de personas han dedicado mucho tiempo y esfuerzo a compartir con otros lo que sabemos en forma de Internet. Queremos crear una biblioteca para esta nueva plataforma de publicación ", dijo Brewster Kahle, fundador de Internet Archive.
¿Qué tan grande es el archivo ahora?
El "archivo de Internet" tiene varias divisiones, y la que recopila información de los sitios tiene su propio nombre: Wayback Machine. Al momento de escribir la "Consulta", el archivo guardaba 339 mil millones de páginas web guardadas. En 2017, el "Archivo"
almacenó 30 petabytes de información, que son aproximadamente 300 mil millones de páginas web, 12 millones de libros, 4 millones de grabaciones de audio, 3.3 millones de videos, 1.5 millones de fotos y 170 mil distribuciones de software diferentes. En solo un año, el servicio "ganó peso" notablemente, ahora el "Archivo" almacena 339 mil millones de páginas web, 19 millones de libros, 4.5 millones de archivos de video, 4.7 millones de archivos de audio, 3.2 millones de imágenes de varios tipos, 381 mil distribuciones Software
¿Cómo se organiza el almacenamiento de datos?
La información se almacena en discos duros en los llamados "nodos de datos". Estos son servidores, cada uno de los cuales contiene 36 discos duros (más dos discos con sistemas operativos). Los nodos de datos se agrupan en matrices de 10 máquinas y son un repositorio de clúster. En 2016, el "Archivo" utilizaba discos duros de 8 terabytes, ahora la situación es casi la misma. Resulta que un nodo contiene aproximadamente 288 terabytes de datos. En general, también se utilizan discos duros de otros tamaños: 2, 3 y 4 TB.
En 2016, había aproximadamente 20,000 discos duros.Los centros de datos de archivo están equipados con sistemas climáticos para mantener un microclima con características constantes. Un almacenamiento de clúster de 10 nodos consume aproximadamente 5 kW de energía.
La estructura de Internet Archive es una "biblioteca" virtual, que se divide en secciones como libros, películas, música, etc. Para cada elemento hay una descripción ingresada en el catálogo, generalmente este es el nombre, el nombre del autor y la información adicional. Desde un punto de vista técnico, los elementos están estructurados y residen en directorios de Linux.
La cantidad total de datos almacenados por el "Archivo" es de 22 PB, mientras que ahora todavía hay espacio para 22 PB. "Porque somos paranoicos", dicen los representantes del servicio.

Mire la captura de pantalla del contenido del directorio: hay un archivo con un nombre que termina en "_files.xml". Este es un directorio con información sobre todos los archivos en el directorio.
¿Qué pasará con los datos si uno o varios servidores fallan?
No sucederá nada terrible: los
datos están duplicados . Tan pronto como aparece un nuevo elemento en la biblioteca Archive, se replica de inmediato y se coloca en varios discos duros en diferentes servidores. El proceso de "reflejar" el contenido ayuda a hacer frente a problemas como cortes de energía y fallas en el sistema de archivos.
Si el disco duro falla, se reemplaza por uno nuevo. Gracias a la estructura de datos duplicados y reduplicados, el novato se llena inmediatamente con los datos que estaban en el disco duro anterior que fallaron.
El "Archivo" tiene un sistema especializado que monitorea el estado del HDD. El día que tiene que reemplazar 6-7 unidades fallidas.
¿Qué es una máquina Wayback?
Este es solo uno de los servicios del "archivo de Internet", que se especializa en la preservación de páginas web. El servicio tiene su propia "araña", que examina regularmente todos los sitios disponibles en la red y los almacena en servidores especializados. Cuanto más popular es el sitio web, más a menudo el robot copia sus contenidos. Si el administrador de recursos no desea que el bot copie la información del sitio, es suficiente escribir una prohibición en el archivo robots.txt.
Los recursos populares se copian a menudo, casi a diario. Wayback Machine indexa incluso las redes sociales, como Twitter, Facebook
En 2017, Archive
lanzó el servicio actualizado Wayback Machine , prometiendo un acceso más conveniente a las páginas web guardadas. El servicio fue escrito si no desde cero, luego fue rediseñado. Ahora es compatible con varios formatos de archivo que anteriormente simplemente no se guardaban. En el mismo 2017, la organización anunció que se almacenan alrededor de mil millones de páginas web en sus servidores cada semana.
Así era Twitter en 2007¿Qué más se puede encontrar en la base de datos "Internet Archive"?
Libros. La colección de la organización es enorme, incluye libros digitalizados, ediciones comunes y muy raras. Los libros se almacenan no solo en inglés, sino también en muchos otros idiomas. El Archivo cuenta con centros especializados para escanear libros, hay 33 centros en total, están ubicados en cinco países de todo el mundo.
El personal del centro escanea alrededor de 1,000 libros por día. La base de datos del servicio contiene millones de publicaciones, el trabajo en su digitalización está financiado por personas comunes y diversas organizaciones, incluidas bibliotecas y fondos.
Desde 2007, Internet Archive ha mantenido libros de acceso público de Google Book Search en su base de datos. Después del lanzamiento, la base de libros se expandió rápidamente: en 2013, ya se habían guardado más de 900 mil libros del servicio de Google.
Uno de los servicios del "Archivo" también proporciona acceso a libros que están completamente abiertos, ya hay más de un millón de ellos. Este servicio se llama Open Library.
Video El servicio almacena 4,5 millones de clips. Están divididos por tema y tienen un enfoque muy diferente. Los servidores del "Archivo" almacenan películas, documentales, grabaciones de eventos deportivos, programas de televisión y muchos otros materiales.
En 2015, el "Archivo" dio lugar a un proyecto a gran escala: la
digitalización de cintas de video . Al principio se trataba de unas 40 mil cintas del archivo de Marion Stokes, una mujer que durante décadas registró noticias en cintas. Luego, se agregaron otras cintas de video, que fueron enviadas al "Archivo" por los fanáticos de la idea de digitalizar datos importantes para la humanidad.
Audio De manera similar al video, el "Archivo" también almacena archivos de audio, que también están divididos por tema. El año pasado, "Archive" comenzó a implementar su nuevo proyecto: decodificar registros shellac, el formato de grabación de audio más antiguo. El sonido se conservó en placas de goma laca, una resina natural secretada por gusanos hembras. En total, el archivo del
Gran Proyecto 78 tiene varios
cientos de miles de registros .
Software Por supuesto, es simplemente imposible almacenar todo el software creado por la humanidad, incluso para el Archivo. Los servidores almacenan vintage, por ejemplo, programas para Macintosh, software para DOS y otro software. En 2016, los empleados del Archivo publicaron más de
1,500 programas para Windows 3.1 , puede trabajar directamente en el navegador. En 2017, Internet Archive lanzó un
archivo de software para el primer Macintosh .
Juegos Sí, el archivo proporciona acceso a una gran cantidad de juegos. Algunos de ellos se pueden jugar en el entorno de un emulador de navegador. Los juegos se almacenan de manera muy diferente, incluso desde
consolas portátiles analógicas a digitales . Hay juegos para
MS-DOS y
juegos de consola para Atari y ColecoVision.

La organización
publicó por primera
vez el archivo de juegos antiguos en 2013. Estamos hablando de títulos hace 30-40 años, que se podían jugar directamente en el navegador. Estos son juegos para las consolas Atari 2600 (1977), Atari 7800 (1986), ColecoVision (1982), Philips Videopac G7000 (1978) y Astrocade (1983). Lo más interesante es que Internet Archive ha permitido jugar de manera bastante legal. Ahora la colección tiene
más de 3400 juegos y continúa reponiéndose.