Info Desk: «Internet Archive» - histoire, mission et projets subsidiaires



Probablement, il n'y a pas autant d'utilisateurs sur Habr qui n'ont jamais entendu parler des «archives Internet» , un service qui recherche et stocke les données numériques importantes pour toute l'humanité, que ce soit les pages Internet, les livres, les vidéos ou tout autre type d'informations.

Qui gère les archives Internet, quand elles sont apparues et quelle est sa mission? Lisez à ce sujet dans la "Enquête" d'aujourd'hui.

Pourquoi avons-nous même besoin d'une "archive"?


C'est loin d'être un simple divertissement. La mission de l'organisation est de fournir l'accès universel à toutes les informations. Les «archives Internet» visent à lutter contre le monopole de la fourniture d'informations par les sociétés de télécommunications (Google, Facebook, etc.) et les gouvernements.

Parallèlement, les "Archives" sont une organisation respectueuse des lois. Si, en vertu de la loi américaine, certaines informations doivent être supprimées, l'organisation le fait.

Les «archives Internet» servent également d'outil aux scientifiques, aux agences de sécurité, aux historiens (par exemple, les archéologues) et aux représentants de nombreux autres domaines, sans parler des utilisateurs individuels.

Quand les "archives Internet" sont-elles apparues?


Le créateur des «Archives» est Brewster Cale des États-Unis, qui a créé la société Alexa Internet. Ses deux services sont devenus extrêmement populaires, tous deux sont toujours prospères.

Les «archives Internet» ont commencé à archiver les informations des sites Web et à conserver les copies des pages Web en 1996. Le siège de cette organisation à but non lucratif est situé à San Francisco, aux États-Unis.

Cependant, pendant cinq ans, les données n'étaient pas accessibles au public - les données étaient stockées sur les serveurs des "Archives", et c'est tout, seule l'administration du service pouvait voir les anciennes copies des sites. Depuis 2001, l'administration du service a décidé de donner accès aux données stockées à tous.

Au début, les «archives Internet» n'étaient qu'une archive Web, mais l'organisation a ensuite commencé à enregistrer des livres, des fichiers audio, des images animées et des logiciels. Désormais, les «archives Internet» servent de référentiel pour les photos et autres images de la NASA, les textes de la bibliothèque ouverte, etc.

Comment l'organisation existe-t-elle?


Les "Archives" existent sur les dons volontaires - à la fois des organisations et des individus. Vous pouvez fournir un support en bitcoins, le numéro de portefeuille est 1Archive1n2C579dMsAu3iC6tWzuQJz8dN. Ce portefeuille a d'ailleurs reçu 357,47245492 BTC au cours de son existence, soit environ 2,25 millions de dollars au taux actuel.

Comment fonctionne «Archive»?


La plupart du personnel est employé dans les centres de numérisation de livres, effectuant des travaux de routine, mais plutôt longs. L'organisation dispose de trois centres de données situés en Californie, aux États-Unis. Un à San Francisco, un dans la ville de Redwood, un à Richmond. Afin d'éviter le risque de perte de données en cas de catastrophe naturelle ou d'autres catastrophes, les "Archives" disposent de capacités inutilisées en Egypte et à Amsterdam.

«Des millions de personnes ont consacré beaucoup de temps et d'efforts à partager avec d'autres ce que nous savons sous la forme d'Internet. Nous voulons créer une bibliothèque pour cette nouvelle plate-forme d'édition », a déclaré Brewster Kahle, le fondateur d'Internet Archive)

Quelle est la taille des "archives" maintenant?


Les "archives Internet" ont plusieurs divisions, et celle qui recueille les informations des sites a son propre nom - Wayback Machine. Au moment de la rédaction de l '"Enquête", les archives contenaient 339 milliards de pages Web enregistrées. En 2017, les «archives» ont stocké 30 pétaoctets d'informations, soit environ 300 milliards de pages Web, 12 millions de livres, 4 millions d'enregistrements audio, 3,3 millions de vidéos, 1,5 million de photos et 170 000 distributions logicielles différentes. En à peine un an, le service a considérablement "ajouté du poids". Désormais, les "Archives" contiennent 339 milliards de pages Web, 19 millions de livres, 4,5 millions de fichiers vidéo, 4,7 millions de fichiers audio, 3,2 millions d'images de toutes sortes, 381 000 distributions de logiciels.

Comment est organisé le stockage des données?


Les informations sont stockées sur des disques durs dans les soi-disant «nœuds de données». Ce sont les serveurs. Chacun d'eux contient 36 disques durs (plus deux disques du système d'exploitation). Les nœuds de données sont regroupés en tableaux de 10 machines et représentent un stockage en cluster. En 2016, les «Archives» utilisaient un disque dur de 8 téraoctets, maintenant la situation est à peu près la même. Il s'avère qu'un nœud stocke environ 288 téraoctets de données. En général, les disques durs d'autres tailles sont également utilisés: 2,3 et 4 To.

En 2016, il y avait environ 20 000 disques durs. Les centres de données des "Archives" sont équipés de climatiseurs pour la climatisation avec des caractéristiques constantes. Un stockage en cluster de 10 nœuds consomme environ 5 kilowatts d'énergie.

La structure des archives Internet est une "bibliothèque" virtuelle, qui est divisée en sections telles que les livres, les films, la musique, etc. Pour chaque élément, il y a une description dans le catalogue - généralement le nom, le nom de l'auteur et des informations supplémentaires. D'un point de vue technique, les éléments sont structurés et situés dans des répertoires Linux.

La quantité totale de données stockées par les "archives" est de 22 PB, et maintenant il y a de la place pour 22 PB supplémentaires. "Parce que nous sommes paranoïaques", - déclarent les représentants du service.



Regardez la capture d'écran du contenu du répertoire - il y a un fichier avec le nom se terminant par "_files.xml". Il s'agit d'un répertoire contenant des informations sur tous les fichiers du répertoire.

Qu'adviendra-t-il des données si un ou plusieurs serveurs tombent en panne?


Rien de mal - les données sont dupliquées. Dès qu'un nouvel élément apparaît dans la bibliothèque "Archive", il est immédiatement répliqué et placé sur différents disques durs sur différents serveurs. Le processus de mise en miroir du contenu permet de faire face à des problèmes tels que les pannes de courant et les défaillances du système de fichiers.

Si le disque dur tombe en panne, il est remplacé par un nouveau. Grâce à la structure de données en miroir et redupliquée, elle est immédiatement remplie de données qui étaient sur l'ancien disque dur en panne.

Le "Archive" dispose d'un système spécialisé qui surveille l'état du disque dur. Pendant une journée, vous devez remplacer 6 à 7 des disques défectueux.

Qu'est-ce que Wayback Machine?


Ce n'est là qu'un des services "d'archivage Internet" spécialisés dans la sauvegarde de pages Web. Le service dispose de sa propre "araignée", qui examine régulièrement tous les sites disponibles sur le réseau et les stocke sur des serveurs spécialisés. Plus un site Web est populaire, plus le robot copie souvent son contenu. Si l'administrateur des ressources ne veut pas que les informations du site soient copiées par le bot, il suffit d'enregistrer une interdiction dans le fichier robots.txt.


Les ressources populaires sont copiées fréquemment - presque quotidiennement. Wayback Machine indexe même les réseaux sociaux, y compris Twitter, Facebook



En 2017, les «Archives» ont lancé la mise à jour de Wayback Machine, promettant un accès plus pratique aux pages Web enregistrées. Le service a été considérablement repensé, sinon codé à partir de zéro. Maintenant, il prend en charge un certain nombre de formats de fichiers qui, auparavant, ne pouvaient tout simplement pas être enregistrés. Dans le même 2017, l'organisation a déclaré que chaque semaine, ses serveurs enregistraient environ 1 milliard de pages Web.



Voici à quoi ressemblait Twitter en 2007

Que peut-on trouver d'autre dans la base de données "Internet archive"?


Livres La collection de l'organisation est immense, elle comprend des livres numérisés, des éditions courantes et très rares. Les livres sont enregistrés non seulement en anglais, mais aussi dans de nombreuses autres langues. Les "Archives" disposent de centres spécialisés pour la numérisation de livres, dont 33 au total. Ils sont situés dans cinq pays à travers le monde.

Le personnel du centre numérise environ 1 000 livres par jour. La base de données du service contient des millions de publications. Le travail sur leur numérisation est financé à la fois par des gens ordinaires et diverses organisations, y compris des bibliothèques et des fondations.

Depuis 2007, les «archives Internet» stockent des livres publics de Google Book Search dans sa base de données. Après le lancement, la base de données de livres s'est développée rapidement - en 2013, plus de 900 000 livres ont été enregistrés à partir du service Google.

Un des services des "Archives" donne également accès aux livres entièrement ouverts. Il y en a déjà plus d'un million. Ce service s'appelle Open Library.

Vidéo Le service stocke 4,5 millions de vidéos. Ils sont divisés en thèmes et ont un objectif très différent. Les serveurs "Archive" stockent des films, des documentaires, des événements sportifs, des émissions de télévision et de nombreux autres supports.

En 2015, les «Archives» ont donné lieu à un projet d'envergure - la numérisation des cassettes vidéo. Au début, il s'agissait d'environ 40 000 cassettes provenant des archives de Marion Stokes, une femme qui enregistre les informations sur bande depuis des décennies. Puis d'autres cassettes vidéo ont été ajoutées. Ils ont été envoyés aux "Archives" par les fans de l'idée de numériser des données importantes pour l'humanité.

Fichiers audio. Comme pour les vidéos, l '"Archive" stocke des fichiers audio, qui sont également divisés par sujets. L'année dernière, les «Archives» ont commencé à mettre en œuvre son nouveau projet - le décodage des enregistrements de gomme laque, le plus ancien format d'enregistrements audio. Le son a été conservé sur les plaques de gomme laque - une résine naturelle, qui est isolée par les cochenilles femelles. Au total, l'archive Great 78 Project contient plusieurs centaines de milliers de documents .

Logiciels Bien sûr, il est tout simplement impossible de stocker tous les logiciels créés par l'humanité, même pour les "Archives". Les serveurs stockent vintage - par exemple, les programmes pour Macintosh, les logiciels pour DOS et autres logiciels. En 2016, les employés «Archive» ont publié plus de 1 500 programmes pour Windows 3.1. Vous pouvez travailler directement dans le navigateur. En 2017, Internet Archive a publié les archives du logiciel du premier Macintosh .

Jeux Oui, les "Archives" donnent accès à un grand nombre de jeux. Certains d'entre eux peuvent être lus dans l'environnement de l'émulateur de navigateur. Une variété de jeux est stockée, y compris celle pour les consoles analogiques-numériques portables . Il existe des jeux pour MS-DOS et des jeux de console pour Atari et ColecoVision .



Pour la première fois, les archives des anciens jeux ont été téléchargées par l'organisation en 2013. Nous parlons des titres d'il y a 30 à 40 ans, qui pouvaient être joués directement dans le navigateur. Ce sont les jeux pour Atari 2600 (1977), Atari 7800 (1986), ColecoVision (1982), Philips Videopac G7000 (1978) et Astrocade (1983). La chose la plus intéressante est que l'Internet Archive a fait en sorte que vous puissiez jouer en toute légalité. Maintenant, la collection compte plus de 3400 jeux et ne cesse de croître.

Source: https://habr.com/ru/post/fr436026/


All Articles