Ancienne mine de charbon abritant l'Arctic World Archive. Photo : Guy Martin / Bloomberg Businessweek

Le logiciel libre est la pierre angulaire de la civilisation moderne et l'héritage commun de toute l'humanité. La mission du programme GitHub Archive est de préserver ce code pour les générations futures afin que l'histoire de la bibliothèque d'Alexandrie ne se répète jamais.

Pour ce faire, GitHub maintiendra de nombreuses sauvegardes sur différents supports, y compris le stockage à long terme d' Arctic Code Vault sur Svalbard. Il est situé dans une ancienne mine de charbon à une profondeur de 250 mètres dans le pergélisol et est conçu pour une durée de conservation d'au moins 1000 ans.

Un instantané du code humain sera pris le 2 février 2020 .

Le projet de stockage de données à long terme a été lancé en collaboration avec la Long Now Foundation, l'Internet Archive, la Software Heritage Foundation, l'Arctic World Archive et d'autres partenaires.

Projet LOCKSS

Le code vital d'aujourd'hui peut être oublié ou perdu avec le temps. Le pire est que, en cas de catastrophe mondiale, nous perdions toutes les informations stockées sur des supports «éphémères»: HDD, SSD, CD et DVD, conçus depuis plusieurs décennies, sur des bandes avec une durée de vie conditionnelle de 30 ans nécessitent un contrôle strict de la température et de l'humidité .

La solution au problème est la duplication des sauvegardes, c'est-à-dire l'archivage des logiciels par plusieurs organisations et sous différentes formes. Ce projet, baptisé LOCKSS, a démarré pendant près de 20 ans . En mai 2019, le programme LOCKSS 2.0-alpha a été introduit - le premier logiciel prototype pour le stockage de données distribué depuis longtemps avec le soutien de nombreux participants et le stockage externe.

Les développeurs du système partent du fait que le matériel peut être beaucoup plus durable que les supports éphémères: par conséquent, "il existe un certain nombre d'options futures possibles dans lesquelles des ordinateurs modernes fonctionnent, mais leurs logiciels sont en grande partie perdus".

GitHub rappelle beaucoup de technologies perdues qui pourraient être utiles: le béton romain (sa recette n'a été redécouverte qu'en 2014), le médicament antipaludéen DFDT , les dessins perdus de la fusée Saturn-5 . Il est facile d'imaginer un avenir dans lequel les logiciels d'aujourd'hui seront considérés comme bizarres et oubliés depuis longtemps jusqu'à ce qu'ils en aient un besoin inattendu: "Comme toute sauvegarde, le programme d'archivage GitHub est également conçu pour un avenir imprévu", explique le site Web du programme GitHub. Archive

Archive Github

GitHub Archive propose trois niveaux de sauvegardes:

Chaud : presque en temps réel
Chaud : mis à jour de mois en année
Froid : mis à jour tous les 5 ans et plus

Après toute action des utilisateurs de GitHub, toutes les données Git sont répliquées dans plusieurs centres de données à travers le monde. Les sauvegardes Git, les problèmes, les demandes de pool et toutes les données utilisateur sur GitHub sont stockés à plusieurs endroits. Ces informations sont disponibles en temps réel via l'API GitHub.

De plus, une indexation récursive a été organisée par le robot d'exploration GHTorrent, qui téléchargera des archives quotidiennement ou mensuellement. Grâce à GH Archive, les instantanés de l'archive peuvent être récupérés par des requêtes BigQuery. D'autres copies du code se trouvent dans la fameuse «Time Machine» pour les archives Internet, qui stocke des copies à plusieurs endroits. Enfin, la Software Heritage Foundation analysera régulièrement GitHub et ajoutera ses référentiels publics à ses archives, pour lesquelles il existe une API publique.

Stockage Arctic GitHub

Le 2 février 2020, GitHub fera une copie de tous les référentiels publics actifs - et les placera dans le référentiel Arctic GitHub.

Les données seront stockées sur des bobines de film de 3 500 pieds fournies par la société norvégienne Piql, spécialisée dans le stockage de données à long terme. Selon les mesures ISO, ce film à l'halogénure d'argent en polyester a une durée de vie de 500 ans. Les tests de vieillissement par simulation ont montré que le film Piql stocke les informations au moins deux fois plus longtemps.

En outre, GitHub Archive travaille avec des chercheurs du projet Microsoft Silica pour enregistrer tous les référentiels publics sur des plaques de verre de quartz à l'aide d'un laser femtoseconde. Ce média garantira la sécurité des données pendant plus de 10 000 ans.

Le référentiel de codes GitHub Arctic est créé sur la base des archives de l'Arctique mondial (AWA) à une profondeur de 250 mètres dans le pergélisol. Les archives sont situées dans une ancienne mine de charbon sur l'archipel du Spitzberg, qui n'est pas très loin du pôle Nord. Le réchauffement climatique n'affectera que quelques mètres de pergélisol et ne menacera pas la mine dans un avenir proche (plusieurs milliers d'années).

Le Svalbard est réglementé par un traité international en tant que zone démilitarisée. C'est l'un des établissements humains les plus éloignés et les plus géopolitiquement stables de la Terre, explique GitHub. Il y a à proximité le célèbre World Seed Storage, le principal espoir de l'humanité en cas d'apocalypse.

Svalbard World Seed Store

L'AWA est une initiative conjointe de la société minière d'État norvégienne Norske Spitsbergen Kulkompani (SNSK) et du fournisseur de préservation numérique Piql AS. Des données historiques et culturelles de l'Italie, du Brésil, de la Norvège, du Vatican et d'autres pays y sont déjà stockées.

Photo : Guy Martin / Bloomberg Businessweek

Les bobines GitHub seront stockées dans un conteneur avec des parois en acier à l'intérieur d'une chambre scellée. Tous les référentiels GitHub actifs et une partie importante des référentiels inactifs (à en juger par les étoiles, les dépendances, etc.), tous les fichiers binaires jusqu'à 100 Ko, tomberont dans l'instantané 02.02.2020. Chaque référentiel dans un fichier tar distinct. Le tout devrait tenir sur 200 bobines de 120 Go.

Avec l'archive, ils mettront un catalogue lisible par l'homme et des manuels techniques sur le décodage QR, les formats de fichiers, les encodages de caractères et d'autres métadonnées importantes afin que les descendants puissent reconvertir les données en code source.

L'archive comprendra également le guide général Tech Tech au cas où les futurs lecteurs n'auraient pas d'ordinateurs fonctionnels et devraient restaurer la technologie à partir de zéro.

GitHub a créé un référentiel millénaire dans lequel il enregistrera les référentiels Open Source pour la postérité

Projet LOCKSS

Archive Github

Stockage Arctic GitHub

More articles: