Antigua mina de carbón que alberga el Archivo Mundial del Ártico. Foto : Guy Martin / Bloomberg BusinessweekEl software libre es la piedra angular de la civilización moderna y el patrimonio común de toda la humanidad. La misión del
programa GitHub Archive es preservar este código para las generaciones futuras para que la historia de la biblioteca de Alexandria nunca se repita.
Para hacer esto, GitHub mantendrá muchas copias de seguridad en diferentes medios, incluido el almacenamiento de
Arctic Code Vault a largo plazo en Svalbard. Está ubicado en una antigua mina de carbón a una profundidad de 250 metros en permafrost y está diseñado para una vida útil de al menos 1000 años.
Se tomará una instantánea del código humano el 2 de febrero de 2020 .
El proyecto de almacenamiento de datos a largo plazo se lanzó junto con la Fundación Long Now, el Archivo de Internet, la Fundación Patrimonio del Software, el Archivo Mundial del Ártico y otros socios.
Proyecto LOCKSS
El código vital de hoy puede olvidarse o perderse con el tiempo. Lo peor es que, en caso de una catástrofe global, perdamos toda la información almacenada en medios "efímeros": HDD, SSD, CD y DVD, diseñados durante varias décadas, en cintas con una vida condicional de 30 años que requieren un control estricto de la temperatura y la humedad. .
La solución al problema es la duplicación de copias de seguridad, es decir, el software de archivo por varias organizaciones y en diferentes formas. Este proyecto, llamado
LOCKSS, comenzó durante
casi 20 años . En mayo de 2019, se introdujo el programa
LOCKSS 2.0-alpha , el primer software prototipo para el almacenamiento de datos distribuidos durante mucho tiempo con el apoyo de muchos participantes y almacenamiento externo.
Los desarrolladores del sistema parten del hecho de que el hardware puede ser mucho más duradero que los medios efímeros: por lo tanto, "hay una serie de posibles opciones futuras en las que existen computadoras modernas que funcionan, pero su software se pierde en gran medida".
GitHub recuerda muchas tecnologías perdidas que podrían ser útiles:
hormigón romano (su receta fue redescubierta solo en 2014), el
medicamento antipalúdico DFDT ,
dibujos perdidos
del cohete Saturno-5 . Es fácil imaginar un futuro en el que el software de hoy se considere extraño y se olvide por mucho tiempo innecesariamente hasta que haya una necesidad inesperada: "Al igual que cualquier copia de seguridad, el programa de archivo GitHub también está diseñado para el futuro imprevisto", dice el sitio web del programa GitHub Archivo
Archivo Github
GitHub Archive proporciona tres niveles de copias de seguridad:
- Caliente : casi en tiempo real
- Cálido : actualizado de mes a año
- Frío : actualizado cada 5 años o más
Después de cualquier acción por parte de los usuarios de GitHub, todos los datos de Git se replican en varios centros de datos de todo el mundo. Las copias de seguridad de Git, los problemas, las solicitudes de grupo y todos los datos de usuario en GitHub se almacenan en varios lugares. Esta información está disponible en tiempo real a través de la API de GitHub.
Además, la indexación recursiva fue organizada por el rastreador GHTorrent, que cargará archivos diariamente o mensualmente. A través de GH Archive, las instantáneas del archivo se pueden recuperar mediante consultas de BigQuery. Otras copias del código se encuentran en la conocida "Time Machine" para el archivo de Internet, que almacena copias en varios lugares. Finalmente, la Fundación Software Heritage escaneará regularmente GitHub y agregará sus repositorios públicos a su archivo, para lo cual existe una API pública.
Arctic GitHub Storage
El 2 de febrero de 2020, GitHub hará una copia de todos los repositorios públicos activos y los colocará en el repositorio de Arit GitHub.
Los datos se almacenarán en rollos de película de 3.500 pies proporcionados por la compañía noruega Piql, que se especializa en el almacenamiento de datos a largo plazo. Según las mediciones ISO, esta película con haluro de plata en poliéster tiene una vida útil de 500 años. Las pruebas de envejecimiento de simulación han demostrado que la película Piql almacena información al menos el doble de tiempo.
Además, GitHub Archive está trabajando con investigadores del proyecto Microsoft Silica para registrar todos los repositorios públicos en placas de vidrio de cuarzo utilizando un láser de femtosegundo. Este medio garantizará la seguridad de los datos durante más de 10,000 años.
El repositorio de código GitHub Arctic se crea sobre la base del Arctic World Archive (AWA) a una profundidad de 250 metros en permafrost. El archivo está ubicado en una antigua mina de carbón en el archipiélago de Spitsbergen, que no está muy lejos del Polo Norte. El calentamiento global afectará solo unos pocos metros de permafrost y no amenaza la mina en el futuro cercano (varios miles de años).
Svalbard está regulado por
un tratado internacional como una zona desmilitarizada. Este es uno de los asentamientos humanos más remotos y geopolíticamente estables en la Tierra, dice GitHub. Hay cerca el famoso World Seed Storage, la principal esperanza de la humanidad en caso de un apocalipsis.
Tienda de semillas de Svalbard WorldAWA es una iniciativa conjunta entre la empresa minera estatal noruega Norske Spitsbergen Kulkompani (SNSK) y el proveedor de preservación digital Piql AS. Los datos históricos y culturales de Italia, Brasil, Noruega, el Vaticano y otros países ya están almacenados allí.
Foto : Guy Martin / Bloomberg BusinessweekLas bobinas de GitHub se almacenarán en un recipiente con paredes de acero dentro de una cámara sellada. Todos los repositorios activos de GitHub y una parte significativa de los inactivos (a juzgar por las estrellas, dependencias, etc.), todos los archivos binarios de hasta 100 KB, caerán en la instantánea 02.02.2020. Cada repositorio en un archivo tar separado. Todo debería caber en 200 bobinas de 120 GB.
Junto con el archivo, pondrán un catálogo legible por humanos y manuales técnicos sobre decodificación QR, formatos de archivo, codificaciones de caracteres y otros metadatos importantes para que los descendientes puedan convertir los datos nuevamente en código fuente.
El archivo también incluirá la guía general Tech Tech en caso de que los futuros lectores no tengan computadoras que funcionen y tengan que restaurar la tecnología desde cero.