Antiga mina de carvão que hospeda o Arctic World Archive. Foto : Guy Martin / Bloomberg BusinessweekO software livre é a pedra angular da civilização moderna e a herança comum de toda a humanidade. A missão do
programa GitHub Archive é preservar esse código para as gerações futuras, para que a história da biblioteca de Alexandria nunca se repita.
Para fazer isso, o GitHub manterá muitos backups em diferentes mídias, incluindo o armazenamento de longo prazo do
Arctic Code Vault em Svalbard. Ele está localizado em uma antiga mina de carvão a uma profundidade de 250 metros em permafrost e foi projetado para uma vida útil de pelo menos 1000 anos.
Uma captura instantânea do código humano será feita em 2 de fevereiro de 2020 .
O projeto de armazenamento de dados de longo prazo foi lançado em conjunto com a Long Now Foundation, o Internet Archive, a Software Heritage Foundation, o Arctic World Archive e outros parceiros.
Projeto LOCKSS
O código vital de hoje pode ser esquecido ou perdido ao longo do tempo. O pior é que, no caso de uma catástrofe global, perdemos todas as informações armazenadas na mídia "efêmera": HDD, SSD, CD e DVD, projetado por várias décadas, em fitas com uma vida condicional de 30 anos e exigindo um controle rigoroso da temperatura e umidade .
A solução para o problema é a duplicação de backups, ou seja, o arquivamento de software por várias organizações e de diferentes formas. Este projeto, chamado
LOCKSS, começou por
quase 20 anos . Em maio de 2019, foi introduzido o programa
LOCKSS 2.0-alpha - o primeiro software de protótipo para armazenamento de dados distribuídos por um longo tempo, com o apoio de muitos participantes e armazenamento externo.
Os desenvolvedores do sistema procedem do fato de que o hardware pode ser muito mais durável que a mídia efêmera: portanto, "existem várias opções possíveis no futuro em que os computadores modernos existem, mas seu software está em grande parte perdido".
O GitHub lembra muitas tecnologias perdidas que poderiam ser úteis:
concreto romano (sua receita foi redescoberta apenas em 2014), a
droga antimalárica DFDT ,
desenhos perdidos
do foguete Saturn-5 . É fácil imaginar um futuro no qual o software de hoje será considerado bizarro e esquecido desnecessariamente até que haja uma necessidade inesperada: "Como qualquer backup, o programa de arquivamento do GitHub também foi projetado para um futuro imprevisto", diz o site do programa GitHub Arquivo
Arquivo Github
O GitHub Archive fornece três níveis de backup:
- Quente : quase em tempo real
- Quente : atualizado de mês para ano
- Frio : atualizado a cada 5 anos ou mais
Após qualquer ação dos usuários do GitHub, todos os dados do Git são replicados para vários data centers em todo o mundo. Backups do Git, problemas, solicitações de pool e todos os dados do usuário no GitHub são armazenados em vários locais. Esta informação está disponível em tempo real através da API do GitHub.
Além disso, a indexação recursiva foi organizada pelo rastreador GHTorrent, que fará o upload de arquivos diariamente ou mensalmente. Por meio do GH Archive, as capturas instantâneas do archive podem ser recuperadas por consultas do BigQuery. Outras cópias do código estão localizadas no conhecido "Time Machine" para o arquivo da Internet, que armazena cópias em vários lugares. Por fim, a Software Heritage Foundation varrerá regularmente o GitHub e adicionará seus repositórios públicos ao seu arquivo morto, para o qual existe uma API pública.
Arctic GitHub Storage
Em 2 de fevereiro de 2020, o GitHub fará uma cópia de todos os repositórios públicos ativos - e os colocará no repositório do Arctic GitHub.
Os dados serão armazenados em bobinas de filme de 3.500 pés fornecidas pela empresa norueguesa Piql, especializada em armazenamento de dados a longo prazo. De acordo com as medições ISO, este filme com halogeneto de prata em poliéster tem uma vida útil de 500 anos. Testes de envelhecimento por simulação mostraram que o filme Piql armazena informações pelo menos duas vezes mais.
Além disso, o GitHub Archive está trabalhando com pesquisadores do projeto Microsoft Silica para gravar todos os repositórios públicos em placas de vidro de quartzo usando um laser de femtossegundos. Essa mídia garantirá a segurança dos dados por mais de 10.000 anos.
O repositório de códigos do GitHub Arctic é criado com base no Arctic World Archive (AWA), a uma profundidade de 250 metros em permafrost. O arquivo está localizado em uma antiga mina de carvão no arquipélago de Spitsbergen, que não fica muito longe do Polo Norte. O aquecimento global afetará apenas alguns metros de permafrost e não ameaça a mina no futuro próximo (vários milhares de anos).
Svalbard é regulado pelo
tratado internacional como uma zona desmilitarizada. Este é um dos assentamentos humanos mais remotos e geopoliticamente estáveis da Terra, diz o GitHub. Nas proximidades, o famoso World Seed Storage, a principal esperança da humanidade em caso de apocalipse.
Svalbard World Seed StoreA AWA é uma iniciativa conjunta entre a empresa de mineração estatal norueguesa Norske Spitsbergen Kulkompani (SNSK) e o fornecedor de preservação digital Piql AS. Dados históricos e culturais da Itália, Brasil, Noruega, Vaticano e outros países já estão armazenados lá.
Foto : Guy Martin / Bloomberg BusinessweekAs bobinas do GitHub serão armazenadas em um contêiner com paredes de aço dentro de uma câmara selada. Todos os repositórios ativos do GitHub e uma parte significativa dos inativos (a julgar pelas estrelas, dependências etc.), todos os arquivos binários de até 100 KB, cairão no instantâneo 02.02.2020. Cada repositório em um arquivo tar separado. Tudo deve caber em 200 bobinas de 120 GB.
Juntamente com o arquivo, eles colocarão um catálogo legível por humanos e manuais técnicos sobre decodificação QR, formatos de arquivo, codificações de caracteres e outros metadados importantes para que os descendentes possam converter os dados novamente em código-fonte.
O arquivo também incluirá o guia geral da Tech Tech, caso futuros leitores não possuam computadores operacionais e precisem restaurar a tecnologia do zero.