"Algumas pessoas nos chamam de" Plyushkins "- gosto de dizer que somos arquivistas".
O diretor da Wayback Machine, Mark Graham, descreve a escala do arquivo favorito de todos
Assista Wayback Machine na Online News Association 2018Austin, Texas. Não importa o quanto os serviços de assinante não desejem convencê-lo disso, mas nem tudo pode ser encontrado na Amazon ou Netflix. Deseja, por exemplo,
ler o livro do juiz Brett Cavanaugh (ou mesmo o
infame anual deles)? Curioso para ver um monte de
cartazes publicitários de fumo vintage ? Que tal ver
a maior coleção de literatura budista tibetana do mundo ? Hoje existe um lugar onde você pode fazer tudo isso, e não é o Google ou alguns sites piratas que você (frequentemente) visita.
"Eu tenho um vídeo do governo sobre como lavar as mãos ou nos preparar para uma guerra nuclear ", diz Mark Graham, diretor da Wayback Machine no Internet Archive. "Poderíamos facilmente fazer uma lista de arquivos .ppt em todos os sites com o domínio .mil, Military Industrial PowerPoint Complex."
Graham falou recentemente com vários pequenos grupos de participantes na conferência Online News Association 2018 e a Ars Technica teve a sorte de estar lá. Mais tarde, ele fez uma apresentação completa da conferência, que agora está
disponível em formato de áudio . E a idéia básica é que a escala do arquivo da Internet hoje possa ser tão difícil de entender quanto a escala da própria Internet.
O espaço físico sem fins lucrativos ainda é fácil de entender, pelo menos é o que Graham pretendia que fosse. Hoje, todas as atividades do Internet Archive são realizadas em uma igreja antiga (mesmo os bancos não foram removidos) em São Francisco por cerca de duzentas pessoas. O arquivo também contém o armazém mais próximo para armazenar mídia física, não apenas livros, mas também itens como discos de vinil. Graham brinca que ali a principal unidade de medida é o "contêiner para entrega". O arquivo recebe essa quantidade de material a cada duas semanas.
Atualmente, a empresa é o segundo maior scanner de livros do mundo, depois do Google. Graham garantiu que a quantidade atual de digitalizações totalizasse mais de quatro milhões. O arquivo ainda tem uma lista de desejos para seus próximos 1,5 milhão de digitalizações, incluindo tudo o que é citado na Wikipedia. A Wayback Machine está tentando protegê-lo contra a
ocorrência de um
erro 404 ao clicar em links da Wikipedia (Graham disse recentemente à BBC que os bots da Wayback recuperaram quase seis milhões de páginas perdidas devido a falha no link). Hoje, os livros publicados antes de 1923 podem ser baixados gratuitamente através do Internet Archive, e você pode emprestar uma cópia digital de muitos desses livros posteriormente.
Tweet Tradução:
Internet Archive: Mais de 9 milhões de links incorretos da Wikipedia foram corrigidos
WikiResearch: Tão gratos pelo trabalho extraordinário que nossos amigos da @internetarchive fazem para lidar com o erro 404 e salvar digitalmente milhões de links para sites e fontes citados pelos wikipedistas ao criar a maior enciclopédia do mundo.
É claro que hoje em dia o Internet Archive oferece muito mais do que apenas texto. Sua coleção de notícias abrange mais de 1,6 milhão de programas de notícias com ferramentas como a capacidade de procurar palavras em legendas e acessar as últimas notícias (as transmissões estão disponíveis após 24 horas e depois são fornecidas aos visitantes na forma de passagens pesquisáveis de dois minutos). A crescente parte de áudio e música do Internet Archive abrange notícias de rádio, podcasting e mídia física (por exemplo, uma coleção de
200.000 cópias dos 78s recentemente doadas pela biblioteca de Boston). E, como Ars escreve, a organização possui
uma extensa coleção clássica de videogames que qualquer pessoa pode enviar para um emulador baseado em navegador para pesquisa ou lazer. Oficialmente, esta seção inclui mais de 300.000 títulos, "para que você possa reproduzir o Oregon Trail no seu computador Apple C antigo no seu navegador agora - sem anúncios, sem rastreamento de usuários", diz Graham.
"Alguns podem nos chamar de Plyushkins", diz ele. "Eu gosto de dizer que somos arquivistas".
Em geral, Graham diz que quatro petabytes de informações por ano são adicionados ao Internet Archive (ou seja, quatro milhões de gigabytes por contexto). Os dados atuais da organização são 22 petabytes, mas o Internet Archive na verdade possui 44 petabytes. "Porque somos paranóicos", diz Graham. "Os carros podem falhar e nós temos uma reputação." Esse credo inspirado na
NASA ajudou uma organização sem fins lucrativos a sobreviver aos danos causados pelo incêndio, que
custou quase US $ 600.000 - tudo sem perder dados de arquivo.
30.000 de entrada? Nada mal, e parece que os robôs da Wayback Machine certamente aumentaram sua afeição por Ars.
Com a Wayback Machine, você pode se lembrar e pensar em como Ars escondeu a morte de Steve Jobs em outubro de 2011.
Hmm ... talvez ainda tenha a chance de me tornar um arsiano / arsiano para baixar o 1000º PDF capturado pelo Internet Archive.Acesso universal ao conhecimento (e aos fatos, a um grande número de fatos)
O conceito geral de Internet Archive nos últimos 22 anos tem sido simples:
"acesso universal a todo conhecimento" . Na era da Internet, isso significa, é claro, a introdução de um pequeno exército de bots, e Graham observa que o Internet Archive sempre tem um software que coleta conteúdo. Aproximadamente 7.000 processos simultâneos abrangem toda a rede para receber 1,5 bilhão de itens diferentes por semana. Algumas coisas, como a página inicial do Google ou o The New York Times, podem ser visualizadas várias vezes ao dia; outros podem ser vistos com menos frequência.
"Estamos tentando conseguir tudo, mas é difícil", observa Graham. "Incorporações, Javascripts, aplicativos interativos - não podemos obter alguns desses materiais, mas estamos trabalhando nisso".
O cache das coisas em que estamos trabalhando inclui mídias efêmeras, como grupos públicos do Snapchat ou Telegram, e a Wayback Machine mantém contatos locais em locais onde alguns arquivos ou servidores de mídia podem estar em risco (Graham observa recentemente parceiros em Egito, por exemplo).
O resultado de tudo isso é que a Wayback Machine se transformou em algo muito mais útil do que apenas as divertidas viagens anteriores ao LiveJournals. A Ars o utilizou várias vezes para vários propósitos, desde a
captura de mudanças na neutralidade da rede da Comcast até o fato de que a descrição organizacional da Defense Distributed evoluiu. E Graham aponta para uma
polêmica recente
em 2018, quando o presidente Trump twittou que o Google não está promovendo boas relações com os Estados Unidos da América em sua home page (como era no passado). Antes que o Google pudesse responder, a empresa recorreu ao Internet Archive com uma pergunta simples: existe uma cópia?
"Eu amo o Google, mas o trabalho deles não é fazer cópias da página inicial a cada 10 minutos", diz Graham. "Este é o nosso trabalho."
Graham compartilhou que a Wayback Machine realmente apreendeu 835 cópias da página inicial do Google em janeiro de 2018. “Então fomos capazes de ajudar a pegar as anotações. Não estamos tomando partido, mas somos pela verdade. ”
O site teve um papel semelhante quando a Casa Branca
excluiu recentemente
todos os arquivos de seus boletins , e várias organizações (não apenas organizações de notícias, mas também organizações ambientais ou ACLUs) precisavam deles. E os materiais obtidos da Wayback Machine
foram utilizados como prova no tribunal . "Há muitos eventos que acontecem em termos de tempo", acrescenta. Como ex-vice-presidente da NBC News (daí seu desejo de participar da ONA, talvez), Graham também destaca com orgulho que o site é referenciado cerca de cinco vezes por dia pela mídia.
Graham diz que a Wayback Machine está trabalhando duro para melhorar suas ferramentas de usuário para melhorar o site. No canto inferior esquerdo da página inicial do Wayback Machine, você encontrará, por exemplo,
APIs públicas . Graham ressalta que as pessoas as usam para criar coisas como um
diferenciador , onde você pode fazer duas digitalizações, colocá-las lado a lado e ver as mudanças. Outra ferramenta criada pelo usuário, que atraiu sua atenção, permite que você veja o site e faça um
gráfico em árvore radial para ver como sua estrutura muda com o tempo .
Embora talvez a ferramenta mais fácil e eficaz para todos seja a tecnologia diretamente da Wayback Machine - o site permite que alguém envie manualmente um link para o Internet Archive para arquivar diretamente de sua página inicial. “Se eu passear com meu gato no jardim e vir uma história no Google Notícias, você pode imprimi-la. Mas hoje você também pode enviá-lo para o Internet Archive ”, diz Graham. Segundo suas estimativas, o resultado pode ser de cerca de um milhão de fotos por semana.
"Buscamos informações em uma rede realmente grande sem trapacear", diz ele. E, independentemente de alguma coisa ser encontrada por bots ou por um usuário amador dedicado do arquivo, todos os outros podem apreciar a capacidade de encontrar conteúdo, que por sinal é a
missão original da Ars Technica . (Felizmente, depois de 20 anos, ninguém ainda nos informou sobre "
coisas muito ruins, como conteúdo de NT, Linux e BeOS, sob o mesmo teto").
Tradução: Diana Sheremyova

Sobre #philtech#philtech (tecnologias + filantropia) são
tecnologias abertas, descritas publicamente, que alinham o padrão de vida de tantas pessoas quanto possível, criando plataformas transparentes para interação e acesso a dados e conhecimento. E satisfazendo os princípios da filtech:
1. Aberto e replicado, não proprietário competitivo.
2. Construído sobre os princípios de auto-organização e interação horizontal.
3. Sustentável e orientado para a perspectiva, em vez de buscar benefícios locais.
4. Com base em dados [abertos], não em tradições e crenças
5. Não violento e não manipulador.
6. Inclusivo, e não trabalhando para um grupo de pessoas à custa de outros.
O PhilTech Accelerator of Social Technology Startups é um programa intensivo de desenvolvimento de projetos em estágio inicial que visa igualar o acesso a informações, recursos e oportunidades. O segundo fluxo: março a junho de 2018.
Conversar no TelegramUma comunidade de pessoas desenvolvendo projetos de filtech ou simplesmente interessadas no tópico de tecnologia para o setor social.
#philtech newsCanal de telegrama com notícias sobre projetos da ideologia #philtech e links para materiais úteis.
Assine a newsletter semanal