
Você já se perguntou quantas informações são completamente perdidas? Afinal, é para isso que Habr existe informação. Você sabe o que acontece com mais frequência com recursos baseados em publicações de usuários? Os autores inserem imagens, fotos e vídeos de sites de terceiros e, após algum tempo, não estão mais disponíveis. É exatamente para isso que Habrastorage foi criado. A prática mostrou que ninguém (exceto editores e alguns entusiastas) carrega imagens por conta própria. Portanto, em algum momento, a administração do Habr tornou essa função automática - todas as imagens que aparecem na publicação são automaticamente carregadas no repositório e não desaparecem dali enquanto o próprio Habr existir. Obviamente, há exceções e algo pode dar errado , mas agora não é sobre elas.
O maior problema em todo esse esquema com o carregamento de imagens em Habrastorage ocorreu durante sua implementação. Naquela época, algumas publicações antigas já estavam sem desenhos e, portanto, continuavam assim. Hoje, tentaremos descobrir quanta informação gráfica Habr perdeu desde o seu nascimento. Além disso, podemos encontrar algo dos desaparecidos? Afinal, esse esboço "imagem não pode ser carregada" é irritante, certo? O detetive de hoje é dedicado a isso. Vamos começar!
Talvez você tenha sido mencionado no rastreador neste artigo? Provavelmente, em uma de suas publicações antigas, uma imagem desapareceu, mas eu a encontrei. Se você não quiser ler a publicação inteira, basta rolar para o spoiler no final (seção Resultados ), que lista todas as publicações e imagens encontradas. Obrigada
Introdução e Métodos
Nosso detetive começará do começo (logicamente, certo?). Desde o início de Habr. Afinal, quanto mais cedo um post fosse publicado, mais provável era que as imagens fossem perdidas em algum lugar da história. Por isso, começaremos em 2006 e avançaremos um pouco.
Todas as publicações de 40 hubs, atualmente no início da classificação, participam da revisão. Uma lista completa desses hubs é apresentada sob o spoiler. De fato, muitos deles não existiam; entretanto, quando novos hubs foram adicionados, as publicações foram transferidas para lá.
Lista de hubs* nix , Algoritmos , Inteligência artificial , Astronáutica , Biotecnologias , Cérebro , C ++ , Gerenciamento de desenvolvimento , Faça você mesmo , Ecologia , Desenvolvimento de jogos , Jogos e consoles , Saúde dos geeks , História da TI , Segurança da informação , Carreira em TI , Infraestrutura de TI , Empresas de TI , Java , JavaScript , Legislação em TI , Lifehacks para geeks , Aprendizado de máquina , Fabricação e desenvolvimento de eletrônicos , Nginx , Código aberto , Gerenciamento de pessoal , Física , Ciência popular , Gerenciamento de produtos , Programação , Gerenciamento de projetos , Python , Sala de leitura , Engenharia reversa , Redes e comunidades sociais , Administração de sistemas , Análise e design de sistemas , O futuro está aqui , Desenvolvimento de sites
As informações foram coletadas usando um conjunto de scripts PHP. Cada publicação foi carregada, o conteúdo da tag <div id = "post-content-body"> foi determinado e a presença das tags <img> foi verificada. Para cada imagem, os links para imagens são armazenados com referência ao ID da publicação no Habré. No futuro, essas informações serão analisadas.
O que e quando eles publicaram
2006
No começo de Habr, não havia tantas publicações quanto agora, mas há ainda menos fotos nelas. No total, em 2006 (a partir de 5 de junho de 2006), foram publicadas 221 postagens nos hubs listados. 53 desses posts contêm um total de 75 imagens. Máximo de imagens (10 peças) na publicação " Dez gadgets que mudaram o mundo ". 50 desenhos já estão em Habrastorage. Outros 25 foram perdidos. Todos eles são únicos e não se repetem.
Fato interessante: duas das imagens levam ao próprio Habr, mas, ao mesmo tempo, não estão disponíveis há muito tempo. São imagens http://www.habrahabr.ru/tmp/sup_blogs_preview.gif e http://www.habrahabr.ru/tmp/upgrade-chart.gif.
Assim, em 2006, 33,3% das imagens nas publicações foram perdidas.
2007
Em 2007, o número de publicações aumentou significativamente, assim como o número de imagens - 1.713 posts foram publicados. 599 Publicações contêm 1.467 imagens. 1.229 imagens foram transferidas para Habrastorage e 238 foram perdidas ( 16,2% ).
Fato interessante: a publicação dos 100 principais aplicativos para Mac OS contém no máximo 2007 - 100 imagens e não contém texto com direitos autorais.
Além disso, algumas dessas imagens perdidas são repetidas. Assim, uma delas ocorre 6 vezes em uma publicação com apenas 6 figuras. Além disso, a imagem "Up.gif" é repetida 21 vezes, 16 - "Down.gif" e 8 - "Same.gif" de um domínio. E todas essas 45 imagens de um post , em que apenas 47 imagens.
Restam 191 únicos <img>.
2008
Como de ano para ano o número de publicações em Habré aumentou apenas, em 2008, nosso detetive considerará 2.520 publicações e 2.969 imagens. Percebemos que em 2008 o número de imagens nas publicações finalmente excede o número de publicações. Ao mesmo tempo, apenas 1.207 postagens contêm imagens e um máximo de 42 elementos de informação gráfica são apresentados na publicação " História do Google Holiday Logos ". 1.943 imagens já estão armazenadas em Habrastorage e 1.026 são perdidas ( 34,6% ).
Um fato interessante: a imagem mais inesperada (ou melhor, um problema no design da publicação) está aqui . Como resultado, Habr tenta carregar a imagem em http: // # /.
Fig. 1. Estatísticas gerais revisadas
É possível restaurar pelo menos alguma coisa?
Recuperação parcial não é difícil. Por exemplo, a maneira mais “preguiçosa” seria usar o Internet Archive na tentativa de carregar páginas de publicação salvas. Além disso, você pode tentar "encontrar" no arquivo as próprias imagens por links diretos.
Lifehack: você precisa verificar a disponibilidade de imagens em todas as versões da página no arquivo, não apenas as mais antigas e mais recentes.
Infelizmente, embora esse método funcione em alguns casos, é tão difícil restaurar pelo menos metade das imagens. Portanto, o próximo passo é verificar a hospedagem cruzada, traduções originais e, naturalmente, cópias de arquivo das páginas originais.
Além disso, você pode tentar encontrar a imagem desejada usando um dos espelhos não oficiais da Habrir que já funcionaram e ainda armazenam algumas das informações copiadas.
A última e mais difícil opção é o uso de mecanismos de busca. Se você souber exatamente o que deve estar na imagem (há uma descrição e um contexto), há uma chance de encontrar arquivos com o mesmo nome se eles já foram copiados por alguém para outro recurso.
Naturalmente, cada próximo passo aumenta o tempo de pesquisa de maneira não linear.
O que conseguiu encontrar
Você pode não ficar muito impressionado com o número de imagens encontradas até agora - existem 300 delas (contidas em 140 publicações de 81 autores). Se considerarmos o número de “perdas” (1.242), o resultado é de cerca de 24,2% . Por que há menos imagens ausentes do que antes? Todas as imagens inúteis (como contadores de exibição) e imagens inexistentes (como o já mencionado http: // # /, assim como http: //fig.jpg/ , etc.) são removidas de consideração.
Como surgiu esse número da rodada? O fato é que cerca de 300 terminaram o dia de pesquisa. No começo, eu chegava a 333, mas 300 também parecem muito bons. Além disso, no momento, cerca de 33% de todas as "vítimas de busca" permanecem completamente não verificadas.
Fig. 2. Pesquisas atuais
Todas as imagens encontradas (exceto um .bmp, com 301) seriam carregadas no hsto.org , e os links para elas e publicações, assim como os índices de imagem, serão fornecidos na próxima seção.
Resultados
Portanto, no spoiler estão as imagens encontradas com sucesso, bem como o ID da publicação, o índice da imagem dentro do texto da publicação (começando de 1, não de 0) e o autor da publicação. Se você é o autor das publicações mencionadas e as figuras encontradas estão corretas, corrija suas postagens. Obrigada
A propósito, algumas imagens ainda estão disponíveis para visualização em publicações, mas não foram transferidas para Habrastorage e, portanto, em algum momento também podem se tornar inacessíveis.
Em vez de uma conclusão
Talvez alguém ache que restaurar essas informações desatualizadas não faz sentido. Além disso, algumas das imagens encontradas não tinham sentido quando foram publicadas. Claro que é.
Qualquer informação é importante. Pelo menos do ponto de vista da análise histórica. Sem mencionar o fato de que em alguns materiais protegidos por direitos autorais ele tem um papel fundamental. Sim, no momento, Habr não tem nem 15 anos e algumas fontes ainda estão disponíveis, mas com o tempo elas se tornarão cada vez menos e, portanto, você deve pensar antecipadamente se haverá algo para mais tarde ou se haverá uma "imagem eterna". disponível ".
Bem, não esqueça que os plugs de imagens inacessíveis são simplesmente irritantes. Obviamente, poucas pessoas lerão "algumas coisas antigas", mas essas pessoas serão encontradas. Portanto, como essas publicações sobre Habré ainda existem, seu conteúdo deve ser o mais completo possível.
Infelizmente, embora o Habrastorage não suporte o carregamento direto para todos os formatos de imagem, ele poderá algum dia ser corrigido.
O último problema que quero mencionar, e sobre o qual você provavelmente pensou, é "e se o autor não usa Habr há muito tempo e não está interessado em corrigir as coisas antigas?" Eu já tive essa pergunta na cabeça mais de uma vez, mas a solução aqui não é tão difícil. UFOs sempre podem ser consertados por UFOs representados por moderadores (você pode, Exosphere ?) Ou pela administração ( Boomburum pode dar uma tarefa a alguém).
E o que você acha, vale a pena tentar restaurar pelo menos alguma coisa?
Isso é tudo por hoje. Obrigado por sua atenção e permita que todas as suas imagens sejam enviadas para Habrastorage sem problemas! Que não seja assim
PS Se você encontrar erros de digitação ou erros no texto, entre em contato. Isso pode ser feito destacando parte do texto e pressionando " Ctrl / ⌘ + Enter ", se você tiver Ctrl / ⌘, ou através de mensagens privadas . Se as duas opções não estiverem disponíveis, escreva sobre erros nos comentários. Obrigada
PPS Talvez você também se interesse por meus outros estudos sobre Habr ou queira sugerir seu tópico para a próxima publicação, ou talvez até uma nova série de publicações.
Onde encontrar a lista e como fazer uma ofertaTodas as informações podem ser encontradas em um repositório especial de detetives da Habra . Lá você pode descobrir quais propostas já foram exibidas e o que já está em andamento.
Além disso, você pode me mencionar (escrevendo VaskivskyiYe ) nos comentários de uma publicação que você acha interessante para pesquisa ou análise.