Detetive Habra: sua foto está perdida


Você já se perguntou quantas informações são completamente perdidas? Afinal, é para isso que Habr existe informação. Você sabe o que acontece com mais frequência com recursos baseados em publicações de usuários? Os autores inserem imagens, fotos e vídeos de sites de terceiros e, após algum tempo, não estão mais disponíveis. É exatamente para isso que Habrastorage foi criado. A prática mostrou que ninguém (exceto editores e alguns entusiastas) carrega imagens por conta própria. Portanto, em algum momento, a administração do Habr tornou essa função automática - todas as imagens que aparecem na publicação são automaticamente carregadas no repositório e não desaparecem dali enquanto o próprio Habr existir. Obviamente, há exceções e algo pode dar errado , mas agora não é sobre elas.


O maior problema em todo esse esquema com o carregamento de imagens em Habrastorage ocorreu durante sua implementação. Naquela época, algumas publicações antigas já estavam sem desenhos e, portanto, continuavam assim. Hoje, tentaremos descobrir quanta informação gráfica Habr perdeu desde o seu nascimento. Além disso, podemos encontrar algo dos desaparecidos? Afinal, esse esboço "imagem não pode ser carregada" é irritante, certo? O detetive de hoje é dedicado a isso. Vamos começar!


Talvez você tenha sido mencionado no rastreador neste artigo? Provavelmente, em uma de suas publicações antigas, uma imagem desapareceu, mas eu a encontrei. Se você não quiser ler a publicação inteira, basta rolar para o spoiler no final (seção Resultados ), que lista todas as publicações e imagens encontradas. Obrigada

Introdução e Métodos


Nosso detetive começará do começo (logicamente, certo?). Desde o início de Habr. Afinal, quanto mais cedo um post fosse publicado, mais provável era que as imagens fossem perdidas em algum lugar da história. Por isso, começaremos em 2006 e avançaremos um pouco.


Todas as publicações de 40 hubs, atualmente no início da classificação, participam da revisão. Uma lista completa desses hubs é apresentada sob o spoiler. De fato, muitos deles não existiam; entretanto, quando novos hubs foram adicionados, as publicações foram transferidas para lá.



As informações foram coletadas usando um conjunto de scripts PHP. Cada publicação foi carregada, o conteúdo da tag <div id = "post-content-body"> foi determinado e a presença das tags <img> foi verificada. Para cada imagem, os links para imagens são armazenados com referência ao ID da publicação no Habré. No futuro, essas informações serão analisadas.


O que e quando eles publicaram


2006


No começo de Habr, não havia tantas publicações quanto agora, mas há ainda menos fotos nelas. No total, em 2006 (a partir de 5 de junho de 2006), foram publicadas 221 postagens nos hubs listados. 53 desses posts contêm um total de 75 imagens. Máximo de imagens (10 peças) na publicação " Dez gadgets que mudaram o mundo ". 50 desenhos já estão em Habrastorage. Outros 25 foram perdidos. Todos eles são únicos e não se repetem.


Fato interessante: duas das imagens levam ao próprio Habr, mas, ao mesmo tempo, não estão disponíveis há muito tempo. São imagens http://www.habrahabr.ru/tmp/sup_blogs_preview.gif e http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Assim, em 2006, 33,3% das imagens nas publicações foram perdidas.


2007


Em 2007, o número de publicações aumentou significativamente, assim como o número de imagens - 1.713 posts foram publicados. 599 Publicações contêm 1.467 imagens. 1.229 imagens foram transferidas para Habrastorage e 238 foram perdidas ( 16,2% ).


Fato interessante: a publicação dos 100 principais aplicativos para Mac OS contém no máximo 2007 - 100 imagens e não contém texto com direitos autorais.

Além disso, algumas dessas imagens perdidas são repetidas. Assim, uma delas ocorre 6 vezes em uma publicação com apenas 6 figuras. Além disso, a imagem "Up.gif" é repetida 21 vezes, 16 - "Down.gif" e 8 - "Same.gif" de um domínio. E todas essas 45 imagens de um post , em que apenas 47 imagens.


Restam 191 únicos <img>.


2008


Como de ano para ano o número de publicações em Habré aumentou apenas, em 2008, nosso detetive considerará 2.520 publicações e 2.969 imagens. Percebemos que em 2008 o número de imagens nas publicações finalmente excede o número de publicações. Ao mesmo tempo, apenas 1.207 postagens contêm imagens e um máximo de 42 elementos de informação gráfica são apresentados na publicação " História do Google Holiday Logos ". 1.943 imagens já estão armazenadas em Habrastorage e 1.026 são perdidas ( 34,6% ).


Um fato interessante: a imagem mais inesperada (ou melhor, um problema no design da publicação) está aqui . Como resultado, Habr tenta carregar a imagem em http: // # /.


Fig. 1. Estatísticas gerais revisadas


É possível restaurar pelo menos alguma coisa?


Recuperação parcial não é difícil. Por exemplo, a maneira mais “preguiçosa” seria usar o Internet Archive na tentativa de carregar páginas de publicação salvas. Além disso, você pode tentar "encontrar" no arquivo as próprias imagens por links diretos.


Lifehack: você precisa verificar a disponibilidade de imagens em todas as versões da página no arquivo, não apenas as mais antigas e mais recentes.

Infelizmente, embora esse método funcione em alguns casos, é tão difícil restaurar pelo menos metade das imagens. Portanto, o próximo passo é verificar a hospedagem cruzada, traduções originais e, naturalmente, cópias de arquivo das páginas originais.


Além disso, você pode tentar encontrar a imagem desejada usando um dos espelhos não oficiais da Habrir que já funcionaram e ainda armazenam algumas das informações copiadas.


A última e mais difícil opção é o uso de mecanismos de busca. Se você souber exatamente o que deve estar na imagem (há uma descrição e um contexto), há uma chance de encontrar arquivos com o mesmo nome se eles já foram copiados por alguém para outro recurso.


Naturalmente, cada próximo passo aumenta o tempo de pesquisa de maneira não linear.


O que conseguiu encontrar


Você pode não ficar muito impressionado com o número de imagens encontradas até agora - existem 300 delas (contidas em 140 publicações de 81 autores). Se considerarmos o número de “perdas” (1.242), o resultado é de cerca de 24,2% . Por que há menos imagens ausentes do que antes? Todas as imagens inúteis (como contadores de exibição) e imagens inexistentes (como o já mencionado http: // # /, assim como http: //fig.jpg/ , etc.) são removidas de consideração.


Como surgiu esse número da rodada? O fato é que cerca de 300 terminaram o dia de pesquisa. No começo, eu chegava a 333, mas 300 também parecem muito bons. Além disso, no momento, cerca de 33% de todas as "vítimas de busca" permanecem completamente não verificadas.



Fig. 2. Pesquisas atuais


Todas as imagens encontradas (exceto um .bmp, com 301) seriam carregadas no hsto.org , e os links para elas e publicações, assim como os índices de imagem, serão fornecidos na próxima seção.


Resultados


Portanto, no spoiler estão as imagens encontradas com sucesso, bem como o ID da publicação, o índice da imagem dentro do texto da publicação (começando de 1, não de 0) e o autor da publicação. Se você é o autor das publicações mencionadas e as figuras encontradas estão corretas, corrija suas postagens. Obrigada


A propósito, algumas imagens ainda estão disponíveis para visualização em publicações, mas não foram transferidas para Habrastorage e, portanto, em algum momento também podem se tornar inacessíveis.


300 imagens
O autorID da publicaçãoÍndices e ReferênciasExemplo
0x62ash271491
0xa8111051
2bad6071
10971
11061 , 2 , 3 , 5 , 24
138362
4eese308201 , 2 , 3 , 5
8cinq418531
464981
Adam_B125821
ainu395011
alardus26281
Alasca234471 , 2
aleks_raiden244792
305943
390371
403121 , 2 , 3 , 4
441521 , 2 , 3
462941
467411
477821 , 2 , 3 , 4 , 5
alfsoft427821 , 2 , 3 , 4 , 5
alizar377791 , 2
altblog446771
arestov379211
artch197261
badlittleduck162921 , 2 , 3 , 4 , 5
Barkov263351
Bbsod85051
bO_oblik221501 , 2 , 3 , 4 , 5
221861
222151
223221 , 2 , 3 , 4 , 5 , 6
223341 , 2
223751 , 2 , 3
225101 , 2
226141
228361 , 2
261811 , 2 , 3 , 4 , 6
281961 , 2 , 3 , 4 , 5 , 6 , 7 , 8
297061 , 2 , 3 , 4
314901 , 2 , 3 , 4
367131
371801
372491
373061 , 2
380131
383891 , 2
411041 , 2
416471
418211 , 2
chisto_v127831
chulak457831 , 2 , 3 , 4 , 5 , 6 , 7
Cosss310691
Curlybrace110101
119411
141571
373031
dreikanter313201 , 2 , 4
entreter407671
Fenniks208432
239021
391091
firstbyte383141
freetonik265931
frujo409871
garbuz296941
gorinich120271
Gravidade288401
href469081 , 2
iljava309022 , 3
Imposeren265661
invladis429041
Karlsson8971Down.gif , Same.gif , tpci_trends.png , Up.gif
310421
310501
311411 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17
Klaus157751 , 2 , 3 , 4 , 5 , 6 , 7 , 8
Lain_13168912
le0pard383911
LukaSafonov435371
meako267051
Midgard314192 , 3 , 4
Mio3961
7531
9361
mozaic7441
Mr_Floppy283431
nulo444761
oficial1101
oleg_bunin72071
72261
86791
127681
olegafx439341 , 2 , 3 , 4 , 5 , 6 , 7 , 8-9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19
ostrovityanin371462 , 3
ponomar141411
porchini218501 , 2
Pure_by84161
RAF8511 , 2
ramber436931
rost443801
ruskar425783 , 5 , 8
saintd7021
Samdark301041
Scala378044
Shapelez232601
443791 , 2
461131
465991
475361
abate81341 , 2
smartov171603
smitana303751
spanasik4475517
spiritus_sancti411291 , 2
Summerdream38011
sunnybear312111 , 2
Switch90951
Taoorus375071
Thoggen387331
450241
451701
tsepelev366111
Vadimua469221
vitol260731 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19 , 20 , 21
301711 , 2 , 3
XaocCPS400361
2843901
2843921
2843941
2843961
yaneblog390071 , 6
406213
yesutin94531
96451
310781 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12
yshilyaev55561 , 2 , 3
Zada311232
Ziguezague154921

Em vez de uma conclusão


Talvez alguém ache que restaurar essas informações desatualizadas não faz sentido. Além disso, algumas das imagens encontradas não tinham sentido quando foram publicadas. Claro que é.


Qualquer informação é importante. Pelo menos do ponto de vista da análise histórica. Sem mencionar o fato de que em alguns materiais protegidos por direitos autorais ele tem um papel fundamental. Sim, no momento, Habr não tem nem 15 anos e algumas fontes ainda estão disponíveis, mas com o tempo elas se tornarão cada vez menos e, portanto, você deve pensar antecipadamente se haverá algo para mais tarde ou se haverá uma "imagem eterna". disponível ".


Bem, não esqueça que os plugs de imagens inacessíveis são simplesmente irritantes. Obviamente, poucas pessoas lerão "algumas coisas antigas", mas essas pessoas serão encontradas. Portanto, como essas publicações sobre Habré ainda existem, seu conteúdo deve ser o mais completo possível.


Infelizmente, embora o Habrastorage não suporte o carregamento direto para todos os formatos de imagem, ele poderá algum dia ser corrigido.


O último problema que quero mencionar, e sobre o qual você provavelmente pensou, é "e se o autor não usa Habr há muito tempo e não está interessado em corrigir as coisas antigas?" Eu já tive essa pergunta na cabeça mais de uma vez, mas a solução aqui não é tão difícil. UFOs sempre podem ser consertados por UFOs representados por moderadores (você pode, Exosphere ?) Ou pela administração ( Boomburum pode dar uma tarefa a alguém).


E o que você acha, vale a pena tentar restaurar pelo menos alguma coisa?


Isso é tudo por hoje. Obrigado por sua atenção e permita que todas as suas imagens sejam enviadas para Habrastorage sem problemas! Que não seja assim





PS Se você encontrar erros de digitação ou erros no texto, entre em contato. Isso pode ser feito destacando parte do texto e pressionando " Ctrl / ⌘ + Enter ", se você tiver Ctrl / ⌘, ou através de mensagens privadas . Se as duas opções não estiverem disponíveis, escreva sobre erros nos comentários. Obrigada


PPS Talvez você também se interesse por meus outros estudos sobre Habr ou queira sugerir seu tópico para a próxima publicação, ou talvez até uma nova série de publicações.


Onde encontrar a lista e como fazer uma oferta

Todas as informações podem ser encontradas em um repositório especial de detetives da Habra . Lá você pode descobrir quais propostas já foram exibidas e o que já está em andamento.


Além disso, você pode me mencionar (escrevendo VaskivskyiYe ) nos comentários de uma publicação que você acha interessante para pesquisa ou análise.

Source: https://habr.com/ru/post/pt484454/


All Articles