Détective Habra: votre photo est perdue


Vous êtes-vous déjà demandé combien d'informations sont complètement perdues? Après tout, l'information est la raison d'être d'Habr. Savez-vous ce qui se passe le plus souvent avec les ressources basées sur les publications des utilisateurs? Les auteurs insèrent des images, des photos et des vidéos de sites tiers et après un certain temps, ils ne sont plus disponibles. C'est exactement pour cela qu'Habrastorage a été créé. La pratique a montré que personne (sauf les éditeurs et quelques passionnés) n'y télécharge des images par lui-même. Par conséquent, à un moment donné, l'administration Habr a rendu cette fonction automatique - chaque image qui apparaît dans la publication est automatiquement téléchargée dans le référentiel et n'y disparaîtra pas tant que Habr existera. Bien sûr, il y a des exceptions et quelque chose peut mal tourner , mais ce n'est plus le cas.


Le plus gros problème de tout ce schéma de chargement d'images dans Habrastorage s'est produit lors de sa mise en œuvre. À ce moment-là, certaines anciennes publications étaient déjà sans dessins, et le sont donc restées. Aujourd'hui, nous allons essayer de savoir combien d'informations graphiques Habr a perdu depuis sa naissance. De plus, pouvons-nous réussir à trouver quelque chose parmi les disparus? Après tout, ce bout "l'image ne peut pas être chargée" est ennuyeux, non? Le détective d'aujourd'hui est dédié à cela. Commençons!


Peut-être avez-vous été mentionné dans le tracker de cet article? Probablement, dans une de vos anciennes publications, une image a disparu, mais je l'ai trouvée. Si vous ne souhaitez pas lire l'intégralité de la publication, vous pouvez simplement faire défiler jusqu'au spoiler à la toute fin (section Résultats ), qui répertorie toutes les publications et les images trouvées. Je vous remercie!

Introduction et méthodes


Notre détective commencera dès le début (logiquement, non?). Depuis le début de Habr. Après tout, plus tôt un article a été publié, plus il était probable que ses images aient été perdues quelque part dans l'histoire. C'est pourquoi nous allons commencer en 2006 et aller un peu plus loin.


Toutes les publications de 40 hubs, qui sont actuellement en début de classement, participent à la revue. Une liste complète de ces moyeux est présentée sous le spoiler. En fait, beaucoup d'entre eux n'existaient pas alors, cependant, lorsque de nouveaux pôles ont été ajoutés, des publications y ont été transférées.



Les informations ont été collectées à l'aide d'un ensemble de scripts PHP. Chaque publication a été téléchargée, le contenu de la balise <div id = "post-content-body"> a été déterminé et la présence de balises <img> a été vérifiée. Pour chaque image, des liens vers des images sont stockés en référence à l'ID de publication sur le Habré. À l'avenir, ces informations seront analysées.


Quoi et quand ont-ils publié


2006


Au tout début de Habr, il n'y avait pas autant de publications que maintenant, mais il y a encore moins d'images. Au total, en 2006 (à partir du 5 juin 2006), 221 postes ont été publiés dans les hubs répertoriés. 53 de ces messages contiennent un total de 75 images. Maximum d'images (10 pièces) dans la publication " Dix gadgets qui ont changé le monde ". 50 dessins sont déjà sur Habrastorage. 25 autres ont perdu. Tous sont uniques et ne se répètent pas.


Fait intéressant: deux des images mènent à Habr lui-même, mais en même temps, ne sont pas disponibles depuis longtemps. Ce sont des images http://www.habrahabr.ru/tmp/sup_blogs_preview.gif et http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Ainsi, en 2006, 33,3% des images des publications ont été perdues.


2007


En 2007, le nombre de publications a considérablement augmenté, tout comme le nombre d'images - 1 713 publications ont été publiées. 599 publications contiennent 1 467 images. 1 229 images ont été transférées à Habrastorage et 238 ont été perdues ( 16,2% ).


Fait intéressant: La publication des 100 meilleures applications Mac OS contient un maximum pour 2007 - 100 images et ne contient pas de texte de copyright.

De plus, certaines de ces images perdues sont répétées. Ainsi, l'un d'eux se produit 6 fois dans une publication avec seulement 6 images. En outre, l'image "Up.gif" est répétée 21 fois, 16 - "Down.gif" et 8 - "Same.gif" à partir d'un domaine. Et toutes ces 45 images d' un seul post , dans lesquelles seulement 47 images.


Il reste 191 <img> uniques.


2008


Puisque d'année en année le nombre de publications sur Habré n'a fait qu'augmenter, en 2008 notre détective considérera 2 520 publications, ainsi que 2 969 images. Nous avons remarqué qu'en 2008, le nombre d'images dans les publications dépasse finalement le nombre de publications. Dans le même temps, seuls 1 207 messages contiennent des images et un maximum de 42 éléments d'informations graphiques sont présentés dans la publication " History of Google Holiday Logos ". 1 943 images sont déjà stockées sur Habrastorage et 1 026 sont perdues ( 34,6% ).


Un fait intéressant: l' image la plus inattendue (ou plutôt, un problème dans la conception de la publication) est ici . En conséquence, Habr essaie de charger l'image sur http: // # /.


Fig. 1. Statistiques générales examinées


Est-il possible de restaurer au moins quelque chose?


La récupération partielle n'est pas difficile. Par exemple, la manière la plus «paresseuse» serait d'utiliser Internet Archive pour tenter de charger des pages de publication enregistrées. De plus, vous pouvez essayer de "trouver" dans l'archive les images elles-mêmes par des liens directs.


Lifehack: Vous devez vérifier la disponibilité des images dans toutes les versions de la page dans l'archive, pas seulement les plus anciennes et les plus récentes.

Malheureusement, bien que cette méthode fonctionne dans certains cas, il est si difficile de restaurer au moins la moitié des images. Par conséquent, l'étape suivante consiste à vérifier l'hébergement croisé, les traductions originales et, naturellement, les copies d'archives des pages originales.


De plus, vous pouvez essayer de trouver l'image souhaitée en utilisant l'un des miroirs Habrir non officiels qui fonctionnaient autrefois et conservent toujours certaines des informations copiées.


La dernière option et la plus difficile est l'utilisation des moteurs de recherche. Si vous savez exactement ce qui devrait être dans l'image (il y a une description et un contexte), il y a une chance de trouver des fichiers avec le même nom s'ils ont déjà été copiés par quelqu'un vers une autre ressource.


Naturellement, chaque étape suivante augmente le temps de recherche de manière non linéaire.


Qu'est-ce qui a réussi à trouver


Vous ne serez peut-être pas très impressionné par le nombre d'images trouvées jusqu'à présent - il y en a 300 (contenues dans 140 publications de 81 auteurs). Si l'on prend en compte le nombre de «pertes» (1 242), le résultat est d'environ 24,2% . Pourquoi y a-t-il moins d'images manquantes qu'auparavant? Toutes les images inutiles (telles que les compteurs de vues) et les images inexistantes (telles que les http: // # / déjà mentionnés, ainsi que http: //fig.jpg/ , etc.) sont supprimées.


Comment est né ce chiffre rond? Le fait est qu'environ 300 ont terminé la journée de recherche. Au début, j'allais atteindre 333, mais 300 ont aussi l'air plutôt bien. De plus, à l'heure actuelle, environ 33% de toutes les "victimes de fouilles" restent totalement non vérifiées.



Fig. 2. Recherches en cours


Toutes les images trouvées (à l'exception d'un .bmp, avec 301) ont été téléchargées sur hsto.org , et des liens vers celles-ci et les publications, ainsi que les indices d'images qu'elles contiennent , sont donnés dans la section suivante.


Résultats


Ainsi, sous le spoiler se trouvent les images trouvées avec succès, ainsi que l'ID de publication, l'index de l'image à l'intérieur du texte de publication (à partir de 1, pas de 0) et l'auteur de la publication. Si vous êtes l'auteur des publications mentionnées et que les chiffres trouvés sont corrects, veuillez corriger vos messages. Je vous remercie!


Soit dit en passant, certaines images sont en fait toujours disponibles pour être consultées dans les publications, mais n'ont pas été transférées à Habrastorage, et peuvent donc à un moment donné devenir également inaccessibles.


300 photos
L'auteurIdentifiant de publicationIndex et référencesExemple
0x62ash271491
0xa8111051
2bad6071
10971
11061 , 2 , 3 , 5 , 24
138362
4eese308201 , 2 , 3 , 5
8cinq418531
464981
Adam_B125821
ainu395011
alardus26281
Alaska234471 , 2
aleks_raiden244792
305943
390371
403121 , 2 , 3 , 4
441521 , 2 , 3
462941
467411
477821 , 2 , 3 , 4 , 5
alfsoft427821 , 2 , 3 , 4 , 5
alizar377791 , 2
altblog446771
arestov379211
artch197261
badlittleduck162921 , 2 , 3 , 4 , 5
Barkov263351
Bbsod85051
bO_oblik221501 , 2 , 3 , 4 , 5
221861
222151
223221 , 2 , 3 , 4 , 5 , 6
223341 , 2
223751 , 2 , 3
225101 , 2
226141
228361 , 2
261811 , 2 , 3 , 4 , 6
281961 , 2 , 3 , 4 , 5 , 6 , 7 , 8
297061 , 2 , 3 , 4
314901 , 2 , 3 , 4
367131
371801
372491
373061 , 2
380131
383891 , 2
411041 , 2
416471
418211 , 2
chisto_v127831
chulak457831 , 2 , 3 , 4 , 5 , 6 , 7
Cosss310691
Curlybrace110101
119411
141571
373031
dreikanter313201 , 2 , 4
séduire407671
Fenniks208432
239021
391091
premier octet383141
freetonik265931
frujo409871
garbuz296941
Gorinich120271
La gravité288401
href469081 , 2
iljava309022 , 3
Imposeren265661
invladis429041
Karlsson8971Down.gif , Same.gif , tpci_trends.png , Up.gif
310421
310501
311411 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17
Klaus157751 , 2 , 3 , 4 , 5 , 6 , 7 , 8
Lain_13168912
le0pard383911
LukaSafonov435371
meako267051
Midgard314192 , 3 , 4
Mio3961
7531
9361
mozaic7441
Mr_Floppy283431
nul444761
officier1101
oleg_bunin72071
72261
86791
127681
olegafx439341 , 2 , 3 , 4 , 5 , 6 , 7 , 8-9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19
ostrovityanine371462 , 3
ponomar141411
porchini218501 , 2
Pure_by84161
RAF8511 , 2
ramber436931
rost443801
ruskar425783 , 5 , 8
saintd7021
Samdark301041
Scala378044
Shapelez232601
443791 , 2
461131
465991
475361
écorce81341 , 2
smartov171603
smitana303751
spanasik4475517
spiritus_sancti411291 , 2
Summerdream38011
ours ensoleillé312111 , 2
Commutateur90951
Taoorus375071
Thoggen387331
450241
451701
tsepelev366111
Vadimua469221
vitol260731 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19 , 20 , 21
301711 , 2 , 3
XaocCPS400361
2843901
2843921
2843941
2843961
yaneblog390071 , 6
406213
yesutin94531
96451
310781 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12
yshilyaev55561 , 2 , 3
Zada311232
Zigzag154921

Au lieu d'une conclusion


Peut-être que quelqu'un trouvera que la restauration de ces informations obsolètes n'a aucun sens. Et d'ailleurs, certaines des images trouvées n'avaient aucun sens lors de leur publication. Bien sûr que oui.


Toute information est importante. Du moins du point de vue de l'analyse historique. Sans parler du fait que dans certains documents protégés par le droit d'auteur, il a un rôle clé. Oui, pour le moment Habr n'a même pas 15 ans et certaines sources sont toujours disponibles, mais avec le temps elles deviendront de moins en moins, et donc vous devriez penser à l'avance s'il y aura quelque chose pour plus tard ou s'il y aura une "image éternelle" disponible. "


Eh bien, n'oubliez pas que les bouchons d'images inaccessibles sont tout simplement ennuyeux. Bien sûr, peu de gens liront "quelques vieux trucs", mais de telles personnes seront trouvées. Par conséquent, puisque ces publications sur Habré existent toujours, leur contenu doit être aussi complet que possible.


Malheureusement, même si Habrastorage ne prend pas en charge le chargement directement pour tous les formats d'image, il peut un jour être corrigé.


Le dernier problème que je veux mentionner, et auquel vous avez probablement pensé, est "et si l'auteur n'a pas utilisé Habr depuis longtemps et qu'il n'est pas intéressé à corriger l'ancien?" J'ai eu cette question dans ma tête plus d'une fois, mais la solution ici n'est pas si difficile. Les OVNIS peuvent toujours être fixés par des OVNIS représentés par des modérateurs (pouvez-vous, Exosphère ?) Ou par l'administration ( Boomburum peut confier une tâche à quelqu'un).


Et que pensez-vous, cela vaut-il la peine d'essayer de restaurer au moins quelque chose?


C'est tout pour aujourd'hui. Merci de votre attention et laissez toutes vos images télécharger sur Habrastorage sans aucun problème! Que ce ne soit pas comme ça





PS Si vous trouvez des fautes de frappe ou des erreurs dans le texte, faites-le moi savoir. Cela peut être fait en mettant en surbrillance une partie du texte et en appuyant sur " Ctrl / ⌘ + Entrée ", si vous avez Ctrl / ⌘, ou par le biais de messages privés . Si les deux options ne sont pas disponibles, notez les erreurs dans les commentaires. Je vous remercie!


PPS Peut-être serez-vous également intéressé par mes autres études sur Habr ou vous souhaitez suggérer votre sujet pour la prochaine publication, ou peut-être même une nouvelle série de publications.


Où trouver la liste et comment faire une offre

Toutes les informations peuvent être trouvées dans un référentiel spécial de détective Habra . Vous pouvez y découvrir quelles propositions ont déjà été exprimées et ce qui est déjà en cours.


De plus, vous pouvez me mentionner (en écrivant VaskivskyiYe ) dans les commentaires sur une publication que vous trouvez intéressante pour la recherche ou l'analyse.

Source: https://habr.com/ru/post/fr484454/


All Articles