Habra Detektiv: Ihr Bild ist verloren


Haben Sie sich jemals gefragt, wie viele Informationen vollständig verloren gehen? Denn für Informationen gibt es Habr. Wissen Sie, was am häufigsten mit Ressourcen geschieht, die auf Benutzerpublikationen basieren? Autoren fügen Bilder, Bilder und Videos von Websites Dritter ein und nach einiger Zeit sind sie nicht mehr verfügbar. Genau dafür wurde Habrastorage geschaffen. Die Praxis hat gezeigt, dass niemand (außer den Redakteuren und ein paar Enthusiasten) dort selbst Bilder hochladen kann. Daher hat die Habr-Administration diese Funktion zu einem bestimmten Zeitpunkt automatisch aktiviert. Jedes in der Publikation angezeigte Bild wird automatisch in das Repository hochgeladen und verschwindet dort nicht, solange das Habr selbst vorhanden ist. Natürlich gibt es Ausnahmen und es kann etwas schief gehen , aber jetzt geht es nicht darum.


Das größte Problem in diesem gesamten Schema beim Laden von Bildern in Habrastorage trat während der Implementierung auf. Zu diesem Zeitpunkt waren einige alte Veröffentlichungen bereits ohne Zeichnungen und blieben es daher. Heute werden wir versuchen herauszufinden, wie viele grafische Informationen Habr seit seiner Geburt verloren hat. Können wir außerdem etwas von den Vermissten finden? Immerhin nervt dieser Stub "Bild kann nicht geladen werden", oder? Der heutige Detektiv widmet sich genau dem. Fangen wir an!


Vielleicht wurdest du im Tracker in diesem Artikel erwähnt? Wahrscheinlich ist in einer Ihrer alten Publikationen ein Bild verschwunden, aber ich habe es gefunden. Wenn Sie nicht die gesamte Publikation lesen möchten, scrollen Sie einfach zum Spoiler ganz am Ende ( Ergebnisbereich ), in dem alle Publikationen und gefundenen Bilder aufgelistet sind. Vielen Dank!

Einführung und Methoden


Unser Detektiv wird von Anfang an beginnen (logischerweise, oder?). Seit Beginn von Habr. Denn je früher ein Beitrag veröffentlicht wurde, desto wahrscheinlicher war es, dass die Bilder davon irgendwo in der Geschichte verloren gingen. Deshalb werden wir 2006 anfangen und ein bisschen weiter gehen.


Alle Veröffentlichungen von 40 Hubs, die sich derzeit am Anfang des Ratings befinden, nehmen an der Überprüfung teil. Eine vollständige Liste dieser Hubs finden Sie unter dem Spoiler. Tatsächlich existierten viele von ihnen damals noch nicht, als jedoch neue Hubs hinzugefügt wurden, wurden Veröffentlichungen dorthin übertragen.



Informationen wurden mithilfe einer Reihe von PHP-Skripten gesammelt. Jede Veröffentlichung wurde hochgeladen, der Inhalt des Tags <div id = "post-content-body"> wurde bestimmt und das Vorhandensein von <img> -Tags wurde überprüft. Für jedes Bild werden Links zu Bildern mit Bezug auf die Publikations-ID auf dem Habré gespeichert. Zukünftig werden diese Informationen analysiert.


Was und wann haben sie veröffentlicht?


2006


Ganz am Anfang von Habr gab es nicht so viele Veröffentlichungen wie jetzt, aber es sind noch weniger Bilder darin. Insgesamt wurden 2006 (ab 5. Juni 2006) 221 Posts in den aufgelisteten Hubs veröffentlicht. 53 dieser Beiträge enthalten insgesamt 75 Bilder. Maximal 10 Bilder in der Publikation " Zehn Geräte, die die Welt verändert haben ". 50 Zeichnungen befinden sich bereits im Habrastorage. Weitere 25 verloren. Alle von ihnen sind einzigartig und wiederholen sich nicht.


Interessante Tatsache: Zwei der Bilder führen zu Habr selbst, stehen aber gleichzeitig schon lange nicht mehr zur Verfügung. Dies sind die Bilder http://www.habrahabr.ru/tmp/sup_blogs_preview.gif und http://www.habrahabr.ru/tmp/upgrade-chart.gif.

So gingen 2006 33,3% der Bilder in Veröffentlichungen verloren.


2007


Im Jahr 2007 nahm die Anzahl der Veröffentlichungen ebenso wie die Anzahl der Bilder erheblich zu - 1.713 Beiträge wurden veröffentlicht. 599 Publikationen enthalten 1.467 Bilder. 1.229 Bilder wurden an Habrastorage übertragen und 238 gingen verloren ( 16,2% ).


Interessante Tatsache: Die Veröffentlichung der Top 100 Mac OS-Anwendungen enthält ein Maximum für 2007-100 Bilder und keinen Copyright-Text.

Außerdem werden einige dieser verlorenen Bilder wiederholt. Einer von ihnen kommt also 6 Mal in einer Publikation mit nur 6 Bildern vor. Außerdem wird das Bild "Up.gif" 21 Mal wiederholt, 16 Mal "Down.gif" und 8 Mal "Same.gif" von einer Domain. Und all diese 45 Bilder aus einem Beitrag , in dem nur 47 Bilder enthalten sind.


Es verbleiben 191 eindeutige <img>.


2008


Da von Jahr zu Jahr die Anzahl der Veröffentlichungen auf Habré nur zugenommen hat, wird unser Detektiv 2008 2.520 Veröffentlichungen sowie 2.969 Bilder berücksichtigen. Wir haben festgestellt, dass 2008 die Anzahl der Bilder in Veröffentlichungen letztendlich die Anzahl der Veröffentlichungen übersteigt. Gleichzeitig enthalten nur 1.207 Beiträge Bilder und in der Publikation " History of Google Holiday Logos " werden maximal 42 Elemente grafischer Informationen dargestellt. 1.943 Bilder sind bereits auf Habrastorage gespeichert und 1.026 gehen verloren ( 34,6% ).


Eine interessante Tatsache: Das unerwartetste Bild (oder vielmehr ein Problem bei der Gestaltung der Publikation) ist hier . Als Ergebnis versucht Habr, das Bild auf http: // # / zu laden.


Abb. 1. Allgemeine Statistiken überprüft


Ist es möglich, zumindest etwas wiederherzustellen?


Eine teilweise Wiederherstellung ist nicht schwierig. Am „faulsten“ ist es beispielsweise, mit Internet Archive zu versuchen, gespeicherte Veröffentlichungsseiten zu laden. Außerdem können Sie versuchen, die Bilder selbst über direkte Links im Archiv zu "finden".


Lifehack: Sie müssen die Verfügbarkeit von Bildern in allen Versionen der Seite im Archiv überprüfen, nicht nur in den ältesten und neuesten.

Obwohl diese Methode in einigen Fällen funktioniert, ist es leider so schwierig, mindestens die Hälfte der Bilder wiederherzustellen. Der nächste Schritt besteht daher darin, Cross-Hosting, Originalübersetzungen und natürlich Archivkopien der Originalseiten zu überprüfen.


Darüber hinaus können Sie versuchen, das gewünschte Bild mit einem der inoffiziellen Habrir-Spiegel zu finden, die früher funktionierten und noch einige der kopierten Informationen speichern.


Die letzte und schwierigste Option ist die Verwendung von Suchmaschinen. Wenn Sie genau wissen, was im Bild enthalten sein soll (es gibt eine Beschreibung und einen Kontext), besteht die Möglichkeit, Dateien mit demselben Namen zu finden, wenn sie einmal von jemandem in eine andere Ressource kopiert wurden.


Natürlich erhöht jeder nächste Schritt die Suchzeit nichtlinear.


Was es geschafft hat zu finden


Die Anzahl der bisher gefundenen Bilder mag Sie nicht sonderlich beeindrucken - es gibt 300 davon (in 140 Publikationen von 81 Autoren enthalten). Berücksichtigt man die Anzahl der „Verluste“ (1.242), ergibt sich ein Ergebnis von rund 24,2% . Warum fehlen weniger Bilder als zuvor? Alle nutzlosen Bilder (z. B. Ansichtszähler) und nicht vorhandenen Bilder (z. B. das bereits erwähnte http: // # / sowie http: //fig.jpg/ usw.) werden nicht berücksichtigt.


Wie kam es zu dieser runden Zahl? Tatsache ist, dass ungefähr 300 den Tag der Suche beendeten. Anfangs würde ich 333 erreichen, aber 300 sehen auch ziemlich gut aus. Darüber hinaus bleiben derzeit etwa 33% aller "Durchsuchungsopfer" vollständig unbestätigt.



Abb. 2. Aktuelle Suchen


Alle gefundenen Bilder (mit Ausnahme eines .bmp, bei dem es sich um 301 handelte) wurden auf hsto.org hochgeladen. Links zu diesen und Veröffentlichungen sowie die darin enthaltenen Bildindizes werden im nächsten Abschnitt angegeben.


Ergebnisse


Unter dem Spoiler befinden sich also die erfolgreich gefundenen Bilder sowie die Publikations-ID, der Index des Bildes im Publikationstext (ab 1, nicht ab 0) und der Autor der Publikation. Wenn Sie der Autor der genannten Publikationen sind und die gefundenen Zahlen korrekt sind, korrigieren Sie bitte Ihre Beiträge. Vielen Dank!


Übrigens sind einige Bilder tatsächlich noch für die Anzeige in Veröffentlichungen verfügbar, wurden jedoch nicht an Habrastorage übertragen und können daher zu einem bestimmten Zeitpunkt auch unzugänglich werden.


300 Bilder
Der AutorPublikations-IDIndizes und ReferenzenBeispiel
0x62ash271491
0xa8111051
2bad6071
10971
11061 , 2 , 3 , 5 , 24
138362
4eese308201 , 2 , 3 , 5
8cinq418531
464981
Adam_B125821
ainu395011
alardus26281
Alaska234471 , 2
aleks_raiden244792
305943
390371
403121 , 2 , 3 , 4
441521 , 2 , 3
462941
467411
477821 , 2 , 3 , 4 , 5
alfsoft427821 , 2 , 3 , 4 , 5
alizar377791 , 2
altblog446771
arestov379211
artch197261
Dummkopf162921 , 2 , 3 , 4 , 5
Barkov263351
Bbsod85051
bO_oblik221501 , 2 , 3 , 4 , 5
221861
222151
223221 , 2 , 3 , 4 , 5 , 6
223341 , 2
223751 , 2 , 3
225101 , 2
226141
228361 , 2
261811 , 2 , 3 , 4 , 6
281961 , 2 , 3 , 4 , 5 , 6 , 7 , 8
297061 , 2 , 3 , 4
314901 , 2 , 3 , 4
367131
371801
372491
373061 , 2
380131
383891 , 2
411041 , 2
416471
418211 , 2
chisto_v127831
Chulak457831 , 2 , 3 , 4 , 5 , 6 , 7
Cosss310691
Curlybrace110101
119411
141571
373031
Dreikanter313201 , 2 , 4
entzehren407671
Fenniks208432
239021
391091
erstes Byte383141
freetonik265931
frujo409871
Garbuz296941
Gorinich120271
Schwerkraft288401
href469081 , 2
iljava309022 , 3
Imposeren265661
Invladis429041
Karlsson8971Down.gif , Same.gif , tpci_trends.png , Up.gif
310421
310501
311411 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17
Klaus157751 , 2 , 3 , 4 , 5 , 6 , 7 , 8
Lain_13168912
le0pard383911
LukaSafonov435371
Meako267051
Midgard314192 , 3 , 4
Mio3961
7531
9361
Mozaic7441
Mr_Floppy283431
Null444761
Offizier1101
oleg_bunin72071
72261
86791
127681
olegafx439341 , 2 , 3 , 4 , 5 , 6 , 7 , 8-9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19
Ostrovityanin371462 , 3
Ponomar141411
Porchini218501 , 2
Pure_by84161
RAF8511 , 2
ramber436931
rost443801
Ruskar425783 , 5 , 8
Heiliger7021
Samdark301041
Scala378044
Shapelez232601
443791 , 2
461131
465991
475361
slaff81341 , 2
smartov171603
Smitana303751
spanasik4475517
spiritus_sancti411291 , 2
Sommertraum38011
Sonnenbär312111 , 2
Wechseln90951
Taoorus375071
Thoggen387331
450241
451701
tsepelev366111
Vadimua469221
vitol260731 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19 , 20 , 21
301711 , 2 , 3
XaocCPS400361
2843901
2843921
2843941
2843961
Yaneblog390071 , 6
406213
yesutin94531
96451
310781 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12
yshilyaev55561 , 2 , 3
Zada311232
Zickzack154921

Anstelle einer Schlussfolgerung


Vielleicht findet jemand, dass die Wiederherstellung derart veralteter Informationen keinen Sinn ergibt. Außerdem waren einige der gefundenen Bilder bei der Veröffentlichung bedeutungslos. Sicher ist es das.


Alle Informationen sind wichtig. Zumindest aus Sicht der historischen Analyse. Ganz zu schweigen von der Tatsache, dass es in einigen urheberrechtlich geschützten Materialien eine Schlüsselrolle spielt. Ja, im Moment ist Habr noch nicht einmal 15 Jahre alt und einige der Quellen sind noch verfügbar, aber im Laufe der Zeit werden sie immer weniger, und deshalb sollten Sie sich vorher überlegen, ob es etwas für später oder ein ewiges Bild geben wird verfügbar. "


Vergessen Sie nicht, dass die Stecker unzugänglicher Bilder einfach ärgerlich sind. Natürlich werden nur wenige Leute "altes Zeug" lesen, aber solche Leute werden gefunden. Da es diese Veröffentlichungen zu Habré noch gibt, sollte ihr Inhalt so vollständig wie möglich sein.


Leider unterstützt Habrastorage das direkte Laden nicht für alle Bildformate, es kann jedoch eines Tages behoben werden.


Das letzte Problem, das ich erwähnen möchte und über das Sie wahrscheinlich nachgedacht haben, ist "Was ist, wenn der Autor Habr lange nicht mehr benutzt hat und nicht daran interessiert ist, das alte Zeug zu korrigieren?" Ich habe diese Frage mehr als einmal im Kopf gehabt, aber die Lösung ist hier nicht so schwierig. UFOs können immer von UFOs repariert werden, die von Moderatoren vertreten werden (können Sie, Exosphere ?) Oder von der Verwaltung ( Boomburum kann jemandem eine Aufgabe geben).


Und was denkst du, lohnt es sich, wenigstens etwas wiederherzustellen?


Das ist alles für heute. Vielen Dank für Ihre Aufmerksamkeit und lassen Sie alle Ihre Bilder problemlos auf Habrastorage hochladen! Lass es nicht so sein





PS Wenn Sie Tippfehler oder Fehler im Text finden, lassen Sie es mich bitte wissen. Dies kann durch Markieren eines Teils des Textes und Drücken von " Strg / ⌘ + Eingabetaste ", wenn Sie Strg / ⌘ haben, oder durch private Nachrichten erfolgen . Wenn beide Optionen nicht verfügbar sind, schreiben Sie in den Kommentaren über Fehler. Vielen Dank!


PPS Vielleicht interessieren Sie sich auch für meine anderen Studien zu Habr, oder Sie möchten Ihr Thema für die nächste Publikation vorschlagen, oder vielleicht sogar eine neue Publikationsreihe.


Wo finde ich die Liste und wie mache ich ein Angebot?

Alle Informationen finden Sie in einem speziellen Habra Detektiv- Repository. Dort erfahren Sie, welche Vorschläge bereits eingereicht wurden und welche bereits in Bearbeitung sind.


Darüber hinaus können Sie mich (durch Schreiben von VaskivskyiYe ) in den Kommentaren zu einer Publikation erwähnen, die Sie für die Forschung oder Analyse interessant finden.

Source: https://habr.com/ru/post/de484454/


All Articles