Detektif Habra: fotomu hilang


Pernahkah Anda bertanya-tanya berapa banyak informasi yang benar-benar hilang? Lagi pula, informasi adalah tujuan Habr. Apakah Anda tahu apa yang paling sering terjadi dengan sumber daya berdasarkan publikasi pengguna? Penulis menyisipkan gambar, gambar, dan video dari situs pihak ketiga dan setelah beberapa waktu mereka tidak lagi tersedia. Inilah mengapa Habrastorage pernah diciptakan untuk . Praktik telah menunjukkan bahwa tidak seorang pun (kecuali editor dan beberapa penggemar) mengunggah gambar di sana sendiri. Oleh karena itu, pada titik tertentu, administrasi Habr membuat fungsi ini otomatis - setiap gambar yang muncul dalam publikasi secara otomatis diunggah ke repositori dan tidak akan hilang dari sana sementara Habr itu sendiri ada. Tentu saja, ada pengecualian dan ada yang salah , tetapi sekarang bukan tentang mereka.


Masalah terbesar dalam keseluruhan skema ini dengan memuat gambar di Habrastorage terjadi selama implementasinya. Pada saat itu, beberapa publikasi lama sudah tanpa gambar, dan karenanya tetap demikian. Hari ini kita akan mencoba mencari tahu berapa banyak informasi grafik yang hilang sejak kelahiran Habr. Selain itu, dapatkah kita mengatur untuk menemukan sesuatu dari yang hilang? Bagaimanapun, "gambar tidak dapat dimuat" rintisan ini menjengkelkan, bukan? Detektif hari ini didedikasikan untuk hal itu. Ayo mulai!


Mungkin Anda disebutkan dalam pelacak di artikel ini? Mungkin, di salah satu publikasi lama Anda sebuah gambar menghilang, tetapi saya menemukannya. Jika Anda tidak ingin membaca seluruh publikasi, Anda cukup menggulir ke spoiler di bagian paling akhir (bagian Hasil ), yang mencantumkan semua publikasi dan menemukan gambar. Terima kasih

Pengantar dan Metode


Detektif kami akan mulai dari awal (secara logis, bukan?). Dari awal Habr. Lagi pula, semakin awal setiap posting dipublikasikan, semakin besar kemungkinan bahwa gambar-gambar itu hilang di suatu tempat dalam sejarah. Itu sebabnya kami akan mulai pada 2006 dan maju sedikit.


Semua publikasi dari 40 hub, yang saat ini berada di awal peringkat, berpartisipasi dalam ulasan. Daftar lengkap hub ini disajikan di bawah spoiler. Bahkan, banyak dari mereka tidak ada saat itu, namun, ketika hub baru ditambahkan, publikasi dipindahkan ke sana.



Informasi dikumpulkan menggunakan satu set skrip PHP. Setiap publikasi diunggah, konten tag <div id = "post-content-body"> ditentukan, dan keberadaan tag <img> diperiksa. Untuk setiap gambar, tautan ke gambar disimpan dengan mengacu pada ID publikasi pada Habré. Di masa depan, informasi ini dianalisis.


Apa dan kapan mereka menerbitkan


2006


Pada awal Habr, tidak ada publikasi sebanyak sekarang, tetapi ada lebih sedikit foto di dalamnya. Secara total, pada tahun 2006 (mulai tanggal 5 Juni 2006) 221 posting dipublikasikan di hub terdaftar. 53 dari posting ini berisi total 75 gambar. Maksimum gambar (10 buah) di publikasi " Sepuluh gadget yang mengubah dunia ." 50 gambar sudah ada di Habrastorage. 25 lainnya hilang. Semuanya unik dan tidak diulang.


Fakta menarik: Dua gambar mengarah ke Habr sendiri, tetapi pada saat yang sama, belum tersedia untuk waktu yang lama. Ini adalah gambar http://www.habrahabr.ru/tmp/sup_blogs_preview.gif dan http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Jadi, pada tahun 2006, 33,3% gambar dalam publikasi hilang.


2007


Pada tahun 2007, jumlah publikasi meningkat secara signifikan, seperti halnya jumlah gambar - 1.713 posting diterbitkan. 599 Publikasi berisi 1.467 gambar. 1.229 gambar dipindahkan ke Habrastorage, dan 238 hilang ( 16,2% ).


Fakta menarik: Publikasi aplikasi Top 100 Mac OS berisi maksimum untuk 2007 - 100 gambar dan tidak mengandung teks hak cipta.

Selain itu, beberapa gambar yang hilang diulang. Jadi, salah satunya muncul 6 kali dalam satu publikasi dengan hanya 6 gambar. Juga, gambar "Up.gif" diulang 21 kali, 16 - "Down.gif" dan 8 - "Same.gif" dari satu domain. Dan semua 45 gambar ini dari satu posting , di mana hanya 47 gambar.


Masih ada 191 <img> unik.


2008


Karena dari tahun ke tahun jumlah publikasi tentang Habré hanya meningkat, pada tahun 2008 detektif kami akan mempertimbangkan 2.520 publikasi, serta 2.969 gambar. Kami perhatikan bahwa pada 2008 jumlah gambar dalam publikasi akhirnya melebihi jumlah publikasi. Pada saat yang sama, hanya 1.207 posting berisi gambar, dan maksimal 42 elemen informasi grafis disajikan dalam publikasi " History of Google Holiday Logos ". 1.943 gambar sudah disimpan di Habrastorage, dan 1.026 hilang ( 34,6% ).


Fakta menarik: Gambar paling tak terduga (atau lebih tepatnya, masalah dalam desain publikasi) ada di sini . Akibatnya, Habr mencoba memuat gambar di http: // # /.


Fig. 1. Statistik umum ditinjau


Apakah mungkin mengembalikan setidaknya sesuatu?


Pemulihan parsial tidak sulit. Misalnya, cara paling "malas" adalah menggunakan Internet Archive dalam upaya memuat halaman publikasi yang disimpan. Selain itu, Anda dapat mencoba "menemukan" di arsip gambar itu sendiri melalui tautan langsung.


Lifehack: Anda perlu memeriksa ketersediaan gambar di semua versi halaman dalam arsip, tidak hanya yang tertua dan terbaru.

Sayangnya, meskipun metode ini berfungsi dalam beberapa kasus, sangat sulit untuk mengembalikan setidaknya setengah dari gambar. Oleh karena itu, langkah selanjutnya adalah memeriksa lintas-hosting, terjemahan asli dan, tentu saja, salinan arsip dari halaman asli.


Selain itu, Anda dapat mencoba menemukan gambar yang diinginkan menggunakan salah satu cermin Habrir tidak resmi yang pernah berfungsi dan masih menyimpan beberapa informasi yang disalin.


Opsi terakhir dan paling sulit adalah penggunaan mesin pencari. Jika Anda tahu persis apa yang harus ada dalam gambar (ada deskripsi dan konteks), ada peluang untuk menemukan file dengan nama yang sama jika mereka pernah disalin ke sumber lain oleh seseorang.


Secara alami, setiap langkah berikutnya meningkatkan waktu pencarian secara nonlinier.


Apa yang berhasil ditemukan


Anda mungkin tidak terlalu terkesan dengan jumlah gambar yang ditemukan sejauh ini - ada 300 di antaranya (terkandung dalam 140 publikasi dari 81 penulis). Jika kita memperhitungkan jumlah "kerugian" (1,242), hasilnya adalah sekitar 24,2% . Mengapa ada lebih sedikit gambar yang hilang dari sebelumnya? Semua gambar yang tidak berguna (seperti penghitung tampilan) dan gambar yang tidak ada (seperti http yang telah disebutkan: // # /, serta http: //fig.jpg/ , dll.) Dihapus dari pertimbangan.


Bagaimana bilangan bulat ini terjadi? Faktanya adalah bahwa sekitar 300 mengakhiri hari pencarian. Pada awalnya, saya akan mencapai 333, tetapi 300 juga terlihat cukup bagus. Selain itu, saat ini, sekitar 33% dari semua "korban pencarian" tetap tidak diverifikasi.



Fig. 2. Pencarian Saat Ini


Semua gambar yang ditemukan (kecuali satu .bmp, dengan itu akan menjadi 301) diunggah ke hsto.org , dan tautan ke mereka dan publikasi, serta indeks gambar di dalamnya, diberikan di bagian berikutnya.


Hasil


Jadi, di bawah spoiler adalah gambar yang berhasil ditemukan, serta id publikasi, indeks gambar di dalam teks publikasi (mulai dari 1, bukan dari 0) dan penulis publikasi. Jika Anda adalah penulis publikasi yang disebutkan, dan angka-angka yang ditemukan adalah benar, harap perbaiki posting Anda. Terima kasih


Ngomong-ngomong, beberapa gambar sebenarnya masih tersedia untuk dilihat di publikasi, tetapi belum ditransfer ke Habrastorage, dan karena itu pada beberapa titik mungkin juga menjadi tidak dapat diakses.


300 gambar
PenulisID publikasiIndeks dan ReferensiContoh
0x62ash271491
0xa8111051
2bad6071
10971
11061 , 2 , 3 , 5 , 24
138362
4ese308201 , 2 , 3 , 5
8cinq418531
464981
Adam_B125821
ainu395011
alardus26281
Alaska234471 , 2
aleks_raiden244792
305943
390371
403121 , 2 , 3 , 4
441521 , 2 , 3
462941
467411
477821 , 2 , 3 , 4 , 5
alfsoft427821 , 2 , 3 , 4 , 5
alizar377791 , 2
altblog446771
arestov379211
artch197261
badlittleduck162921 , 2 , 3 , 4 , 5
Barkov263351
Bbsod85051
bO_oblik221501 , 2 , 3 , 4 , 5
221861
222151
223221 , 2 , 3 , 4 , 5 , 6
223341 , 2
223751 , 2 , 3
225101 , 2
226141
228361 , 2
261811 , 2 , 3 , 4 , 6
281961 , 2 , 3 , 4 , 5 , 6 , 7 , 8
297061 , 2 , 3 , 4
314901 , 2 , 3 , 4
367131
371801
372491
373061 , 2
380131
383891 , 2
411041 , 2
416471
418211 , 2
chisto_v127831
chulak457831 , 2 , 3 , 4 , 5 , 6 , 7
Cosss310691
Curlybrace110101
119411
141571
373031
dreikanter313201 , 2 , 4
menarik407671
Fennik208432
239021
391091
firstbyte383141
freetonik265931
frujo409871
garbuz296941
gorinich120271
Gravitasi288401
href469081 , 2
iljava309022 , 3
Imposeren265661
invladis429041
Karlsson8971Down.gif , Same.gif , tpci_trends.png , Up.gif
310421
310501
311411 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17
Klaus157751 , 2 , 3 , 4 , 5 , 6 , 7 , 8
Lain_13168912
lepard383911
LukaSafonov435371
meako267051
Midgard314192 , 3 , 4
Mio3961
7531
9361
mozaic7441
Mr_Floppy283431
nihil444761
petugas1101
oleg_bunin72071
72261
86791
127681
olegafx439341 , 2 , 3 , 4 , 5 , 6 , 7 , 8-9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19
ostrovityanin371462 , 3
ponomar141411
Porchini218501 , 2
Pure_by84161
RAF8511 , 2
ramber436931
rost443801
ruskar425783 , 5 , 8
santo7021
Samdark301041
Scala378044
Shapelez232601
443791 , 2
461131
465991
475361
slaff81341 , 2
smartov171603
smitana303751
spanasik4475517
spiritus_sancti411291 , 2
Summerdream38011
sunnybear312111 , 2
Beralih90951
Taoor375071
Thoggen387331
450241
451701
tsepelev366111
Vadimua469221
vitol260731 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19 , 20 , 21
301711 , 2 , 3
XaocCPS400361
2843901
2843921
2843941
2843961
yaneblog390071 , 6
406213
yesutin94531
96451
310781 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12
yshilyaev55561 , 2 , 3
Zada311232
Zigzag154921

Alih-alih sebuah kesimpulan


Mungkin seseorang akan menemukan bahwa memulihkan informasi yang sudah ketinggalan zaman tidak masuk akal. Dan selain itu, beberapa gambar yang ditemukan tidak ada artinya ketika mereka diterbitkan. Tentu saja.


Setiap informasi penting. Setidaknya dari sudut pandang analisis historis. Belum lagi fakta bahwa dalam beberapa materi berhak cipta ia memiliki peran kunci. Ya, saat ini Habr belum genap 15 tahun dan beberapa sumber masih tersedia, tetapi seiring berjalannya waktu akan semakin berkurang, dan oleh karena itu Anda harus memikirkan sebelumnya apakah akan ada sesuatu untuk nanti atau akan ada citra abadi " tersedia. "


Yah, jangan lupa bahwa colokan gambar yang tidak dapat diakses hanya mengganggu. Tentu saja, beberapa orang akan membaca "beberapa barang lama", tetapi orang-orang seperti itu akan ditemukan. Karena itu, karena publikasi tentang Habré ini masih ada, isinya harus selengkap mungkin.


Sayangnya, meskipun Habrastorage tidak mendukung pemuatan secara langsung untuk semua format gambar, suatu hari kelak mungkin diperbaiki.


Masalah terakhir yang ingin saya sebutkan, dan yang mungkin Anda pikirkan, adalah "bagaimana jika penulis tidak menggunakan Habr untuk waktu yang lama dan dia tidak tertarik untuk memperbaiki barang-barang lama?" Saya sudah memiliki pertanyaan ini di kepala saya lebih dari sekali, tetapi solusinya di sini tidak begitu sulit. UFO selalu dapat diperbaiki oleh UFO yang diwakili oleh moderator (dapatkah Anda, Exosphere ?) Atau administrasi ( Boomburum dapat memberi seseorang tugas).


Dan apa yang Anda pikirkan, apakah ada baiknya mencoba mengembalikan setidaknya sesuatu?


Itu saja untuk hari ini. Terima kasih atas perhatian Anda dan biarkan semua gambar Anda diunggah ke Habrastorage tanpa masalah! Jangan sampai seperti itu





PS Jika Anda menemukan kesalahan ketik atau kesalahan dalam teks, beri tahu saya. Ini dapat dilakukan dengan menyorot bagian teks dan menekan " Ctrl / ⌘ + Enter ", jika Anda memiliki Ctrl / ⌘, atau melalui pesan pribadi . Jika kedua opsi tidak tersedia, tulis tentang kesalahan dalam komentar. Terima kasih


PPS Mungkin Anda akan tertarik juga pada penelitian saya yang lain tentang Habr atau Anda ingin menyarankan topik Anda untuk publikasi berikutnya, atau mungkin bahkan serangkaian publikasi baru.


Di mana menemukan daftar dan cara mengajukan penawaran

Semua informasi dapat ditemukan di gudang detektif Habra khusus. Di sana Anda dapat mengetahui proposal mana yang telah disuarakan, dan apa yang sedang berlangsung.


Selain itu, Anda dapat menyebut saya (dengan menulis VaskivskyiYe ) dalam komentar di publikasi yang menurut Anda menarik untuk penelitian atau analisis.

Source: https://habr.com/ru/post/id484454/


All Articles