
Pernahkah Anda bertanya-tanya berapa banyak informasi yang benar-benar hilang? Lagi pula, informasi adalah tujuan Habr. Apakah Anda tahu apa yang paling sering terjadi dengan sumber daya berdasarkan publikasi pengguna? Penulis menyisipkan gambar, gambar, dan video dari situs pihak ketiga dan setelah beberapa waktu mereka tidak lagi tersedia. Inilah mengapa Habrastorage pernah diciptakan untuk . Praktik telah menunjukkan bahwa tidak seorang pun (kecuali editor dan beberapa penggemar) mengunggah gambar di sana sendiri. Oleh karena itu, pada titik tertentu, administrasi Habr membuat fungsi ini otomatis - setiap gambar yang muncul dalam publikasi secara otomatis diunggah ke repositori dan tidak akan hilang dari sana sementara Habr itu sendiri ada. Tentu saja, ada pengecualian dan ada yang salah , tetapi sekarang bukan tentang mereka.
Masalah terbesar dalam keseluruhan skema ini dengan memuat gambar di Habrastorage terjadi selama implementasinya. Pada saat itu, beberapa publikasi lama sudah tanpa gambar, dan karenanya tetap demikian. Hari ini kita akan mencoba mencari tahu berapa banyak informasi grafik yang hilang sejak kelahiran Habr. Selain itu, dapatkah kita mengatur untuk menemukan sesuatu dari yang hilang? Bagaimanapun, "gambar tidak dapat dimuat" rintisan ini menjengkelkan, bukan? Detektif hari ini didedikasikan untuk hal itu. Ayo mulai!
Mungkin Anda disebutkan dalam pelacak di artikel ini? Mungkin, di salah satu publikasi lama Anda sebuah gambar menghilang, tetapi saya menemukannya. Jika Anda tidak ingin membaca seluruh publikasi, Anda cukup menggulir ke spoiler di bagian paling akhir (bagian Hasil ), yang mencantumkan semua publikasi dan menemukan gambar. Terima kasih
Pengantar dan Metode
Detektif kami akan mulai dari awal (secara logis, bukan?). Dari awal Habr. Lagi pula, semakin awal setiap posting dipublikasikan, semakin besar kemungkinan bahwa gambar-gambar itu hilang di suatu tempat dalam sejarah. Itu sebabnya kami akan mulai pada 2006 dan maju sedikit.
Semua publikasi dari 40 hub, yang saat ini berada di awal peringkat, berpartisipasi dalam ulasan. Daftar lengkap hub ini disajikan di bawah spoiler. Bahkan, banyak dari mereka tidak ada saat itu, namun, ketika hub baru ditambahkan, publikasi dipindahkan ke sana.
Daftar hub* nix , Algoritma , Kecerdasan Buatan , Astronautika , Bioteknologi , Otak , C ++ , Manajemen Pengembangan , DIY , Ekologi , Pengembangan game , Game dan konsol game , Kesehatan Geek , Sejarah TI , Keamanan Informasi , Karier TI , Karir TI , Infrastruktur TI , Perusahaan IT , Jawa , JavaScript , Undang-undang dalam TI , Lifehacks untuk Geeks , Pembelajaran mesin , Pembuatan dan pengembangan elektronik , Nginx , Sumber terbuka , Manajemen Personalia , Fisika , Ilmu Pengetahuan Populer , Manajemen Produk , Pemrograman , Manajemen Proyek , Python , Ruang Baca , Teknik Reverse , Jaringan dan komunitas sosial , Administrasi sistem , Analisis dan Desain Sistem , Masa depan ada di sini , Pengembangan situs web
Informasi dikumpulkan menggunakan satu set skrip PHP. Setiap publikasi diunggah, konten tag <div id = "post-content-body"> ditentukan, dan keberadaan tag <img> diperiksa. Untuk setiap gambar, tautan ke gambar disimpan dengan mengacu pada ID publikasi pada Habré. Di masa depan, informasi ini dianalisis.
Apa dan kapan mereka menerbitkan
2006
Pada awal Habr, tidak ada publikasi sebanyak sekarang, tetapi ada lebih sedikit foto di dalamnya. Secara total, pada tahun 2006 (mulai tanggal 5 Juni 2006) 221 posting dipublikasikan di hub terdaftar. 53 dari posting ini berisi total 75 gambar. Maksimum gambar (10 buah) di publikasi " Sepuluh gadget yang mengubah dunia ." 50 gambar sudah ada di Habrastorage. 25 lainnya hilang. Semuanya unik dan tidak diulang.
Fakta menarik: Dua gambar mengarah ke Habr sendiri, tetapi pada saat yang sama, belum tersedia untuk waktu yang lama. Ini adalah gambar http://www.habrahabr.ru/tmp/sup_blogs_preview.gif dan http://www.habrahabr.ru/tmp/upgrade-chart.gif.
Jadi, pada tahun 2006, 33,3% gambar dalam publikasi hilang.
2007
Pada tahun 2007, jumlah publikasi meningkat secara signifikan, seperti halnya jumlah gambar - 1.713 posting diterbitkan. 599 Publikasi berisi 1.467 gambar. 1.229 gambar dipindahkan ke Habrastorage, dan 238 hilang ( 16,2% ).
Fakta menarik: Publikasi aplikasi Top 100 Mac OS berisi maksimum untuk 2007 - 100 gambar dan tidak mengandung teks hak cipta.
Selain itu, beberapa gambar yang hilang diulang. Jadi, salah satunya muncul 6 kali dalam satu publikasi dengan hanya 6 gambar. Juga, gambar "Up.gif" diulang 21 kali, 16 - "Down.gif" dan 8 - "Same.gif" dari satu domain. Dan semua 45 gambar ini dari satu posting , di mana hanya 47 gambar.
Masih ada 191 <img> unik.
2008
Karena dari tahun ke tahun jumlah publikasi tentang Habré hanya meningkat, pada tahun 2008 detektif kami akan mempertimbangkan 2.520 publikasi, serta 2.969 gambar. Kami perhatikan bahwa pada 2008 jumlah gambar dalam publikasi akhirnya melebihi jumlah publikasi. Pada saat yang sama, hanya 1.207 posting berisi gambar, dan maksimal 42 elemen informasi grafis disajikan dalam publikasi " History of Google Holiday Logos ". 1.943 gambar sudah disimpan di Habrastorage, dan 1.026 hilang ( 34,6% ).
Fakta menarik: Gambar paling tak terduga (atau lebih tepatnya, masalah dalam desain publikasi) ada di sini . Akibatnya, Habr mencoba memuat gambar di http: // # /.
Fig. 1. Statistik umum ditinjau
Apakah mungkin mengembalikan setidaknya sesuatu?
Pemulihan parsial tidak sulit. Misalnya, cara paling "malas" adalah menggunakan Internet Archive dalam upaya memuat halaman publikasi yang disimpan. Selain itu, Anda dapat mencoba "menemukan" di arsip gambar itu sendiri melalui tautan langsung.
Lifehack: Anda perlu memeriksa ketersediaan gambar di semua versi halaman dalam arsip, tidak hanya yang tertua dan terbaru.
Sayangnya, meskipun metode ini berfungsi dalam beberapa kasus, sangat sulit untuk mengembalikan setidaknya setengah dari gambar. Oleh karena itu, langkah selanjutnya adalah memeriksa lintas-hosting, terjemahan asli dan, tentu saja, salinan arsip dari halaman asli.
Selain itu, Anda dapat mencoba menemukan gambar yang diinginkan menggunakan salah satu cermin Habrir tidak resmi yang pernah berfungsi dan masih menyimpan beberapa informasi yang disalin.
Opsi terakhir dan paling sulit adalah penggunaan mesin pencari. Jika Anda tahu persis apa yang harus ada dalam gambar (ada deskripsi dan konteks), ada peluang untuk menemukan file dengan nama yang sama jika mereka pernah disalin ke sumber lain oleh seseorang.
Secara alami, setiap langkah berikutnya meningkatkan waktu pencarian secara nonlinier.
Apa yang berhasil ditemukan
Anda mungkin tidak terlalu terkesan dengan jumlah gambar yang ditemukan sejauh ini - ada 300 di antaranya (terkandung dalam 140 publikasi dari 81 penulis). Jika kita memperhitungkan jumlah "kerugian" (1,242), hasilnya adalah sekitar 24,2% . Mengapa ada lebih sedikit gambar yang hilang dari sebelumnya? Semua gambar yang tidak berguna (seperti penghitung tampilan) dan gambar yang tidak ada (seperti http yang telah disebutkan: // # /, serta http: //fig.jpg/ , dll.) Dihapus dari pertimbangan.
Bagaimana bilangan bulat ini terjadi? Faktanya adalah bahwa sekitar 300 mengakhiri hari pencarian. Pada awalnya, saya akan mencapai 333, tetapi 300 juga terlihat cukup bagus. Selain itu, saat ini, sekitar 33% dari semua "korban pencarian" tetap tidak diverifikasi.
Fig. 2. Pencarian Saat Ini
Semua gambar yang ditemukan (kecuali satu .bmp, dengan itu akan menjadi 301) diunggah ke hsto.org , dan tautan ke mereka dan publikasi, serta indeks gambar di dalamnya, diberikan di bagian berikutnya.
Hasil
Jadi, di bawah spoiler adalah gambar yang berhasil ditemukan, serta id publikasi, indeks gambar di dalam teks publikasi (mulai dari 1, bukan dari 0) dan penulis publikasi. Jika Anda adalah penulis publikasi yang disebutkan, dan angka-angka yang ditemukan adalah benar, harap perbaiki posting Anda. Terima kasih
Ngomong-ngomong, beberapa gambar sebenarnya masih tersedia untuk dilihat di publikasi, tetapi belum ditransfer ke Habrastorage, dan karena itu pada beberapa titik mungkin juga menjadi tidak dapat diakses.
Alih-alih sebuah kesimpulan
Mungkin seseorang akan menemukan bahwa memulihkan informasi yang sudah ketinggalan zaman tidak masuk akal. Dan selain itu, beberapa gambar yang ditemukan tidak ada artinya ketika mereka diterbitkan. Tentu saja.
Setiap informasi penting. Setidaknya dari sudut pandang analisis historis. Belum lagi fakta bahwa dalam beberapa materi berhak cipta ia memiliki peran kunci. Ya, saat ini Habr belum genap 15 tahun dan beberapa sumber masih tersedia, tetapi seiring berjalannya waktu akan semakin berkurang, dan oleh karena itu Anda harus memikirkan sebelumnya apakah akan ada sesuatu untuk nanti atau akan ada citra abadi " tersedia. "
Yah, jangan lupa bahwa colokan gambar yang tidak dapat diakses hanya mengganggu. Tentu saja, beberapa orang akan membaca "beberapa barang lama", tetapi orang-orang seperti itu akan ditemukan. Karena itu, karena publikasi tentang Habré ini masih ada, isinya harus selengkap mungkin.
Sayangnya, meskipun Habrastorage tidak mendukung pemuatan secara langsung untuk semua format gambar, suatu hari kelak mungkin diperbaiki.
Masalah terakhir yang ingin saya sebutkan, dan yang mungkin Anda pikirkan, adalah "bagaimana jika penulis tidak menggunakan Habr untuk waktu yang lama dan dia tidak tertarik untuk memperbaiki barang-barang lama?" Saya sudah memiliki pertanyaan ini di kepala saya lebih dari sekali, tetapi solusinya di sini tidak begitu sulit. UFO selalu dapat diperbaiki oleh UFO yang diwakili oleh moderator (dapatkah Anda, Exosphere ?) Atau administrasi ( Boomburum dapat memberi seseorang tugas).
Dan apa yang Anda pikirkan, apakah ada baiknya mencoba mengembalikan setidaknya sesuatu?
Itu saja untuk hari ini. Terima kasih atas perhatian Anda dan biarkan semua gambar Anda diunggah ke Habrastorage tanpa masalah! Jangan sampai seperti itu
PS Jika Anda menemukan kesalahan ketik atau kesalahan dalam teks, beri tahu saya. Ini dapat dilakukan dengan menyorot bagian teks dan menekan " Ctrl / ⌘ + Enter ", jika Anda memiliki Ctrl / ⌘, atau melalui pesan pribadi . Jika kedua opsi tidak tersedia, tulis tentang kesalahan dalam komentar. Terima kasih
PPS Mungkin Anda akan tertarik juga pada penelitian saya yang lain tentang Habr atau Anda ingin menyarankan topik Anda untuk publikasi berikutnya, atau mungkin bahkan serangkaian publikasi baru.
Di mana menemukan daftar dan cara mengajukan penawaranSemua informasi dapat ditemukan di gudang detektif Habra khusus. Di sana Anda dapat mengetahui proposal mana yang telah disuarakan, dan apa yang sedang berlangsung.
Selain itu, Anda dapat menyebut saya (dengan menulis VaskivskyiYe ) dalam komentar di publikasi yang menurut Anda menarik untuk penelitian atau analisis.