哈布拉侦探:你的照片丢了


您是否想过完全丢失了多少信息? 毕竟,信息就是Habr存在的目的。 您是否知道基于用户出版物的资源最常发生的事情? 作者插入了来自第三方站点的图像,图片和视频,过了一段时间,它们将不再可用。 这正是Habrastorage曾经为之创建 。 实践表明,除了编辑和一些发烧友外,没有人会自己上传图像。 因此,在某些时候,Habr管理员使此功能自动执行-发布中出现的每个图像都会自动上载到存储库,并且在Habr本身存在时不会从那里消失。 当然,有例外, 可能会出问题 ,但现在不涉及它们。


在整个方案中,在Habrastorage中加载图像的最大问题发生在其实施过程中。 到那时,一些旧出版物已经没有图纸,因此仍然如此。 今天,我们将尝试找出自Habr诞生以来丢失了多少图形信息。 此外,我们可以设法从失踪者中找到一些东西吗? 毕竟,这个“无法加载图像”存根很烦,对吧? 今天的侦探就是致力于这一点。 让我们开始吧!


也许您在本文的跟踪器中提到了您? 可能是在您的一份旧出版物中,一张照片消失了,但我发现了。 如果您不想阅读整个出版物,则只需滚动到结尾处的“扰流板”(“ 结果”部分),其中列出了所有出版物和找到的图像。 谢谢你

介绍与方法


我们的侦探将从一开始就开始(从逻辑上说对吧?)。 从哈勃尔开始。 毕竟,任何一篇文章发表得越早,从中获得的图像就越有可能丢失在历史上的某个地方。 这就是为什么我们将从2006年开始并取得一些进展。


来自40个中心的所有出版物(当前处于评级的开始)都参与了该评价。 扰流板下方列出了这些轮毂的完整列表。 实际上,其中很多都不存在,但是,当添加了新的中心时,出版物就被转移到了那里。



信息是使用一组PHP脚本收集的。 上载每个出版物,确定<div id =“ post-content-body”>标记的内容 ,并检查<img>标记的存在。 对于每个图像,参考图像的链接将参考Habré上的出版物ID进行存储。 将来,将对这些信息进行分析。


他们什么时候出版的


2006年


在哈勃(Habr)成立之初,出版物不多,但图片却更少。 在2006年(从2006年6月5日开始),总共列出了221个帖子。 这些帖子中有53篇共包含75张图片。 出版物“ 改变世界的十个小工具 ”中最多包含10张图像。 Habrastorage上已经有50张图纸。 另有25人丧生。 它们都是唯一的,不再重复。


有趣的事实:其中有两张图片是Habr自己创作的,但同时很长一段时间都没有出现。 这些是http://www.habrahabr.ru/tmp/sup_blogs_preview.gif和http://www.habrahabr.ru/tmp/upgrade-chart.gif的图像。

因此,在2006年,出版物中丢失了33.3%的图像。


2007年


2007年,出版物的数量显着增加,图像数量也显着增加-已发布1,713个帖子。 599个出版物包含1,467张图像。 1,229张图像被传输到Habrastorage,丢失238张( 16.2% )。


有趣的事实: 排名前100的Mac OS应用程序的发布最多包含2007年-100张图像,并且不包含版权文本。

另外,这些丢失的图像中的一些被重复。 因此,其中之一在只有6张图片的出版物中发生6次。 同样,图像“ Up.gif”被重复21次,从一个域重复16-“ Down.gif”和8-“ Same.gif”。 而所有这45张图片都来自一篇文章 ,其中只有47张图片。


仍然有191个唯一的<img>。


2008年


由于逐年增加在哈布雷的出版物,因此,我们的侦探在2008年将考虑2,520种出版物以及2,969张图像。 我们注意到,2008年出版物中的图片数量最终超过了出版物数量。 同时,只有1,207个帖子包含图片,出版物“ Google假日徽标的历史 ”中最多显示42个图形信息元素。 在Habrastorage上已经存储了1,943张图像,并且丢失了1,026张( 34.6% )。


一个有趣的事实:最令人意想不到的图像(或者说是出版物设计中的问题)在这里 。 结果,Habr尝试将图像加载到http://#/。


1.审查一般统计


是否有可能至少恢复一些东西?


部分恢复并不困难。 例如,最“懒惰”的方式是使用Internet存档来尝试加载保存的出版物页面。 另外,您可以尝试通过直接链接在存档中“查找”图像本身。


Lifehack:您需要检查存档中页面的所有版本中的图像是否可用,而不仅仅是最早的和最新的。

不幸的是,尽管此方法在某些情况下可行,但很难还原至少一半的图片。 因此,下一步是检查跨主机,原始翻译以及自然地原始页面的档案副本。


此外,您可以尝试使用曾经工作过的非官方Habrir反射镜之一查找所需的图像,并且仍然存储一些复制的信息。


最后也是最困难的选择是使用搜索引擎。 如果您确切知道图像中应该包含的内容(有说明和上下文),那么一旦有人将文件复制到另一个资源,就有机会找到具有相同名称的文件。


自然,每个下一步都会非线性地增加搜索时间。


设法找到什么


到目前为止,您发现的图像数量可能不会给您留下深刻的印象-有300张(包含81位作者的140个出版物)。 如果我们考虑“损失”的数量(1,242),则结果约为24.2% 。 为什么丢失的图像比以前少了? 所有无用的图像(例如视图计数器)和不存在的图像(例如已经提到的http://#/以及http://fig.jpg/等)都从考虑中删除。


这个回合数字是如何产生的? 事实是大约300结束了搜索的一天。 刚开始时,我将达到333,但300也看起来不错。 此外,目前,大约33%的 “搜索受害者”仍未完全验证。



2.当前搜索


找到的所有图像(一个.bmp除外,原为301)均已上载到hsto.org下一节将提供这些图像和出版物的链接以及其中的图像索引。


结果


因此,在扰流器下是成功找到的图像,出版物ID,出版物文本(从1开始,而不是从0开始)中的图片索引以及出版物的作者。 如果您是上述出版物的作者,并且发现的数字正确,请更正您的帖子。 谢谢你


顺便说一下,有些图像实际上仍然可以在出版物中查看,但是尚未转移到Habrastorage,因此在某些时候也可能无法访问。


300张图片
作者出版编号索引和参考例子
0x62灰271491个
0xa8111051个
2坏6071个
10971个
11061,2,3,5,24
138362
4eese308201,2,3,5
8cinq418531个
464981个
亚当_B125821个
爱努395011个
阿拉达斯26281个
阿拉斯加234471、2
aleks_raiden244792
305943
390371个
403121,2,3,4
441521,2,3
462941个
467411个
477821,2,3,4,5
阿尔法软件427821,2,3,4,5
阿里扎尔377791、2
altblog446771个
阿列斯托夫379211个
阿奇197261个
坏小鸭162921,2,3,4,5
巴可夫263351个
Bbsod85051个
bO_oblik221501,2,3,4,5
221861个
222151个
223221,2,3,4,5,6
223341、2
223751,2,3
225101、2
226141个
228361、2
261811,2,3,4,6
281961,2,3,4,5,6,7,8
297061,2,3,4
314901,2,3,4
367131个
371801个
372491个
373061、2
380131个
383891、2
411041、2
416471个
418211、2
chisto_v127831个
丘拉克457831,2,3,4,5,6,7
科斯310691个
弯箍110101个
119411个
141571个
373031个
德雷坎特313201,2,4
引诱407671个
芬尼克斯208432
239021个
391091个
第一个字节383141个
自由女神265931个
弗鲁霍409871个
加布兹296941个
戈里尼奇120271个
引力288401个
href469081、2
iljava309022、3
强奸265661个
入侵429041个
卡尔森8971Down.gifSame.giftpci_trends.pngUp.gif
310421个
310501个
311411、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17
克劳斯157751,2,3,4,5,6,7,8
Lain_13168912
le0pard383911个
卢卡·萨福诺夫(LukaSafonov)435371个
米科267051个
Midgard314192、3、4
宇达电通3961个
7531个
9361个
莫扎奇7441个
Mr_Floppy283431个
444761个
军官1101个
oleg_bunin72071个
72261个
86791个
127681个
olegafx439341、2、3、4、5、6、7、8-9、10、11、12、13、14、15、16、17、18、19
骨质疏松素371462、3
波诺马尔141411个
porchini218501、2
Pure_by84161个
皇家空军8511、2
木材436931个
罗斯特443801个
鲁斯卡425783,5,8
圣人7021个
桑达克301041个
斯卡拉378044
Shapelez232601个
443791、2
461131个
465991个
475361个
aff81341、2
萨马托夫171603
史密塔娜303751个
斯帕纳斯克4475517
spiritus_sancti411291、2
夏日梦38011个
熊熊312111、2
切换开关90951个
陶鲁斯375071个
托格根387331个
450241个
451701个
采佩列夫366111个
瓦迪穆阿469221个
维托尔260731、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21
301711,2,3
XaocCPS400361个
2843901个
2843921个
2843941个
2843961个
亚尼博格390071、6
406213
耶苏汀94531个
96451个
310781,2,3,4,5,6,7,8,9,10,11,12
伊谢利亚耶夫55561,2,3
扎达311232
之字形154921个

而不是结论


也许有人会发现,恢复这些过时的信息没有任何意义。 此外,发布时发现的某些图像毫无意义。 当然可以。


任何信息都很重要。 至少从历史分析的角度来看。 更不用说在某些受版权保护的材料中它具有关键作用。 是的,目前Habr甚至还不到15岁,并且某些资源仍然可用,但是随着时间的流逝,它们将越来越少,因此,您应该提前考虑是将来还是将来会出现一些“形象”可用。”


好吧,不要忘了无法访问的图像只是烦人。 当然,很少有人会读“一些旧东西”,但是会发现这样的人。 因此,由于这些有关哈布雷的出版物仍然存在,因此它们的内容应尽可能完整。


不幸的是,尽管Habrastorage不支持直接加载所有图像格式,但有一天它可能已修复。


我想提的最后一个问题是,您可能想到的是:“如果作者长期不使用Habr并且他对更正旧内容不感兴趣,该怎么办?” 我已经不止一次想到这个问题,但是这里的解决方案并不是那么困难。 UFO始终可以由主持人(您可以, Exosphere吗?)代表的UFO或管理人员( Boomburum可以给某人执行任务)来解决。


您如何看待,至少应尝试还原某些内容?


今天就这些了。 感谢您的关注,并确保所有图像都可以毫无问题地上传到Habrastorage! 别这样





附注:如果您发现文字有错别字或错误,请告诉我。 可以通过突出显示部分文本并按Ctrl /⌘+ Enter (如果有Ctrl /⌘)或通过私人消息来完成 。 如果两个选项都不可用,请在注释中写出有关错误的信息。 谢谢你


PPS也许您也会对我对Habr的其他研究感兴趣,或者您想为下一份出版物或者甚至一系列新的出版物提出建议。


在哪里找到清单以及如何报价

所有信息都可以在特殊的Habra侦探存储库中找到。 在这里,您可以找到提出了哪些建议以及正在进行中的建议。


另外,您可以在出版物上的评论中提到我(通过写VaskivskyiYe ),您认为这对研究或分析很有趣。

Source: https://habr.com/ru/post/zh-CN484454/


All Articles