
¿Alguna vez te has preguntado cuánta información se pierde por completo? Después de todo, la información es para lo que existe Habr. ¿Sabes qué sucede con mayor frecuencia con los recursos basados en publicaciones de usuarios? Los autores insertan imágenes, fotos y videos de sitios de terceros y después de un tiempo ya no están disponibles. Esto es exactamente para lo que se creó Habrastorage . La práctica ha demostrado que nadie (excepto los editores y algunos entusiastas) cargan imágenes allí por su cuenta. Por lo tanto, en algún momento, la administración de Habr hizo esta función automática: cada imagen que aparece en la publicación se carga automáticamente en el repositorio y no desaparecerá de allí mientras exista el Habr. Por supuesto, hay excepciones y algo puede salir mal , pero ahora no se trata de ellas.
El mayor problema en todo este esquema con la carga de imágenes en Habrastorage ocurrió durante su implementación. En ese momento, algunas publicaciones antiguas ya no tenían dibujos y, por lo tanto, seguían siéndolo. Hoy intentaremos averiguar cuánta información gráfica ha perdido Habr desde su nacimiento. Además, ¿podemos lograr encontrar algo de los desaparecidos? Después de todo, este trozo de "imagen no se puede cargar" es molesto, ¿verdad? El detective de hoy está dedicado a eso. ¡Empecemos!
¿Quizás te mencionaron en el rastreador de este artículo? Probablemente, en una de sus publicaciones antiguas desapareció una imagen, pero la encontré. Si no desea leer la publicación completa, simplemente puede desplazarse hasta el spoiler al final (sección de Resultados ), que enumera todas las publicaciones y las imágenes encontradas. Gracias
Introducción y métodos
Nuestro detective comenzará desde el principio (lógicamente, ¿verdad?). Desde el comienzo de Habr. Después de todo, cuanto antes se publicara cualquier publicación, más probable era que las imágenes se perdieran en algún lugar de la historia. Por eso comenzaremos en 2006 y avanzaremos un poco.
Todas las publicaciones de 40 centros, que actualmente se encuentran al comienzo de la calificación, participan en la revisión. Una lista completa de estos centros se presenta bajo el spoiler. De hecho, muchos de ellos no existían entonces, sin embargo, cuando se agregaron nuevos centros, las publicaciones se transfirieron allí.
Lista de centros* nix , algoritmos , inteligencia artificial , astronáutica , biotecnologías , cerebro , C ++ , gestión del desarrollo , bricolaje , ecología , desarrollo de juegos , juegos y consolas de juegos , salud geek , historia de TI , seguridad de la información , carrera de TI , infraestructura de TI , empresas de TI , Java , JavaScript , Legislación en TI , Lifehacks para geeks , Aprendizaje automático , Fabricación y desarrollo de electrónica , Nginx , Código abierto , Gestión de personal , Física , Ciencia popular , Gestión de productos , Programación , Gestión de proyectos , Python , Sala de lectura , Ingeniería inversa , Redes sociales y comunidades , Administración de sistemas , Análisis y diseño de sistemas , El futuro está aquí , Desarrollo de sitios web
La información se recopiló utilizando un conjunto de scripts PHP. Cada publicación se cargó, se determinó el contenido de la etiqueta <div id = "post-content-body"> y se verificó la presencia de etiquetas <img> . Para cada imagen, los enlaces a las imágenes se almacenan con referencia a la ID de publicación en el Habré. En el futuro, esta información se analiza.
¿Qué y cuándo publicaron?
2006
Al comienzo de Habr, no había tantas publicaciones como ahora, pero hay incluso menos imágenes en ellas. En total, en 2006 (a partir del 5 de junio de 2006) se publicaron 221 publicaciones en los centros mencionados. 53 de estas publicaciones contienen un total de 75 imágenes. Máximo de imágenes (10 piezas) en la publicación " Diez gadgets que cambiaron el mundo ". Ya hay 50 dibujos en Habrastorage. Otros 25 perdidos. Todos ellos son únicos y no se repiten.
Dato interesante: dos de las imágenes conducen al propio Habr, pero al mismo tiempo, no han estado disponibles durante mucho tiempo. Estas son imágenes http://www.habrahabr.ru/tmp/sup_blogs_preview.gif y http://www.habrahabr.ru/tmp/upgrade-chart.gif.
Entonces, en 2006, se perdió el 33,3% de las imágenes en publicaciones.
2007
En 2007, el número de publicaciones aumentó significativamente, al igual que el número de imágenes: se publicaron 1.713 publicaciones. 599 Publicaciones contienen 1,467 imágenes. Se transfirieron 1.229 imágenes a Habrastorage y se perdieron 238 ( 16,2% ).
Dato interesante: la publicación de las 100 mejores aplicaciones de Mac OS contiene un máximo de 2007 - 100 imágenes y no contiene texto de copyright.
Además, algunas de estas imágenes perdidas se repiten. Entonces, uno de ellos ocurre 6 veces en una publicación con solo 6 imágenes. Además, la imagen "Up.gif" se repite 21 veces, 16 - "Down.gif" y 8 - "Same.gif" de un dominio. Y todas estas 45 imágenes de una publicación , en la que solo 47 imágenes.
Quedan 191 únicos <img>.
2008
Como de año en año el número de publicaciones sobre Habré solo aumentó, en 2008 nuestro detective considerará 2.520 publicaciones, así como 2.969 imágenes. Notamos que en 2008 el número de imágenes en las publicaciones finalmente supera el número de publicaciones. Al mismo tiempo, solo 1.207 publicaciones contienen imágenes, y un máximo de 42 elementos de información gráfica se presentan en la publicación " History of Google Holiday Logos ". Ya se han almacenado 1.943 imágenes en Habrastorage y se han perdido 1.026 ( 34,6% ).
Un hecho interesante: la imagen más inesperada (o más bien, un problema en el diseño de la publicación) está aquí . Como resultado, Habr intenta cargar la imagen en http: // # /.
Fig. 1. Estadísticas generales revisadas
¿Es posible restaurar al menos algo?
La recuperación parcial no es difícil. Por ejemplo, la forma más "perezosa" sería usar Internet Archive en un intento de cargar páginas de publicación guardadas. Además, puede intentar "encontrar" en el archivo las imágenes por medio de enlaces directos.
Lifehack: debe verificar la disponibilidad de imágenes en todas las versiones de la página en el archivo, no solo la más antigua y la más nueva.
Desafortunadamente, aunque este método funciona en algunos casos, es muy difícil restaurar al menos la mitad de las imágenes. Por lo tanto, el siguiente paso es verificar el alojamiento cruzado, las traducciones originales y, naturalmente, las copias archivadas de las páginas originales.
Además, puede intentar encontrar la imagen deseada utilizando uno de los espejos no oficiales de Habrir que alguna vez funcionó y aún almacena parte de la información copiada.
La última y más difícil opción es el uso de motores de búsqueda. Si sabe exactamente qué debería estar en la imagen (hay una descripción y un contexto), existe la posibilidad de encontrar archivos con el mismo nombre si alguna vez alguien los copió a otro recurso.
Naturalmente, cada paso siguiente aumenta el tiempo de búsqueda de forma no lineal.
Lo que logró encontrar
Es posible que no esté muy impresionado con la cantidad de imágenes encontradas hasta el momento: hay 300 de ellas (contenidas en 140 publicaciones de 81 autores). Si tenemos en cuenta el número de "pérdidas" (1.242), el resultado es aproximadamente el 24,2% . ¿Por qué hay menos imágenes faltantes que antes? Todas las imágenes inútiles (como los contadores de vista) y las imágenes inexistentes (como el http: // # / ya mencionado, así como http: //fig.jpg/ , etc.) se eliminan de la consideración.
¿Cómo surgió este número redondo? El hecho es que alrededor de 300 terminaron el día de la búsqueda. Al principio, iba a llegar a 333, pero 300 también se ven bastante bien. Además, en este momento, aproximadamente el 33% de todas las "víctimas de búsqueda" permanecen completamente sin verificar.
Fig. 2. Búsquedas actuales
Todas las imágenes encontradas (excepto un .bmp, con 301) se cargaron en hsto.org , y en la siguiente sección se proporcionan enlaces a ellas y publicaciones, así como índices de imágenes.
Resultados
Entonces, debajo del spoiler están las imágenes encontradas con éxito, así como la identificación de la publicación, el índice de la imagen dentro del texto de la publicación (a partir de 1, no de 0) y el autor de la publicación. Si usted es el autor de las publicaciones mencionadas y las cifras encontradas son correctas, corrija sus publicaciones. Gracias
Por cierto, algunas imágenes todavía están disponibles para su visualización en publicaciones, pero no se han transferido a Habrastorage y, por lo tanto, en algún momento también pueden volverse inaccesibles.
En lugar de una conclusión
Quizás alguien descubra que restaurar esa información desactualizada no tiene sentido. Y además, algunas de las imágenes encontradas no tenían sentido cuando se publicaron. Claro que lo es.
Cualquier información es importante. Al menos desde el punto de vista del análisis histórico. Sin mencionar el hecho de que en algunos materiales con derechos de autor tiene un papel clave. Sí, en este momento Habr no tiene ni siquiera 15 años y algunas de las fuentes aún están disponibles, pero con el tiempo se volverán cada vez menos y, por lo tanto, debe pensar con anticipación si habrá algo para más adelante o habrá una "imagen eterna". disponible ".
Bueno, no olvides que los enchufes de imágenes inaccesibles son simplemente molestos. Por supuesto, pocas personas leerán "algunas cosas viejas", pero se encontrará a esas personas. Por lo tanto, dado que estas publicaciones sobre Habré aún existen, su contenido debe ser lo más completo posible.
Desafortunadamente, aunque Habrastorage no admite la carga directa para todos los formatos de imagen, algún día puede ser reparado.
El último problema que quiero mencionar, y que probablemente haya pensado, es "¿qué pasa si el autor no ha usado a Habr durante mucho tiempo y no está interesado en corregir las cosas viejas?" He tenido esta pregunta en mi cabeza más de una vez, pero la solución aquí no es tan difícil. Los ovnis siempre pueden repararse mediante ovnis representados por moderadores (¿puedes, Exosphere ?) O la administración ( Boomburum puede asignarle una tarea a alguien).
¿Y qué crees que vale la pena intentar restaurar al menos algo?
Eso es todo por hoy. ¡Gracias por su atención y deje que todas sus imágenes se carguen en Habrastorage sin ningún problema! Que no sea así
PD: si encuentra errores tipográficos o errores en el texto, hágamelo saber. Esto se puede hacer resaltando parte del texto y presionando " Ctrl / ⌘ + Enter ", si tiene Ctrl / ⌘, o mediante mensajes privados . Si ambas opciones no están disponibles, escriba sobre los errores en los comentarios. Gracias
PPS Quizás le interesen también mis otros estudios de Habr o quiera sugerir su tema para la próxima publicación, o tal vez incluso una nueva serie de publicaciones.
Dónde encontrar la lista y cómo hacer una ofertaToda la información se puede encontrar en un repositorio especial de detectives de Habra . Allí puede averiguar qué propuestas ya se han expresado y qué ya está en curso.
Además, puedes mencionarme (escribiendo VaskivskyiYe ) en los comentarios de una publicación que consideres interesante para investigación o análisis.