En nuestro blog, ya hemos discutido los detalles de los
estándares DjVu ,
FB2 y FB3 . Hoy hablamos del formato PDF, que se convirtió en la encarnación del sueño de una "oficina sin papel".
/ Flickr / Kim Siever / PDUna breve historia del formato.
El creador del PDF, o formato de documento portátil, fue John Warnock, uno de los fundadores de Adobe, que quería facilitar la impresión de texto e imágenes desde una computadora. En 1984, Warnock
introdujo el lenguaje de descripción de página
PostScript .
Wikipedia utiliza el código PostScript como ejemplo, que dibuja algunas
palabras de Wikipedia en un círculo .
%!PS-Adobe-1.0 % , 1 =1/72 , % . 72 25.4 div % 1 = 72/25.4 dup % scale % 100 100 translate % (100 , 100 ) /Times-Roman findfont % Times-Roman 10 scalefont % 10 ( - !) setfont % 0 30 330 { % 0 330 30 gsave % rotate % ( ) 15 0 moveto % (15 , 0 ) (Wikipedia) show % grestore % } for % for showpage %
Inicialmente, PostScript se desarrolló como una herramienta para imprimir documentos en una impresora, pero luego Warnock decidió que con la ayuda de un nuevo lenguaje es posible no solo imprimir documentos, sino también "digitalizar" completamente el sistema de flujo de trabajo.
Como parte de esta visión, Adobe (fundado por Warnock) creó el formato IPS (significa Interchange PostScript). Para trabajar con él, se creó Adobe Illustrator, un editor de gráficos multiplataforma para Windows y Mac.
IPS se mostró por primera vez en la conferencia Seybold en San José en 1991, pero con este nombre el formato duró dos años: en 1993 se renombró a PDF. Luego vinieron Acrobat Distiller y Acrobat Reader (más tarde renombrado Adobe Reader).
Al principio, el PDF no era popular. El error fue el alto precio del software: Acrobat Distiller para uso personal
cuesta $ 700 y para uso corporativo: $ 2,500. Para Acrobat Reader, pidieron otros 50 dólares. Con el tiempo, Adobe bajó los precios y la popularidad de PDF comenzó a ganar impulso.
A principios de cero, Acrobat Reader 4.0 fue
descargado por cien millones de personas, y grandes empresas de TI como Microsoft y Apple comenzaron a utilizar el formato PDF.
¿Cómo funciona el PDF?
El enfoque básico para presentar gráficos y texto en PDF es muy similar al
utilizado por PostScript. Los llamados elementos de texto son responsables de mostrar el texto en una página. Indican dónde deben dibujarse los personajes. Wikipedia proporciona un
código para escribir Hello World:
/Courier % 20 selectfont % 72 500 moveto % 72, 500 (Hello world!) show % showpage %
Para dibujar gráficos vectoriales en PDF, se utilizan trazados: líneas rectas o
curvas de Bezier cúbicas . Las formas construidas con contornos pueden rellenarse con color o sombrearse. En cuanto a las imágenes ráster, se representan en forma de
diccionarios y
secuencias . Los diccionarios describen las propiedades, y la secuencia contiene información binaria sobre la imagen.
El tamaño del archivo PDF depende de la resolución de las imágenes, la configuración de la fuente, el uso de hipervínculos, videos, etc. Hasta la década de 2000, el tamaño de los archivos PDF se medía en megabytes, porque la mayoría de los documentos estaban compuestos de imágenes JPEG. Para resolver este problema, Adobe propuso la tecnología de compresión MRC (
Mixed Raster Content ).
MRC "
divide " el archivo escaneado en capas: una capa de fondo, una capa de texto y una máscara de color. Para la compresión de la información disponible en cada capa, su propio códec es responsable. Por ejemplo,
JBIG2 puede usarse para texto, que forma grupos de letras similares y crea un diccionario con ellas. Entonces, los mismos caracteres se codifican una vez, y en otros lugares solo se usan referencias a ellos.
Los códecs JPEG, JPEG2000 o ZIP se utilizan para comprimir otro contenido. Con la ayuda de ellos, se guardan el fondo de la imagen, la asignación de color del texto, las imágenes y las fotos. Debido a este enfoque, el tamaño de cada página se reduce a la mitad o más. Abbyy proporciona ejemplos ilustrativos de compresión de PDF en su
blog sobre Habré .
Ventajas de PDF
Una de las principales ventajas de los archivos PDF es el hecho de que todas las páginas se ven exactamente como las concibió el autor del documento. El formato
conserva el fondo original, las fuentes y las imágenes en su forma original, independientemente del dispositivo o sistema operativo. Al mismo tiempo, PDF le permite trabajar con elementos interactivos:
hipervínculos para navegar las notas al pie. Además
, se agregan archivos multimedia al documento: música, GIF e incluso videos.
Al mismo tiempo, el archivo PDF se puede hacer de solo lectura, lo que ayuda a proteger el contenido del documento de copiar y realizar cambios. Para protección adicional, es posible poner una contraseña o una firma electrónica.
Otra ventaja del formato es su accesibilidad. El programa para leer un documento PDF Adobe Acrobat Reader hoy se
encuentra en la red en acceso libre. Puede abrir PDF en libros electrónicos. La mayoría de ellos son "capaces" de trabajar con este formato de forma predeterminada. Es
compatible con muchas aplicaciones de lectura, por ejemplo,
FBreader o NEO Reader.
Contras de formato
La inmutabilidad del formato PDF, aunque es su ventaja, también resulta ser un gran inconveniente. Dichos archivos (especialmente diagramas y gráficos grandes, notas, documentos de gran formato) son difíciles de leer en dispositivos con pantallas pequeñas: teléfonos inteligentes o lectores electrónicos compactos. La página simplemente
no cabe en la pantalla del dispositivo o el texto se muestra demasiado pequeño.
Hay lectores electrónicos en el mercado con una resolución de pantalla de 13.3 o 10.3 pulgadas, lo que le permite trabajar cómodamente con hojas A4 de PDF. Ejemplos de tales dispositivos pueden ser
ONYX BOOX MAX 2 (una revisión que hemos preparado
en nuestro blog ),
ONYX BOOX Note o
ONYX BOOX Gulliver (también
tiene una revisión ). Brindan la oportunidad de considerar todos los detalles de los dibujos e ilustraciones en el tamaño original y son adecuados para aquellos que a menudo tienen que leer literatura técnica. Sin embargo, el costo de tales dispositivos es bastante alto.
Hay otro problema con la visualización de páginas de documentos. Está asociado con el formato JBIG2. Aunque el códec le permite comprimir el texto varias veces, está sujeto a la influencia del problema "yin" (lo escribimos en el material
sobre DjVu ). Al comprimir el texto y compilar el diccionario, algunos caracteres se reemplazan por otros similares (por ejemplo, "y" se convierte en "n"), lo que conduce a una distorsión de la esencia del texto.
También hay problemas con la edición de archivos PDF, ya que debe instalar programas especiales que a menudo se pagan (por ejemplo,
Acrobat DC ). También hay servicios de edición gratuitos en la
red como
PDF2GO , pero solo le permiten agregar texto o imágenes "encima" del archivo original.
Mayor desarrollo
A pesar de sus deficiencias, PDF sigue siendo un formato popular hoy en día. La empresa de marketing HubSpot
preguntó a tres mil visitantes de su sitio sobre lo que hacen con los libros electrónicos: leer en línea o descargar en PDF. Resultó que el 90% de los encuestados prefieren descargar un archivo PDF.
Los desarrolladores constantemente agregan nuevas funciones, incluso para leer en dispositivos portátiles. Por ejemplo, a principios de 2018, el equipo de Adobe
proporcionó a la aplicación Acrobat DC funciones mejoradas de visualización y edición en dispositivos móviles.
Además, en agosto hubo información sobre un nuevo proyecto:
PDF audible . Combinará las capacidades de PDF y la funcionalidad de los asistentes de voz: Alexa, Google Home y Siri. Hasta ahora, solo un prototipo está listo, pero los desarrolladores prometen lanzar una versión que funcione en un futuro próximo.
Adobe está siguiendo nuevas instrucciones y tiene la intención de hacer que el formato sea más interactivo, por ejemplo, agregar funciones de realidad aumentada. Aún no está claro cómo se verá, pero los desarrolladores
prometen que el ecosistema PDF alcanzará un nuevo nivel de interacción con el usuario en los próximos años.
Lectura adicional - revisiones de lectores ONYX BOOX: