在我们的博客中,我们已经讨论了
DjVu ,
FB2和FB3标准的细节。 今天,我们讨论PDF格式,它成为“无纸化办公”梦想的体现。
/ Flickr / Kim Siever / PD格式的简要历史
PDF或可移植文档格式的创建者是Adobe的创始人之一约翰·沃诺克(John Warnock)制作的,他希望简化从计算机打印文本和图像的过程。 1984年,Warnock
引入了 PostScript页面描述
语言 。
Wikipedia提供了一个PostScript代码示例,该示例将一个
Wikipedia单词画成
一个圆圈 。
%!PS-Adobe-1.0 % , 1 =1/72 , % . 72 25.4 div % 1 = 72/25.4 dup % scale % 100 100 translate % (100 , 100 ) /Times-Roman findfont % Times-Roman 10 scalefont % 10 ( - !) setfont % 0 30 330 { % 0 330 30 gsave % rotate % ( ) 15 0 moveto % (15 , 0 ) (Wikipedia) show % grestore % } for % for showpage %
最初,PostScript被开发为用于在打印机上打印文档的工具,但后来Warnock决定,借助新语言,不仅可以打印文档,而且还可以完全“数字化”工作流程系统。
作为这一愿景的一部分,Adobe(由Warnock创建)创建了IPS格式(代表Interchange PostScript)。 为了使用它,创建了Adobe Illustrator-用于Windows和Mac的跨平台图形编辑器。
IPS于1991年在圣何塞的Seybold会议上首次展示,但使用这种名称的格式持续了两年-1993年将其重命名为PDF。 然后是Acrobat Distiller和Acrobat Reader(后来更名为Adobe Reader)。
起初,PDF并不流行。 问题在于软件价格高昂:个人使用的Acrobat Distiller
售价为 700
美元 ,而企业使用的则为2500美元。 对于Acrobat Reader,他们要价50美元。 随着时间的流逝,Adobe降低了价格,PDF的流行开始增长。
从零开始,一亿人
下载了 Acrobat Reader 4.0,Microsoft和Apple等大型IT公司开始使用PDF格式。
PDF如何工作?
在PDF中显示图形和文本的基本方法与PostScript
所使用的方法非常相似。 所谓的文本元素负责在页面上显示文本。 它们指示应在何处绘制字符。 Wikipedia提供了用于编写Hello World的
代码 :
/Courier % 20 selectfont % 72 500 moveto % 72, 500 (Hello world!) show % showpage %
要在PDF中绘制矢量图形,请使用路径:直线或
三次贝塞尔曲线 。 使用轮廓构造的形状可以填充颜色或阴影。 对于栅格图像,它们以
字典和
流的形式表示。 字典描述属性,流包含有关图像的二进制信息。
PDF文件的大小取决于图片的分辨率,字体设置,超链接,视频的使用等。 直到2000年代,由于大多数文档都是由JPEG图像组成的,因此PDF文件的大小以兆字节为单位。 为了解决这个问题,Adobe提出了压缩MRC(
混合栅格内容 )技术。
MRC
将扫描的文件“
分为 ”几层:背景层,文本层和颜色蒙版。 为了压缩每一层上可用的信息,它自己的编解码器负责。 例如,
JBIG2可以用于文本,该文本形成相似字母的组并从中组成字典。 因此,对相同的字符进行一次编码,而在其他地方,仅使用对它们的引用。
JPEG,JPEG2000或ZIP编解码器用于压缩其他内容。 借助它们,可以保存图像的背景,文本,图片和照片的颜色分配。 由于这种方法,每页的大小减少了一半或更多。 Abbyy在其
Habré的
博客中提供了PDF压缩的说明性示例。
PDF的优势
PDF文件的主要优点之一是所有页面的外观与文档作者所期望的完全一样。 该格式
将原始背景,字体和图片以其原始形式
保留下来 ,而与设备或操作系统无关。 同时,PDF允许您使用交互式元素:用于导航脚注的
超链接 。 此外
,还会将媒体文件
添加到文档中:音乐,GIF甚至视频。
同时,PDF文件可以设为只读,这有助于防止文档内容被复制和更改。 为了提供额外的保护,可以输入密码或电子签名。
格式的另一个优点是可访问性。 今天,用于阅读PDF文档的Adobe Acrobat Reader程序可以免费访问网络。 您可以在电子书上打开PDF。 默认情况下,大多数都“可以”使用此格式。 许多阅读器应用程序都
支持它,例如
FBreader或NEO Reader。
格式缺点
PDF格式的不可变性虽然是它的优点,但也有很大的缺点。 此类文件(尤其是大图和图表,说明,大幅面文档)很难在具有小屏幕的设备(智能手机或紧凑型电子阅读器)上阅读。 该页面根本
不适合设备屏幕,或者文本显示的太小。
市场上有一些电子阅读器,其显示分辨率为13.3或10.3英寸,使您可以舒适地使用A4 PDF页面。 此类小工具的示例可以是
ONYX BOOX MAX 2 (我们已经
在博客中对其
进行了评论 ),
ONYX BOOX Note或
ONYX BOOX Gulliver (也
进行了评论 )。 它们提供了一个机会以原始尺寸考虑图纸和插图的所有细节,适合经常阅读技术文献的人们。 但是,这种小工具的成本很高。
文档页面的显示还有另一个问题。 它与JBIG2格式关联。 尽管编解码器允许您多次压缩文本,但是它受到“ yin”问题的影响(我们在
有关DjVu的材料中对此进行了
介绍 )。 压缩文本并编译字典时,某些字符会被相似的字符替换(例如,“ and”变成“ n”),这会导致文本本质的失真。
编辑PDF文件也存在问题,因为您必须安装经常付费的特殊程序(例如
Acrobat DC )。 网络上也有免费的编辑服务,例如
PDF2GO ,但它们仅允许您在原始文件的“顶部”添加文本或图片。
进一步发展
尽管有缺点,PDF仍然是当今流行的格式。 营销公司HubSpot向其网站的三千名访问者询问了他们如何处理电子书:在线阅读或下载PDF。 原来,有90%的受访者更喜欢下载PDF文件。
开发人员不断增加新功能,包括在便携式小工具上阅读。 例如,在2018年初,Adobe团队
为 Acrobat DC应用程序
提供了在移动设备上增强的显示和编辑功能。
此外,八月有一个有关新项目
-PDF audible的信息 。 它将结合PDF的功能和语音助手的功能:Alexa,Google Home和Siri。 到目前为止,只有原型可用,但是开发人员承诺在不久的将来发布可用的版本。
Adobe正在遵循新的方向,并打算使格式更具交互性,例如,添加增强现实功能。 它的外观尚不清楚,但是开发人员
承诺 PDF生态系统将在未来几年内达到用户交互的新水平。
其他阅读-读者评论ONYX BOOX: