电子书及其格式:DjVu-历史,优缺点

在70年代初,美国作家迈克尔·哈特(Michael Hart)能够不受限制地使用伊利诺伊大学安装的Xerox Sigma 5计算机。 为了充分利用机器的资源,他决定创建第一本电子书,重印《美国独立宣言》。

如今,数字文学已变得广泛,这主要归功于便携式设备(智能手机,阅读器,笔记本电脑)的发展。 这导致了大量电子书格式的出现。 让我们尝试了解它们的功能,并讲述其中最流行的故事-让我们从DjVu格式开始。


/ Flickr / 巷梨人 / cc

格式的出现


DjVu由AT&T Labs在1996年开发,目的是为Web开发人员提供一种用于在Internet上分发高分辨率图像的工具。

事实是,那时所有信息中的90%仍存储在纸上,许多重要文件都带有彩色图像和照片。 为了保持文本的可读性和图片的质量,有必要进行高分辨率扫描。

允许使用此类经典图像的JPEG,GIF和PNG等经典Web格式,但要付出大量成本。 对于JPEG,为了在监视器屏幕上读取文本,我必须扫描分辨率为300 dpi的文档。 杂志的彩色页同时占用了大约500 KB。 当时从Internet下载这种大小的文件是一个非常耗时的过程。

替代方法是使用文本识别技术对纸质文档进行数字化,但是20年前,它们的准确性远不理想-经过处理后,最终结果必须手动进行认真编辑。 同时,图形和图像仍处于“外部”状态。 即使可以将扫描的图像嵌入到文本文档中,也会丢失一些视觉细节,例如,纸张的颜色,其纹理以及这些都是历史文档的重要组成部分。

为了解决这些问题,AT&T开发了DjVu。 它允许将分辨率为300 dpi的扫描彩色文档压缩为40-60 Kb,原始大小为25 MB。 DjVu将黑白页面的大小减小到10-30 KB。

DjVu如何压缩文件


DjVu可以使用纸质扫描文档和其他数字格式(例如PDF)。 DjVu的基础将图像分为三个部分的技术:前景,背景和黑白(位)蒙版。

遮罩以源文件的分辨率保存,并包含文本图像和其他清晰的细节(细线和方案)以及对比的图片。

它具有300 dpi的分辨率,因此字母的细线和轮廓保持清晰,并使用JB2算法压缩,该算法是AT&T提出的用于传真的JBIG2算法的一种变体。 JB2的功能它在页面上搜索重复的字符,并且仅将它们的图像保存一次。 因此,在多页文档中,每隔几页连续使用一个通用的“词典”。

背景包含页面和插图的纹理,其分辨率小于蒙版。 感知的无损背景以100 dpi的分辨率存储。

前景存储有关蒙版的颜色信息,并且其分辨率通常会降低得更多,因为在大多数情况下,文本颜色是黑色的,并且对于相同的打印字符而言也是相同的。 小波压缩用于压缩前景和背景。

创建DjVu文档的最后一步是熵编码,当自适应算术编码器将相同字符的序列转换为二进制值时。

格式的优点


DjVu的任务是以数字形式保留纸质文档 “属性”,甚至允许弱小的计算机处理此类文档。 因此,用于查看DjVu文件的软件具有“快速渲染”的能力。 多亏了它,只有应该在屏幕上显示的DjVu页面片段才被加载到内存中。

它还可以查看“下载不足”文件,即多页DjVu文档的各个页面。 在这种情况下,当上载文件时组件似乎“出现”时(如JPEG),将使用图像细节的渐进式渲染。

20年前,当采用这种格式时,页面的加载分为三个阶段:首先加载文本组件,几秒钟后,首先加载图像和背景的第一版。 书的整页之后“出现”。

三级结构的存在还使您可以搜索扫描的书籍(因为有一个特殊的文本层)。 事实证明,使用技术文献和参考书时,这很方便,因此DjVu成为了一些科学书籍图书馆的基础。 例如,在2002年, Internet档案馆选择它作为一种项目格式(与TIFF和PDF一起使用),以保存来自开源的扫描书籍。

格式缺点


但是,像所有技术一样,DjVu也有其缺点。 例如,当以DjVu格式对书籍的扫描进行编码时,文档中的某些字符可以由看起来相似的其他字符替换。 最常见的情况是字母“ and”和“ n”发生,这就是为什么将此问题称为“ yin问题”的原因。 它不取决于文本的语言,并且尤其会影响数字和其他小的重复字符。

其原因是JB2编码器中的字符分类错误。 他将扫描图像“拆分”为10–20件的组,并为每组形成一个共同字符字典。 词典包含常见字母和数字的示例,以及页面和其外观的坐标。 浏览DjVu书籍时,词典中的符号会替换在正确的位置。

这使您可以减小DjVu文件的大小,但是,如果两个字母的显示在视觉上相似,则编码器可以将它们混在一起或以相同的方式接受。 有时这会导致技术文档中的公式损坏。 要解决此问题,您可以放弃压缩算法,但这会增加书籍的数字副本的大小。

该格式的另一个缺点是,在许多现代操作系统(包括移动操作系统)中,默认情况下均不支持该格式。 因此,要使用它,您需要安装第三方程序 ,例如DjVuReader,WinDjView,Evince等。但是,我想指出一些电子阅读器(例如ONYX BOOX)“开箱即用”支持DjVu格式-因为已经有了必要的应用程序已安装。

顺便说一下,我们可以在以前的材料之一中讨论基于Android的读者的应用程序还能做什么。


读卡器ONYX BOOX Chronos

在移动设备(智能手机,平板电脑,阅读器)的小屏幕上使用DjVu文档时,还会出现另一种格式问题。 有时DjVu文件以书本扫描的形式显示,专业文献和工作文档通常以A4格式显示,因此您必须“移动”图像以查找信息。

但是,我们注意到这个问题也可以解决。 当然,最简单的方法是查找其他格式的文档-但如果无法使用此选项(例如,您需要处理DjVu中的许多技术文献),则可以使用对角线从9.7到13.3英寸的电子阅读器,特别是“锐化”用于处理类似文档。

例如,在ONYX BOOX阵容中,此类设备为ChronosMAX 2 (顺便说一下,我们已经准备好对该阅读器的模型进行评论,并将很快在我们的博客上发布),以及Note ,其对角线为10.3的E Ink Mobius Carta屏幕英寸和更高的分辨率。 这样的设备使您可以安全地以原始大小考虑插图的所有细节,并且适合那些经常需要阅读教育或技术文献的人们。 要查看DjVu和PDF文件可以使用NEO Reader,它允许您调整数字字体的对比度和粗细。

尽管格式存在缺陷,但今天DjVu仍然是“保存”文学作品的最受欢迎的格式之一。 这在很大程度上是由于它开放的,现代技术和发展允许绕开它的某些技术限制。

在以下材料中,我们将继续讲述电子书格式的出现历史及其功能。



PS Multiple ONYX BOOX阅读器撕裂:

Source: https://habr.com/ru/post/zh-CN411545/


All Articles