E-Books und ihre Formate: DjVu - Geschichte, Vor- und Nachteile sowie Funktionen

In den frühen 70er Jahren konnte der amerikanische Schriftsteller Michael Hart (Michael Hart) uneingeschränkten Zugriff auf einen Computer Xerox Sigma 5 erhalten, der an der University of Illinois installiert war. Um die Ressourcen der Maschine angemessen zu nutzen, beschloss er, das erste E-Book zu erstellen, in dem die Unabhängigkeitserklärung der Vereinigten Staaten nachgedruckt wurde.

Heutzutage ist digitale Literatur weit verbreitet, hauptsächlich aufgrund der Entwicklung tragbarer Geräte (Smartphones, Lesegeräte, Laptops). Dies hat zur Entstehung einer Vielzahl von E-Book-Formaten geführt. Versuchen wir, ihre Funktionen zu verstehen und die Geschichte der beliebtesten zu erzählen - beginnen wir mit dem DjVu-Format.


/ Flickr / Lane Pearman / cc

Die Entstehung des Formats


DjVu wurde 1996 von AT & T Labs mit dem Ziel entwickelt, Webentwicklern ein Tool zum Verteilen hochauflösender Bilder über das Internet bereitzustellen.

Tatsache ist, dass zu diesem Zeitpunkt noch 90% aller Informationen auf Papier gespeichert waren und viele der wichtigen Dokumente Farbbilder und Fotos enthielten. Um die Lesbarkeit des Textes und die Qualität der Bilder zu gewährleisten, mussten Scans in hoher Auflösung durchgeführt werden.

Klassische Webformate - JPEG, GIF und PNG - dürfen mit solchen Bildern arbeiten, jedoch auf Kosten des Volumens. Im Fall von JPEG musste ich ein Dokument mit einer Auflösung von 300 dpi scannen, damit der Text auf dem Bildschirm gelesen werden konnte . Die Farbseite des Magazins belegte gleichzeitig ca. 500 KB. Das Herunterladen von Dateien dieser Größe aus dem Internet war zu dieser Zeit ein ziemlich zeitaufwändiger Prozess.

Die Alternative bestand darin, Papierdokumente mithilfe von Texterkennungstechnologien zu digitalisieren. Vor 20 Jahren war ihre Genauigkeit jedoch alles andere als ideal - nach der Verarbeitung musste das Endergebnis ernsthaft manuell bearbeitet werden. Gleichzeitig blieben Grafiken und Bilder „über Bord“. Und selbst wenn es möglich war, das gescannte Bild in ein Textdokument einzubetten, gingen einige visuelle Details verloren, beispielsweise die Farbe des Papiers, seine Textur und diese sind wichtige Bestandteile historischer Dokumente.

Um diese Probleme zu lösen, hat AT & T DjVu entwickelt. Es ermöglichte das Komprimieren gescannter Farbdokumente mit einer Auflösung von 300 dpi auf 40-60 KB bei einer Originalgröße von 25 MB. DjVu hat die Größe von Schwarzweißseiten auf 10-30 KB reduziert.

Wie DjVu Dokumente komprimiert


DjVu kann sowohl mit auf Papier gescannten Dokumenten als auch mit anderen digitalen Formaten wie PDF arbeiten. Die Basis von DjVu ist eine Technologie, die das Bild in drei Komponenten unterteilt: Vordergrund, Hintergrund und Schwarzweißmaske (Bit).

Die Maske wird mit der Auflösung der Quelldatei gespeichert und enthält das Bild des Textes und andere klare Details - dünne Linien und Schemata - sowie kontrastierende Bilder.

Es hat eine Auflösung von 300 dpi, so dass die feinen Linien und Konturen der Buchstaben klar bleiben, und wird unter Verwendung des JB2-Algorithmus komprimiert, der eine Variation des von AT & T zum Faxen vorgeschlagenen JBIG2-Algorithmus ist. Eine Funktion von JB2 ist, dass es auf der Seite nach doppelten Zeichen sucht und deren Bild nur einmal speichert. Daher verwenden in mehrseitigen Dokumenten alle paar aufeinander folgenden Seiten ein gemeinsames „Wörterbuch“.

Der Hintergrund enthält die Textur der Seite und der Abbildung, und die Auflösung ist geringer als die der Maske. Der verlustfreie Hintergrund für die Wahrnehmung wird mit einer Auflösung von 100 dpi gespeichert.

Im Vordergrund werden Farbinformationen über die Maske gespeichert, und ihre Auflösung nimmt normalerweise noch weiter ab, da in den meisten Fällen die Textfarbe schwarz und für dasselbe Druckzeichen gleich ist. Die Wavelet-Komprimierung wird verwendet, um Vordergrund und Hintergrund zu komprimieren.

Der letzte Schritt beim Erstellen eines DjVu-Dokuments ist die Entropiecodierung, wenn ein adaptiver arithmetischer Codierer Sequenzen identischer Zeichen in einen Binärwert umwandelt.

Vorteile des Formats


DjVus Aufgabe war es , die „Eigenschaften“ eines Papierdokuments in digitaler Form beizubehalten, damit auch schwache Computer mit solchen Dokumenten arbeiten können. Daher kann die Software zum Anzeigen von DjVu-Dateien "schnell rendern". Dank dessen wird nur der Teil der DjVu-Seite, der auf dem Bildschirm angezeigt werden soll , in den Speicher geladen .

Es ermöglicht auch das Anzeigen von "unterladenen" Dateien, dh einzelnen Seiten eines mehrseitigen DjVu-Dokuments. In diesem Fall wird das progressive Rendern von Bilddetails verwendet, wenn die Komponenten beim Hochladen der Datei (wie in JPEG) zu "erscheinen" scheinen.

Vor 20 Jahren, als dieses Format eingeführt wurde, wurde die Seite in drei Schritten geladen: Zuerst wurde die Textkomponente geladen, nach einigen Sekunden wurden die ersten Versionen der Bilder und des Hintergrunds geladen. Nach der ganzen Seite des Buches "erschien".

Das Vorhandensein einer dreistufigen Struktur ermöglicht es Ihnen auch, nach gescannten Büchern zu suchen (da es eine spezielle Textebene gibt). Dies erwies sich als praktisch, wenn mit technischer Literatur und Nachschlagewerken gearbeitet wurde, sodass DjVu die Grundlage für mehrere Bibliotheken wissenschaftlicher Bücher wurde. Beispielsweise wurde es 2002 vom Internetarchiv als eines der Formate (zusammen mit TIFF und PDF) für ein Projekt zum Speichern gescannter Bücher aus Open Source ausgewählt.

Format Nachteile


Wie alle Technologien hat DjVu jedoch seine Nachteile. Wenn Sie beispielsweise Scans von Büchern im DjVu-Format codieren, können einige Zeichen im Dokument durch ähnliche Zeichen ersetzt werden. Meistens geschieht dies mit den Buchstaben „und“ und „n“, weshalb dieses Problem als „Yin-Problem“ bezeichnet wird. Es hängt nicht von der Sprache des Textes ab und betrifft unter anderem Zahlen und andere kleine sich wiederholende Zeichen.

Die Ursache sind Zeichenklassifizierungsfehler im JB2-Encoder. Er „teilt“ Scans in Gruppen von 10 bis 20 Teilen auf und bildet für jede Gruppe ein Wörterbuch mit gemeinsamen Zeichen. Das Wörterbuch enthält Beispiele für gebräuchliche Buchstaben und Zahlen mit Seiten und den Koordinaten ihres Erscheinungsbilds. Wenn Sie ein DjVu-Buch durchsuchen, werden die Symbole aus dem Wörterbuch an den richtigen Stellen ersetzt.

Auf diese Weise können Sie die Größe der DjVu-Datei verringern. Wenn die Anzeige der beiden Buchstaben jedoch optisch ähnlich ist, kann der Encoder sie entweder verwechseln oder für dieselbe verwenden. Dies führt manchmal zu einer Beschädigung der Formeln in einem technischen Dokument. Um dieses Problem zu lösen, können Sie auf Komprimierungsalgorithmen verzichten. Dadurch wird jedoch die digitale Kopie des Buches vergrößert.

Ein weiterer Nachteil des Formats besteht darin, dass es in vielen modernen Betriebssystemen (einschließlich mobiler) standardmäßig nicht unterstützt wird. Um damit arbeiten zu können, müssen Sie daher Programme von Drittanbietern wie DjVuReader, WinDjView, Evince usw. installieren. Ich möchte jedoch darauf hinweisen, dass einige elektronische Lesegeräte (z. B. ONYX BOOX) das DjVu-Format „out of the box“ unterstützen - da die erforderlichen Anwendungen bereits vorhanden sind installiert.

Übrigens können wir in einem der vorherigen Materialien darüber sprechen, was Anwendungen für Android-basierte Leser sonst noch können .


Leser ONYX BOOX Chronos

Ein weiteres Formatproblem tritt bei der Arbeit mit DjVu-Dokumenten auf kleinen Bildschirmen mobiler Geräte auf - Smartphones, Tablets, Lesegeräte. Manchmal werden DjVu-Dateien in Form eines Buch-Spread-Scans dargestellt, und Fachliteratur und Arbeitsdokumente liegen häufig im A4-Format vor, sodass Sie das Bild auf der Suche nach Informationen „verschieben“ müssen.

Wir stellen jedoch fest, dass dieses Problem auch lösbar ist. Am einfachsten ist es natürlich, nach einem Dokument in einem anderen Format zu suchen. Wenn diese Option jedoch nicht möglich ist (z. B. müssen Sie mit viel technischer Literatur in DjVu arbeiten), können Sie elektronische Lesegeräte mit einer großen Diagonale von 9,7 bis 13,3 Zoll verwenden speziell für die Arbeit mit ähnlichen Dokumenten „geschärft“.

In der ONYX BOOX-Reihe sind dies beispielsweise Chronos und MAX 2 (wir haben übrigens eine Überprüfung dieses Lesermodells vorbereitet und werden es bald in unserem Blog veröffentlichen) sowie Note mit einem E Ink Mobius Carta-Bildschirm mit einer Diagonale von 10,3 Zoll und höhere Auflösung. Mit solchen Geräten können Sie alle Details der Abbildungen in ihrer Originalgröße sicher betrachten und sind für diejenigen geeignet, die häufig pädagogische oder technische Literatur lesen müssen. Zum Anzeigen von DjVu- und PDF-Dateien wird der NEO Reader verwendet, mit dem Sie den Kontrast und die Dicke der digitalisierten Schriftarten anpassen können.

Trotz der Mängel des Formats bleibt DjVu bis heute eines der beliebtesten Formate für die "Erhaltung" literarischer Werke. Dies ist hauptsächlich auf die Tatsache zurückzuführen, dass es offen ist und moderne Technologien und Entwicklungen es ermöglichen, einige seiner technologischen Einschränkungen zu umgehen.

In den folgenden Materialien werden wir die Geschichte über das Entstehen elektronischer Buchformate und die Merkmale ihrer Arbeit fortsetzen.



PS Mehrere ONYX BOOX Reader-Rips:

Source: https://habr.com/ru/post/de411545/


All Articles