Au début des années 70, l'écrivain américain Michael Hart (Michael Hart) a pu
obtenir un accès illimité à un ordinateur Xerox Sigma 5, installé à l'Université de l'Illinois. Pour utiliser adéquatement les ressources de la machine, il a décidé de créer le premier livre électronique, réimprimant la Déclaration d'indépendance des États-Unis.
Aujourd'hui, la littérature numérique s'est généralisée, en grande partie grâce au développement des appareils portables (smartphones, lecteurs, ordinateurs portables). Cela a conduit à l'émergence d'un grand nombre de formats de livres électroniques. Essayons de comprendre leurs fonctionnalités et racontons l'histoire des plus populaires d'entre eux - commençons par le format DjVu.
/ Flickr / lane pearman / ccL'émergence du format
DjVu a été développé en 1996 par AT&T Labs avec un seul objectif - donner aux développeurs web un outil pour distribuer des images haute résolution sur Internet.
Le fait est qu'à cette époque, 90% de toutes les informations étaient encore
stockées sur papier et que de nombreux documents importants comportaient des images et des photographies en couleur. Pour préserver la lisibilité du texte et la qualité des images, il a fallu réaliser des numérisations en haute résolution.
Les formats Web classiques - JPEG, GIF et PNG - permettaient de travailler avec de telles images, mais au détriment du volume. Dans le cas de JPEG, pour que le texte
soit lu sur l'écran du moniteur, j'ai dû numériser un document avec une résolution de 300 dpi. La page couleur du magazine occupait en même temps environ 500 Ko. Le téléchargement de fichiers de cette taille à partir d'Internet à l'époque était un processus assez long.
L'alternative était de numériser les documents papier à l'aide des technologies de reconnaissance de texte, mais il y a 20 ans, leur précision était loin d'être idéale - après traitement, le résultat final devait être sérieusement modifié manuellement. Dans le même temps, les graphiques et les images sont restés «à la mer». Et même s'il était possible d'incorporer l'image numérisée dans un document texte, certains détails visuels ont été perdus, par exemple, la couleur du papier, sa texture, et ce sont des composants importants des documents historiques.
Afin de résoudre ces problèmes, AT&T a développé DjVu. Il a permis de compresser des documents couleur numérisés avec une résolution de 300 dpi à 40-60 Ko, avec une taille originale de 25 Mo. DjVu a réduit la taille des pages en noir et blanc à 10-30 Ko.
Comment DjVu compresse les documents
DjVu peut fonctionner avec des documents numérisés sur papier et d'autres formats numériques, tels que PDF. La base de DjVu
est la technologie qui décompose l'image en trois composantes: le premier plan, l'arrière-plan et le masque noir et blanc (bit).
Le masque est enregistré avec la résolution du fichier source et
contient l' image du texte et d'autres détails clairs - lignes fines et schémas - ainsi que des images contrastées.
Il a une résolution de 300 dpi pour que les lignes fines et les contours des lettres restent claires et est compressé à l'aide de l'algorithme JB2, qui est une variante de l'algorithme JBIG2 proposé par AT&T pour la télécopie. Une caractéristique de JB2
est qu'il recherche les caractères en double sur la page et enregistre leur image une seule fois. Ainsi, dans les documents de plusieurs pages, toutes les quelques pages consécutives utilisent un «dictionnaire» commun.
L'arrière-plan contient la texture de la page et l'illustration, et sa résolution est inférieure à celle du masque. Le fond sans perte pour la perception est stocké avec une résolution de 100 dpi.
Le premier plan
stocke des informations de couleur sur le masque, et sa résolution diminue généralement encore plus, car dans la plupart des cas, la couleur du texte est noire et identique pour le même caractère d'impression.
La compression en ondelettes est utilisée pour compresser le premier plan et l'arrière-plan.
La dernière étape de la création d'un document DjVu est le codage entropique, lorsqu'un codeur arithmétique adaptatif transforme des séquences de caractères identiques en une valeur binaire.
Avantages du format
DjVu avait pour tâche
de préserver les «propriétés» d'un document papier sous forme numérique, permettant aux ordinateurs, même faibles, de travailler avec de tels documents. Par conséquent, le logiciel de visualisation des fichiers DjVu a la capacité de "rendre rapidement". Grâce à lui, seule la partie de la page DjVu qui doit être affichée à l'écran est
chargée en mémoire.
Il permet également de visualiser des fichiers "sous-téléchargés", c'est-à-dire des pages individuelles d'un document DjVu multi-pages. Dans ce cas, le rendu progressif des détails de l'image est utilisé lorsque les composants semblent «apparaître» lors du téléchargement du fichier (comme en JPEG).
Il y a 20 ans, lorsque ce format a été introduit, la page a été chargée en trois étapes: d'abord le composant texte a été chargé, après quelques secondes, les premières versions des images et du fond ont été chargées. Après toute la page du livre "est apparu".
La présence d'une structure à trois niveaux vous permet également de rechercher des livres numérisés (car il existe une couche de texte spéciale). Cela s'est avéré pratique pour travailler avec la littérature technique et les livres de référence, donc DjVu est devenu la base de plusieurs bibliothèques de livres scientifiques. Par exemple, en 2002,
Internet Archive l' a choisi comme l'un des formats (avec TIFF et PDF) pour un projet de sauvegarde de livres numérisés à partir de sources ouvertes.
Inconvénients de format
Cependant, comme toutes les technologies, DjVu a ses inconvénients. Par exemple, lors du codage de scans de livres au format DjVu, certains caractères du document peuvent être remplacés par d'autres qui se ressemblent. Le plus souvent, cela se produit avec les lettres «et» et «n», c'est pourquoi ce problème
est appelé le «problème yin». Il ne dépend pas de la langue du texte et affecte, entre autres, les nombres et autres petits caractères répétitifs.
Sa cause est des erreurs de classification des caractères dans l'encodeur JB2. Il «divise» les scans en groupes de 10 à 20 pièces et forme un dictionnaire de caractères communs pour chaque groupe. Le dictionnaire contient des exemples de lettres et de chiffres courants avec des pages et les coordonnées de leur apparence. Lorsque vous parcourez un livre DjVu, les symboles du dictionnaire sont substitués aux bons endroits.
Cela vous permet de réduire la taille du fichier DjVu, cependant, si l'affichage des deux lettres est visuellement similaire, l'encodeur peut soit les mélanger, soit les prendre pour les mêmes. Cela peut parfois endommager les formules d'un document technique. Pour résoudre ce problème, vous pouvez abandonner les algorithmes de compression, mais cela augmentera la taille de la copie numérique du livre.
Un autre inconvénient du format est qu'il n'est pas pris en charge par défaut dans de nombreux systèmes d'exploitation modernes (y compris les mobiles). Par conséquent, pour travailler avec, vous devez installer des
programmes tiers, tels que DjVuReader, WinDjView, Evince, etc. Cependant, je voudrais noter que certains lecteurs électroniques (par exemple, ONYX BOOX) prennent en charge le format DjVu «prêt à l'emploi» - car les applications nécessaires sont déjà là. installé.
Soit dit en passant, nous pouvons parler de ce que d'autres applications pour les lecteurs basés sur Android peuvent faire dans l'un des documents précédents.
Lecteur ONYX BOOX ChronosUn autre problème de format se manifeste lorsque vous travaillez avec des documents DjVu sur de petits écrans d'appareils mobiles - smartphones, tablettes, lecteurs. Parfois, les fichiers DjVu sont présentés sous la forme d'un scan de diffusion de livres, et la littérature professionnelle et les documents de travail sont souvent au format A4, vous devez donc «déplacer» l'image à la recherche d'informations.
Cependant, nous notons que ce problème est également résoluble. La façon la plus simple, bien sûr, est de rechercher un document dans un format différent - mais si cette option n'est pas possible (par exemple, vous devez travailler avec beaucoup de documentation technique dans DjVu), vous pouvez alors utiliser des lecteurs électroniques avec une grande diagonale de 9,7 à 13,3 pouces, ce qui spécialement «affûté» pour travailler avec des documents similaires.
Par exemple, dans la gamme ONYX BOOX, de tels appareils sont
Chronos et
MAX 2 (soit dit en passant, nous avons préparé une revue de ce modèle de lecteur, et la publierons bientôt sur notre blog), ainsi que
Note , qui a un écran E Ink Mobius Carta avec une diagonale de 10,3. pouces et une résolution plus élevée. De tels appareils vous permettent de considérer en toute sécurité tous les détails des illustrations dans leur taille d'origine et conviennent à ceux qui doivent souvent lire de la documentation pédagogique ou technique. Pour visualiser les fichiers DjVu et PDF
, NEO Reader est utilisé, ce qui vous permet d'ajuster le contraste et l'épaisseur des polices numérisées.
Malgré les lacunes du format, DjVu reste aujourd'hui l'un des formats les plus populaires pour la "conservation" des œuvres littéraires. Cela est largement dû au fait qu'il
est ouvert et que les technologies et développements modernes permettent de contourner certaines de ses limites technologiques.
Dans les documents suivants, nous continuerons l'histoire de l'histoire de l'apparition des formats de livres électroniques et des caractéristiques de leur travail.
Plusieurs déchirures de lecteur PS ONYX BOOX: