الكتب الإلكترونية وأشكالها: DjVu - تاريخها وإيجابياتها وسلبياتها وميزاتها

في أوائل السبعينيات ، تمكن الكاتب الأمريكي مايكل هارت من الوصول غير المحدود إلى كمبيوتر Xerox Sigma 5 المثبت في جامعة إلينوي. لاستخدام موارد الجهاز بشكل كاف ، قرر إنشاء أول كتاب إلكتروني ، يعيد طباعة إعلان استقلال الولايات المتحدة.

اليوم ، أصبحت الأدبيات الرقمية واسعة الانتشار ، ويرجع ذلك إلى حد كبير إلى تطوير الأجهزة المحمولة (الهواتف الذكية والقراء وأجهزة الكمبيوتر المحمولة). وقد أدى ذلك إلى ظهور عدد كبير من تنسيقات الكتب الإلكترونية. دعنا نحاول فهم ميزاتهم ونخبر قصة أكثرها شيوعًا - فلنبدأ بتنسيق DjVu.


/ Flickr / lane pearman / cc

ظهور الشكل


تم تطوير DjVu في عام 1996 بواسطة AT&T Labs بهدف واحد - منح مطوري الويب أداة لتوزيع صور عالية الدقة عبر الإنترنت.

والحقيقة هي أنه في ذلك الوقت كانت 90٪ من جميع المعلومات لا تزال مخزنة على الورق ، وكان العديد من الوثائق المهمة تحتوي على صور ملونة وصور فوتوغرافية. للحفاظ على سهولة قراءة النص وجودة الصور ، كان من الضروري إجراء عمليات مسح بدقة عالية.

يسمح بتنسيقات الويب الكلاسيكية - JPEG و GIF و PNG - بالعمل مع هذه الصور ، ولكن على حساب الحجم. في حالة JPEG ، من أجل قراءة النص على شاشة المراقبة ، كان علي مسح مستند بدقة 300 نقطة في البوصة. احتلت الصفحة الملونة للمجلة في نفس الوقت حوالي 500 كيلوبايت. كان تنزيل ملفات بهذا الحجم من الإنترنت في ذلك الوقت عملية مستهلكة للوقت.

كان البديل هو رقمنة المستندات الورقية باستخدام تقنيات التعرف على النص ، ولكن قبل 20 عامًا كانت دقتها بعيدة عن المثالية - بعد المعالجة ، كان لا بد من تحرير النتيجة النهائية يدويًا. في الوقت نفسه ، ظلت الرسومات والصور "في البحر". وحتى إذا كان من الممكن تضمين الصورة الممسوحة ضوئيًا في مستند نصي ، فُقدت بعض التفاصيل المرئية ، على سبيل المثال ، لون الورقة ، وملمسها ، وهذه مكونات مهمة للوثائق التاريخية.

من أجل حل هذه المشاكل ، قامت AT&T بتطوير DjVu. يسمح بضغط المستندات الملونة الممسوحة ضوئيًا بدقة 300 نقطة في البوصة إلى 40-60 كيلوبايت ، بحجم أصلي 25 ميجا بايت. قلل DjVu حجم الصفحات بالأبيض والأسود إلى 10-30 كيلوبايت.

كيف يضغط DjVu المستندات


يمكن أن يعمل DjVu مع كل من المستندات الممسوحة ضوئيًا الورقية والتنسيقات الرقمية الأخرى ، مثل PDF. أساس DjVu هو التكنولوجيا التي تقسم الصورة إلى ثلاثة مكونات: المقدمة ، الخلفية وقناع أبيض وأسود (بت).

يتم حفظ القناع مع دقة الملف المصدر ويحتوي على صورة النص وتفاصيل واضحة أخرى - خطوط ومخططات رفيعة - بالإضافة إلى الصور المتناقضة.

تبلغ دقتها 300 نقطة في البوصة بحيث تظل الخطوط الرفيعة ومحيط الحروف واضحة ، ويتم ضغطها باستخدام خوارزمية JB2 ، وهو اختلاف لخوارزمية JBIG2 التي اقترحتها AT&T للإرسال عبر الفاكس. ميزة JB2 هي أنه يبحث عن أحرف مكررة على الصفحة ويحفظ صورتهم مرة واحدة فقط. وهكذا ، في المستندات متعددة الصفحات ، تستخدم كل بضع صفحات متتالية "قاموس" مشترك.

تحتوي الخلفية على نسيج الصفحة والرسم التوضيحي ، ودقتها أقل من دقة القناع. يتم تخزين الخلفية الضائعة للإدراك بدقة 100 نقطة في البوصة.

تخزن المقدمة معلومات اللون حول القناع ، وعادة ما ينخفض ​​دقتها أكثر ، لأنه في معظم الحالات يكون لون النص أسود ونفس الشيء بالنسبة لنفس حرف الطباعة. يستخدم ضغط المويجات لضغط المقدمة والخلفية.

الخطوة الأخيرة في إنشاء مستند DjVu هي التشفير الأنتروبي ، عندما يحول المشفر الحسابي التكيفي تسلسلات الأحرف المتطابقة إلى قيمة ثنائية.

مزايا التنسيق


كانت مهمة DjVu هي الحفاظ على "خصائص" المستند الورقي في شكل رقمي ، مما يسمح حتى لأجهزة الكمبيوتر الضعيفة بالعمل مع هذه المستندات. لذلك ، فإن البرنامج لعرض ملفات DjVu لديه القدرة على "العرض السريع". بفضله ، يتم فقط تحميل جزء صفحة DjVu التي يجب عرضها على الشاشة في الذاكرة.

كما أنه يجعل من الممكن عرض الملفات "التي لم يتم تنزيلها" ، أي الصفحات الفردية لمستند DjVu متعدد الصفحات. في هذه الحالة ، يتم استخدام العرض التدريجي لتفاصيل الصورة عندما يبدو أن المكونات "تظهر" أثناء تحميل الملف (كما في JPEG).

قبل 20 عامًا ، عندما تم تقديم هذا التنسيق ، تم تحميل الصفحة على ثلاث مراحل: أولاً تم تحميل مكون النص ، وبعد بضع ثوانٍ تم تحميل الإصدارات الأولى من الصور والخلفية. بعد أن "ظهرت" الصفحة الكاملة للكتاب.

يسمح لك وجود هيكل من ثلاثة مستويات بالبحث عن الكتب الممسوحة ضوئيًا (نظرًا لوجود طبقة نصية خاصة). اتضح أن هذا ملائم عند العمل مع الأدب الفني والكتب المرجعية ، لذلك أصبح DjVu أساسًا للعديد من مكتبات الكتب العلمية. على سبيل المثال ، في عام 2002 ، تم اختيارها من قبل أرشيف الإنترنت كأحد التنسيقات (مع TIFF و PDF) لمشروع لحفظ الكتب الممسوحة ضوئيًا من مصادر مفتوحة.

عيوب التنسيق


ومع ذلك ، مثل جميع التقنيات ، فإن DjVu لها عيوبها. على سبيل المثال ، عند ترميز عمليات مسح الكتب بتنسيق DjVu ، يمكن استبدال بعض الأحرف في المستند بأخرى تبدو متشابهة. يحدث هذا غالبًا مع الحرفين "و" و "n" ، ولهذا السبب تسمى هذه المشكلة "مشكلة الين". لا يعتمد على لغة النص ويؤثر ، في جملة أمور ، على الأرقام والأحرف الصغيرة المتكررة الأخرى.

سببها هو أخطاء تصنيف الأحرف في مشفر JB2. يقوم "بتقسيم" عمليات المسح إلى مجموعات من 10 إلى 20 قطعة ويشكل قاموسًا من الشخصيات المشتركة لكل مجموعة. يحتوي القاموس على عينات من الحروف والأرقام الشائعة مع الصفحات وإحداثيات مظهرها. عندما تستعرض كتاب DjVu ، يتم استبدال الرموز من القاموس في الأماكن الصحيحة.

هذا يسمح لك بتقليل حجم ملف DjVu ، ومع ذلك ، إذا كان عرض الحرفين متشابهًا بصريًا ، يمكن لبرنامج التشفير إما مزجهما أو أخذهما لنفسه. يؤدي هذا في بعض الأحيان إلى تلف الصيغ في مستند فني. لحل هذه المشكلة ، يمكنك التخلي عن خوارزميات الضغط ، ولكن هذا سيزيد من حجم النسخة الرقمية من الكتاب.

عيب آخر في التنسيق هو أنه غير مدعوم افتراضيًا في العديد من أنظمة التشغيل الحديثة (بما في ذلك الأنظمة المحمولة). لذلك ، للعمل معه ، تحتاج إلى تثبيت برامج خارجية ، مثل DjVuReader و WinDjView و Evince ، إلخ. ومع ذلك ، أود أن أشير إلى أن بعض القراء الإلكترونيين (على سبيل المثال ، ONYX BOOX) يدعمون تنسيق DjVu "خارج الصندوق" - نظرًا لأن التطبيقات الضرورية موجودة بالفعل مثبتة.

بالمناسبة ، يمكننا التحدث عما يمكن للتطبيقات الأخرى لقراء Android أن تفعله في إحدى المواد السابقة.


القارئ ONYX BOOX Chronos

تتجلى مشكلة أخرى في التنسيق عند العمل مع مستندات DjVu على الشاشات الصغيرة للأجهزة المحمولة - الهواتف الذكية والأجهزة اللوحية والقراء. في بعض الأحيان يتم تقديم ملفات DjVu في شكل مسح ضوئي للكتاب ، وغالبًا ما تكون الأدبيات المهنية ووثائق العمل بتنسيق A4 ، لذلك يجب عليك "نقل" الصورة بحثًا عن المعلومات.

ومع ذلك ، نلاحظ أن هذه المشكلة قابلة للحل أيضًا. أسهل طريقة ، بالطبع ، هي البحث عن مستند بتنسيق مختلف - ولكن إذا كان هذا الخيار غير ممكن (على سبيل المثال ، تحتاج إلى العمل مع الكثير من الأدبيات التقنية في DjVu) ، فيمكنك استخدام أجهزة قراءة إلكترونية بقطر كبير من 9.7 إلى 13.3 بوصة ، والتي خصيصا "شحذ" للعمل مع وثائق مماثلة.

على سبيل المثال ، في خط ONYX BOOX ، فإن هذه الأجهزة هي Chronos و MAX 2 (بالمناسبة ، لقد أعددنا مراجعة لهذا النموذج من القارئ ، وسننشره قريبًا على مدونتنا) ، بالإضافة إلى ملاحظة ، والتي تحتوي على شاشة E Ink Mobius Carta بقطر 10.3 بوصة وأعلى دقة. تتيح لك هذه الأجهزة التفكير في جميع تفاصيل الرسوم التوضيحية بأحجامها الأصلية بأمان وهي مناسبة لأولئك الذين يضطرون غالبًا إلى قراءة الأدبيات التعليمية أو التقنية. لعرض ملفات DjVu و PDF ، يتم استخدام NEO Reader ، مما يسمح لك بتعديل التباين وسُمك الخطوط الرقمية.

على الرغم من أوجه القصور في الشكل ، لا يزال DjVu اليوم أحد التنسيقات الأكثر شيوعًا لـ "الحفاظ على" الأعمال الأدبية. هذا يرجع إلى حد كبير إلى حقيقة أنه مفتوح ، وتسمح التقنيات والتطورات الحديثة بالتغلب على بعض قيودها التكنولوجية.

في المواد التالية سنستمر في قصة تاريخ ظهور تنسيقات الكتب الإلكترونية وخصائص عملها.



PS متعددة ONYX BOOX قارئ مزقت:

Source: https://habr.com/ru/post/ar411545/


All Articles