E-book dan formatnya: DjVu - sejarah, pro, kontra, dan fitur-fiturnya

Pada awal 70-an, penulis Amerika Michael Hart (Michael Hart) bisa mendapatkan akses tak terbatas ke komputer Xerox Sigma 5, yang dipasang di University of Illinois. Untuk menggunakan sumber daya mesin secara memadai, ia memutuskan untuk membuat e-book pertama, mencetak ulang Deklarasi Kemerdekaan Amerika Serikat.

Saat ini, literatur digital telah menyebar luas, sebagian besar disebabkan oleh pengembangan perangkat portabel (smartphone, pembaca, laptop). Ini telah menyebabkan munculnya sejumlah besar format e-book. Mari kita coba memahami fitur-fiturnya dan menceritakan kisah yang paling populer dari mereka - mari kita mulai dengan format DjVu.


/ Flickr / pearman jalur / cc

Munculnya format


DjVu dikembangkan pada tahun 1996 oleh AT&T Labs dengan satu tujuan - untuk memberikan pengembang web alat untuk mendistribusikan gambar resolusi tinggi melalui Internet.

Faktanya adalah bahwa pada saat itu 90% dari semua informasi masih tersimpan di atas kertas, dan banyak dokumen penting memiliki gambar dan foto berwarna. Untuk menjaga keterbacaan teks dan kualitas gambar, perlu dilakukan pemindaian dalam resolusi tinggi.

Format web klasik - JPEG, GIF dan PNG - diizinkan untuk bekerja dengan gambar seperti itu, tetapi dengan biaya volume. Dalam kasus JPEG, agar teks dapat dibaca di layar monitor, saya harus memindai dokumen dengan resolusi 300 dpi. Halaman warna majalah pada saat yang sama ditempati sekitar 500 KB. Mengunduh file sebesar ini dari Internet pada waktu itu adalah proses yang agak memakan waktu.

Alternatifnya adalah mendigitalkan dokumen kertas menggunakan teknologi pengenalan teks, tetapi 20 tahun yang lalu akurasinya jauh dari ideal - setelah diproses, hasil akhirnya harus diedit secara serius. Pada saat yang sama, grafik dan gambar tetap "berlebihan". Dan bahkan jika mungkin untuk menanamkan gambar yang dipindai ke dalam dokumen teks, beberapa detail visual hilang, misalnya, warna kertas, teksturnya, dan ini adalah komponen penting dari dokumen sejarah.

Untuk mengatasi masalah ini, AT&T mengembangkan DjVu. Itu memungkinkan untuk mengkompresi dokumen warna yang dipindai dengan resolusi 300 dpi hingga 40-60 Kb, dengan ukuran asli 25 MB. DjVu mengurangi ukuran halaman hitam putih menjadi 10-30 KB.

Bagaimana DjVu Mengompresi Dokumen


DjVu dapat bekerja dengan dokumen pindaian kertas dan format digital lainnya, seperti PDF. Dasar dari DjVu adalah teknologi yang memecah gambar menjadi tiga komponen: latar depan, latar belakang dan topeng hitam-putih (bit).

Topeng disimpan dengan resolusi file sumber dan berisi gambar teks dan detail jelas lainnya - garis tipis dan skema - serta gambar yang kontras.

Ini memiliki resolusi 300 dpi sehingga garis-garis halus dan kontur huruf tetap jelas, dan dikompresi menggunakan algoritma JB2, yang merupakan variasi dari algoritma JBIG2 yang diusulkan oleh AT&T untuk mengirim faks. Fitur JB2 adalah mencari karakter duplikat pada halaman dan menyimpan gambar mereka hanya sekali. Dengan demikian, dalam dokumen multi-halaman, setiap beberapa halaman berturut-turut menggunakan "kamus" umum.

Latar belakang berisi tekstur halaman dan ilustrasi, dan resolusinya kurang dari topeng. Latar belakang lossless untuk persepsi disimpan dengan resolusi 100 dpi.

Latar depan menyimpan informasi warna tentang topeng, dan resolusinya biasanya semakin berkurang, karena dalam kebanyakan kasus warna teks hitam dan sama untuk karakter cetak yang sama. Kompresi wavelet digunakan untuk kompres foreground dan background.

Langkah terakhir dalam membuat dokumen DjVu adalah pengkodean entropi, ketika encoder aritmatika adaptif mengubah urutan karakter yang identik menjadi nilai biner.

Keuntungan format


Tugas DjVu adalah untuk melestarikan "properti" dari dokumen kertas dalam bentuk digital, yang memungkinkan bahkan komputer yang lemah untuk bekerja dengan dokumen tersebut. Oleh karena itu, perangkat lunak untuk melihat file DjVu memiliki kemampuan untuk "membuat dengan cepat." Berkat itu, hanya potongan halaman DjVu yang harus ditampilkan pada layar yang dimuat ke dalam memori.

Hal ini juga memungkinkan untuk melihat file "yang belum diunduh", yaitu, halaman individual dari dokumen DjVu multi-halaman. Dalam hal ini, rendering progresif dari detail gambar digunakan ketika komponen-komponen tampak "muncul" ketika file diunggah (seperti dalam JPEG).

20 tahun yang lalu, ketika format ini diperkenalkan, halaman dimuat dalam tiga tahap: pertama komponen teks dimuat, setelah beberapa detik versi pertama gambar dan latar belakang dimuat. Setelah seluruh halaman buku "muncul".

Kehadiran struktur tiga tingkat juga memungkinkan Anda untuk mencari buku yang dipindai (karena ada lapisan teks khusus). Ini ternyata nyaman ketika bekerja dengan literatur teknis dan buku referensi, sehingga DjVu menjadi dasar bagi beberapa perpustakaan buku ilmiah. Misalnya, pada tahun 2002, dipilih oleh Internet Archive sebagai salah satu format (bersama dengan TIFF dan PDF) untuk proyek untuk menyimpan buku yang dipindai dari sumber terbuka.

Format kerugian


Namun, seperti semua teknologi, DjVu memiliki kekurangannya. Misalnya, saat menyandikan pindaian buku dalam format DjVu, beberapa karakter dalam dokumen dapat diganti oleh yang lain yang terlihat serupa. Paling sering ini terjadi dengan huruf "dan" dan "n", itulah sebabnya masalah ini disebut "masalah yin". Itu tidak tergantung pada bahasa teks dan mempengaruhi, antara lain, angka dan karakter berulang kecil lainnya.

Penyebabnya adalah kesalahan klasifikasi karakter dalam JB2 encoder. Dia β€œmembagi” pemindaian menjadi kelompok yang terdiri dari 10–20 buah dan membentuk kamus karakter yang sama untuk setiap kelompok. Kamus berisi sampel huruf dan angka umum dengan halaman dan koordinat penampilannya. Saat Anda menelusuri buku DjVu, simbol dari kamus diganti di tempat yang tepat.

Ini memungkinkan Anda untuk mengurangi ukuran file DjVu, namun, jika tampilan kedua huruf secara visual serupa, pembuat enkode dapat mencampur atau mengambilnya untuk hal yang sama. Terkadang ini menyebabkan kerusakan pada formula dalam dokumen teknis. Untuk mengatasi masalah ini, Anda dapat mengabaikan algoritma kompresi, tetapi ini akan meningkatkan ukuran salinan digital buku.

Kerugian lain dari format ini adalah tidak didukung secara default di banyak sistem operasi modern (termasuk yang mobile). Oleh karena itu, untuk mengatasinya, Anda perlu menginstal program pihak ketiga, seperti DjVuReader, WinDjView, Evince, dll. Namun, saya ingin mencatat bahwa beberapa pembaca elektronik (misalnya, ONYX BOOX) mendukung format DjVu "out of the box" - karena aplikasi yang diperlukan sudah ada di sana. diinstal.

Ngomong-ngomong, kita bisa bicara tentang apa lagi yang bisa dilakukan aplikasi untuk pembaca berbasis Android di salah satu materi sebelumnya.


Pembaca ONYX BOOX Chronos

Masalah format lain terwujud ketika bekerja dengan dokumen-dokumen DjVu pada layar kecil perangkat seluler - smartphone, tablet, pembaca. Kadang-kadang file DjVu disajikan dalam bentuk pemindaian spread buku, dan literatur profesional dan dokumen kerja seringkali dalam format A4, jadi Anda harus "memindahkan" gambar untuk mencari informasi.

Namun, kami mencatat bahwa masalah ini juga dapat dipecahkan. Cara termudah, tentu saja, adalah mencari dokumen dalam format yang berbeda - tetapi jika opsi ini tidak memungkinkan (misalnya, Anda perlu bekerja dengan banyak literatur teknis dalam DjVu), maka Anda dapat menggunakan pembaca elektronik dengan diagonal besar dari 9,7 hingga 13,3 inci, yang khusus "diasah" untuk bekerja dengan dokumen serupa.

Misalnya, dalam garis ONYX BOOX, perangkat tersebut adalah Chronos dan MAX 2 (omong-omong, kami telah menyiapkan tinjauan model pembaca ini, dan akan segera menerbitkannya di blog kami), serta Note , yang memiliki layar E Ink Mobius Carta dengan diagonal 10.3 inci dan resolusi lebih tinggi. Perangkat semacam itu memungkinkan Anda untuk dengan aman mempertimbangkan semua detail ilustrasi dalam ukuran aslinya dan cocok untuk mereka yang sering harus membaca literatur pendidikan atau teknis. Untuk melihat file DjVu dan PDF , NEO Reader digunakan, yang memungkinkan Anda untuk menyesuaikan kontras dan ketebalan font yang didigitalkan.

Terlepas dari kekurangan format, hari ini DjVu tetap menjadi salah satu format paling populer untuk "pelestarian" karya sastra. Ini sebagian besar karena fakta bahwa itu terbuka, dan teknologi dan perkembangan modern memungkinkan untuk mengatasi beberapa keterbatasan teknologinya.

Dalam materi berikut, kami akan melanjutkan kisah tentang sejarah penampilan format buku elektronik dan fitur-fitur pekerjaan mereka.



Beberapa pembaca ONYX BOOX robekan:

Source: https://habr.com/ru/post/id411545/


All Articles