Salah satu program yang paling berguna pada PC dan ponsel cerdas menurut saya adalah kamus elektronik. Pada zaman kuno itu, ketika saya belajar bahasa asing, saya harus mencari setiap kata dalam kamus kertas. Saya melakukan operasi sepele ini ratusan kali, dan saya harus menonton beberapa kata jahat berulang kali, karena saya punya waktu untuk melupakan artinya. Betapa menghinanya itu! Entah itu masalahnya sekarang, dengan cepat dan terjemahkan di depan mata Anda pada layar monitor. Riwayat pencarian, jika kata pencarian tidak pindah dari bidang memori jangka pendek ke jangka panjang.

Stardict

Mari kita buat kamus elektronik untuk program StarDict / GoldenDict kita sendiri. Untuk ini, Anda mungkin perlu banyak, atau beberapa jam kerja, tergantung pada kualitas bahan sumber.

Langkah Satu: OCR

Berbeda dengan pendakian gunung, langkah paling sulit dalam mendigitalkan kamus bukanlah yang terakhir tetapi yang pertama. Jika Anda harus menjalankan OCR dari kamus kertas dengan halaman yang pudar dicetak terlalu halus, dengan berbagai artefak penggunaan yang ceroboh, atau dalam bahasa yang eksotis, maka bahkan FineReader tidak akan banyak membantu. Pada beberapa halaman, perbedaan lamanya waktu antara pengetikan manual dan OCR dengan koreksi kesalahan dapat diabaikan.

Saya menyarankan Anda untuk menyimpan semuanya dalam file teks sederhana , karena pencarian lanjutan dan koreksi kesalahan, penandaan, pengurutan konversi dan operasi lainnya dengan array teks tidak dapat dibayangkan untuk dilakukan dengan file biner .

Pada langkah ini, penting untuk menentukan struktur entri kamus. Dalam kasus paling sederhana, hanya akan ada dua bidang: kunci dan nilai . Ini sudah cukup, tetapi jika Anda perlu menyoroti berbagai elemen artikel, maka Anda perlu memberi label semua elemen tersebut dengan cara tertentu.

Saatnya berbicara sedikit tentang format. Ada banyak format kamus elektronik, berikut adalah daftarnya.

Kami tidak akan menganalisis semua format di sini, karena sebagian besar adalah milik. Kami tertarik pada standar terbuka dan perangkat lunak sumber terbuka.

Dictd

Timbul di era ketika protokol jaringan TCP / IP secara bebas dikalikan dan dikalikan sekarang hanya merupakan kepentingan arkeologis. Ini adalah protokol server klien yang menggunakan port TCP 2628, didefinisikan dalam RFC 2229 .

File sumber untuk kamus diformat sebagai berikut.

::

Misalnya, kamus seperti itu

 :catalysis: "increase in the rate of a chemical reaction due to the participation of an additional substance called a catalyst, which is not consumed in the catalyzed reaction and can continue to act repeatedly. " <a href="is.gd/v6a22Q">ref</a>. :deconstruction: :rendered: eg. "rendered irrelevant." :reading: cf. 'reading of' :minor: a minor reading.

File yang sudah jadi untuk kamus dibuat oleh perintah dictfmt .

 dictfmt --utf8 -s "  " -j dict-name < mydict.txt

Sebagai hasilnya, 2 file terbentuk: dict-name.index dan dict-name.dict . Dari jumlah tersebut, yang pertama jelas merupakan file indeks, Anda tidak perlu melakukan apa-apa dengannya, dan yang kedua dapat dikompres dengan perintah dictzip . Perintah ini memampatkan file * .dict menggunakan utilitas gzip . Pertanyaan segera muncul: mengapa kemudian perlu jika ada gzip biasa?

Faktanya adalah dictzip menggunakan byte tambahan di header file arsip untuk memberikan akses pseudo-acak ke file.

Akhirnya, file ditempatkan di direktori profil, /usr/lib/dict , kita me-restart layanan dan voila. Sintaks pencariannya sederhana, cukup ketik

kata KATA.

Jogging melalui tautan dictd menyerupai safari di jaringan Internet tahun 90-an, masih hidup dan masih terasa!

Sdict

Sebuah upaya berani oleh Alexei Semenov untuk mengubah dunia menjadi lebih baik dengan bantuan Perl magic pada saat Microsoft belum memutar Linux dan komunitas open source, dan ABBYY Lingvo bajak laut adalah sumber utama kamus.

Header file kamus sumber.

 <header> title = Sample 1 test dictionary - dictionary name; copyright = GNU Public License - copyright information; version = 0.1 - version; w_lang = en - language for words; a_lang = fi - language for articles. For further information about language codes refer 'C:\Sdict\share\doc\iso639.htm' file; # charset = ... - use if your source file is not in UTF-8 encoding. </header>

Tubuh diformat sebagai berikut:

 word___article

Anda dapat mengunduh versi untuk OS Symbian, jika itu. Proyek ini tidak lagi hidup, dan bahkan kamus itu sendiri dapat dipelajari hanya dari Time Machine .

Xdxf

Yah, semuanya, kami terikat dengan arkeologi dan beralih ke format kamus dan program yang cocok untuk menggunakan IRL.

XDXF memiliki semua kelebihan dan kekurangan dari format XML, yang mana itu. Semua sintaks format dan contoh dapat dilihat di sini .

Kerangka file kamus terlihat seperti ini, terdiri dari 2 bagian: meta_info dan lexicon .

 <xdxf ...> <meta_info>    : ,   . </meta_info> <lexicon> <ar> 1</ar> <ar> 2</ar> <ar> 3</ar> <ar> 4</ar> ... </lexicon> </xdxf>

Ada sejumlah besar kamus dalam format ini. Keuntungan besar format ini adalah tidak perlu mengkonversi apa pun lebih lanjut. GoldenDict mengenali file XDXF bersama dengan sejumlah besar format lain yang didukung.

TSV / StarDict

StarDict dan klonnya tidak begitu banyak tentang format kamus elektronik, tetapi tentang perangkat lunak berkualitas tinggi untuk melihat, mengubah dan membuat mereka.

Untuk membuat kamus elektronik menggunakan StarDict, file TSV sudah cukup, yang saya pilih untuk salinan digital kamus Armenia-Rusia .

Meskipun demikian, beberapa pemformatan dan markup file kamus dimungkinkan, tetapi tidak dapat dibandingkan dengan XDXF .

 a 1\n2\n3 b 4\\5\n6 c 789

Format mendefinisikan karakter pemisah baris \n , dalam kasus ketika artikel dibagi menjadi paragraf.

Langkah Dua: Penyesuaian

Setelah langkah pertama, kemungkinan besar akan ada puluhan, atau bahkan ratusan ejaan, tata bahasa dan segala macam kesalahan lainnya, karakter aneh dan artefak OCR lainnya.

Keunikan kamus adalah bahwa ejaan diperlukan secara bersamaan dalam dua bahasa. Bahkan sekarang di tahun 2018, secara mengejutkan beberapa editor teks dan bahkan office suites mampu melakukan tindakan sederhana ini.

Bukan untuk holivar, saya merekomendasikan pemrosesan teska untuk diproduksi dengan Vim . Jika editor teks favorit Anda melakukannya tidak lebih buruk, maka itu bagus. Dengan Vim, sebuah tim sudah cukup.

 :setlocal spell spelllang=en,ru

untuk memeriksa ejaan dalam dua kamus, dalam hal ini Bahasa Rusia dan Bahasa Inggris. Berikut ini adalah daftar rake.

Penyortiran teks bagaimanapun juga berlaku untuk lokal non-Latin, terutama di mana menulis surat membutuhkan lebih dari satu karakter, seperti bahasa Armenia ու = ո + ւ . Dalam kasus seperti ini perlu untuk mengurutkan daftar kata sendiri menggunakan Perl sederhana, atau skrip lain.
Pencocokan pola juga dapat bekerja secara tidak terduga untuk beberapa lokal, bahkan jika teks itu sendiri dan konsol berada di UTF-8.
Saat mendigitalkan kamus yang dicetak, seseorang harus disiapkan tidak hanya untuk kesalahan digitalisasi, tetapi juga untuk kesalahan dalam kamus yang dicetak itu sendiri. Mereka mungkin mengandung banyak!
Jika judul artikel ditulis dengan huruf kapital, maka mungkin itu harus dikonversi ke huruf kecil saat dijitasi. Tidak semua huruf memiliki huruf besar, bahkan tidak semua lokal memiliki huruf besar.

Langkah Tiga: Kompilasi Kamus

Untuk format XDXF , sebagaimana telah disebutkan, langkah ini tidak diperlukan. Cukup letakkan file di folder /usr/share/goldendict , tempat program /usr/share/goldendict .

Untuk file TSV, utilitas stardict-editor , yang dilengkapi dengan toolkit StarDict , digunakan.

editor-bintang

Pada output, program membuat file-file berikut, seperti Dict kuno.

somedict.ifo
somedict.idx atau somedict.idx.gz
somedict.dict atau somedict.dict.dz
somedict.syn (opsional)

File-file disalin ke /ysr/share/stardict/dic dan itu saja.

PS Untuk platform ponsel Android, GoldenDict tiba-tiba menjadi berbayar, tetapi Anda masih dapat menemukan versi gratis terbaru di Internet.

Kamus Digital A hingga Z