من أكثر البرامج المفيدة على جهاز الكمبيوتر والهاتف الذكي حسب فهمي القاموس الإلكتروني. في تلك العصور القديمة ، عندما تعلمت لغة أجنبية ، كان علي أن أبحث عن كل كلمة في قاموس ورقي. لقد قمت بهذه العملية التافهة مئات المرات ، وكان عليّ مشاهدة بعض الكلمات الخبيثة مرارًا وتكرارًا ، حيث كان لدي الوقت لنسيان معناها. كم كانت مهينة! سواء كان الأمر كذلك الآن ، قم بالتمرير والترجمة أمام العين على شاشة العرض. محفوظات البحث ، في حالة عدم انتقال كلمة البحث من مجال الذاكرة قصيرة المدى إلى طويلة المدى.

دعونا ننشئ قاموسًا إلكترونيًا لبرامج StarDict / GoldenDict بمفردنا. لهذا ، قد تحتاج إلى ساعات عمل كثيرة أو قليلة ، اعتمادًا على جودة المواد المصدر.
الخطوة الأولى: التعرف الضوئي على الحروف
على عكس تسلق الجبال ، فإن أصعب خطوة في رقمنة القاموس ليست الأخيرة بل الأولى. إذا كان عليك تشغيل OCR لقاموس ورقي مع صفحات باهتة مطبوعة بدقة عالية ، مع العديد من القطع الأثرية للاستخدام المتهور ، أو بلغة غريبة ، فلن يساعدك برنامج FineReader كثيرًا. في بعض الصفحات ، يكون الفرق في المدة الزمنية بين الكتابة اليدوية و OCR مع تصحيح الخطأ ضئيلًا.
أنصحك بحفظ كل شيء في ملفات نصية بسيطة ، لأن البحث المتقدم وتصحيح الأخطاء ، ووضع العلامات ، وفرز التحويل والعمليات الأخرى مع مجموعة نصية لا يمكن تصورها باستخدام ملف ثنائي .
في هذه الخطوة ، من المهم تحديد هيكل إدخالات القاموس. في أبسط الحالات ، سيكون هناك حقلين فقط: مفتاح وقيمة . هذا يكفي ، ولكن إذا كنت بحاجة إلى تسليط الضوء على عناصر مختلفة من المقالات ، فستحتاج إلى تصنيف جميع هذه العناصر بطريقة معينة.
حان الوقت للحديث قليلاً عن التنسيقات. هناك العديد من تنسيقات القواميس الإلكترونية ، إليك قائمة بها.
لن نقوم بتحليل جميع التنسيقات هنا ، لأن معظمها ملكية. نحن مهتمون بمعايير مفتوحة وبرمجيات مفتوحة المصدر.
دكتد
نشأت في حقبة أصبحت فيها بروتوكولات شبكة TCP / IP تتكاثر وتضاعف dictd
الآن ذات أهمية أثرية فقط. هذا هو بروتوكول خادم عميل يستخدم منفذ TCP 2628 ، المعرف في RFC 2229 .
يتم تنسيق الملف المصدر للقاموس على النحو التالي.
::
على سبيل المثال ، مثل هذا القاموس
:catalysis: "increase in the rate of a chemical reaction due to the participation of an additional substance called a catalyst, which is not consumed in the catalyzed reaction and can continue to act repeatedly. " <a href="is.gd/v6a22Q">ref</a>. :deconstruction: :rendered: eg. "rendered irrelevant." :reading: cf. 'reading of' :minor: a minor reading.
يتم إنشاء الملف النهائي للقاموس بواسطة الأمر dictfmt
.
dictfmt --utf8 -s " " -j dict-name < mydict.txt
ونتيجة لذلك ، يتم تشكيل ملفين: dict-name.index
و dict-name.dict
. من بينها ، من الواضح أن الأول هو ملف فهرس ، لا تحتاج إلى القيام بأي شيء به ، والثاني يمكن ضغطه باستخدام الأمر dictzip
. يقوم هذا الأمر بضغط ملف * .dict باستخدام الأداة المساعدة gzip
. السؤال الذي يطرح نفسه على الفور: لماذا إذا كان من الضروري إذا كان هناك gzip
منتظم؟
والحقيقة هي أن dictzip
يستخدم وحدات بايت إضافية في رأس ملف الأرشيف لتوفير وصول شبه عشوائي إلى الملف.
أخيرًا ، يتم وضع الملفات في دلائل الملف الشخصي ، /usr/lib/dict
، نعيد تشغيل خدمة dictd
و voila. صيغة البحث بسيطة ، فقط اكتب
إملاء الكلمة.
الركض من خلال روابط dictd يشبه رحلة سفاري على شبكة الإنترنت في التسعينات ، وهي حية ولا تزال ركلات!
Sdict
محاولة جريئة من قبل أليكسي سيمينوف لتغيير العالم نحو الأفضل بمساعدة سحر بيرل في وقت لم تقم فيه مايكروسوفت بتحريف لينكس ومجتمع المصادر المفتوحة ، وكان قراصنة ABBYY Lingvo المصدر الرئيسي للقواميس.
رأس ملف القاموس المصدر.
<header> title = Sample 1 test dictionary - dictionary name; copyright = GNU Public License - copyright information; version = 0.1 - version; w_lang = en - language for words; a_lang = fi - language for articles. For further information about language codes refer 'C:\Sdict\share\doc\iso639.htm' file; # charset = ... - use if your source file is not in UTF-8 encoding. </header>
يتم تنسيق الجسم على النحو التالي:
word___article
يمكنك تنزيل إصدار نظام التشغيل Symbian OS ، إذا كان ذلك. لم يعد المشروع على قيد الحياة ، وحتى القواميس نفسها يمكن تعلمها فقط من آلة الزمن .
Xdxf
حسنًا ، كل شيء ، نحن مرتبطون بعلم الآثار وننتقل إلى تنسيقات القاموس والبرامج المناسبة لاستخدام IRL.
XDXF لديه كل مزايا وعيوب تنسيق XML ، وهو. يمكن الاطلاع على جميع صيغ وأمثلة التنسيق هنا .
يشبه الهيكل العظمي لملف القاموس هذا ، ويتكون من جزأين: meta_info
و lexicon
.
<xdxf ...> <meta_info> : , . </meta_info> <lexicon> <ar> 1</ar> <ar> 2</ar> <ar> 3</ar> <ar> 4</ar> ... </lexicon> </xdxf>
هناك عدد كبير من القواميس بهذا التنسيق. الميزة الكبرى للتنسيق هي أنه لا توجد حاجة لتحويل أي شيء آخر. يتعرف GoldenDict على ملفات XDXF إلى جانب عدد كبير من التنسيقات المدعومة الأخرى.
TSV / StarDict
لا تتعلق StarDict واستنساخها بشكل كبير بتنسيق القاموس الإلكتروني ، ولكن حول البرامج عالية الجودة لعرضها وتحويلها وإنشائها .
لإنشاء قاموس إلكتروني باستخدام StarDict ، يكفي ملف TSV ، والذي اخترته لنسخة رقمية من القاموس الأرمني الروسي .
ومع ذلك ، فإن بعض تنسيق وترميز ملف القاموس ممكن ، ولكن لا يمكن مقارنته مع XDXF
.
a 1\n2\n3 b 4\\5\n6 c 789
يعرّف التنسيق حرف فاصل الأسطر \n
، في حالة تقسيم المقالة إلى فقرات.
الخطوة الثانية: التعديل
بعد الخطوة الأولى ، سيكون هناك على الأرجح العشرات ، أو حتى المئات من الإملاء والنحو وجميع أنواع الأخطاء الأخرى والشخصيات الغريبة وغيرها من القطع الأثرية للتعرف الضوئي على الحروف.
خصوصية القواميس هي أن الإملاء مطلوب في وقت واحد بلغتين. حتى الآن في عام 2018 ، من المثير للدهشة أن عددًا قليلاً من محرري النصوص وحتى أجنحة المكتب قادرون على تنفيذ هذا الإجراء البسيط.
ليس holivar ، أوصي معالجة teska لإنتاجه مع Vim . إذا لم يفعل محرر النصوص المفضل لديك أي شيء أسوأ ، فهذا أمر جيد. مع Vim ، يكفي فريق.
:setlocal spell spelllang=en,ru
للتحقق من الهجاء في قواميس ، في هذه الحالة الروسية والإنجليزية. فيما يلي قائمة بالمكابح.
- يعمل فرز النص على أي حال للغات غير اللاتينية ، خاصة بشكل سيئ حيث تتطلب كتابة الرسالة أكثر من حرف واحد ، مثل الأرمينية
ու = ո + ւ
. من الضروري في مثل هذه الحالات فرز قائمة الكلمات بنفسك باستخدام Perl بسيط أو نص برمجي آخر. - قد تعمل مطابقة الأنماط أيضًا بشكل غير متوقع لبعض اللغات ، حتى إذا كان النص نفسه ووحدة التحكم في UTF-8.
- عند رقمنة القاموس المطبوع ، يجب إعداد المرء ليس فقط لأخطاء الرقمنة ، ولكن أيضًا للأخطاء في القاموس المطبوع نفسه. قد تحتوي على الكثير!
- إذا كان عنوان المقالة مكتوبًا بحروف كبيرة ، فربما يجب تحويله إلى أحرف صغيرة عند الرقمنة. لا تحتوي جميع الأحرف على أحرف كبيرة ؛ في الواقع ، لا تحتوي جميع اللغات على أحرف كبيرة.
الخطوة الثالثة: تجميع القاموس
لتنسيق XDXF
، كما سبق ذكره ، هذه الخطوة غير مطلوبة. ما عليك /usr/share/goldendict
وضع الملف في المجلد /usr/share/goldendict
، حيث /usr/share/goldendict
البرنامج.
بالنسبة لملف TSV ، يتم stardict-editor
الأداة المساعدة stardict stardict-editor
، والتي تأتي مع مجموعة أدوات StarDict .

عند الإخراج ، ينشئ البرنامج الملفات التالية ، مثل Dict القديم.
- somedict.ifo
- somedict.idx أو somedict.idx.gz
- somedict.dict أو somedict.dict.dz
- somedict.syn (اختياري)
يتم نسخ الملفات إلى الدليل /ysr/share/stardict/dic
وهذا كل ما في الأمر.
PS لمنصة Android المحمولة ، أصبح GoldenDict مدفوعًا فجأة ، ولكن لا يزال بإمكانك العثور على أحدث إصدار مجاني على الإنترنت.