Digitales Wörterbuch von A bis Z.

Eines der nützlichsten Programme auf einem PC und Smartphone ist meines Erachtens ein elektronisches Wörterbuch. In jenen alten Zeiten, als ich eine Fremdsprache lernte, musste ich nach jedem Wort in einem Papierwörterbuch suchen. Ich habe diese triviale Operation hunderte Male durchgeführt, und einige böswillige Wörter mussten immer wieder beobachtet werden, da ich es geschafft habe, ihre Bedeutung zu vergessen. Wie beleidigend es war! Ob dies jetzt der Fall ist, schnell und übersetzen Sie vor Ihren Augen auf dem Bildschirm. Suchverlauf, falls das Suchwort nicht aus dem Bereich des Kurzzeitgedächtnisses in den Langzeitgedächtnis verschoben wurde.


Stardict


Lassen Sie uns selbst ein elektronisches Wörterbuch für StarDict / GoldenDict-Programme erstellen. Dafür benötigen Sie je nach Qualität des Ausgangsmaterials möglicherweise viele oder wenige Arbeitsstunden.


Erster Schritt: OCR


Im Gegensatz zum Bergsteigen ist der schwierigste Schritt bei der Digitalisierung eines Wörterbuchs nicht der letzte, sondern der erste. Wenn Sie eine OCR eines Papierwörterbuchs mit verblassten Seiten ausführen müssen, die zu fein gedruckt sind, mit verschiedenen Artefakten, die unachtsam verwendet werden, oder in einer exotischen Sprache, hilft selbst FineReader nicht viel. Auf einigen Seiten ist der Zeitunterschied zwischen manueller Eingabe und OCR mit Fehlerkorrektur vernachlässigbar.


Ich rate Ihnen, alles in einfachen Textdateien zu speichern, da eine erweiterte Suche und Fehlerkorrektur, Tagging, Sortierkonvertierung und andere Vorgänge mit einem Textarray mit einer Binärdatei nicht vorstellbar sind.


In diesem Schritt ist es wichtig, die Struktur der Wörterbucheinträge zu bestimmen. Im einfachsten Fall gibt es nur zwei Felder: einen Schlüssel und einen Wert . Dies ist ausreichend, aber wenn Sie verschiedene Elemente von Artikeln hervorheben müssen, müssen Sie alle diese Elemente auf eine bestimmte Weise kennzeichnen.


Es ist Zeit, ein bisschen über Formate zu sprechen. Es gibt viele Formate elektronischer Wörterbücher, hier eine Liste davon.


Wir werden hier nicht alle Formate analysieren, da die meisten von ihnen proprietär sind. Wir interessieren uns für offene Standards und Open Source Software.


Dictd


Entstanden in einer Zeit, in der Netzwerk-TCP / IP-Protokolle frei multipliziert und dictd ist dies nur von archäologischem Interesse. Dies ist ein Client-Server-Protokoll, das den in RFC 2229 definierten TCP-Port 2628 verwendet.


Die Quelldatei für das Wörterbuch ist wie folgt formatiert.


 ::  

Zum Beispiel ein solches Wörterbuch


 :catalysis: "increase in the rate of a chemical reaction due to the participation of an additional substance called a catalyst, which is not consumed in the catalyzed reaction and can continue to act repeatedly. " <a href="is.gd/v6a22Q">ref</a>. :deconstruction: :rendered: eg. "rendered irrelevant." :reading: cf. 'reading of' :minor: a minor reading. 

Die fertige Datei für das Wörterbuch wird mit dem Befehl dictfmt .


 dictfmt --utf8 -s "  " -j dict-name < mydict.txt 

Als Ergebnis werden 2 Dateien gebildet: dict-name.index und dict-name.dict . Von diesen ist die erste offensichtlich eine Indexdatei, Sie müssen nichts damit tun, und die zweite kann mit dem Befehl dictzip komprimiert werden. Dieser Befehl komprimiert die * .dict-Datei mit dem Dienstprogramm gzip . Es stellt sich sofort die Frage: Warum ist es dann notwendig, wenn es ein reguläres gzip ?


Tatsache ist, dass dictzip zusätzliche Bytes im Header der Archivdatei verwendet, um einen pseudozufälligen Zugriff auf die Datei zu ermöglichen.


Schließlich werden die Dateien in den Profilverzeichnissen abgelegt, /usr/lib/dict wir mit /usr/lib/dict den dictd Dienst und voila neu starten. Die Suchsyntax ist einfach, geben Sie einfach ein


diktiere WORT.


Das Joggen durch diktierte Links ähnelt einer Safari im Internet der 90er Jahre, ist lebendig und macht immer noch Spaß!


Sdict


Ein mutiger Versuch von Alexei Semenov, die Welt mit Hilfe von Perl-Magie zum Besseren zu verändern, zu einer Zeit, als Microsoft Linux und die Open-Source-Community noch nicht verdreht hatte und ABBYY Lingvo-Piraten die Hauptquelle für Wörterbücher waren.


Der Header der Quellwörterbuchdatei.


 <header> title = Sample 1 test dictionary - dictionary name; copyright = GNU Public License - copyright information; version = 0.1 - version; w_lang = en - language for words; a_lang = fi - language for articles. For further information about language codes refer 'C:\Sdict\share\doc\iso639.htm' file; # charset = ... - use if your source file is not in UTF-8 encoding. </header> 

Der Körper ist wie folgt formatiert:


 word___article 

In diesem Fall können Sie die Version für das Symbian-Betriebssystem herunterladen. Das Projekt lebt nicht mehr und selbst die Wörterbücher selbst können nur von der Zeitmaschine gelernt werden.


Xdxf


Nun, alles, wir sind an die Archäologie gebunden und gehen zu Wörterbuchformaten und Programmen über, die für die Verwendung von IRL geeignet sind.


XDXF bietet alle Vor- und Nachteile des XML-Formats. Alle Formatsyntax und Beispiele können hier eingesehen werden .


Das Skelett der Wörterbuchdatei sieht folgendermaßen aus: meta_info besteht aus zwei Teilen: meta_info und lexicon .


 <xdxf ...> <meta_info>    : ,   . </meta_info> <lexicon> <ar> 1</ar> <ar> 2</ar> <ar> 3</ar> <ar> 4</ar> ... </lexicon> </xdxf> 

Es gibt eine große Anzahl von Wörterbüchern in diesem Format. Der große Vorteil des Formats ist, dass nichts weiter konvertiert werden muss. GoldenDict erkennt XDXF-Dateien zusammen mit einer Vielzahl anderer unterstützter Formate.


TSV / StarDict


Bei StarDict und seinen Klonen geht es nicht so sehr um das elektronische Wörterbuchformat, sondern um hochwertige Software zum Anzeigen, Konvertieren und Erstellen.


Um mit StarDict ein elektronisches Wörterbuch zu erstellen , reicht eine TSV-Datei aus, die ich für eine digitale Kopie des armenisch-russischen Wörterbuchs ausgewählt habe .


Trotzdem ist eine gewisse Formatierung und Markierung der Wörterbuchdatei möglich, kann jedoch nicht mit XDXF verglichen XDXF .


 a 1\n2\n3 b 4\\5\n6 c 789 

Das Format definiert das Zeilenumbruchzeichen \n , wenn der Artikel in Absätze unterteilt ist.


Schritt zwei: Anpassung


Nach dem ersten Schritt wird es höchstwahrscheinlich Dutzende oder sogar Hunderte von Rechtschreib-, Grammatik- und allerlei anderen Fehlern, seltsamen Zeichen und anderen OCR-Artefakten geben.


Die Besonderheit von Wörterbüchern ist, dass die Rechtschreibung gleichzeitig in zwei Sprachen benötigt wird. Selbst jetzt im Jahr 2018 können überraschend wenige Texteditoren und sogar Bürosuiten diese einfache Aktion ausführen.


Kein Holivar für, ich empfehle, Teska zu verarbeiten, um mit Vim zu produzieren. Wenn Ihr bevorzugter Texteditor es nicht schlechter macht, ist es schön. Mit Vim reicht ein Team.


 :setlocal spell spelllang=en,ru 

Rechtschreibprüfung in zwei Wörterbüchern, in diesem Fall Russisch und Englisch. Das Folgende ist eine Liste von Rechen.


  • Die Textsortierung funktioniert sowieso für nicht-lateinische Gebietsschemas, besonders wenn das Schreiben eines Briefes mehr als ein Zeichen erfordert, wie z. B. Armenisch Armen ու = ո + ւ . In solchen Fällen ist es erforderlich, die Liste der Wörter selbst mit einem einfachen Perl oder einem anderen Skript zu sortieren.
  • Der Mustervergleich kann für einige Gebietsschemas auch unerwartet funktionieren, selbst wenn sich der Text selbst und die Konsole in UTF-8 befinden.
  • Bei der Digitalisierung eines gedruckten Wörterbuchs muss man nicht nur auf Digitalisierungsfehler vorbereitet sein, sondern auch auf Fehler im gedruckten Wörterbuch selbst. Sie können viel enthalten!
  • Wenn der Titel des Artikels in Großbuchstaben geschrieben ist, sollte er beim Digitalisieren möglicherweise in Kleinbuchstaben umgewandelt werden. Nicht alle Buchstaben haben Großbuchstaben, und nicht alle Gebietsschemas haben sogar Großbuchstaben.

Schritt drei: Wörterbuchzusammenstellung


Für das XDXF Format ist dieser Schritt, wie bereits erwähnt, nicht erforderlich. /usr/share/goldendict die Datei einfach in den Ordner /usr/share/goldendict , wo das Programm sie /usr/share/goldendict .


Für die TSV-Datei wird das stardict-editor , das mit dem StarDict- Toolkit stardict-editor wird.


Stardict-Editor


Am Ausgang erstellt das Programm die folgenden Dateien, wie das alte Diktat.


  1. somedict.ifo
  2. somedict.idx oder somedict.idx.gz
  3. somedict.dict oder somedict.dict.dz
  4. somedict.syn (optional)

Dateien werden in das /ysr/share/stardict/dic kopiert und das ist alles.


PS Für die mobile Android-Plattform wurde GoldenDict plötzlich bezahlt, aber Sie können immer noch die neueste kostenlose Version im Internet finden.

Source: https://habr.com/ru/post/de421075/


All Articles