
ربما ، في جميع الأعمار كان هناك مترجمون أدبيون وفريكرون. شعر الأخير بأنه يحق له تغيير النص وإعادة تحريره وتجاهل بعض القطع وإلحاق أجزاء أخرى. ويواجه الباحثون المعاصرون سؤالًا نموذجيًا: "ماذا حدث بالتفصيل أثناء تحول الأصل؟ ما الذي تم شطبه ، وما تم حفظه ، وما هو إعادة بنائه ، وما تمت إضافته؟ "
قبل قراءة النصوص بكل عناية ، كنت أرغب في محاولة إعطائها للروبوتات للدراسة الأولية. كانت آمالنا قليلة في الروبوتات ، لكننا تلقينا مساعدة كبيرة منهم. حول كيف جعلنا ترجمة Google و Yandex.Translator يتنافسان في العمل على النص اليوناني لـ Invisible Battle ، اقرأ تحت القطة.
مواد العمل
" الإساءة غير المرئية " - أطروحة زاهدة ، كُتبت في الأصل بالإيطالية ، ثم تُرجمت إلى اليونانية في القرن الثامن عشر ، وحُررت وفقًا لممارسة الزهد المسيحي الشرقي ، ثم تُرجمت إلى الروسية. ولكن أيضًا ليس حرفياً ، ولكن مع تغييرات كبيرة. وصف القديس ثيوفان الحبيس وصف مبادئ عمله في الترجمة إلى اللغة الروسية:
أنا لا أترجم [هذا الكتاب] ، لكني أستخدم كلامي بحرية ... أضيفه وأخفِّضه وأتغير عنه.
لمحة عامة عن التغييرات التحريرية في عمل ep. Feoktista ، لكني أردت أن أحصل على اختلاف تفصيلي بالضبط عبر النص.
طريقة المطابقة
لهذا ، تم تقسيم كلا النصين (اليونانية والروسية الحديثة) إلى فقرات. اتضح ما يقرب من 700 فقرة لكل منهما.
قمنا بترجمة النص اليوناني إلى اللغة الروسية مرتين - مرة واحدة باستخدام Yandex.Translator ، ومرة أخرى باستخدام الترجمة من Google. قاموا ببساطة بإنشاء صفحات كبيرة تحتوي على نص كامل وفتحوها من خلال كمامات الويب المقابلة. كان من شبه المستحيل قراءة النص المترجم: يبدو أن النص الأصلي كان معقدًا للغاية ، ولكن يمكن تعلم شيء من هذا الرعب. يجب أن تتزامن الكلمات الرئيسية في مكان ما ، والأرقام أيضًا.
لم يكن هناك مجموعة متنوعة من الأدوات للعثور على التكرارات الضبابية ، أمسكوا fuzzywuzzy
، الذي يعتبر مسافة Levenshtein . من بين الوظائف الأربع: ratio
، partial_ratio
، token_sort_ratio
، token_set_ratio
- تم تحديد token_set_ratio
الأخيرة ، ولا تتعلق بترتيب الكلمات أو token_set_ratio
. وكما اتضح لاحقًا ، كان الاختيار صحيحًا.
بالنسبة لجميع أزواج الفقرات (الروسية مقابل اليونانية) ، تم حساب درجات التشابه بين token_set_ratio وترجمة Feofanov مع Yandex و Google. قررنا عدم الاعتماد على أي منهما بشكل فردي ، ولكن على مجموعهم (à la سلة العملات المزدوجة - واتضح هذا أيضًا أنه القرار الصحيح) ، ثم نظر المرشحون ذوو القيم الكبيرة من هذا المبلغ وفحصوا بعيونهم وأقلامهم ، وكذلك الجيران الأزواج الذين تم التحقق منهم.
ونتيجة لذلك ، على مدار عدة ساعات من العمل ، كان من الممكن مقارنة 2/3 فقرات ، أما الوحدات المتبقية فقط فيمكن مقارنتها يدويًا.
طرق إعادة الفحص
بعد الانتهاء من العمل والنتيجة ، كان من المثير للاهتمام الرجوع إلى الوراء وإلقاء نظرة مرة أخرى على الوظائف fuzzywuzzy
وأي من المترجمين الأنسب لمثل هذه المهمة.
حساب partial_ratio
يستغرق وقتًا طويلاً جدًا (لقد كان كسولًا 120 ساعة لتشغيل جهاز الكمبيوتر الخاص بك على التوالي) ، ولكن تم حساب الوظائف الثلاث المتبقية في حوالي ساعة: ratio
، token_sort_ratio
و token_set_ratio
لكل من ترجمات Yandex و Google. ما مجموعه ست وظائف للنص القرب والسابع - "سلة عملاتنا المزدوجة".
الآن يمكنك إلقاء نظرة على الأجهزة اللوحية التالية. يجيب السؤال الأول على السؤال: "إذا بحثنا عن فقرة روسية معينة عن اليونانية المقابلة ، مع مراعاة الفقرات بترتيب تنازلي للتشابه (محسوبًا بهذه الوظيفة) ، فما هو احتمال أن نرى الفقرة الصحيحة من خلال النظر فقط إلى المرشحين الثلاثة الأوائل ؟"
الوظيفة | احتمال العثور على ثلاث محاولات |
---|
google_set_ratio + yandex_set_ratio | 66.5٪ |
google_ratio | 65.0٪ |
google_set_ratio | 64.8٪ |
yandex_ratio | 62.0٪ |
google_sort_ratio | 61.8٪ |
yandex_set_ratio | 56.2٪ |
yandex_sort_ratio | 54.6٪ |
أي أنه في حوالي 2/3 من الحالات ، نعثر على الفور تقريبًا على الفقرة المطلوبة. وفي الثلث المتبقي من الحالات ، يجب أن تعاني كثيرًا. لذا ألق نظرة على اللوحة الثانية ، التي تجيب على السؤال: "كم عدد المرشحين الذين يجب عليهم النظر في المتوسط حتى نرى الفقرة الصحيحة؟"
الوظيفة | متوسط عدد المحاولات |
---|
google_set_ratio + yandex_set_ratio | 36.7 |
google_set_ratio | 37.6 |
yandex_set_ratio | 47.0 |
google_sort_ratio | 65.9 |
yandex_sort_ratio | 69.7 |
google_ratio | 71.7 |
yandex_ratio | 75.3 |
عرض 40 فقرة أو أكثر - هذا حزن حزين ، والسيارة في هذه الحالة لا تبدو فكرة معقولة. ونتيجة لذلك ، فإن الإستراتيجية المثلى عند مقارنة النصوص هي "تخطي الكريم" من خلال النظر فقط إلى المرشحين الأكثر احتمالا ، والقيام ببقية المقارنة على أساس الهيكل وبعض العوامل الأخرى.
الثناء على الحدس
كان من المفاجئ بالنسبة لنا أن "سلة العملات المزدوجة" google_set_ratio + yandex_set_ratio
المأخوذة "من السقف" تعمل بشكل أفضل ، حتى أفضل من كل من هذه الوظائف بشكل فردي. بالإضافة إلى ذلك ، توضح القيم في كلا الجدولين أنه من جميع النواحي ، تتعامل Google Translate مع هذه المهمة بشكل أفضل من Yandex.Translator. لذا فإن الروبوتات المحلية لديها مساحة للنمو.
ملاحظة: لا توجد حكمة خاصة في النصوص المستخدمة ، ولكن إذا احتاجها أحد ، يمكننا نشرها. نتيجة المقارنة هنا .
PPS إذا كنت مهتمًا ، فإن الصورة في العنوان هي جزء من صفحة من كتاب " برايمر للغة السلافية-اليونانية-اللاتينية " (1701) لفيودور بوليكاربوف-أورلوف.
PPPS ربما هناك مجلة علمية حيث يجب عرض هذا النص ، المدبلج بشكل مناسب ، للنشر؟