غامض و "سوء استخدام غير مرئي" بين البشر وروبوتات الترجمة

بداية الخير ، اللطف والنهاية ، الحق لا يحترم حدود الأشياء


ربما ، في جميع الأعمار كان هناك مترجمون أدبيون وفريكرون. شعر الأخير بأنه يحق له تغيير النص وإعادة تحريره وتجاهل بعض القطع وإلحاق أجزاء أخرى. ويواجه الباحثون المعاصرون سؤالًا نموذجيًا: "ماذا حدث بالتفصيل أثناء تحول الأصل؟ ما الذي تم شطبه ، وما تم حفظه ، وما هو إعادة بنائه ، وما تمت إضافته؟ "


قبل قراءة النصوص بكل عناية ، كنت أرغب في محاولة إعطائها للروبوتات للدراسة الأولية. كانت آمالنا قليلة في الروبوتات ، لكننا تلقينا مساعدة كبيرة منهم. حول كيف جعلنا ترجمة Google و Yandex.Translator يتنافسان في العمل على النص اليوناني لـ Invisible Battle ، اقرأ تحت القطة.


مواد العمل


" الإساءة غير المرئية " - أطروحة زاهدة ، كُتبت في الأصل بالإيطالية ، ثم تُرجمت إلى اليونانية في القرن الثامن عشر ، وحُررت وفقًا لممارسة الزهد المسيحي الشرقي ، ثم تُرجمت إلى الروسية. ولكن أيضًا ليس حرفياً ، ولكن مع تغييرات كبيرة. وصف القديس ثيوفان الحبيس وصف مبادئ عمله في الترجمة إلى اللغة الروسية:


أنا لا أترجم [هذا الكتاب] ، لكني أستخدم كلامي بحرية ... أضيفه وأخفِّضه وأتغير عنه.

لمحة عامة عن التغييرات التحريرية في عمل ep. Feoktista ، لكني أردت أن أحصل على اختلاف تفصيلي بالضبط عبر النص.


طريقة المطابقة


لهذا ، تم تقسيم كلا النصين (اليونانية والروسية الحديثة) إلى فقرات. اتضح ما يقرب من 700 فقرة لكل منهما.


قمنا بترجمة النص اليوناني إلى اللغة الروسية مرتين - مرة واحدة باستخدام Yandex.Translator ، ومرة ​​أخرى باستخدام الترجمة من Google. قاموا ببساطة بإنشاء صفحات كبيرة تحتوي على نص كامل وفتحوها من خلال كمامات الويب المقابلة. كان من شبه المستحيل قراءة النص المترجم: يبدو أن النص الأصلي كان معقدًا للغاية ، ولكن يمكن تعلم شيء من هذا الرعب. يجب أن تتزامن الكلمات الرئيسية في مكان ما ، والأرقام أيضًا.


لم يكن هناك مجموعة متنوعة من الأدوات للعثور على التكرارات الضبابية ، أمسكوا fuzzywuzzy ، الذي يعتبر مسافة Levenshtein . من بين الوظائف الأربع: ratio ، partial_ratio ، token_sort_ratio ، token_set_ratio - تم تحديد token_set_ratio الأخيرة ، ولا تتعلق بترتيب الكلمات أو token_set_ratio . وكما اتضح لاحقًا ، كان الاختيار صحيحًا.


بالنسبة لجميع أزواج الفقرات (الروسية مقابل اليونانية) ، تم حساب درجات التشابه بين token_set_ratio وترجمة Feofanov مع Yandex و Google. قررنا عدم الاعتماد على أي منهما بشكل فردي ، ولكن على مجموعهم (à la سلة العملات المزدوجة - واتضح هذا أيضًا أنه القرار الصحيح) ، ثم نظر المرشحون ذوو القيم الكبيرة من هذا المبلغ وفحصوا بعيونهم وأقلامهم ، وكذلك الجيران الأزواج الذين تم التحقق منهم.


ونتيجة لذلك ، على مدار عدة ساعات من العمل ، كان من الممكن مقارنة 2/3 فقرات ، أما الوحدات المتبقية فقط فيمكن مقارنتها يدويًا.


طرق إعادة الفحص


بعد الانتهاء من العمل والنتيجة ، كان من المثير للاهتمام الرجوع إلى الوراء وإلقاء نظرة مرة أخرى على الوظائف fuzzywuzzy وأي من المترجمين الأنسب لمثل هذه المهمة.


حساب partial_ratio يستغرق وقتًا طويلاً جدًا (لقد كان كسولًا 120 ساعة لتشغيل جهاز الكمبيوتر الخاص بك على التوالي) ، ولكن تم حساب الوظائف الثلاث المتبقية في حوالي ساعة: ratio ، token_sort_ratio و token_set_ratio لكل من ترجمات Yandex و Google. ما مجموعه ست وظائف للنص القرب والسابع - "سلة عملاتنا المزدوجة".


الآن يمكنك إلقاء نظرة على الأجهزة اللوحية التالية. يجيب السؤال الأول على السؤال: "إذا بحثنا عن فقرة روسية معينة عن اليونانية المقابلة ، مع مراعاة الفقرات بترتيب تنازلي للتشابه (محسوبًا بهذه الوظيفة) ، فما هو احتمال أن نرى الفقرة الصحيحة من خلال النظر فقط إلى المرشحين الثلاثة الأوائل ؟"


الوظيفةاحتمال العثور على ثلاث محاولات
google_set_ratio + yandex_set_ratio66.5٪
google_ratio65.0٪
google_set_ratio64.8٪
yandex_ratio62.0٪
google_sort_ratio61.8٪
yandex_set_ratio56.2٪
yandex_sort_ratio54.6٪

أي أنه في حوالي 2/3 من الحالات ، نعثر على الفور تقريبًا على الفقرة المطلوبة. وفي الثلث المتبقي من الحالات ، يجب أن تعاني كثيرًا. لذا ألق نظرة على اللوحة الثانية ، التي تجيب على السؤال: "كم عدد المرشحين الذين يجب عليهم النظر في المتوسط حتى نرى الفقرة الصحيحة؟"


الوظيفةمتوسط ​​عدد المحاولات
google_set_ratio + yandex_set_ratio36.7
google_set_ratio37.6
yandex_set_ratio47.0
google_sort_ratio65.9
yandex_sort_ratio69.7
google_ratio71.7
yandex_ratio75.3

عرض 40 فقرة أو أكثر - هذا حزن حزين ، والسيارة في هذه الحالة لا تبدو فكرة معقولة. ونتيجة لذلك ، فإن الإستراتيجية المثلى عند مقارنة النصوص هي "تخطي الكريم" من خلال النظر فقط إلى المرشحين الأكثر احتمالا ، والقيام ببقية المقارنة على أساس الهيكل وبعض العوامل الأخرى.


الثناء على الحدس


كان من المفاجئ بالنسبة لنا أن "سلة العملات المزدوجة" google_set_ratio + yandex_set_ratio المأخوذة "من السقف" تعمل بشكل أفضل ، حتى أفضل من كل من هذه الوظائف بشكل فردي. بالإضافة إلى ذلك ، توضح القيم في كلا الجدولين أنه من جميع النواحي ، تتعامل Google Translate مع هذه المهمة بشكل أفضل من Yandex.Translator. لذا فإن الروبوتات المحلية لديها مساحة للنمو.


ملاحظة: لا توجد حكمة خاصة في النصوص المستخدمة ، ولكن إذا احتاجها أحد ، يمكننا نشرها. نتيجة المقارنة هنا .


PPS إذا كنت مهتمًا ، فإن الصورة في العنوان هي جزء من صفحة من كتاب " برايمر للغة السلافية-اليونانية-اللاتينية " (1701) لفيودور بوليكاربوف-أورلوف.


PPPS ربما هناك مجلة علمية حيث يجب عرض هذا النص ، المدبلج بشكل مناسب ، للنشر؟

Source: https://habr.com/ru/post/ar419367/


All Articles