🤚🏿 🌛 👇🏽 غامض و "سوء استخدام غير مرئي" بين البشر وروبوتات الترجمة 🧑🏼‍🤝‍🧑🏼 💅🏼 ↩️

بداية الخير ، اللطف والنهاية ، الحق لا يحترم حدود الأشياء

ربما ، في جميع الأعمار كان هناك مترجمون أدبيون وفريكرون. شعر الأخير بأنه يحق له تغيير النص وإعادة تحريره وتجاهل بعض القطع وإلحاق أجزاء أخرى. ويواجه الباحثون المعاصرون سؤالًا نموذجيًا: "ماذا حدث بالتفصيل أثناء تحول الأصل؟ ما الذي تم شطبه ، وما تم حفظه ، وما هو إعادة بنائه ، وما تمت إضافته؟ "

قبل قراءة النصوص بكل عناية ، كنت أرغب في محاولة إعطائها للروبوتات للدراسة الأولية. كانت آمالنا قليلة في الروبوتات ، لكننا تلقينا مساعدة كبيرة منهم. حول كيف جعلنا ترجمة Google و Yandex.Translator يتنافسان في العمل على النص اليوناني لـ Invisible Battle ، اقرأ تحت القطة.

مواد العمل

" الإساءة غير المرئية " - أطروحة زاهدة ، كُتبت في الأصل بالإيطالية ، ثم تُرجمت إلى اليونانية في القرن الثامن عشر ، وحُررت وفقًا لممارسة الزهد المسيحي الشرقي ، ثم تُرجمت إلى الروسية. ولكن أيضًا ليس حرفياً ، ولكن مع تغييرات كبيرة. وصف القديس ثيوفان الحبيس وصف مبادئ عمله في الترجمة إلى اللغة الروسية:

أنا لا أترجم [هذا الكتاب] ، لكني أستخدم كلامي بحرية ... أضيفه وأخفِّضه وأتغير عنه.

لمحة عامة عن التغييرات التحريرية في عمل ep. Feoktista ، لكني أردت أن أحصل على اختلاف تفصيلي بالضبط عبر النص.

طريقة المطابقة

لهذا ، تم تقسيم كلا النصين (اليونانية والروسية الحديثة) إلى فقرات. اتضح ما يقرب من 700 فقرة لكل منهما.

قمنا بترجمة النص اليوناني إلى اللغة الروسية مرتين - مرة واحدة باستخدام Yandex.Translator ، ومرة أخرى باستخدام الترجمة من Google. قاموا ببساطة بإنشاء صفحات كبيرة تحتوي على نص كامل وفتحوها من خلال كمامات الويب المقابلة. كان من شبه المستحيل قراءة النص المترجم: يبدو أن النص الأصلي كان معقدًا للغاية ، ولكن يمكن تعلم شيء من هذا الرعب. يجب أن تتزامن الكلمات الرئيسية في مكان ما ، والأرقام أيضًا.

لم يكن هناك مجموعة متنوعة من الأدوات للعثور على التكرارات الضبابية ، أمسكوا fuzzywuzzy ، الذي يعتبر مسافة Levenshtein . من بين الوظائف الأربع: ratio ، partial_ratio ، token_sort_ratio ، token_set_ratio - تم تحديد token_set_ratio الأخيرة ، ولا تتعلق بترتيب الكلمات أو token_set_ratio . وكما اتضح لاحقًا ، كان الاختيار صحيحًا.

بالنسبة لجميع أزواج الفقرات (الروسية مقابل اليونانية) ، تم حساب درجات التشابه بين token_set_ratio وترجمة Feofanov مع Yandex و Google. قررنا عدم الاعتماد على أي منهما بشكل فردي ، ولكن على مجموعهم (à la سلة العملات المزدوجة - واتضح هذا أيضًا أنه القرار الصحيح) ، ثم نظر المرشحون ذوو القيم الكبيرة من هذا المبلغ وفحصوا بعيونهم وأقلامهم ، وكذلك الجيران الأزواج الذين تم التحقق منهم.

ونتيجة لذلك ، على مدار عدة ساعات من العمل ، كان من الممكن مقارنة 2/3 فقرات ، أما الوحدات المتبقية فقط فيمكن مقارنتها يدويًا.

طرق إعادة الفحص

بعد الانتهاء من العمل والنتيجة ، كان من المثير للاهتمام الرجوع إلى الوراء وإلقاء نظرة مرة أخرى على الوظائف fuzzywuzzy وأي من المترجمين الأنسب لمثل هذه المهمة.

حساب partial_ratio يستغرق وقتًا طويلاً جدًا (لقد كان كسولًا 120 ساعة لتشغيل جهاز الكمبيوتر الخاص بك على التوالي) ، ولكن تم حساب الوظائف الثلاث المتبقية في حوالي ساعة: ratio ، token_sort_ratio و token_set_ratio لكل من ترجمات Yandex و Google. ما مجموعه ست وظائف للنص القرب والسابع - "سلة عملاتنا المزدوجة".

الآن يمكنك إلقاء نظرة على الأجهزة اللوحية التالية. يجيب السؤال الأول على السؤال: "إذا بحثنا عن فقرة روسية معينة عن اليونانية المقابلة ، مع مراعاة الفقرات بترتيب تنازلي للتشابه (محسوبًا بهذه الوظيفة) ، فما هو احتمال أن نرى الفقرة الصحيحة من خلال النظر فقط إلى المرشحين الثلاثة الأوائل ؟"

الوظيفة	احتمال العثور على ثلاث محاولات
`google_set_ratio + yandex_set_ratio`	66.5٪
`google_ratio`	65.0٪
`google_set_ratio`	64.8٪
`yandex_ratio`	62.0٪
`google_sort_ratio`	61.8٪
`yandex_set_ratio`	56.2٪
`yandex_sort_ratio`	54.6٪

أي أنه في حوالي 2/3 من الحالات ، نعثر على الفور تقريبًا على الفقرة المطلوبة. وفي الثلث المتبقي من الحالات ، يجب أن تعاني كثيرًا. لذا ألق نظرة على اللوحة الثانية ، التي تجيب على السؤال: "كم عدد المرشحين الذين يجب عليهم النظر في المتوسط حتى نرى الفقرة الصحيحة؟"

الوظيفة	متوسط عدد المحاولات
`google_set_ratio + yandex_set_ratio`	36.7
`google_set_ratio`	37.6
`yandex_set_ratio`	47.0
`google_sort_ratio`	65.9
`yandex_sort_ratio`	69.7
`google_ratio`	71.7
`yandex_ratio`	75.3

عرض 40 فقرة أو أكثر - هذا حزن حزين ، والسيارة في هذه الحالة لا تبدو فكرة معقولة. ونتيجة لذلك ، فإن الإستراتيجية المثلى عند مقارنة النصوص هي "تخطي الكريم" من خلال النظر فقط إلى المرشحين الأكثر احتمالا ، والقيام ببقية المقارنة على أساس الهيكل وبعض العوامل الأخرى.

الثناء على الحدس

كان من المفاجئ بالنسبة لنا أن "سلة العملات المزدوجة" google_set_ratio + yandex_set_ratio المأخوذة "من السقف" تعمل بشكل أفضل ، حتى أفضل من كل من هذه الوظائف بشكل فردي. بالإضافة إلى ذلك ، توضح القيم في كلا الجدولين أنه من جميع النواحي ، تتعامل Google Translate مع هذه المهمة بشكل أفضل من Yandex.Translator. لذا فإن الروبوتات المحلية لديها مساحة للنمو.

ملاحظة: لا توجد حكمة خاصة في النصوص المستخدمة ، ولكن إذا احتاجها أحد ، يمكننا نشرها. نتيجة المقارنة هنا .

PPS إذا كنت مهتمًا ، فإن الصورة في العنوان هي جزء من صفحة من كتاب " برايمر للغة السلافية-اليونانية-اللاتينية " (1701) لفيودور بوليكاربوف-أورلوف.

PPPS ربما هناك مجلة علمية حيث يجب عرض هذا النص ، المدبلج بشكل مناسب ، للنشر؟

غامض و "سوء استخدام غير مرئي" بين البشر وروبوتات الترجمة

مواد العمل

طريقة المطابقة

طرق إعادة الفحص

الثناء على الحدس

More articles: