في سبتمبر ، تم عقد Hyperbaton السادس - مؤتمر Yandex حول كل ما يتعلق بالوثائق الفنية. سننشر العديد من المحاضرات من Hyperbaton ، والتي ، في رأينا ، قد تكون الأكثر أهمية لقراء هبر.
سفيتلانا كايوشينا ، رئيس قسم التوثيق والتعريب:
- يبدو أنه لم يعد هناك أشخاص في العالم يترجمون يدويًا. نريد اليوم أن نتحدث عن الأدوات والأساليب التي تساعد الشركات على تنظيم عملية توطين فعالة ، ويسهل المترجمون حل مشكلاتهم اليومية. سنتحدث اليوم عن الترجمة الآلية ، وتقييم فعالية المحركات الآلية ، وأنظمة الترجمة الآلية للمترجمين.
لنبدأ بتقرير زملائنا. أدعو إيرينا ريبنيكوفا وآناستاسيا بونوماريفا - سيتحدثان عن تجربة ياندكس في إدخال الترجمة الآلية في عمليات التوطين لدينا.
إيرينا ريبنيكوفا:
- شكرا. سنخبرك عن تاريخ الترجمة الآلية وكيف نستخدمها في Yandex.

في القرن السابع عشر ، كان العلماء يفكرون في وجود لغة تربط اللغات الأخرى ، وربما تكون طويلة جدًا. دعونا نعود أقرب. نريد جميعًا فهم الأشخاص من حولنا - بغض النظر عن المكان الذي أتينا منه - نريد أن نرى ما هو مكتوب على اللافتات ، ونرغب في قراءة الإعلانات والمعلومات حول الحفلات الموسيقية. فكرة السمكة البابلية تخيف عقول العلماء في الأدب والسينما في كل مكان. نريد تقليل الوقت الذي نحصل فيه على المعلومات. نريد قراءة مقالات حول التقنيات الصينية ، وفهم أي مواقع نراها ، ونريد الحصول عليها هنا والآن.

في سياق ذلك ، من المستحيل عدم الحديث عن الترجمة الآلية. هذا ما يساعد على حل هذه المشكلة.

كانت نقطة البداية عام 1954 ، عندما تمت ترجمة 60 جملة حول الموضوع العام للكيمياء العضوية من الروسية إلى الإنجليزية في الولايات المتحدة الأمريكية على جهاز IBM 701 ، واستند كل هذا إلى 250 مصطلحًا مسردًا وست قواعد نحوية. كان هذا ما يسمى بتجربة جورج تاون ، وكان الأمر صادمًا للغاية أن الصحف كانت مليئة بالعناوين الرئيسية لمدة ثلاث إلى خمس سنوات أخرى ، وسيتم حل المشكلة تمامًا ، سيكون الجميع سعداء. لكن كما تعلم ، كل شيء اختلف قليلاً.
في السبعينيات ، ظهرت الترجمة الآلية المستندة إلى القواعد. كما كان يعتمد أيضًا على القواميس ثنائية اللغة ، ولكن أيضًا تلك المجموعات من القواعد التي ساعدت في وصف أي لغة. أي ، ولكن مع قيود.

مطلوب خبراء لغويين جادين الذين وضعوا القواعد. هذه مهمة معقدة نوعًا ما ، فهي لا تزال لا تأخذ في الاعتبار السياق ، وتغطي أي لغة تمامًا ، لكنهم كانوا خبراء ، ومن ثم لم تكن هناك حاجة إلى قوة حوسبة عالية.

إذا تحدثنا عن الجودة ، فإن المثال الكلاسيكي هو اقتباس من الكتاب المقدس ، والذي ترجم بعد ذلك على هذا النحو. ليس كافيا بعد. لذلك ، استمر الناس في العمل على الجودة. في التسعينات ، ظهر نموذج ترجمة إحصائي ، SMT ، والذي تحدث عن التوزيع الاحتمالي للكلمات والجمل ، وكان هذا النظام مختلفًا بشكل أساسي من حيث أنه لا يعرف شيئًا عن القواعد واللغويات على الإطلاق. تلقت كمية هائلة من النصوص المتطابقة ، مقترنة بلغة وأخرى ، ثم اتخذت قرارات بنفسها. كان من السهل صيانته ، ولم تكن هناك حاجة إلى أكوام من الخبراء ، ولا انتظار. يمكنك تنزيل والحصول على النتيجة.

كانت متطلبات البيانات الواردة متوسطة للغاية ، من 1 إلى 10 مليون قطعة. شرائح - جمل ، عبارات صغيرة. لكن الصعوبات ظلت قائمة ولم يؤخذ السياق في الاعتبار ؛ لم يكن كل شيء سهلاً للغاية. وفي روسيا ، على سبيل المثال ، ظهرت مثل هذه الحالات.

يعجبني أيضًا مثال ترجمة ألعاب GTA ، وكانت النتيجة رائعة. كل شيء لم يقف ساكنا. كان عام 2016 معلماً هاماً عندما بدأت الترجمة الآلية العصبية. كان حدثًا حدثًا إلى حد ما غير الحياة إلى حد كبير. قال زميلي ، بعد أن اطلع على الترجمات وكيف نستخدمها ، قال: "رائع ، يتحدث في كلماتي". لقد كان حقا رائعا
ما الميزات؟ متطلبات دخول عالية ، مواد تدريبية. من الصعب الحفاظ عليها داخل الشركة ، ولكن الزيادة الكبيرة في الجودة هي ما تم تصوره. فقط الترجمة عالية الجودة ستحل المهام وتجعل الحياة أسهل لجميع المشاركين في العملية ، نفس المترجمين الذين لا يريدون تصحيح ترجمة سيئة ، يريدون القيام بمهام إبداعية جديدة ، وإعطاء عبارات روتينية للجهاز.
هناك طريقتان للترجمة الآلية. تقييم الخبراء / التحليل اللغوي للنصوص ، أي التحقق من قبل لغويين حقيقيين ، خبراء للامتثال للمعنى ، محو الأمية للغة. في بعض الحالات ، كان الخبراء لا يزالون مزروعين ، وسمح لهم بطرح النص المترجم وتقييم مدى فعاليته من وجهة النظر هذه.

ما هي مميزات هذه الطريقة؟ ليس هناك حاجة إلى ترجمة نموذجية ، فنحن ننظر إلى النص المترجم النهائي الآن ونقيمه بموضوعية لأي قسم. لكنها باهظة الثمن وطويلة.

هناك نهج ثانٍ - المقاييس المرجعية التلقائية. هناك الكثير منهم ، لكل منهم إيجابياته وسلبياته. لن أتعمق أكثر. يمكنك قراءة المزيد عن هذه الكلمات الرئيسية لاحقًا.
ما الميزة؟ في الواقع ، هذه مقارنة بين النصوص الآلية المترجمة وبعض الترجمة النموذجية. هذه مقاييس كمية تُظهر التناقض بين الترجمة النموذجية وما حدث. إنه سريع ورخيص ويمكن القيام به بسهولة تامة. ولكن هناك ميزات.

في الواقع ، غالبًا ما يستخدمون طرقًا هجينة. هذا عندما يتم تقييم شيء ما تلقائيًا في البداية ، ثم يتم تحليل مصفوفة الخطأ ، ثم يتم إجراء تحليل لغوي خبير على نص أصغر من النصوص.

في الآونة الأخيرة ، لا تزال هذه الممارسة منتشرة على نطاق واسع عندما لا ندعو اللغويين هناك ، ولكن ببساطة المستخدمين. يتم إنشاء واجهة - إظهار الترجمة التي تفضلها. أو عندما تذهب إلى مترجمين عبر الإنترنت ، تقوم بإدخال نص ، ويمكنك غالبًا التصويت على ما تفضله ، سواء كان هذا النهج مناسبًا أم لا. في الواقع ، نحن جميعًا ندرب هذه المحركات ، ويستخدمون كل شيء للتدريب من أجل التدريب والعمل على جودتها.
أود أن أقول كيف نستخدم الترجمة الآلية في عملنا. أنقل الكلمة إلى أناستاسيا.
أناستاسيا بونوماريفا:
- لقد أدركنا في Yandex في قسم التوطين بسرعة كبيرة أن تقنية الترجمة الآلية لديها إمكانات كبيرة ، وقررنا محاولة استخدامها في مهامنا اليومية. من أين بدأنا؟ قررنا إجراء تجربة صغيرة. قررنا ترجمة نفس النصوص من خلال مترجم شبكة عصبية عادي ، وكذلك تجميع مترجم آلي مدرب. للقيام بذلك ، قمنا بإعداد مجموعة من النصوص في زوج من الروسية-الإنجليزية للسنوات التي شاركنا فيها في ياندكس في توطين النصوص بهذه اللغات. ثم جئنا مع مجموعة النصوص هذه إلى زملائنا من Yandex.Translate وطلبنا تدريب المحرك.

عندما تم تدريب المحرك ، قمنا بترجمة الدفعة التالية من النصوص ، وكما قالت إيرينا ، بمساعدة الخبراء ، قمنا بتقييم النتائج. طلبنا من المترجمين إلقاء نظرة على محو الأمية والأسلوب والتهجئة ونقل المعنى. لكن نقطة التحول كانت عندما قال أحد المترجمين "أنا أتعرف على أسلوبي وأتعرف على ترجماتي."
لتعزيز هذه الأحاسيس ، قررنا حساب المؤشرات الإحصائية. أولاً ، قمنا بحساب معامل BLEU للتحويلات التي تتم من خلال محرك شبكة عصبية عادي ، وحصلنا على هذا الرقم (0.34). يبدو أنه يجب مقارنته بشيء. ذهبنا مرة أخرى إلى زملاء من Yandex.Translator وطلبنا شرح ما هو معامل BLEU الذي يعتبر عتبة للتحويلات التي يقوم بها شخص حقيقي. هذا من 0.6.
ثم قررنا التحقق من نتائج الترجمات المدربة. حصلت على 0.5. النتائج مشجعة حقا.

أعطي مثالا. هذه عبارة روسية حقيقية من توثيق Direct. ثم تم نقله من خلال محرك شبكة عصبية عادي ، ثم من خلال محرك شبكة عصبية مدرب في نصوصنا. بالفعل في السطر الأول نلاحظ أن النوع التقليدي من الدعاية للإعلان المباشر غير معروف. وتظهر بالفعل في محرك الشبكة العصبية المدرَّب ترجمتنا ، وحتى الاختصار يكاد يكون صحيحًا.
لقد شجعتنا النتائج بشدة ، وقررنا أنه ربما يستحق الأمر استخدام المحرك في أزواج أخرى ، في نصوص أخرى ، ليس فقط على تلك المجموعة الأساسية من الوثائق الفنية. تم إجراء سلسلة من التجارب لعدة أشهر. في مواجهة الكثير من الميزات والمشكلات ، هذه هي المشاكل الأكثر شيوعًا التي كان علينا حلها.

سأخبركم المزيد عن كل منهما.

إذا كنت ، مثلنا ، تخطط لإنشاء محرك مخصص ، فستحتاج إلى كمية كبيرة إلى حد ما من البيانات المتوازية عالية الجودة. يمكن تدريب المحرك الكبير على مبلغ 10 آلاف عرض ، وفي حالتنا قمنا بإعداد 135 ألف عرض متوازي.

ليس على جميع أنواع النصوص ، سيعرض محركك نتائج جيدة على قدم المساواة. في الوثائق الفنية ، حيث توجد جمل طويلة ، وهيكل ، ووثائق المستخدم ، وحتى في الواجهة ، حيث توجد أزرار قصيرة ولكنها واضحة ، على الأرجح ستكون بخير. ولكن ربما ، كما هو الحال معنا ، ستواجه مشاكل تسويقية.
أجرينا تجربة ، وترجمنا قوائم تشغيل الموسيقى ، وحصلنا على مثل هذا المثال.

هذا ما يفكر به المترجم الآلي حول عمال النجمة. ما هم الطبالون في العمل.

عند الترجمة من خلال محرك آلة ، لا يؤخذ السياق في الاعتبار. لم يعد هذا مثالًا سخيفًا ، ولكنه حقيقي تمامًا ، من الوثائق الفنية لـ Yandex.Direct. يبدو أن هذه الأمور مفهومة عندما تقرأ الوثائق الفنية ، تلك هي التقنية. لكن لا ، المحرك لم يضرب.

عليك أيضًا أن تأخذ في الاعتبار أن جودة الترجمة ومعناها ستعتمد بشكل كبير على اللغة الأصلية. نترجم العبارة إلى الفرنسية من الروسية ونحصل على نتيجة واحدة. نحصل على عبارة مماثلة بنفس المعنى ، ولكن من اللغة الإنجليزية ، ونحصل على نتيجة مختلفة.

إذا كان لديك ، كما هو الحال في نصنا ، عددًا كبيرًا من العلامات ، وترميزًا ، وبعض الميزات التقنية ، فعلى الأرجح سيتعين عليك تتبعها وتعديلها وكتابة بعض البرامج النصية.
هنا أمثلة من العبارات الحقيقية من المتصفح. بين قوسين هي معلومات فنية لا ينبغي ترجمتها ، ولا سيما أشكال متعددة. في اللغة الإنجليزية هم في اللغة الإنجليزية ، وفي الألمانية يجب أن يبقوا أيضا في اللغة الإنجليزية ، ولكن يتم ترجمتها. سيكون عليك تتبع هذه النقاط.

لا يعرف المحرك أي شيء عن اصطلاحات التسمية الخاصة بك. على سبيل المثال ، لدينا اتفاقية نسميها دائمًا Yandex.Disk باللغة اللاتينية بجميع اللغات. لكن بالفرنسية ، يتحول إلى قرص بالفرنسية.

يتم التعرف على الاختصارات في بعض الأحيان بشكل صحيح ، وأحيانًا لا يتم التعرف عليها. في هذا المثال ، BY ، تدل على الانتماء إلى المتطلبات التقنية البيلاروسية للإعلان ، تتحول إلى عذر باللغة الإنجليزية.

أحد الأمثلة المفضلة هي الكلمات الجديدة والمقترضة. هنا مثال رائع ، كلمة تنصل ، "بدائية الروسية." يجب التحقق من المصطلحات لكل جزء من النص.
ومشكلة أخرى غير مهمة - الكتابة التي عفا عليها الزمن.

في السابق ، كان الإنترنت حداثة ، تم رسملته في جميع النصوص ، وعندما دربنا محركنا ، تم رسملة الإنترنت في كل مكان. الآن حقبة جديدة ، الإنترنت يكتب بالفعل بحرف صغير. إذا كنت تريد أن يستمر محركك في كتابة الإنترنت بحرف صغير ، فسيتعين عليك إعادة تدريبه.

نحن لم تيأس ، حلنا هذه المشاكل. أولاً ، قاموا بتغيير مجموعة النصوص ، وحاولوا الترجمة في مواضيع أخرى. نقلنا تعليقاتنا إلى الزملاء من Yandex.Translator ، وأعدنا تدريب الشبكة العصبية ونظرنا في النتائج ، وتقييمنا ، وطلبنا وضع اللمسات الأخيرة. على سبيل المثال ، التعرف على العلامات ومعالجة ترميز HTML.
سوف تظهر حالات الاستخدام الحقيقي. لدينا ترجمة آلية جيدة للتوثيق الفني. هذه حالة حقيقية.

هنا العبارة باللغتين الإنجليزية والروسية. وقد شجع المترجم الذي تعامل مع هذه الوثائق على الاختيار المناسب للمصطلحات. مثال آخر.

أعرب المترجم عن تقديره للاختيار بدلاً من الاندفاع ، وأن بنية العبارة تغيرت إلى اللغة الإنجليزية ، وهو اختيار مناسب للمصطلح الصحيح ، وكلمة أنت ، التي ليست في الأصل ، ولكنها تجعل هذه الترجمة بالضبط الإنجليزية ، طبيعية.

حالة أخرى هي ترجمة الواجهات على الطاير. قررت إحدى الخدمات ألا تهتم بالتوطين وترجمة النصوص مباشرة في وقت التمهيد. ولكن بعد تغيير المحرك مرة واحدة في الشهر ، تغيرت كلمة "التسليم" في دائرة. اقترحنا ألا يقوم الفريق بتوصيل محرك شبكة عصبية عادي ، ولكن محركنا المدرب على التوثيق الفني ، بحيث يتم استخدام نفس المصطلح دائمًا ، متفق عليه مع الفريق الموجود بالفعل في التوثيق.

كيف يعمل كل هذا للحظة نقدية؟ في الأصل ، حدث أن زوجًا من الروسية الأوكرانية يتطلب الحد الأدنى من تحرير الترجمة الأوكرانية. لذلك ، قررنا قبل شهرين التبديل إلى نظام ما بعد التحرير. هكذا تنمو مدخراتنا. لم ينته شهر سبتمبر بعد ، لكننا توصلنا إلى أننا خفضنا تكاليف ما بعد التحرير بنحو الثلث في الأوكرانية ، وسنقوم بتعديل كل شيء تقريبًا باستثناء النصوص التسويقية. كلمة ايرينا لتلخيص.
إيرينا:
- يتضح للجميع أنه من الضروري استخدامه ، إنه واقعنا بالفعل ، ومن المستحيل استبعاده من عملياتنا ومصالحنا. لكن عليك التفكير في بعض الأشياء.

حدد أنواع المستندات ، والسياق الذي تعمل فيه. هل هذه التكنولوجيا مناسبة لك؟
اللحظة الثانية. تحدثنا عن Yandex.Translator ، لأننا في علاقة جيدة ، ولدينا إمكانية الوصول المباشر إلى المطورين ، وما إلى ذلك ، ولكن في الحقيقة تحتاج إلى تحديد المحرك الذي سيكون الأمثل بالنسبة لك على وجه التحديد ، بالنسبة للغتك ، موضوعك. سيتم
تخصيص التقرير التالي لهذا الموضوع. كن مستعدًا أنه لا تزال هناك صعوبات ، حيث يعمل مطورو المحركات معًا لحل الصعوبات ، لكنهم لا يزالون يجتمعون حتى الآن.

أود أن أفهم ما ينتظرنا في المستقبل. لكن في الواقع ، هذا ليس أبعد من ذلك ، ولكن عصرنا الحالي ، ما يحدث هنا والآن. نحتاج جميعًا إلى التخصيص لمصطلحاتنا ، إلى نصوصنا ، وهذا ما أصبح الآن عامًا. يعمل الجميع الآن للتأكد من عدم دخولك داخل الشركة ، ولا تتفق مع مطوري محرك معين ، وكيفية تحسين ذلك من أجلك. ستتمكن من استلامه في محركات مفتوحة عامة على API.
التخصيص ليس فقط في النصوص ، ولكن أيضًا في المصطلحات ، لتكوين المصطلحات لاحتياجاتك الخاصة. هذه نقطة مهمة. الموضوع الثاني هو الترجمة التفاعلية. عندما يترجم المترجم النص ، تسمح له التكنولوجيا بالتنبؤ بالكلمات التالية مع مراعاة لغة المصدر والنص المصدر. هذا البريمة يمكن أن تسهل العمل بشكل كبير.
هذا الآن مكلف للغاية. يفكر الجميع في كيفية تعليم بعض المحركات بشكل أقل فعالية بكميات أقل من النص. هذا ما يحدث في كل مكان ويعمل في كل مكان. أعتقد أن الموضوع مثير للاهتمام للغاية ، ومن ثم سيكون أكثر إثارة للاهتمام.
لقد قمنا بجمع العديد من المقالات التي قد تهمك. شكرا لك!
-
نموذجان أفضل من نموذج. تجربة Yandex.Translator-
كيف طبقت ياندكس تكنولوجيا الذكاء الاصطناعي لترجمة صفحات الويب-
الترجمة الآلية. من الحرب الباردة إلى dipllerning