يساعد القاموس في
Puzzle English المستخدمين على تعلم المفردات إلى جانب الألغاز الصوتية والمرئية والبودكاست والأفلام والبرامج التلفزيونية والأغاني. ترافق الترجمات في القاموس أمثلة صوتية للكلمات والعبارات. للحصول على الصوت ، نستخدم تسجيلات مكبرات الصوت الحية و TTS - نظام تحويل النص إلى كلام ومزج الكلام من النص. سنخبرك اليوم بكيفية اختيار محرك Vocalware TTS ، ولماذا نريد توصيل نظام Amazon Polly بدلاً من ذلك ، وما هي المهام التي يمكن لأي شخص حلها بشكل أفضل من الروبوت.
في القاموس ، قمنا بإشراك أكثر من 20 صوتًا بلهجات مختلفة وجرس وخيارات نطق. يتم سماع أصوات الذكور والإناث بسرعات الكلام المختلفة. "المذيعون" لديهم أسماء وبلدان منشأ - الولايات المتحدة الأمريكية أو بريطانيا العظمى أو أستراليا. تساعد خيارات النطق المستخدمين على تعلم كيفية التحدث وإدراك الكلام الأجنبي. هذه هي الطريقة التي يظهر بها مفتاح النطق لكلمة واحدة:

كيفية العثور على TTS الصحيح
استنادًا إلى وظائف القاموس ، نحتاج إلى تحويل النص إلى كلام يدعم ثلاث لهجات على الأقل: الأمريكية (الأمريكية العامة) والبريطانية (النطق المستلم) والأسترالية. كانت أصوات الذكور والإناث مطلوبة ، ويفضل دعم النسخ.
كنا نبحث عن TTS ، الذي يقوم بتوليف الكلام القريب من الصوت الطبيعي ، ينتج صوتًا واضحًا ولا يتطلب الكثير من جودة اتصال الإنترنت من جانب المستخدم. يعيش طلاب Puzzle English في مناطق مختلفة من روسيا ، ويستخدمون الخدمة من الهواتف المحمولة عبر 2G و 3G. أردت أن تكون TTS قادرة على تجميع الكلمات ليس فقط ، ولكن أيضًا قراءة العبارات ذات التعبير.
لقد تعاملنا مع هذه المشكلة في عام 2015 ، لكننا وجدنا أن العثور على متطلبات TTS كافية يكاد يكون مستحيلاً. كانت هناك عدة محركات في السوق:
Acapela - يمكن التعرف على النصوص الصوتية في 34 لغة والتعرف عليها. أكثر من 100 صوت توليف مع مختلف الأعمار والعواطف واللهجات. ينتج صوت عالي الجودة.
Vocalizer - يبدو الصوت طبيعيًا ، والكلام واضح. يتم تثبيت قواميس مختلفة ، يتم تعديل الحجم والسرعة والضغط.
eSpeak - يدعم أكثر من 50 لغة. الكلام المركب ليس مثاليًا ، ولكنه جودة صوت مقروء ومتوسط. العيب هو أن ملفات eSpeak مع الكلام المركب يتم حفظها بتنسيق .wav ، وتشغل مساحة كبيرة.
RSynth - لا توجد وثائق ، جودة الكلام متواضعة.
المهرجان هو نظام تجميع الكلام متعدد اللغات ؛ فهو لا يعمل دائمًا بشكل مستقر.
Vocalware - أكثر من 100 صوت مركب في 20 لغة.
عملت Acapela و Vocalizer فقط على Android ، ولم تدعم الأنظمة الأخرى. بالإضافة إلى ذلك ، كانت غير مستقرة ، مثل المهرجان. لم تكن محركات ESpeak و RSynth مناسبة ، لأن جودة تركيب الكلام في القاموس يجب أن تكون مثالية.
من بين هذه الخيارات ، اخترنا محرك Vocalware ، الذي استوفى معاييرنا: اللهجات ، وأصوات "المذيعين" من جنسين مختلفين ، والنسخ. ثم قدم هذا المحرك واحدة من أفضل الصفات لتجميع النص التعسفي. مع ذلك ، قمنا بإنشاء أكثر من ثلث السبر. تقوم Vocalware بعمل جيد في ترجمة الكلمات المفردة ، ولكن ليس العبارات الكاملة. يقوم المذيعون المباشرون بترجمتها إلى Puzzle English.
لماذا نريد توصيل Amazon Polly
لسوء الحظ ، لا تتوافق Vocalware مع متطلبات الوقت.
- جودة توليف الكلام لهذا TTS ليست الأفضل في السوق. نمنح المستخدم الفرصة للاختيار من بين خيارات النطق ، وكلما كان التمثيل الصوتي أفضل ، كلما كان أكثر فائدة للطالب.
- نواجه أحيانًا أعطال Vocalware. يحدث أن الخدمة غير متاحة حتى يومين متتاليين. هذا غير مقبول.
- لا يحتوي TTS هذا على دعم لغة الترميز لتطبيقات تركيب الكلام SSML. من خلال SSML ، يمكنك ضبط لهجات التجويد وطول الإيقاف المؤقت والمعلمات الأخرى.
ظهر النظام مع أفضل جودة تركيب في Amazon ، ويطلق عليه Amazon Polly ، وهناك نظام آخر قيد التطوير في Google - Cloud Text-to-Speech.
Amazon Polly أفضل من Vocalware من جميع النواحي: فهو يوفر عشرات اللغات ، أصوات الذكور والإناث التي تبدو أكثر طبيعية. يدعم المحرك علامات المفردات وعلامات SSML التي تسمح لك بالتحكم في النطق والحجم والنبرة والسرعة. بولي أسرع.
لم يبدأ تشغيل
تحويل النص إلى كلام من Google Cloud حتى الآن ، وهو قيد الاختبار التجريبي. يعتمد المحرك على تقنية WaveNet - وهي المحرك الوحيد الذي يقوم بتشغيل ترجمة Google وخدمات Google الأخرى. تستخدم الشبكات العصبية لجعل الكلمات والعبارات تبدو طبيعية. تقدم الخدمة 30 صوتًا مع خيارات الصوت. يتم تعديل درجة الصوت لكل صوت ، 20 نصف نغمة أعلى أو أسفل النص الأصلي.
اختبرنا كلا النظامين وتوصلنا إلى استنتاج مفاده أن الشركات الصغيرة التي كانت تمثل سوق TTS سابقًا أضاعت فرصتها وتم التخلي عنها. من غير المحتمل أن يجعلوا المنتج أفضل من العمالقة - Google و Amazon. تستخدم هذه الشركات كميات هائلة من البيانات وقوة المعالجة للنماذج الصوتية ، وتستولي على السوق تدريجيًا.
نخطط الآن للتبديل إلى حل Amazon ، لأن جودة توليف الكلام Polly يمكن مقارنتها بجودة WaveNet. المفضل لدينا هو "المذيع" للغة الإنجليزية البريطانية باسم Brian ، والذي يبدو أكثر طبيعية.
حتى بولي ، على عكس WaveNet ، يقوم بتوليف الكلام الروسي. يحتوي TTS هذا على خيارات النطق الإنجليزية مع اللهجات الأيرلندية والهندية. هذه الكلمات مفيدة للنسخة الإنجليزية من الموقع ، والتي سيتم استخدامها من قبل الهنود الذين يرغبون في تعلم اللغة الإنجليزية. في نفس الوقت ، النظام أرخص.
نتيجة لتحليل هذه TTS ، خططنا لربط أصوات إضافية من بولي في المستقبل القريب. سيظل "المذيعون" القديمون أيضًا في الوقت الحالي: معنى القاموس هو أنه يمكن للمستخدم سماع متغيرات النطق المختلفة. ولكن ليس من الممكن عمل التمثيل الصوتي للعبارات المركبة بمساعدة الروبوتات وحدها. في الخدمة ، تم إنشاء العديد من العبارات من خلال TTS ، ولكن لا يزال من غير الممكن التخلي عن مكبرات الصوت الحية تمامًا.
لماذا يكون الروبوت أقل شأنا من الشخص عند التعبير عن العبارات
في Puzzle English ، يتم التعبير عن العبارات من خلال مكبرات الصوت الحية. تتحول الآلة إلى جمل بسيطة - السرد ، مع السؤال ، الإنكار ، بدون تلوين عاطفي. لا يمكنها التعامل مع نص أكثر تعقيدًا ؛ فهي ترتكب العديد من الأخطاء النموذجية.
"مطاردة"
هذا النطق كلمة واحدة في كل مرة. مثل هذه الدبلجة لا تشبه تقريبًا الكلام ، فهي لا تحتوي على التجويد ، وتقسيم الجملة للتعبير والضغط الدلالي ، لأن كل كلمة تنطق تحت الضغط.
هذه هي الطريقة التي يقرأ بها TTS في الترجمة من Google والمذيع المباشر العبارة نفسها.يقوم الروبوت بتوقف مؤقت بين الكلمات ، كما لو كان "سكها".
يستخدم المذيع لهجة الجملة ويشارك الجملة الكبيرة حسب المعنى. العبارة أفضل من خلال الأذن.
التجويد
لا تستطيع الآلة عادةً إعادة إنتاج التنغيم المطلوب. هذه النقطة في نطق العبارات مهمة للعديد من متعلمي اللغة الإنجليزية. في كثير من الأحيان ، يعتقد الطلاب أن هذا يكفي لإيصال الأصوات ، وسوف يبدو الخطاب وكأنه رجل إنجليزي. الأمر ليس كذلك. الأجنبي يصدر نغمة خاطئة. يمكن للشخص الحي أن يبرز الأجزاء الضرورية من الجملة ، إذا تطلب السياق ذلك. لن يفعل الروبوت هذا. استمع مرة أخرى إلى أمثلة العبارات أعلاه وسوف تفهم ما هو عليه.
الكلام المباشر
الجهاز لا ينبعث منه خطاب مباشر بعلامات ترقيم. تواصل قراءة النص ، مع الحفاظ على صورة التجويد الشاملة.
هذه هي الطريقة التي يقرأ بها المتحدث الأصلي النص:
وهكذا فإن الروبوت:
العواطف في المحادثة
لا يتعرف الروبوت على الأجزاء التي يؤكد عليها الوسيط كلمات معينة ، على سبيل المثال ، عندما يكون للعبارة دلالة ساخرة. عادة ما يحتفظ الروبوت بنبرة محايدة.
هذا سمع أيضا في الأمثلة السابقة.
سرعة النطق غير صحيحة
الخطأ الشائع في الروبوت هو التمدد ، والذي ينتج عنه تأثير تثبيط. وعلى العكس من ذلك ، فإن نطق كلمة أو عبارة بسرعة كبيرة جدًا "يمضغ" النص.
ضغوط غير طبيعية
يقرأ الروبوت كل كلمة مع التركيز ، وهو أمر غير طبيعي للكلام الحي.
في هذا المثال ، يسلط الروبوت الضوء على حرف الجر في.
لا يسلط المذيع الضوء على العذر ؛ في الكلام المباشر ، يندمج مع اللعب وهو في حد ذاته غير مكبوت.
يقرأ محركا Google و Amazon عبارات أفضل من اختبارات TTS الأخرى التي اختبرناها. وفقًا لنتائج التحليل ، لم يستطع كلا الحلين من الشركات الكبيرة التعامل مع ست عبارات ذات نغمة معقدة وتعامل بشكل جيد مع خمس فقط. قراءة جوجل اثنين من "المتحدثين" القياسية بشكل سيئ ، واثنين بشكل مرض ، والأمازون قراءة سيئة اثنين وبشكل مرضٍ واحد فقط.
كانت النتيجة الإجمالية لـ Google أفضل قليلاً ، لكن بعض أصوات Amazon Polly بدت أكثر إثارة للاهتمام ، حيث بدا صوتها ونبرتها أكثر طبيعية. بشكل عام ، من الممكن بالفعل تكليف نطق عبارات TTS ، ولكن ليس في جميع الحالات وليس في منتج للطلاب من لغة أجنبية. إنهم يقدرون جودة الفروق الدقيقة والفروق الدقيقة التي لا يستطيع الروبوت أن ينقلها دائمًا.
الخلاصة
مع TTS ، يمكنك نطق كلمات فردية بلغات مختلفة لخدماتك. تعمل حلول Amazon و Google الجديدة بشكل أفضل من محركات الشركات الصغيرة الموجودة مسبقًا. لكن العبارات ، وخاصة الجمل المعقدة مع العديد من الفواصل ، في أدائها تبدو غير طبيعية حتى الآن. لا يستطيع الروبوت أن يميز الكلام المباشر ، ينقل السخرية ، ويؤكد على الدلالات ، ويختار التجويد الصحيح لسؤال الفصل في نهاية الجملة. هذا غير مقبول لأغراضنا ، لذلك نطلب من مكبرات الصوت الحية التعبير عن هذه المواد والاستمرار في اختبار العروض الجديدة في هذا السوق.
إذا كنت ترغب في ضخ اللغة الإنجليزية ، تعال إلينا.
نعطي قراء المدونة
قسيمة بقيمة 700 روبل لشراء "المهام".