التطورات الحديثة في التعليم العميق تجلب تحسينات كبيرة في تطوير نظم توليف الكلام (المشار إليها فيما يلي - تحويل النص إلى كلام). ويرجع ذلك إلى استخدام أساليب أكثر فعالية وأسرع لدراسة صوت وأسلوب مكبرات الصوت ، وكذلك بسبب توليف الكلام أكثر طبيعية وعالية الجودة.
ومع ذلك ، لتحقيق ذلك ، يجب أن تستخدم معظم أنظمة تحويل النص إلى كلام نماذج شبكات عصبية كبيرة ومعقدة يصعب تدريبها ولا تسمح بتوليف الكلام في الوقت الفعلي ، حتى مع وحدات معالجة الرسومات.
لحل هذه المشكلات ، قام فريق IBM Research AI الخاص بنا بتطوير طريقة جديدة لتوليف الشبكة العصبية استنادًا إلى بنية معيارية. تجمع هذه الطريقة بين ثلاث شبكات عصبية عميقة (يشار إليها فيما يلي باسم DNN) ومعالجة وسيطة لإشارات الخرج الخاصة بها. قدمنا هذا العمل في مقالتنا
"تقنية TTS عالية الجودة وخفيفة الوزن وقابلة للتكيف باستخدام LPCNet" في Interspeech 2019. إن بنية TTS
خفيفة الوزن ويمكنها توليف الكلام عالي الجودة في الوقت الفعلي. كل شبكة متخصصة في جوانب مختلفة من صوت المتكلم ، والذي يسمح لك بتدريب أي من المكونات بفعالية بشكل مستقل عن المكونات الأخرى.
الرسم البياني 1. تحويل النص إلى كلام بنية النظامميزة أخرى في مقاربتنا هي أنه بعد تدريب الشبكات الأساسية ، يمكن تكييفها بسهولة مع نمط جديد من الكلام أو الصوت حتى على كميات صغيرة من بيانات التدريب ، على سبيل المثال ، لأغراض العلامات التجارية والتخصيص.
في عملية التوليف ، يتم استخدام وحدة واجهة للغة معينة ، مما يحول نص الإدخال إلى سلسلة من الميزات اللغوية. ثم يتم تطبيق أسماء DNN التالية واحدة تلو الأخرى:
1. التنبؤ بالمحاكمة
يتم عرض ميزات الكلام المتميزة كحامل ثلاثي الأبعاد لكل وحدة تحويل النص إلى كلام (حوالي ثلث ظروف الصوت وفقًا لـ
SMM (نموذج ماركوف المخفي)) ، والذي يتضمن مدة السجل ودرجة تسجيل الدخول الأولية والنهائية ، وكذلك طاقة السجل. يتم تحديد هذه الميزات أثناء عملية التدريب ، بحيث يمكن التنبؤ بها من خلال ميزات النص التي تتلقاها الواجهة أثناء التوليف. تعد ميزة Prosody مهمة للغاية ، ليس فقط لأن الكلام يبدو طبيعيًا ونابضًا بالحيوية ، ولكن أيضًا للبيانات المعدة للتدريب أو التكيف للحصول على انعكاس أكمل لأسلوب خطاب المتكلم. يعتمد التكيف على صوت المتكلم على Variational Auto Encoder (VAE).
المخطط 2. تدريب وإعادة تدريب مولد prosody2. التنبؤ الميزات الصوتية
توفر متجهات الميزة الصوتية تمثيلًا طيفيًا للكلام في إطارات قصيرة تبلغ 10 مللي ثانية يمكن من خلالها إنشاء الصوت الفعلي. يتم تحديد الميزات الصوتية في عملية التعلم ، ويمكن التنبؤ بها من خلال علامات لونية و prosody أثناء التوليف.
مخطط 3. مزج الشبكةنموذج DNN الذي تم إنشاؤه هو بيانات صوتية (مذيع صوتي) ، وهي ضرورية للتدريب أو التكيف. تتكون بنية النموذج من طبقات تلافيفية ومتكررة مصممة لاستخراج السياق المحلي واعتمادات الوقت في تسلسل الأصوات وبنية النغمة. تتنبأ DNN بالمزايا الصوتية من مشتقاتها الأولى والثانية. ويتبع
ذلك الحد الأقصى لطريقة الاحتمال ويتم تطبيق
مرشحات الصياغة التي تساعد على توليد صوت أفضل.
3. مشفر صوتي عصبي
مشفر صوتي عصبي هو المسؤول عن توليد الكلام من الميزات الصوتية. يتعلم من أنماط الكلام الطبيعية للمتكلم ، بالنظر إلى خصائص كل منها. من الناحية الفنية ، كنا أول من استخدم
مشفرًا صوتيًا جديدًا وخفيف الوزن وعالي الجودة
يسمى LPCNet في نظام TTS التجاري بالكامل.
حداثة هذا المشفر هي أنه لا يحاول التنبؤ بإشارة خطاب معقدة باستخدام DNN مباشرة. بدلاً من ذلك ، تتوقع DNN فقط إشارة مسار الصوت المتبقية الأقل تعقيدًا ، ثم تستخدم مرشحات Linear Predictive Coding (LPC) لتحويلها إلى إشارة الكلام النهائية.
مخطط 4. مشفر صوتي العصبي LPCNetالتكيف الصوتي
يمكن تحقيق التكيف مع الصوت بسهولة من خلال إعادة تدريب ثلاث شبكات استنادًا إلى كمية صغيرة من بيانات الصوت من السماعة المستهدفة. في مقالتنا ، نقدم نتائج تجارب التكيف من حيث جودة الكلام وتشابهه مع خطاب المتحدث الحقيقي.
تعرض هذه الصفحة أيضًا أمثلة على التكيف مع ثمانية
سماعات VCTK (مجموعة أدوات استنساخ صوتية) مختلفة ، منها 4 رجال و 4 نساء.
نتائج الاستماع
يوضح الشكل أدناه نتائج اختبارات الاستماع لأنماط الكلام المركب والطبيعي لمتحدثي VCTK. تستند قيم متوسط نقاط الرأي (MOS) إلى تحليل المستمعين لجودة الكلام على مقياس من 1 إلى 5. تم تقييم التشابه بين أزواج من العينات من قبل الطلاب على مقياس من 1 إلى 4.
قمنا بقياس جودة الكلام المركب ، وكذلك تشابهه مع خطاب المتحدثين "المباشرين" ، ومقارنة الأصوات المكيفة للإناث والذكور لمدة 5 و 10 و 20 دقيقة مع الكلام الطبيعي للمتحدثين.
تظهر نتائج الاختبار أنه يمكننا الحفاظ على الجودة العالية والتشابه العالي مع الأصل حتى بالنسبة للأصوات التي تم تدريبها على أمثلة مدتها خمس دقائق.
الرسم البياني 5. نتائج اختبارات الجودة والتشابهتم تنفيذ هذا العمل بواسطة
IBM Watson وتم استخدامه كأساس لإصدار جديد من خدمة IBM Watson TTS بجودة صوت محسّنة (انظر أصوات "* V3" في العرض التوضيحي لـ
IBM Watson TTS ).