😐 👨🏻 🍪 "فوتوشوب" للتحدث البشري 🙏🏻 👩‍🚀 🗄️

3 نوفمبر 2016 في مؤتمر تقنية Adobe MAX ، قدمت Adobe تطورًا علميًا وتقنيًا مثيرًا للاهتمام للغاية ، والذي يمكن أن يتحول في المستقبل إلى تطبيق برمجي شائع. باختصار ، الاختراع هو برنامج للتحرير الدلالي للكلام البشري. في هذه الحالة ، لا يتم فقط استخدام الطريقة القياسية للتوليف من الفونيمات المجمعة (التوليف التجميعي) ، ولكن أيضًا الطرق المساعدة التي تزيد من الواقعية. هذا اختيار ذكي للتروفونات واستخدام الخصائص المحددة لصوت العينة.

ونتيجة لذلك ، يكتب المستخدم نصًا عشوائيًا - ويصوت البرنامج عليه بالصوت الذي تم تدريبه عليه. يمكنك بسرعة إضافة أي كلمات إلى الكلام أو قطع الكلمات غير الضرورية.

عمليًا ، يعمل البرنامج المقدم كجزء من مشروع VoCo على النحو التالي. أولاً ، يتم تجميع القاعدة الصوتية من أجل صوت شخص معين بلغة معينة. للحصول على نتائج واقعية ، يحتاج البرنامج إلى 20 دقيقة على الأقل من الكلام البشري. كلما كان ذلك أفضل استنادًا إلى الصوتيات التي تم جمعها (trifons) ، يمكن للبرنامج بعد ذلك جمع أي كلمات جديدة تقريبًا من الطوب.

جزء من عرض VoCo في مؤتمر MAX

بمعنى ما ، يعمل VoCo مثل عمل فرشاة السياق في Photoshop. كما أنها تأخذ شظايا من أماكن مختلفة من الصورة - وتجمع صورة جديدة من هذه الأجزاء. قطعة خشب من صورة الغابة ، قطعة من العشب من صورة أخرى وفتاة من الصورة الثالثة - ونحصل على عمل واقعي جديد تمامًا مع غابة وعشب وفتاة في المقدمة. إذا تم العمل بشكل احترافي ، فمن الصعب جدًا تحديد التثبيت. لذلك في العصر السوفياتي ، تم محو الأشخاص الذين أصبحوا فجأة أعداء للشعب من التاريخ . كان هناك شخص في الصورة - والآن هناك فراغ أو شخص آخر.

تتيح لك تقنية VoCo استكمال الكلام البشري بكلمات وعبارات تعسفية.

في مؤتمر MAX ، قدم أحد المطورين ، Zeyu Jin ، عرضًا تقديميًا. في ورقة علمية منشورة سابقًا ، تم إدراجه كموظف في جامعة برينستون ، جنبًا إلى جنب مع الزميل آدم فينكلشتاين. تم تطوير التكنولوجيا بواسطة Adobe Research بالتعاون مع جامعة برينستون.

وفقًا لتصور Adobe ، ستساعد التقنية منشئي المحتوى على تحرير المسار الصوتي بسهولة أكبر: الحوارات ونص التعليق الصوتي لإصلاح خطأ سريع أو إجراء تغييرات على القصة.

تؤكد Adobe على أنه في هذه الحالة ، من الأنسب التحدث عن "تحويل الصوت" من التوليف الصوتي الكلاسيكي. الغرض من تحويل الصوت هو تحويل الصوت الأصلي بحيث يبدو للمستمع أنه صوت شخص آخر يتبع نموذج صوت الأخير.

يتم وصف الأسس التقنية للتحويل الصوتي بمزيد من التفصيل في العمل العلمي المذكور أعلاه .أعدت بالاشتراك مع جامعة برينستون. أظهر مؤلفوها أن تقنية CUTE المطورة متفوقة نوعياً على الطرق الأخرى لتحويل الصوت. عادة ما تعتمد طرق التحويل البديلة على التحليل الموازي لعبارات متطابقة للمصدر والهدف ، متبوعة بحساب بعض نواقل التحويل في أي مساحة عنوان. بعد ذلك ، يمكن تحويل أي جزء تعسفي من الصوت الأصلي باستخدام المتجهات التي تم الحصول عليها. لكن هذه الأساليب تعاني من آثار جانبية غير سارة - فالكلام الذي يتم توليفه بهذه الطريقة يكون أصمًا ومغمورًا.

تمكن باحثو Adobe من التغلب على أوجه القصور في التقنيات الأخرى باستخدام طريقة CUTE الهجينة. يشفر العنوان المكونات الرئيسية الأربعة لهذه التقنية: التوليف التجميعي (التوليف التسلسلي) ؛ اختيار الوحدة الاختيار الأولي للتروفونات ، أي وحدات من ثلاثة صوتيات (اختيار مسبق من Triphone) ؛ استخدام خصائص العينة (الميزات القائمة على Exemplar).

يتم تقليل التوليف التجميعي لتأليف رسالة من قاموس صوتي مسجل مسبقًا. هذه هي الطريقة الرئيسية للعمل مع مُركِّبات الكلام ، والتي تم تجهيزها بأجهزة مختلفة: من الطائرات العسكرية إلى الأجهزة المحلية ، في خدمات المساعدة لمشغلي الهواتف المحمولة ، وما إلى ذلك.

كما يوحي الاسم ، تجمع التقنية المختلطة المتطورة بين عدة طرق لتوليف الكلام وتحويل الصوت.

يقدم العمل العلمي نتائج الاختبارات المقارنة مع طرق أخرى لتحويل الصوت ، حيث تفوق CUTE بشكل ملحوظ على المنافسين. في الوقت نفسه ، تم ذكر بعض عيوبه: فهو ، مثل أي شخص آخر ، يعاني من عدد غير كاف من الصوتيات في قاعدة البيانات عند توليف كلمات جديدة ، مما يولد نتائج صحيحة صوتيًا ، ولكن ليس نتائج واقعية للغاية. بالإضافة إلى ذلك ، يعتمد على تشغيل محرك التعرف على الكلام للتجزئة الصوتية الصحيحة.

لا يزال من غير المعروف ما إذا كانت Adobe ستنفذ هذا التطور الواعد في شكل منتج تجاري حقيقي. ولكن يمكننا الآن أن نقول أن مثل هذا البرنامج سيصبح شائعًا جدًا ، شريطة أن يكون توليف الصوت من الصوتيات واقعيًا. على سبيل المثال ، يمكن لمستخدمي البودكاست استخدامها لإنشاء ملفات بودكاست من نص. يمكن استخدامه أيضًا لصوت الكتب الصوتية باستخدام صوت شخص تعسفي (على سبيل المثال ، فتاتك الخاصة). من المرجح أن تجد هذه التكنولوجيا تطبيقًا في هوليوود للتمثيل الصوتي في غياب ممثل. على سبيل المثال ، إذا تم كسر العقد معه أو توفي في منتصف التصوير.

"فوتوشوب" للتحدث البشري

More articles: