النموذج الرياضي لصوت الصوت البشري

تعتمد معظم أنظمة التعرف على الكلام البشرية الحديثة على طرق تعمل على تقسيم التسجيل الصوتي إلى صوتيات وتحليل خصائص تردد السعة الخاصة بها للبحث عن الصوتيات للأحرف الفردية بناءً على تصنيفها حسب مجموعات محددة من خصائص التردد. تعتبر هذه الأساليب كل صوتي كوحدة واحدة غير قابلة للتجزئة للإشارة الصوتية ذات خصائص التردد التقسيمية. مع هذا النهج ، لا يتم أخذ الخصائص الصوتية التي تتغير ديناميكيًا في الوقت المناسب في الاعتبار.

الصورة

لكن هذه الأساليب في تحليل الكلام يمكن تطبيقها ليس فقط للتعرف عليها ، ولكن أيضًا لتدريب وصف تحليلي للفونيمات ، وبناء نموذج رياضي من البيانات المستلمة ، والتوليف الصوتي ، تقريبًا مثل الأصلي.

تحليل مكونات الكلام البشري


لا يزال الجميع من المدرسة يعرفون أن الكلمة تتكون من مقطع واحد أو أكثر ، والذي بدوره يتكون من صوت واحد أو أكثر. الفونيم هو الحد الأدنى من وحدة اللغة (أهم شيء هو أنه ذو معنى) ، ليس له أي معنى معجمية أو نحوية ، ولكنه يساعدنا على فهم الوحدات الأولية للغة - الكلمات.

هذا هو ما تبدو عليه خاصية السعة الزمنية لصوت الحرف "O".



للراحة ، لاحظت هنا ثلاث فترات زمنية مختلفة:

  • أ - عملية الرحلة (يبدأ كل صوت بهذه العملية)
  • ب - عملية الشيخوخة ("المكان" من الصوت الذي يتطلب وصفا)
  • ج - عملية العودية (تحدث تقريبا - انتهينا من الكلام ، انتهى الصوت :))

لقد أجريت تحليلاً لطول الوقت الذي يبقى فيه الفونيم (خاصية السعة الزمنية) في حالة شبه ثابتة. هنا ، يمكننا أن نفترض أنه في هذه اللحظة من الزمن تبقى المكونات (تقريبًا) من طيف الصوت دون تغيير.
لمزيد من التحليل والوصف ، تحتاج إلى تحليل صوت التعرض للمكونات الطيفية.



لكن الصوت ، مثل الذرة ، يبدو من المستحيل تقسيمه إلى مكونات تبدو غير قابلة للتجزئة. لكن الأمر ليس كذلك: فكل ذروة في الرسم البياني أعلاه تتوافق مع مكون متناسق من الصوت - المُشكل. وبالتالي ، يمكن وصف كل صوت إذا تم وصف أبسط مكوناته. ولا ينبغي أن يواجه أحد مشاكل مع هذا الأخير. إذا نظرت بعناية إلى الرسم البياني ، يمكنك بسهولة تحديد أن المصفق موصوف في وقت واحد من خلال معلمتين: التردد والسعة النسبية. وفقًا لذلك ، من الناحية الرياضية البحتة ، تشكل هاتان المعلمتان متجهًا ، وتتوافق مجموعة هذه المتجهات التي تتوافق مع الصيغ الهامة الموجودة مع مصفوفة المعلمات.

ثم يمكن تمييز الصوت (عملية شبه توازمية) بالمجموعة التالية من المعلمات:



يتم سرد معلمات بعض حروف العلة الأخرى هنا أيضًا. الحرف A هو السعة ، على التوالي ، v هو التردد. سيكون من الإنصاف أن نقول أن أكثر الأحرف "تعقيدًا" هي "E" و "I" - طيف صوتيهما أوسع ، والترددات الهامة في فترتين مختلفتين.

التوليف الصوتي


لتحقيق إمكانية تقييم جودة الطريقة الموصوفة ، تم اقتراح نموذج لإعادة بناء الصوتيات للكلام البشري باستخدام المصفوفات البارامترية التي تم الحصول عليها: f(t)= sum limitsi=1NAisin(2 pivit). هنا ، تحت علامة المجموع ، يشار إلى السجل الرسمي لصاحب الصيغة. وفقًا لذلك ، باستخدام البيانات من الجدول أعلاه ، يمكنك إنشاء نموذج صوتي ، على سبيل المثال ، الحرف "U" وتركيبه.



تعتمد مجموعة المعلمات لقيم المصفوفات على خصائص الصوت. لذلك ، من أجل إعادة بناء واقعية للتسجيل الصوتي حرف "U" ، يتم استخدام مصفوفة تتكون من ثمانية عشر معلمات عددية تصف تسعة صيغ مهمة. لبناء نموذج أكثر دقة ، من الضروري أن تأخذ في الاعتبار جميع التركيبات الصوتية الهامة. شرط آخر لدقة مقارنة الإشارة الأصلية والمركبة هو المدة المتساوية للإشارات الصوتية.

الخلاصة والاستنتاجات


أنت تفهم أن الصوت ليس وحدة غير قابلة للتجزئة في تحليل الكلام البشري. لقد عرضت عليك أيضًا طريقة بسيطة لوصف تحليلي مُكوّني صوتيات الكلام البشري. في القسم الأخير درسنا أنه من الممكن بناء نموذج رياضي للفونيم من المعلمات التي تم الحصول عليها ، ويمكن استخدام النموذج الذي تم الحصول عليه ، بدوره ، لتجميع الصوت. آمل أن تكون قد استمتعت بهذه المواد. في المقالة التالية ، سنقوم بتحليل مدى تعقيد التلوين العاطفي للصوت وكيف يمكن بناء النماذج الرياضية تجريبياً من أجله.

ملاحظة


يمكن العثور على النص الرئيسي للعمل المنشور هنا .

Source: https://habr.com/ru/post/ar427813/


All Articles