في يونيو ، نشر فريق من العلماء من جامعة كاليفورنيا في سان فرانسيسكو
دراسة تسلط الضوء على كيفية تغيير الناس للنبرة في خطابهم.
قد تكون نتائج هذه الدراسة مفيدة في إنشاء توليفات من الكلام الطبيعي - مع العواطف وتجويد مختلف.
حول الدراسة - في مقالنا اليوم.
صور فلوريان كوبيه / سي سيكيف كانت الدراسة
أجرى فريق من العلماء في جامعة كاليفورنيا مؤخرًا سلسلة من التجارب. تدرس العلاقة بين أجزاء مختلفة من الدماغ وأعضاء الكلام. يحاول الباحثون معرفة ما يحدث في الدماغ أثناء المحادثة.
يركز العمل المعني في المقالة على المنطقة التي تتحكم في الحنجرة ، بما في ذلك وقت تغيير الملعب.
الاختصاصي الرائد في الدراسة هو جراح الأعصاب إدوارد تشانغ (إدوارد تشانغ). يعمل مع مرضى الصرع - يقوم بعمليات تمنع التشنجات. يراقب تشانغ نشاط الدماغ لبعض مرضاه بمساعدة معدات خاصة.
قام الفريق بتجنيد متطوعين لإجراء أبحاثهم من هذه المجموعة المحددة من المرضى. تتيح لك أجهزة الاستشعار المتصلة مراقبة نشاطها العصبي أثناء التجارب. ساعدت هذه الطريقة - المعروفة باسم
تخطيط كهربية القلب - العلماء في العثور على منطقة الدماغ المسؤولة عن تغيرات الملعب.
طُلب من المشاركين في الدراسة تكرار نفس الجملة بصوت عالٍ ، ولكن التأكيد في كل مرة على كلمات مختلفة. من هذا تغير معنى العبارة. في الوقت نفسه ، تغير تواتر النغمة الأساسية أيضًا - وتيرة تذبذبات الحبال الصوتية.
وجد الفريق أن الخلايا العصبية في منطقة واحدة من الدماغ تم تنشيطها عندما رفع المريض النغمة. هذه المنطقة في المنطقة الحركية للقشرة مسؤولة عن عضلات الحنجرة. حفز الباحثون الكهرباء للخلايا العصبية في هذه المنطقة ، والتي استجابت لها عضلات الحنجرة بتوتر ، وأصدر بعض المرضى في نفس الوقت أصواتًا لا إرادية.
كما تضمن المشاركون في الدراسة تسجيل أصواتهم. هذا تسبب في استجابة الخلايا العصبية. من هذا ، استنتج أعضاء الفريق أن هذه المنطقة من الدماغ لا تشارك فقط في تغيير وتيرة النغمة الأساسية ، ولكن أيضًا في إدراك الكلام. يمكن أن يعطي هذا فكرة عن كيفية مشاركة الدماغ في تقليد خطاب شخص آخر - فهو يسمح لك بتغيير الملعب والخصائص الأخرى من أجل محاكاة المحاور.
مفيد في تطوير المزج الصوتي
يعتقد الصحفي روبي غونزاليس من Wired أن نتائج الدراسة قد تكون مفيدة في الأطراف الصناعية في الحنجرة وتسمح للمرضى الذين لا صوت لهم "التحدث" بشكل أكثر واقعية. هذا ما يؤكده العلماء أنفسهم.
لا يزال مُركِّب الكلام البشري - على سبيل المثال ، الذي
استخدمه ستيفن هوكينج - قادرًا على إعادة إنتاج الكلمات وتفسير النشاط العصبي. ومع ذلك ، لا يمكنهم التأكيد ، كما يفعل شخص لديه جهاز حديث في الكلام. وبسبب هذا ، يبدو الكلام غير طبيعي ، وليس من الواضح دائمًا ما إذا كان المحاور يطرح سؤالًا أو يدلي ببيان.
يواصل العلماء استكشاف منطقة الدماغ المسؤولة عن تغيير وتيرة النغمة الأساسية. هناك افتراض أنه في المستقبل ، سيتمكن مُركِّب الكلام من تحليل النشاط العصبي في هذا المجال ، وبناءً على البيانات التي تم الحصول عليها ، وبناء جمل بطريقة طبيعية - التأكيد على الكلمات المناسبة في الملعب ، وتشكيل أسئلة وعبارات بشكل غير رسمي اعتمادًا على ما يريد الشخص قوله.
دراسات نموذج الكلام الأخرى
منذ وقت ليس ببعيد ،
أجريت دراسة أخرى في مختبر إدوارد تشانغ ، والتي يمكن أن تساعد في تطوير أجهزة تشكيل الصوت. قرأ المشاركون مئات الجمل ، والتي استخدمت في الصوت تقريبًا جميع التركيبات الصوتية الممكنة للغة الإنجليزية الأمريكية. وتابع العلماء النشاط العصبي للمواضيع.
الصورة PxHere / PDفي هذه المرة ، أصبح التخاطب موضوعًا مهمًا - كيف تعمل أجهزة المسالك الصوتية (على سبيل المثال ، الشفاه واللسان) عند نطق أصوات مختلفة. تم الانتباه إلى الكلمات التي تتبع فيها حروف العلة المختلفة نفس الحرف الساكن الصلب. عند نطق مثل هذه الكلمات ، غالبًا ما تعمل الشفاه واللسان بشكل مختلف - ونتيجة لذلك ، يختلف إدراكنا للأصوات المقابلة أيضًا.
لم يحدد العلماء فقط مجموعات الخلايا العصبية المسؤولة عن حركات معينة لأعضاء السبيل الصوتي ، بل وجدوا أيضًا أن مراكز الكلام في الدماغ تنسق حركات عضلات اللسان والحنجرة وغيرها من أعضاء السبيل الصوتي ، بالاعتماد على سياق الكلام - الترتيب الذي تصدر به الأصوات. نحن نعلم أن اللغة تتخذ مواقف مختلفة اعتمادًا على الصوت التالي في الكلمة ، وهناك عدد كبير من هذه التركيبات الصوتية - وهذا عامل آخر يجعل صوت الكلام البشري طبيعيًا.
ستلعب دراسة جميع خيارات التعاون التي يتحكم بها النشاط العصبي أيضًا دورًا في تطوير تقنيات تخليق الكلام للأشخاص الذين فقدوا القدرة على الكلام ، ولكن تم الحفاظ على وظائفهم العصبية.
لمساعدة الأشخاص ذوي الإعاقة
، يتم أيضًا استخدام الأنظمة التي تعمل على المبدأ المعاكس - الأدوات القائمة على الذكاء الاصطناعي التي تساعد على تحويل الكلام إلى نص. إن وجود التجويد واللهجات في الكلام هو أيضًا صعوبة لهذه التقنية. يمنع وجودهم خوارزميات الذكاء الاصطناعي من التعرف على الكلمات الفردية.
قدم موظفو سيسكو ومعهد موسكو للفيزياء والتكنولوجيا والمدرسة العليا للاقتصاد مؤخرًا حلًا ممكنًا لمشكلة تحويل اللغة الإنجليزية الأمريكية إلى نص. يستخدم
نظامهم قاعدة النطق
CMUdict وقدرات الشبكة العصبية المتكررة. تتكون طريقتهم في "التنظيف" الأولي التلقائي للكلام من الأصوات "الإضافية". وهكذا ، من حيث الصوت ، فإن الكلام قريب من اللغة الإنجليزية الأمريكية المنطوقة ، دون "آثار" إقليمية أو عرقية معبر عنها بوضوح.
مستقبل البحث الكلام
في المستقبل ،
يريد الأستاذ تشانغ أيضًا
استكشاف كيفية عمل أدمغة الأشخاص الذين يتحدثون الصينية. فيها ، يمكن للاختلافات في وتيرة النغمة الأساسية أن تغير بشكل كبير معنى الكلمة. يهتم العلماء بكيفية إدراك الناس للإنشاءات الصوتية المختلفة في هذه الحالة.
يعتقد بنجامين ديختر ، أحد زملاء تشانغ ،
أن الخطوة التالية هي المضي قدمًا في فهم العلاقة بين الدماغ والحنجرة. يحتاج الفريق الآن إلى معرفة كيفية تخمين تردد النغمة التي سيختارها المتحدث من خلال تحليل نشاطه العصبي. هذا هو مفتاح إنشاء مُركِّب للكلام الذي يبدو طبيعيًا.
يعتقد العلماء أنه في المستقبل القريب لن يكون من الممكن إطلاق مثل هذا الجهاز ، ولكن دراسة Dichter والفريق ستقرب العلم من اللحظة التي يتعلم فيها جهاز الكلام الاصطناعي ليس فقط تفسير الكلمات الفردية ، ولكن أيضًا نغمات ، مما يعني إضافة العواطف إلى الكلام.
أكثر إثارة للاهتمام حول الصوت - في قناة Telegram الخاصة بنا:
كيف بدا حرب النجوم؟
أدوات الصوت الهوى
يبدو من عالم الكوابيس
السينما على الأطباق
الموسيقى في العمل