
مقدمة
حاليا ، يتم إيلاء الكثير من الاهتمام لخلق بيئة يسهل الوصول إليها للأشخاص ذوي الإعاقة والإعاقة. من الوسائل المهمة لضمان إمكانية الوصول وتحسين نوعية الحياة والتفاعل الاجتماعي والاندماج في المجتمع للأشخاص ذوي الإعاقة مرافق الكمبيوتر ونظم المعلومات المتخصصة. أظهر تحليل للأدبيات أن هناك العديد من التطورات الجارية حاليًا لتسهيل تفاعل الإنسان والكمبيوتر ، بما في ذلك في اتجاه تطوير واجهات صوتية لإدارة نظام الكمبيوتر. ومع ذلك ، فإن هذه التطورات تسترشد بإنشاء أنظمة مستقلة عن المتحدث ، مدربة على البيانات الضخمة ولا تأخذ في الاعتبار خصوصية نطق الأوامر إلى الكمبيوتر من قبل أشخاص يعانون من انتهاكات مختلفة لوظائف الكلام.
الغرض من البحث هو تصميم واجهة صوتية تعتمد على مكبر الصوت لإدارة نظام الكمبيوتر بناءً على طرق التعلم الآلي.
المهام التي تم حلها في العمل:
- إجراء مراجعة للواجهات الصوتية وكيفية استخدامها للتحكم في أنظمة الحوسبة ؛
- لدراسة طرق إضفاء الطابع الشخصي على التحكم الصوتي في نظام الكمبيوتر ؛
- لتطوير نموذج رياضي لواجهة صوتية لإدارة نظام الكمبيوتر ؛
- تطوير خوارزمية تنفيذ البرامج.
طرق الحل. لحل المهام المستخدمة طرق تحليل النظام ، والنمذجة الرياضية ، والتعلم الآلي.
واجهة صوتية كوسيلة للتحكم في نظام الحوسبة
يعد إنشاء أنظمة التعرف على الكلام مهمة صعبة للغاية. من الصعب التعرف على اللغة الروسية ، التي لديها العديد من الميزات. يمكن تقسيم جميع أنظمة التعرف على الكلام إلى فئتين:
أنظمة تعتمد على مكبر الصوت - تم ضبطها على خطاب المتحدث في عملية التعلم. للعمل مع مكبر صوت آخر ، تتطلب هذه الأنظمة إعادة تكوين كاملة.
الأنظمة المستقلة للسماعات - التي تكون عملياتها مستقلة عن السماعات. لا تتطلب هذه الأنظمة تدريبًا مسبقًا وقادرة على التعرف على خطاب أي متحدث.
في البداية ، ظهر النوع الأول من النظام في السوق. فيها ، تم تخزين الصورة الصوتية للفريق في شكل معيار متكامل. لمقارنة النطق غير المعروف ، استخدم الفريق القياسي طرق البرمجة الديناميكية. عملت هذه الأنظمة بشكل جيد عند التعرف على مجموعات صغيرة من 10-30 فريق وفهمت متحدثًا واحدًا فقط. للعمل مع مكبر صوت آخر ، تتطلب هذه الأنظمة إعادة تشكيل كاملة.
من أجل فهم الكلام المستمر ، كان من الضروري الانتقال إلى قواميس ذات أحجام أكبر بكثير ، من عدة عشرات إلى مئات الآلاف من الكلمات. لم تكن الأساليب المستخدمة في أنظمة النوع الأول مناسبة لحل هذه المشكلة ، لأنه من المستحيل ببساطة إنشاء معايير لمثل هذا العدد من الكلمات.
من أجل فهم الكلام المستمر ، كان من الضروري الانتقال إلى قواميس ذات أحجام أكبر بكثير ، من عدة عشرات إلى مئات الآلاف من الكلمات. لم تكن الأساليب المستخدمة في أنظمة النوع الأول مناسبة لحل هذه المشكلة ، لأنه من المستحيل ببساطة إنشاء معايير لمثل هذا العدد من الكلمات.
بالإضافة إلى ذلك ، كانت هناك رغبة في جعل نظام مستقل عن المذيع. هذه مهمة صعبة للغاية ، لأن كل شخص لديه طريقة فردية في النطق: سرعة الكلام ، وجرس الصوت ، وميزات النطق. تسمى هذه الاختلافات تقلب الكلام. لأخذها في الاعتبار ، تم اقتراح طرق إحصائية جديدة ، تستند أساسًا إلى الأجهزة الرياضية
لنماذج ماركوف المخفية (SMM) أو
الشبكات العصبية الاصطناعية . تم تحقيق أفضل النتائج من خلال الجمع بين هاتين الطريقتين. بدلاً من إنشاء أنماط لكل كلمة ، يتم إنشاء أنماط الأصوات الفردية التي تتكون منها الكلمات ، ما يسمى النماذج الصوتية. تتشكل النماذج الصوتية من خلال المعالجة الإحصائية لقواعد بيانات الكلام الكبيرة التي تحتوي على تسجيلات الكلام لمئات الأشخاص. تستخدم أنظمة التعرف على الكلام الحالية نهجين مختلفين جوهريًا:
التعرف على
العلامات الصوتية - التعرف على أجزاء الكلام من نمط مسجل مسبقًا. يستخدم هذا النهج على نطاق واسع في أنظمة بسيطة نسبيًا مصممة لتنفيذ أوامر صوتية مسجلة مسبقًا.
التعرف على العناصر المعجمية - العزل عن الكلام من أبسط العناصر المعجمية ، مثل الصوتيات والألوفون. هذا النهج مناسب لإنشاء أنظمة إملاء النص حيث يتم التحويل الكامل للأصوات المنطوقة إلى نص.
تتيح لك نظرة عامة حول مصادر الإنترنت المختلفة تسليط الضوء على منتجات البرامج التالية التي تحل مشاكل التعرف على الكلام وخصائصها الرئيسية:
Gorynych PROF 3.0 هو برنامج سهل الاستخدام للتعرف على اللغة المنطوقة والكتابة من خلال الإملاء مع دعم اللغة الروسية. ويستند إلى التطورات الروسية في مجال التعرف على الكلام.
الخصائص
- إدمان المتحدث.
- الاعتماد على اللغة (الروسية والإنجليزية) ؛
- تعتمد دقة التعرف على جوهر نظام إملاء التنين الأمريكي ؛
- يوفر التحكم الصوتي لوظائف معينة من نظام التشغيل ومحرري النصوص وبرامج التطبيقات ؛
- يتطلب التدريب.
VoiceNavigator هو حل عالي التقنية لمراكز الاتصال ، مصمم لبناء أنظمة الخدمة الذاتية الصوتية (GHS). يتيح لك VoiceNavigator معالجة المكالمات تلقائيًا باستخدام تقنيات التوليف والتعرف على الكلام.
الخصائص
- استقلالية المتحدث ؛
- الحصانة ضد الضوضاء البيئية والتدخل في قناة الهاتف ؛
- يعمل التعرف على الكلام الروسي مع موثوقية 97 ٪ (قاموس 100 كلمة).
Speereo Speech Recognition -
التعرف على الكلام يحدث مباشرة على الجهاز ، وليس على الخادم ، وهي ميزة رئيسية ، وفقا للمطورين.
الخصائص
- يعمل التعرف على الكلام الروسي مع موثوقية حوالي 95 ٪ ؛
- استقلالية المتحدث ؛
- مفردات حوالي 150 ألف كلمة ؛
- دعم متزامن للغات متعددة ؛
- حجم محرك مضغوط. محرك Sakrament ASR (تم تطويره بواسطة Sacrament)
محرك Sakrament ASR - (تم تطويره بواسطة Sacrament) - يتم استخدام تقنية التعرف على الكلام لإنشاء أدوات إدارة الكلام - البرامج التي تتحكم في إجراءات الكمبيوتر أو أي جهاز إلكتروني آخر باستخدام الأوامر الصوتية ، بالإضافة إلى تنظيم المساعدة الهاتفية وخدمات المعلومات.
الخصائص
- استقلالية المتحدث ؛
- استقلالية اللغة ؛
- دقة التعرف تصل إلى 95-98٪ ؛
- التعرف على الكلام في شكل عبارات وجمل صغيرة ؛
- لا توجد فرصة للتعلم.
Google Voice Search - تم مؤخرًا دمج البحث الصوتي من Google في متصفح Google Chrome ، مما يتيح لك استخدام هذه الخدمة على منصات متنوعة.
الخصائص
- دعم اللغة الروسية ؛
- القدرة على تضمين التعرف على الكلام على موارد الويب ؛
- الأوامر الصوتية والعبارات.
- للعمل تحتاج إلى اتصال دائم بالإنترنت.
Dragon NaturallySpeaking - (Nuance Company) شركة عالمية رائدة في برامج التعرف على الكلام البشري. القدرة على إنشاء مستندات جديدة وإرسال بريد إلكتروني وإدارة المتصفحات الشائعة ومجموعة متنوعة من التطبيقات من خلال الأوامر الصوتية.
الخصائص
- نقص الدعم للغة الروسية ؛
- دقة التعرف تصل إلى 99٪.
ViaVoice - (IBM) هو منتج برمجي لعمليات تنفيذ الأجهزة. استنادًا إلى هذا المجال ، أنشأت ProVox Technologies نظامًا لإملاء تقارير أطباء الأشعة VoxReports.
الخصائص
- دقة التعرف تصل إلى 95-98٪ ؛
- استقلالية المتحدث ؛
- يقتصر قاموس النظام على مجموعة من المصطلحات المحددة.
Sphinx هو برنامج معروف وفعال للتعرف على الكلام مفتوح المصدر لهذا اليوم. يتم تنفيذ التطوير في جامعة كارنيجي ميلون ، وهو مرخص بموجب توزيع برامج Berkley (BSD) ومتاح للاستخدام التجاري وغير التجاري.
الخصائص
- استقلالية المتحدث ؛
- التعرف المستمر على الكلام ؛
- القدرة على التعلم ؛
- توفر نسخة للأنظمة المدمجة - Pocket Sphinx.
وبالتالي ، أظهر الاستطلاع أن منتجات البرمجيات التي تستهدف عددًا كبيرًا من المستخدمين تسود في السوق ، وهي مستقلة عن المتحدث ، كقاعدة عامة ، لديها ترخيص ملكية ، مما يحد بشكل كبير من استخدامها للأشخاص ذوي الإعاقة لإدارة نظام الحوسبة. أنظمة التحكم الصوتي في الأدوات المتخصصة ، مثل المنزل الذكي ، الهيكل الخارجي ، وما إلى ذلك ، ليست عالمية. ومع ذلك ، يتزايد الاهتمام بالتقنيات الجديدة ، وهناك فرص للتحكم في الأجهزة المختلفة من خلال الاتصالات المحمولة وتقنيات البلوتوث. بما في ذلك الأجهزة المنزلية. سيؤدي استخدام تقنيات التحكم الصوتي التي تركز على مستخدم معين إلى تحسين جودة الحياة اليومية والتكيف الاجتماعي للأشخاص ذوي الإعاقة.
جهاز رياضي للتعرف على حالة المتكلم ومميزاته
لحل المشكلة المطروحة في العمل ، نقوم بتحليل متطلبات النظام.
يجب أن يكون النظام:
- تعتمد على اللغة
- تعلم وفقًا للنطق المحدد لمستخدم معين ؛
- التعرف على عدد معين من بصمات الصوت وترجمتها إلى أوامر تحكم.
يجب أن تكون الواجهة الصوتية: تعتمد على السماعة ، مع مجموعة محدودة من المفردات.
الأوامر الصوتية هي موجة صوتية. يمكن تمثيل الموجة الصوتية كطيف من الترددات المدرجة فيها.
الصوت الرقمي هو طريقة لتمثيل إشارة كهربائية من خلال القيم العددية المنفصلة لاتساعها. يعمل ملف صوتي في الذاكرة الرئيسية كمعلومات إدخال لكي تعمل الواجهة الصوتية ، نتيجةً لإرسال الملف إلى الشبكة العصبية ، يعطي البرنامج النتيجة المقابلة.
الرقمنة هي تثبيت لاتساع الإشارة في فترات زمنية معينة وتسجيل قيم الاتساع التي تم الحصول عليها في شكل قيم رقمية مدورة. تتضمن رقمنة الإشارة عمليتين - عملية أخذ العينات وعملية التكميم.
عملية أخذ العينات هي عملية الحصول على قيم الإشارة ، والتي يتم تحويلها بخطوة زمنية محددة ، وتسمى هذه الخطوة خطوة أخذ العينات. يُطلق على عدد قياسات حجم الإشارة ، التي يتم إجراؤها في ثانية واحدة ، تردد أخذ العينات أو تردد أخذ العينات ، أو تردد أخذ العينات. كلما كانت خطوة أخذ العينات أصغر ، كلما زاد تردد أخذ العينات وتمثيل أكثر دقة للإشارة التي سنحصل عليها.
التكميم هو عملية استبدال القيم الحقيقية لاتساع الإشارة بقيم تقريبية مع بعض الدقة. يُطلق على كل مستوى من المستويات 2N المحتملة مستوى تكمية ، وتسمى المسافة بين أقرب مستويين تكميليًا خطوة تكمية. إذا كان مقياس السعة مقسمًا إلى مستويات ، يُطلق على القياس الكمي خطيًا أو متجانسًا.
تسمى قيم اتساع الإشارة المسجلة بالعينات. كلما زاد معدل أخذ العينات وكلما زادت مستويات القياس ، كلما كان التمثيل الرقمي للإشارة أكثر دقة.
من المستحسن استخدام شبكة عصبية يمكنها التعلم والاختيار التلقائي للعلامات الضرورية كجهاز رياضي لحل مشكلة التمييز بين السمات المميزة. سيسمح لك ذلك بتدريب النظام على النطق المعين لأوامر الكلام لمستخدم معين. بمقارنة آليات الشبكات العصبية المختلفة ، اخترنا أنسبها. هذه هي شبكة Kosco و Cohoken.
خريطة Kohonen ذاتية التنظيم هي شبكة عصبية مع التعلم بدون معلم ، تؤدي مهمة التصور والتجمع. إنها طريقة لإسقاط الفضاء متعدد الأبعاد في مساحة ذات بعد أقل (في أغلب الأحيان ، ثنائي الأبعاد) ، كما أنها تستخدم لحل النمذجة ، والتنبؤ بالمشكلات ، وتحديد مجموعات الميزات المستقلة ، والبحث عن الأنماط في مجموعات البيانات الكبيرة ، وتطوير ألعاب الكمبيوتر. وهي واحدة من إصدارات الشبكات العصبية Kohonen.
تعد شبكة Kohonen شبكة مناسبة ، حيث يمكن لهذه الشبكة تقسيم أمثلة التدريب تلقائيًا إلى مجموعات ، حيث يتم تعيين عدد المجموعات من قبل المستخدم. بعد تدريب الشبكة ، يمكنك حساب المجموعة التي ينتمي إليها مثال الإدخال وإخراج النتيجة المقابلة.
الشبكة العصبية Kosco أو الذاكرة الترابطية ثنائية الاتجاه (DAP) هي شبكة عصبية ذات تغذية راجعة أحادية الطبقة تستند إلى فكرتين: نظرية الرنين التكيفي ل Stefan Grosberg وذاكرة Hopfield ذاتية الاقتران. DAP عبارة عن رابطة غير متجانسة: يصل ناقل الإدخال إلى مجموعة واحدة من الخلايا العصبية ، ويتم إنشاء ناقل الإخراج المقابل في مجموعة أخرى من الخلايا العصبية. مثل شبكة Hopfield ، DAP قادر على التعميم ، وإنتاج ردود الفعل الصحيحة ، على الرغم من المدخلات المشوهة. بالإضافة إلى ذلك ، يمكن تنفيذ الإصدارات التكييفية من WCT ، مما يبرز الصورة المرجعية من الحالات الصاخبة. تشبه هذه القدرات بقوة عملية التفكير البشري وتسمح للشبكات العصبية الاصطناعية باتخاذ خطوة في اتجاه نمذجة الدماغ.
ميزة هذه الشبكة هي أنه بناءً على الشبكات العصبية المنفصلة لنظرية الرنين التكيفي ، يتم تطوير ذاكرة ارتباطية ثنائية الاتجاه جديدة قادرة على تخزين معلومات جديدة دون إعادة تدريب الشبكة العصبية. يسمح هذا للمستخدم بتجديد مخزون علامات الصوت إذا لزم الأمر.
التصميم
يحتوي مفهوم تنفيذ البرنامج على ثلاث مراحل يتم تنفيذها في منتج برمجي واحد له واجهة رسومية مريحة.
مجموعة من الأمثلة التدريبية.لتدريب الشبكة العصبية ، يُدعى المستخدم لقول عدة مرات بصمات الصوت المعدة. نظرًا لأن العبارات المسجلة تتكون من كلمة واحدة ، لا يهم حجم الملف. ولمزيد من المعالجة ، يتم تسجيل الصوت بتنسيق WAV. هذا هو تنسيق تسجيل PCM بدون فقدان. إنه المعيار لمزيد من معالجة الصوت باستخدام مكتبة
python_speech_features في Python. يجب إرفاق "القيمة" اللازمة لمزيد من التدريب للشبكة العصبية (الأوامر المقابلة) بالملف الصوتي.
تدريب الشبكات العصبية.يقرأ البرنامج الملفات الصوتية ، وينشئ ملفات صوتية جديدة عن طريق تغيير طول المسار الصوتي ، وكذلك تغيير درجة الصوت ونبرة الصوت. هذا ضروري لزيادة عدد الأمثلة لعينة التدريب ، مما سيزيد من جودة التعرف من قبل الشبكة العصبية. في البرنامج ، سيُطلب من المستخدم تدريب الشبكة على العلامات الصوتية المسجلة مسبقًا. يمكن للمستخدم أيضًا استكمال القاعدة بعلامات صوتية للتدريب ، وإعادة تدريب الشبكة العصبية لاحقًا.
باستخدام البرنامج.بعد تدريب البرنامج بالكلمات المحددة ، يمكن للمستخدم العمل أو إضافة علامات صوتية جديدة إلى التدريب. يمكن للشبكة العصبية المدربة التعرف على الملفات الصوتية المقدمة.
الخلاصة
وهكذا ، في العمل البحثي ، يتم استعراض السوق الحديثة للواجهات الصوتية واستخداماتها. يظهر أن هذا النوع من البرامج يركز على استخدام أنظمة التحكم الصوتي المستقلة عن الصوت ولا يأخذ في الاعتبار الخصائص الفردية للمستخدم ، وهو أمر مهم بشكل خاص للأشخاص ذوي الإعاقة وضعف الكلام.
يتم تحديد متطلبات واجهة التحكم الصوتي في نظام الكمبيوتر لمساعدة الأشخاص الذين يعانون من اضطرابات الكلام.
تم وصف جهاز رياضي مناسب لتطبيق المفهوم. يتم تجميع خوارزمية لتطبيق البرنامج للواجهة الصوتية.
ينطوي المزيد من التطوير على تطوير برنامج بواجهة رسومية ملائمة لتنفيذ واجهة نموذجية للتحكم الصوتي يمكن استخدامها في مهام مختلفة ، مثل التحكم في الأجهزة المنزلية وأجهزة الكمبيوتر والأجهزة الآلية (الهياكل الخارجية) من قبل الأشخاص ذوي الإعاقة.