تهجئة الحق

مرحبا بالجميع!


الكثير منا لديه خبرة قليلة في ما يسمى بالكتابة الصوتية - فقط المحللون النفسيون يستخدمون لتسجيل أفكارهم على مسجل الصوت. الآن أصبح الإملاء أكثر دراية - لقد اعتادت خدمة الاتصال الصوتي في الهواتف الذكية على ذلك. المشاركة كمالك منتج في عملية إنشاء منتج للتعرف على الكلام الروسي المستمر ، والتواصل مع مطوري الخوارزميات والعملاء ، وإجراء اختبارات مختلفة لأنظمة التعرف ، وملاحظة كيفية إملاء المستخدمين لنصوصهم وتجربة خاصة بهم في إدخال نص إلى جهاز كمبيوتر باستخدام الصوت ، لقد سجلت الكثير من الملاحظات المثيرة للاهتمام. لفهم كيفية استخدام التعرف التلقائي على الكلام بشكل صحيح ، دعنا نرى كيف يعمل التعرف على الكلام. سيتم تبسيط الوصف للغاية ، ولكنه سيساعد على فهم الأخطاء التي يرتكبها الناس عند الإملاء. وأيضًا:سأكتب هذه المقالة بمساعدة الإملاء ، وأجري تصحيحات من لوحة المفاتيح فقط في تلك الأماكن التي لا يمكنك الاستغناء عنها.

إذن:


لإنشاء محرك التعرف ، نحتاج إلى نماذج صوتية ولغوية.
النموذج الصوتي مسؤول عن ربط قطعة صوت (إطار) بالصوت المقابل. الصوت هو صوت منفصل للكلام ، على سبيل المثال ، "إيقاع" ، "t-soft" ، "t" و 49 آخرون. المشكلة الأكبر هي أن العديد من الصوتيات متشابهة جدًا مع بعضها البعض ومن الصعب جدًا تمييز كلمة "سيارات" عن كلمة "سيارات" (تذكر عدد المرات التي تسأل فيها مرة أخرى عندما يتم إخبارك باسم غير معروف). لذلك ، تم جعل النموذج الصوتي احتماليًا: فقد أفاد أنه مع بعض الاحتمالية تم نطق صوت "الصدمة" في هذا الجزء الصوتي ، مع احتمال آخر كان صوت "صدمة" ، إلخ. ويعطي الاحتمالات لجميع الأصوات.


من أجل الحصول على مثل هذا النموذج الصوتي ، نحتاج إلى تدريبه أولاً. لهذا ، يتم أخذ قاعدة كبيرة من الكلام (مئات الساعات من الكلام المسجل على الميكروفون من قبل عشرات المتحدثين من مختلف الجنس والعمر). تم وضع علامة على القاعدة بحيث يُعرف أي صوت يبدو عند أي نقطة زمنية. ثم بعد التدريب نحصل لكل صوت على وظيفة توزيع احتمالية معينة تصف كيف ينطق هذا الصوت في المتوسط ​​من قبل الناس.

نموذج اللغةكما أنها احتمالية وتصف بنية اللغة. ويبين مدى احتمالية (تصحيح) هذه العبارة أو تلك من وجهة نظر اللغة. على سبيل المثال ، عبارة "أمي تغسل الإطار" طبيعية تمامًا ، لكن "الأم تغسل الإطار" خاطئة بالفعل (هذه العبارة مزعجة جدًا لـ Voco لدرجة أنها تعترف بـ "غسلت أمي الأم"). بعد أن نتعرف على الكلمة التالية ، يحدد نموذج اللغة مدى اتساق هذه الكلمة مع الكلمات المعروفة السابقة.
يتدرب نموذج اللغة على كمية كبيرة من البيانات النصية (غيغابايت من النصوص). باستخدام بيانات التدريب هذه ، نحسب احتمالية حدوث الكلمات في سياق معين ، بناءً على تكرار حدوث هذه العبارات. نستخدم عبارات لا تزيد عن 3 كلمات (نماذج لغوية 3 جرام). لذلك ، لا يمكن للنموذج اللغوي أن يساعد في التوفيق ، على سبيل المثال ، الصفة مع الاسم إذا كان هناك أي كلمتين بينهما. في هذه الحالة ، تحدث المطابقة فقط بسبب النموذج الصوتي.
كقاموس التعرف ، نأخذ حوالي 300 ألف من الكلمات الأكثر شيوعًا التي تغطي 99 ٪ من كلام الشخص العادي.


الآن دعونا نتعامل مع الاعتراف نفسه


بمعرفة كيفية نسخ كل كلمة باستخدام الصوتيات ومعرفة الاحتمالات من نموذج اللغة ، يمكننا إنشاء رسم بياني للتعرف على (حالة الحالة المحدودة). كمعرفة سريعة بآلات الحالة المحدودة ، فإن قسم "آلات الحالة" في هذه المقالة مثالي . تصل الأصوات إلى مدخلات هذا العمود ، ويترجمها إلى كلمات والكلمات إلى عبارات.


الرسم البياني للتعرف على الكلمات: "الأم" ، "الصابون" ، "الإطار" ، "الأطباق". على حواف الرسم البياني لدينا صوتيات كأحرف إدخال (كلمة قبل ':') ، وكلمات كأحرف إخراج (كلمة بعد ':') وأوزان من نموذج اللغة (الرقم بعد '/'). "-" تعني إدخال أو إخراج فارغ. تقوم الحافة من العقدة الرابعة إلى العقدة 0 بدورة الرسم البياني بحيث يمكن التعرف على عدة كلمات متتالية.

عند التعرف ، نحصل على جزء من الصوت ، يحولها النموذج الصوتي إلى مجموعة من الصوتيات مع الاحتمالات التي تقع في إدخال الرسم البياني الخاص بنا. وبالتالي ، نتحرك على طول الرسم البياني ، لتشكيل العديد من الفرضيات. لكل فرضية وزن يتشكل من الاحتمالات من النموذج الصوتي والاحتمالات من نموذج اللغة (الموجود على حواف الرسم البياني).
الرسم البياني للتعرف الحقيقي أكبر بمليون مرة من مثال لعبتنا ، لذلك في مرحلة ما سيكون هناك العديد من الفرضيات ولن يكون هناك ما يكفي من ذاكرة الوصول العشوائي لسحبها جميعًا. لمنع حدوث ذلك ، يتم استخدام طرق مختلفة لتقليل عدد الفرضيات. غالبًا ما يكون هذان معياران بسيطان: يجب ألا تكون الفرضيات أكثر من رقم معين ولا يجب أن تفقد أي فرضية الكثير لأفضل فرضية.

الآن بعد أن أصبح لدينا القليل من الفهم للنظرية ، دعنا ننتقل إلى نصائح حول أفضل ما يمكن فعله وما هو الأفضل عدم القيام به عند الإملاء.


هل SU


يعد الإملاء حسب المقاطع من أكثر الأخطاء الشائعة التي يرتكبها المستخدمون. نقوم بتدريب النظام على الكلام العادي ، لذا فإن تمدد الكلمات بمقاطع يربك النظام فقط. عند الإملاء من خلال المقاطع ، تتحول جميع حروف العلة في الكلمة إلى قرع ، يتم نطق الصوتيات لفترة أطول ، تظهر فترات التوقف المؤقت بين المقاطع. كل هذا يؤدي إلى نتيجة حزينة ، عندما تنقسم الكلمات إلى مجموعة من الأجزاء ذات المقطع الواحد. على سبيل المثال ، عند قول Voco وفقًا للمقاطع "نفد في الشارع" ، نحصل على النتيجة التالية: "لست مضطرًا للضغط على SU" أو ما شابه: "ليس عليك الضغط على SU" ، ولكنه بالتأكيد ليس ما نحتاج إليه.

نصيحة: تحدث بشكل طبيعي كشخص عادي.


كيف يأخذك الجحيم



بعض الناس يتحدثون بسرعة كبيرة. علاوة على ذلك ، غالبًا ما يقلل مثل هذا الكلام من الكلمات: يتم ابتلاع حروف الجر ، ولا يتم نطق النهايات ، والكلمات الطويلة تتحول إلى جهنم ، على سبيل المثال ، بدلاً من "ألكسندر ألكسندروفيتش" ، يتم نطق المحب المألوف "سان سانيش". غالبًا ما يفهم الناس مثل هذا الكلام دون مشاكل ، لأن الدماغ يستعيد المعلومات المفقودة ، لكن خوارزميات التعرف على الكلام تتعامل مع هذه المشكلة بصعوبة. على سبيل المثال ، قال رجل بدلاً من "السيارة الحمراء" "السيارات الحمراء". أثناء التعرف ، ستحصل فرضيتنا الصحيحة على احتمالات صغيرة جدًا عند المرور عبر الصوتيات المبتلعة نهاية الكلمات ونتيجة للوزن المكتسب ، قد لا يكون ذلك كافياً للنصر ، ولكن بعض "جمال ماشا" سيفوز.
لقد أخذنا في الاعتبار بعض تخفيضات التردد في النطق. على سبيل المثال ، إذا قلت "cho" بدلاً من "what" أو "hello" بدلاً من "hello" ، فلن يؤثر ذلك على نتيجة التعرف ، حيث أضفنا النسخ المناسبة إلى الرسم البياني الخاص بنا. المشكلة الثانية التي يمكن أن تنتظر حتى يملي هواة بسرعة عالية هي syntag syntag.
تنهد وقال لنفسه
كيف يأخذك الجحيم.

نصيحة: إذا كنت عرضة لخطاب سريع جدًا ، فحاول نطق الكلمات بشكل أكثر وضوحًا. سيساعدك التوقف القصير بين الكلمات على الحفاظ على وتيرة أبطأ وعدم ابتلاع قطع الكلمات.


بول الكفوف تجمع ولكن


مشكلة أخرى للاعتراف هي "الصراخ" والتردد: يبدأ الشخص في التحدث بكلمة ، ويخطئ ، ويقطعها إلى النصف ، ثم ينطقها بشكل صحيح. على سبيل المثال ، يقول شخص "سقط بالتوازي". لا توجد كلمة "سقطت" في القاموس ، وبالتالي ، في مثل هذه الحالات ، يمكن أن تكون نتيجة التعرف مدهشة للغاية: على سبيل المثال ، يمكن أن تتعثر الكلمة نفسها في كلمة واحدة مشابهة في الصوت أو أن نتيجة التعرف ستتألف من عدة كلمات صغيرة مشابهة أيضًا في الصوت ، على سبيل المثال لكن ".
أيضًا ، يمكن أن يؤدي التوقف الطويل إلى أن يقرر مفكك التشفير أنك قد أنهيت الجملة ، مما يعني أن التنسيق مع الكلمات التي سبق ذكرها سوف ينكسر.

نصيحة: فكر مسبقًا في ما تريد أن تقوله ، لأن هذا يقلل بشكل كبير من عدد فترات التوقف والتردد الطويلة في الكلام.


الليل. شارع فانوس. الصيدلة.


العبارات القصيرة أقل شهرة من العبارات الطويلة. في الجمل القصيرة ، خاصة تلك المكونة من كلمة واحدة ، لا يعمل نموذج اللغة عمليًا. من الصعب تمييز كلمة "آلة" عن الكلمات: "سيارة" ، و "سيارة" ، و "آلة" ، ويعتمد نموذج اللغة في هذه الحالة فقط على حدوث الكلمة في بيانات التدريب ، والتي في الواقع لا تحمل أي معلومات مفيدة. في الوقت نفسه ، يجب الاعتراف جيدًا بكلمة "سيارة" في عبارة "لقد وصل بالسيارة" ، نظرًا لأن النموذج اللغوي ، استنادًا إلى السياق المعترف به بالفعل "وصل" ، سيكون هو الاختيار الصحيح. تتضمن العبارات القصيرة أيضًا عبارات ذات فترات توقف طويلة بين الكلمات ، نظرًا لأنه في هذه الحالة يتم استبعاد السياق الكامل للفظ كلمة قبل التوقف المؤقت من عمل نموذج اللغة.

نصيحة: تجنب العبارات القصيرة جدًا. إذا لم يكن ذلك ممكنًا ، فحاول نطق النهايات بوضوح.


لم أقل ذلك


يحدث أنه ليس فقط ما تقوله معترف به ، ولكن أيضًا خطاب جارك. ونتيجة لذلك ، تبدو الرسالة التي تكتبها في صوتك وكأنها رسالة من العم فيدور إلى والدتك: "الشعر مغطى ، والذيل يتساقط". وينطبق هذا بشكل خاص عند استخدام ميكروفون بعيد على كمبيوتر محمول أو كاميرا ويب. نحن نحاول تحسين جودة التعرف في الضوضاء والكلام في الخلفية المنفصلة ، ولكن في الحالات التي يكون فيها المستخدم صامتًا ، يمكن أيضًا التعرف على الكلام الهادئ في الخلفية.

نصيحة: ستساعد سماعة الرأس عالية الجودة والبيئة الهادئة على تحسين جودة التعرف.


مثل الكولا


يتعرف Voco على الكلام الروسي ، ولكن بعض الكلمات الإنجليزية الشائعة وأسماء الشركات وبرامج المنتجات في متناول اليد أيضًا. على سبيل المثال ، "كوكا كولا" ، "Windows" معترف بها تمامًا. ولكن هناك مشكلة صغيرة: في اللغة الإنجليزية ، هناك أصوات ليست بالروسية. لحل هذه المشكلة ، قمنا بنسخ الكلمات الإنجليزية مع أكثر الأصوات الصوتية الروسية تشابهًا ، لذلك ، يجدر نطقها بالطريقة الروسية. على سبيل المثال ، كوكا كولا. [كوكا كولا]. لا تُظهر لهجتك البريطانية الممتازة [k'əʊkʌ k'əʊla].

نصيحة: انطق الكلمات الإنجليزية بلكنة روسية.


عميق Kutra حربة bayanova الجانب وسوق البنوك المدخنين


يحدث أن الكلمة لم يتم التعرف عليها ، على الرغم من أنك تحاول جاهدًا للغاية وتتبع جميع توصياتنا. ولعل السبب هو أن هذه الكلمة ليست في قاموس التعرف. لقد قمنا بتدريس نموذج لغوي حول موضوع عام (السياسة والاقتصاد والثقافة والرياضة ، وما إلى ذلك) ودخل القاموس حوالي 300 ألف من الكلمات الأكثر شيوعًا. لذلك ، على الأرجح لا توجد مصطلحات أو ألقاب عالية التخصص لرئيسك في العمل. لذا ، يملي المستخدم رسالة إلى العميل: عزيزي فلاديمير إلزامي ، فلاديمير لتشغيلها ، دون أي ، بدون 1 ، بلا وجه. مرارًا وتكرارًا ، يلفظ المستخدم اسم العميل - Bezyakin ، ويغير النطق وسرعة النطق ويؤكد على الإجهاد ، ولكن الاسم المطلوب غير معروف.
هذه هي العبارة المعروفة جيدًا لغوي شيربا "A cuzra shteko budlanula boraka وطفل صغير ذو شعر مجعد" تحولت إلى حربة بولانوفا وعلبة تدخين.
حتى يتم التعرف على الكلمات التي تحتاجها غير المعروفة لنموذج اللغة بشكل صحيح ، يجب عليك استخدام تكييف نموذج التعرف مع احتياجاتك. إذا قمت بكتابة النصوص ، على سبيل المثال ، على المعلوماتية الحيوية ، فمن الأفضل أن تأخذ نصوصًا عن المعلوماتية الحيوية وإعادة تدريب النظام عليها.
عند إعادة التدريب من نصوص جديدة ، يتم بناء نموذج لغوي صغير ، والذي سيشارك في التقدير جنبًا إلى جنب مع النموذج الرئيسي. أي أن الوزن الذي نحصل عليه من نموذج اللغة سيتكون الآن من وزنين: الوزن من نموذج اللغة الرئيسي والوزن من نموذج التكيف.
يعد تكييف النظام عن طريق النصوص أكثر صحة من إضافة كلمات منفصلة إلى قاموس التعرف. إن إضافة كلمة واحدة لا تعطينا معلومات حول كيفية استخدام هذه الكلمة ، وكيفية إمالتها ، وما إلى ذلك ، وبالتالي فإن الأخطاء ممكنة في التعرف على النهايات.

نصيحة: قم بتكييف التعرف مع السمة الخاصة بك على النصوص الخاصة بك أو أضف الكلمات الضرورية إلى قاموس التعرف.


ملاحظة: تم تسجيل هذا النص بالصوت باستخدام تطبيق #Voco . ويمكنك أن ترى كيف حدث هذا في الفيديو:


أدب المهوسون:
1. : Mohri, M., Pereira, F., & Riley, M. Speech recognition with weighted finite-state transducers. In Springer Handbook of Speech Processing (pp. 559-584). Springer Berlin Heidelberg 2008.
2. www.morganclaypool.com/doi/abs/10.2200/S00462ED1V01Y201212SAP010
3. , www.amazon.com/Automatic-Speech-Recognition-Communication-Technology/dp/1447157788/ref=sr_1_1?s=books&ie=UTF8&qid=1447854516&sr=1-1&keywords=speech+recognition

Source: https://habr.com/ru/post/ar388151/


All Articles