👨🏿‍🏫 👨🏼‍💻 👩‍✈️ Chatbot يحصل على السمع ، أو معاناة الهواة 🎹 🏾 😰

منذ وقت ليس ببعيد ، قدّمت روبوت دردشة نحويًا يدعى Vanya Razumny ( "إنشاء الذكاء الاصطناعي باستخدام طريقة glock cuzdra. الأوديسة الذكية" ). المرحلة الواضحة التالية ، والتي ، مثل غيرها من المبدعين للذكاء الاصطناعي ، أردت أن أخوضها - لإعطاء بنات أفكار صوتًا. قد يبدو أسهل؟

ومع ذلك ، كان علي أن أعاني. لم يكن من الممكن حل بعض المشاكل ، وبالتأكيد بسبب الهواة. ومع ذلك ، أشك في أن المهنيين مهتمين بحل المشكلات ذات الصلة. هذا ليس مثيرًا لأي أحد ، لذلك لم أكن أريد ذلك. كنت آمل في ربط الصوت بسرعة والانتقال إلى الأفكار اللاحقة ...

لكن أول الأشياء أولا.

(أكتب على أمل أن تساعد معاناتي في مجال التمثيل الصوتي شخصًا ما من عشاقي. هذا المنشور لا فائدة منه على أفضل البيسون).

من الواضح أن مهمة التسجيل تنقسم إلى قسمين غير مرتبطين:

تركيب النص
التعرف على الكلام.

وأغتنم النقطة الأولى ، كما أسهل. على الفور صادفت رمز للمبتدئين ، فقط بضعة أسطر.

توليف الصوت مسبقا

using System.Speech.Synthesis; public static void getSpeech(string text) { SpeechSynthesizer speaker = new SpeechSynthesizer(); speaker.SetOutputToDefaultAudioDevice(); string selectedVoice = Properties.Settings.Default.Voice; speaker.SelectVoice("Microsoft Irina Desktop"); speaker.Rate = 1; speaker.Volume = 100; speaker.Speak(text); speaker.Dispose(); }

أنا وضعت في المصدر ، وتخيل ، تقول السيارة! أنا غارقة قليلا مع الفرح. من السهل جدا؟

يبقى هراء: إرفاق صوت الذكور. لسوء الحظ ، تم تثبيت صوت روسي واحد مسبقًا في Windows - أنثى: "Microsoft Irina Desktop". ولدي ولد chatbot ، وليس فتاة ، وأنا لا أخطط للقيام به لعملية لتغيير الجنس.

جوجل مرة أخرى ، بعد فترة من الوقت أنا مقتنع أن هناك عدد قليل من الأصوات الروسية الذكور. هذا يشير إلى الأصوات المجانية ، لأن الخدمات المدفوعة ليست لغرامات تمويل الغناء الخاصة بي. ولكن هناك أيضًا أصوات ذكور مجانية ، على سبيل المثال ، صوت "ألكساندر" من المكتبة المحلية RHVoice. حسنا ، فليكن الكسندر.

لسوء الحظ ، التثبيت (بالنسبة لي) معقد إلى حد ما. ولكن هناك جمعيات جاهزة. أقوم بتنزيل أحد التجميعات وتثبيته وتسلق إلى إعدادات Windows (التعرف على الكلام / تحويل النص إلى كلام) و- ها! - أجد صوت "ألكساندر" بجوار "Microsoft Irina Desktop". مع التنفس برأس أبدأ ...

كل شيء يعمل في ويندوز!

سأستبدل Microsoft Irina Desktop بـ Aleksandr في المصدر و ... ليس شيئًا مفيدًا بالفعل! حزين ولكن ليس القاتل. سنصلحها الآن.

أنا أدرس مشروع RHVoice ، لا سيما وصف ملف التكوين ، وأجري تجربة بهذه الطريقة ... والنتيجة هي نفسها: بدلاً من الأصوات ، يصنع ألكساندر هديرًا غير مفهوم أو لا شيء على الإطلاق ، على الرغم من حقيقة أن Microsoft Irina يقرأ مثل مذيع على التلفزيون.

بضعة أيام ما زلت آمل شيئًا ما وأتخبط ، لكنني استسلمت بعد ذلك. نعم ، يدي ملتوية. حسنًا ، لا أعرف لماذا يرفض ألكسندر التحدث ، لا أعرف ، ولا أجد إجابة على المنتديات.

حسنًا ، أنا أدرس الأصوات المجانية الأخرى ، فالفائدة ليست أكثر من عشرة.

بعد ذلك ، يتضح لي أنه إذا كنت أريد لمستخدمي Vanya المعقول سماع نفس الصوت الذي أسمعه ، فسيتعين تثبيت المثبت الصوتي في الحزمة. هذا يتجاوز قوتي ، وأنا أحجم عن المشاركة فيه ، لذلك تنتهي الفقرة الأولى ، "تجميع النص في الكلام" ، باستسلام مخزٍ.

أتخذ قرارًا من حيث المبدأ:

دعنا نذهب إلى الجحيم مع كلب! اسمح لمستخدمي chatbot أنفسهم بتثبيت الأصوات التي يريدونها واختيارهم من القائمة. إرفاق قائمة من الأصوات المحددة مسبقا هي مهمة ممكنة.
أعبر عن صوت Vanya المعقول بصوت الأنثى ، لأن Vanya شاب ولم ينقطع صوته بعد. "وهذا ليس على الإطلاق لأن يدي تنمو من مؤخرتي" ، أقنع نفسي من خلال العلاج النفسي.

بقلب نقي ، أنتقل إلى النقطة 2: التعرف على الكلام.

النقطة الثانية حاسمة. من الذي يحتاج إلى روبوت محادثة يمكنه إعادة إنتاج عباراته بصوت ، لكنه لا يفهم صوت المحاور؟! في حالة الفشل ، ينهار تعهد الدبلجة.

غوغلينغ مرة أخرى ، وهذه المرة المحمومة ، في التنفس الأخير.

ما يجري الكشف؟ يتم دفع الخيارات في الغالب: هناك خيارات مجانية ، ولكن هناك القليل منها فقط للغة الروسية.

يظهر Yandex SpeechKit كأبسطها على الشبكة ، لكنني سأحفظه لاحقًا إذا لم تعمل خيارات أكثر تعقيدًا. انا افضل للحصول على الاعتراف حاليا.

هنا حل مجاني تمامًا من CMUSphinx. أنا أدرس الاستعراضات:

أولاً ، لا توجد صيحات فاحشة: أيها الإخوة ، كل شيء يعمل!
ثانيا ، وصف التثبيت صعب المنال تماما بالنسبة لي. يبدو أنه بعد التثبيت ، تحتاج المكتبة أيضًا إلى التدريب!

السقوط بعيدا.

التالي. مايكروسوفت الكلام منصة ، مجانا.

أجد Google وأجد رابطًا مع وصف يمكن الوصول إليه بالإضافة إلى الكود المصدر للمثال. تحميل المصدر ، ترجمة. أقول "واحد ، اثنان" ، والبرنامج يعطي النص المعترف به. عبد أو otayet! ..

مربكة بعض الشيء هو حقيقة أن النص لم يتم التعرف عليه في حد ذاته ، ولكن يجب إضافته أولاً إلى القاموس. لكن هذا ليس مخيفًا: بدلاً من "واحد أو اثنين" ، سأرفق ملفًا كبيرًا به هجاء.

أقوم بنقل الكود من الكود المصدري للمثال إلى مصادري ، وأحاول تحقيق نفس التأثير ... لا يتم تجميعه ، إنه يقع في الاسترداد.

ثم قرأت التعليقات بعين عيني وأجد أن الحل مناسب للتعرف على الأوامر ، لكنه لا يسمح بالعمل بنص مستمر. أنا تحقق وفقا للمثال الأصلي. نعم ، "واحد ، اثنان" يعترف ، و "واحد ، اثنان ، ثلاثة" ليس كاملاً: إنه لا يسمع الثلاثة. في التعليقات التي أجدها بعيني اليمنى شيء من هذا القبيل: "يتم التعرف على النص المستمر مقابل رسوم" - ولم يعد Microsoft Speech Platform موجودًا بالنسبة لي.

سمعت أن Google توفر أداة التعرف الخاصة بها مجانًا لمدة عام ، ويجب أن أتحقق منها.

أنا تحقق. ليس بعد الآن ، بقدر ما أستطيع الحكم.

لا أستبعد أنني غوغل بشكل غير صحيح ، لكن لا ألومني: أشارك مبتدئي في التجربة الشخصية التي اكتسبتها.

انا ذاهب للتخلي عن ياندكس. وهنا تعجب "الأخوة ، كل شيء يعمل!" بما فيه الكفاية ، والأفراد ، بناءً على طلب فردي ، يمكنهم الحصول على الخدمة مجانًا ، لقد رأيت الإعلان بأم عيني. يمكنني الاتصال بـ SpeechKit بواسطة API ، تتوفر تعليمات.

جئت للتخلي وماذا أرى؟ قدمت الشركة للتو Yandex.Cloud ، حيث نقلت خدمة تكنولوجيا الكلام. أنا لست فخوراً ، سأسجل في السحابة: ربما يكون كل شيء على حاله كما كان من قبل ...

وهنا يكمن المشكله الرهيب في انتظار لي:

أولاً ، لا يمكنك سماع الاستخدام المجاني لبرنامج التعرف. صحيح أنهم يمنحون منحة يمكنك أن تدفع مقابلها الخدمة لفترة من الوقت. حسنًا ، أنا أواصل التسجيل ...
وما هو هذا العمل؟! للعمل مع الخدمة ، يطلبون مني الإشارة إلى تفاصيل البطاقة المصرفية. مقتطف من خطاب أرسل إليّ بصفتي مُبدع الملف الشخصي في السحابة:

في مكان ما رأيت هذا: في رأيي ، على جوجل. لذلك ، أخذ ياندكس مثالا من صديق كبير.

أنا مندهش من عدم وجود مشاركات ساخطة على حبري. حسنًا ، لا يحتاجون إلى المال مقابل الخدمات فحسب ، بل يطلبون أيضًا مفتاح الشقة التي يوجد بها المال! إنه منزعج مني على أي حال أنه منذ فترة لا يجوز للبنك التبرع من أموالي الخاصة وفقًا لقرار مدير البنك ، وهنا يتطلب عمه الثاني نفس الحقوق بشكل أساسي. علاوة على ذلك ، قبل وافقت على التحول إلى النسخة المدفوعة. لم أبرم أي اتفاق مع هذا العم بعد ، وأعطاني بالفعل مفاتيح الشقة ، فقط في حالة. آه ، يا له من نوع والحكمة!

أنت تعرف يا عم ياندكس ، ليس لدي أي شيء ضدك ، وأنا أستخدم خدماتك بكل سرور ، لكن آسف ، حتى أتيحت لي الفرصة للاختيار ، لن تتلقى كلمة المرور من بطاقتي المصرفية. وخاصة بالنسبة لك لوضع بطاقة مع اثنين من روبل ليس لدي وقت ، وأنها ليست مربحة.

هنا تسترعي ملاحظة حول عيوب تقنيات التعرف على الكلام. النقطة المهمة هي أنه في الوقت الحالي لم يتم عمل أي شيء جيد في مجال التعرف على الكلام ، ولا يستحق استخدام أنظمة التعرف. أقسم وأستقيل من فكرة أنه في المستقبل القريب لن يتكلم الذكي.

الفقرة أدناه هي المقالة التالية حول خدمات التعرف على الكلام عبر الإنترنت. الخدمات عبر الإنترنت ليست مناسبة ، بالطبع. حسنًا ، أدرك الصوت الموجود في winforms ، ولكن ليس على الموقع ... دون أدنى أمل ، انقر فوق الرابط و ...

في اليوم التالي ، يكتسب صوت الدردشة الدردشة.

إدخال العصا السحرية: speechpad.ru . أحذرك من أن الخدمة تعمل فقط في Chrome. هذا لا يمنعني: أنا استخدم أي Chrome. ولديه محرك من Google: على ما يبدو ، تبقى بعض الفرص غير المعروفة لي لاستخدام الخدمة مجانية.

يحتوي Speechpad على واجهة مباشرة ولكنها عملية:

يستغرق توصيل أداة التعرف أقل وقت ممكن.

بعد قراءة التعليمات ، أول شيء أقوم به هو دمج الخدمة مع نظام التشغيل. صحيح ، يتم دفع التكامل ، ولكن 100 روبل في الشهر ، بغض النظر عن حجم الاعتراف ، هي مسألة أخرى! هذه ليست تعريفة صارمة لكل قطعة معترف بها. علاوة على ذلك ، يتم إعطاء فترة تجريبية مدتها يومين للتعرف عليها.

أسجل في الموقع ، وأضغط على زر التشغيل لفترة الاختبار ، في دقيقة واحدة أقوم بتثبيت زوج من Pribluda المحدد في التعليمات ، ويعمل كل شيء. مبدأ العمل - يضاف النص المعترف به في موقع المؤشر. المعترف بها حقا وأضاف حقا. يتم التعرف عليه بدون أخطاء ، ولكن ، من وجهة نظري ، مرض.

بعد بضع ساعات من الاختبار ، توصلت إلى استنتاج مفاده أنه من المنطقي استخدام الحافظة ، وهذه الميزة مجانية. هنا ، بالطبع ، ليس للجميع:

عند الدمج مع OS ، يجب أن يكون المؤشر في حقل chatbot محدد. أثناء الاختبار ، نسيت عدة مرات وقمت بالانتقال من برنامج الدردشة إلى VS ، ونتيجة لذلك يتم نقل النص الذي تم التعرف عليه إلى المصدر ؛
عند استخدام الحافظة ، يُمنع وفقًا لذلك استخدام الحافظة ، وإلا فإن النص المنسوخ إلى الحافظة من برنامج تابع لجهة خارجية سيظهر على الفور في chatbot. في بعض الأحيان ، صادفت ذلك أيضًا ، لكن سرعان ما اعتدت على ذلك.

في النهاية أتوقف عند الحافظة.

كل شيء ، يتم حل المشكلة.

وقتًا أطول من توصيل التعرّف على لوحة الكلام ، يتطلب الأمر التعرف على العبارات المنطوقة بواسطة برنامج الدردشة. تعرق كثيرًا حتى يصلني إلى أنه من الأسهل إيقاف تشغيل الميكروفون. غوغلينغ رمز كتم الميكروفون.

تشغيل / إيقاف تشغيل الميكروفون

 using NAudio.CoreAudioApi; //-  public static void Mute(bool start) { CoreAudioMicMute CAMM = new CoreAudioMicMute(); CAMM.SetMute(start); } internal class CoreAudioMicMute { private MMDevice[] rgMicDevice; //      int MaxMicro = 0; public CoreAudioMicMute() { try { MMDeviceEnumerator DevEnum = new MMDeviceEnumerator(); MMDeviceCollection devices = DevEnum.EnumerateAudioEndPoints(DataFlow.Capture, DeviceState.Active); // DataFlow.Capture - (     ), //DeviceState.Active -   //   (  ) MaxMicro = 0; for (int i = 0; i < devices.Count; i++) // devices.Count -  ( ) { MMDevice deviceAt = devices[i]; if (deviceAt.DataFlow == DataFlow.Capture && deviceAt.State == DeviceState.Active) // - (     ,   //"if(...",      deviceAt,   - DeviceFriendlyName //  FriendlyName,       ( //   .) { ++MaxMicro; } } //    () () ()   (,   ) rgMicDevice = new MMDevice[MaxMicro]; MaxMicro = 0; for (int i = 0; i < devices.Count; i++) { MMDevice deviceAt = devices[i]; if (deviceAt.DataFlow == DataFlow.Capture && deviceAt.State == DeviceState.Active) //   () { MaxMicro++; rgMicDevice[MaxMicro - 1] = deviceAt; } } } catch (Exception) { } } public void SetMute(bool mute) //,       private MMDevice[] rgMicDevice { try { for (int i = 0; i < MaxMicro; i++) { rgMicDevice[i].AudioEndpointVolume.Mute = mute; //= true -   (  ) } } catch (Exception) { } } }

* - التعليقات ليست لي ، ولكن نسخة لصق. لا أعطي الرابط ، حيث يعترف مالكه أنه هو نفسه لديه google الكود في أحشاء الإنترنت الناطقة باللغة الإنجليزية.
** - لقد أجريت تغييرات طفيفة على الكود.

قبل عبارة روبوت الدردشة ، أطفئ الميكروفون ، وبعد العبارة التي أقوم بتشغيلها ، ونتيجة لذلك ، فإن الخدمة تسمع فقط عباراتي ، لكن لا تسمع روبوت الدردشة.

ها هي النتيجة النهائية:

https://yadi.sk/i/kyoV-qoc6qXARQ

لاستكمال انطباعاتي ، أتصفح عشرات المواقع باستخدام ميزة التعرف على الكلام. من حيث المبدأ ، الجميع على حد سواء ، ومعظم المحركات من Google ، ولكن لم يتم العثور على القدرة على تلقي نص صريح إلى الحافظة. استنادا إلى التعليقات ، في بعض الأماكن ، هناك إمكانية للتعبير عن المواقع ، لكنني لا أتطرق إلى هذا الموضوع. كما يقولون ، لا يبحثون عن الخير من الخير.

الآن مشكلة أخرى: أعتقد أنه سيكون من الجيد تشديد الرسوم المتحركة التي تُظهر الخطاب الذي ألقاه. أريد شيئًا أكثر بساطة: مكتبة لـ C # مع اختيار الشخصية. لكن قيل لي أنه لا يوجد أي برنامج في .NET ...

في الواقع ، هذا كل شيء. الشاب لديه صوت أنثى ، ولكن بشكل عام ، وضع الصوت يعمل.

آمل أن أقدم قريباً فانيا المعقول في شكل أكثر حداثة. على مدار الفترة الماضية ، تم تحديثه وحكمته بشكل كبير: فقد تحول من الوصول إلى PostgreSQL ، وتم تحسين الخوارزميات ، وكان من الممكن توصيل القواميس ، وإنشاء قاعدة البيانات الأولية للإجابات النموذجية - شخص آخر ، باختصار.

Chatbot يحصل على السمع ، أو معاناة الهواة

More articles: