🧓🏾 👩‍👧‍👦 ⛄️ 聊天机器人会听到声音，也可能是业余痛苦 👨‍👨‍👧‍👧 👩‍👩‍👧‍👧 🏵️

不久前，我介绍了一个名为Vanya Razumny的语法聊天机器人（ “使用glock cuzdra方法创建AI。IntelligentOdyssey” ）。下一个明显的阶段，就像其他人工智能创造者一样，我想经历一下-给有想法的人发声。看起来会更容易吗？

但是，我不得不受苦。当然，由于业余爱好，不可能解决一些问题。但是，我怀疑专业人士对解决相关问题感兴趣。这对任何人都没有兴趣，所以我不想。我希望能够快速固定声音并继续进行后续构想...

但是首先是第一件事。

（我写这篇文章是希望我在配音领域的痛苦能够帮助我的爱人。这篇文章对这类主教毫无用处）。

显然，计分任务分为两个不相关的部分：

文字合成
语音识别。

我认为最简单的是第一点。马上我遇到了一些针对初学者的代码，仅几行。

预设语音合成

using System.Speech.Synthesis; public static void getSpeech(string text) { SpeechSynthesizer speaker = new SpeechSynthesizer(); speaker.SetOutputToDefaultAudioDevice(); string selectedVoice = Properties.Settings.Default.Voice; speaker.SelectVoice("Microsoft Irina Desktop"); speaker.Rate = 1; speaker.Volume = 100; speaker.Speak(text); speaker.Dispose(); }

我把它放在源中，然后想象一下，汽车说！我有点不知所措。这么容易吗？

这仍然是胡扯：附上男性的声音。不幸的是，Windows中预安装了一种俄语语音-女性：“ Microsoft Irina Desktop”。我有一个聊天机器人男孩，而不是女孩，我不打算让他做变性手术。

一段时间之后，我再次确信Google几乎没有男性俄语声音。这是指免费票，因为付费服务不适合我的财务恋情。但是，也有自由的男性声音，例如，国内图书馆RHVoice的声音“亚历山大”。好吧，让它成为亚历山大。

不幸的是，安装（对我而言）有些复杂。但是，有现成的组件。我下载了其中一个程序集，进行安装，然后进入Windows设置（语音识别/文本到语音），然后-看吧！ -我在“ Microsoft Irina Desktop”旁边找到“ Aleksandr”的声音。我喘不过气来发射...

一切都可以在Windows中使用！

我将在源代码中用Aleksandr替换Microsoft Irina Desktop，然后……还没该死的东西！悲伤但不致命。我们将立即修复它。

我正在研究RHVoice项目，尤其是配置文件的描述，并以此方式进行实验……结果是一样的：尽管Microsoft Irina像电视上的播音员一样读出来，但亚历山大发出的声音却不为所动，甚至听不懂。

几天后，我仍然希望有所作为，但后来我放弃了。是的，我的手歪了。好吧，我不知道为什么亚历山大·亚历山大拒绝讲话，我也不知道，我也没有在论坛上找到答案。

好的，我正在研究其他免费声音，收益不会超过12。

然后我想到，如果我希望Vanya Reasonable的用户听到与我听到的声音相同的声音，则必须在程序包中安装声音安装程序。这超出了我的能力范围，我不愿意参与其中，因此第一段“将文本合成为语音”以可耻的投降而告终。

我原则上决定：

让我们和狗一起下地狱！让聊天机器人用户自己安装所需的声音，然后从列表中进行选择。附加预定义的投票列表是可行的任务。
我用女性声音给Vanya讲合理的声音，因为Vanya还很年轻，而且嗓音还没有断。 “这根本不是因为我的手从屁股上伸出来了，”我通过心理疗法说服自己。

怀着一颗纯洁的心，我转向第二点：语音识别。

第二点是决定性的。谁需要一个聊天机器人，它可以在语音中复制自己的短语，但不理解对话者的语音？万一失败，配音事业就会崩溃。

最后一次，再次疯狂地谷歌搜索。

揭示了什么？这些选项大多是付费的：有免费的选项，但是只有少数几种俄语选项。

Yandex SpeechKit看起来是网络上最简单的，但是如果更复杂的选项不起作用，我将其保存以备后用。我更喜欢离线识别。

这是CMUSphinx提供的完全免费的解决方案。我正在研究评论：

首先，没有任何令人惊讶的感叹：兄弟，一切正常！
其次，安装说明对我来说是完全深刻的。似乎在安装后，还需要对库进行培训！

渐行渐远。

下一个 Microsoft语音平台，免费。

我在google上找到了一个具有可访问的描述以及示例源代码的链接。下载源代码，进行编译。我说“一，二”，程序将给出识别的文本。奴隶o-otayet！..

有点让人困惑的事实是文本本身无法识别，但必须首先将其添加到字典中。但这并不令人恐惧：我将用拼写附加大量文件，而不是“一个，两个”。

我将代码从示例的源代码转移到我的源代码，我试图达到相同的效果……它不编译，在恢复中失败了。

然后，我用左眼阅读了注释，发现该解决方案适合识别命令，但不允许使用连续文本。我根据原始示例进行检查。是的，“一，二”认识到，“一，二，三”并不完全：他听不到三。我在评论中发现类似的内容：“连续文本需要付费，” Microsoft语音平台对我而言不再存在。

我听说Google应该免费提供一年的识别器，我应该检查一下。

我查一下据我判断，现在已经不复存在了。

我不排除自己在Google上搜索不正确的情况，但不要怪我：我与初学者分享我所获得的个人经验。

我要放弃Yandex。感叹“兄弟，一切正常！” 足够，私人可以根据个人请求免费获得服务，我亲眼看到了广告。我可以通过API连接到SpeechKit，可以使用说明。

我放弃了，我看到了什么？该公司刚刚展示了Yandex.Cloud，并将语音技术服务转移到了该处。我不感到骄傲，我将在Cloud中注册：那里的一切可能和以前一样...

在这里，一个可怕的坏蛋正等着我：

首先，您不会听说免费使用识别器。的确，他们会提供一笔赠款，您可以用它支付一段时间的服务费用。好的，我继续注册...
这是什么业务？要使用该服务，他们需要我指出银行卡的详细信息。摘录给我作为云端配置文件创建者的一封信：

我在某处看到了这一点：我认为是在Google上。因此，Yandex以一个资深朋友为榜样。

我对哈布雷（Habré）上没有愤慨的职位感到惊讶。好吧，他们不仅需要金钱来提供服务，而且索要钱来的公寓钥匙！无论如何，这令我感到恼火，因为在一段时间内，银行可能不会根据银行经理的决定放出我自己的钱，在这里，第二个叔叔也需要同样的权利。而且，在我同意切换到付费版本之前。我尚未与这个叔叔达成任何协议，并且已经把公寓的钥匙给了我，以防万一。啊，真是一种谨慎！

Yandex叔叔，您知道我没有反对您的事，我很乐意使用您的服务，但是很抱歉，在我有机会选择之前，您不会从我的银行卡收到密码。特别是为您起草两卢布的卡，我没有时间，这是无利可图的。

在这里，便条引起了人们对语音识别技术不完善的关注。关键是，目前在语音识别领域还没有做得很好，因此不值得使用识别系统。我发誓并拒绝接受这样的思想，即在不久的将来Vanya The Intelligent将不会讲话。

下面的段落是有关在线语音识别服务的下一篇文章。当然，在线服务是不合适的。好吧，我认出了winforms中的声音，但是在网站上却听不见。没有丝毫希望，我单击链接，然后...

第二天，聊天机器人发出声音。

魔杖简介： speechpad.ru 。我警告您，该服务仅适用于Chrome。这并不能阻止我：我使用任何Chrome。而且他拥有Google提供的引擎：显然，我尚不知道使用该服务的一些机会是免费的。

Speechpad具有一个简单但功能齐全的界面：

连接识别器需要最少的时间。

阅读说明之后，我要做的第一件事就是将服务与OS集成在一起。没错，整合是有偿的，但是每月100卢布，而不管识别量是另一回事！这些并不是每件公认商品的严苛关税。此外，还提供了两天的试用期以供您熟悉。

我在网站上注册，按下测试期间的开机按钮，在一分钟内，我安装了说明中指定的几个Pribluda，一切正常。作用原理-将识别的文本添加到光标的位置。真正认可并真正添加。人们公认它不是没有错误，但从我的角度来看是令人满意的。

经过几个小时的测试，我得出的结论是使用剪贴板更加合理，并且此功能是免费的。当然，这里并不适合所有人：

与OS集成时，光标应位于特定的聊天机器人字段上。在测试期间，我忘记了几次，从聊天机器人切换到VS，结果将识别出的文本驱动到源代码中。
当使用剪贴板时，因此被禁止使用剪贴板，否则从第三方程序复制到剪贴板的文本将立即显示在聊天机器人中。几次我也遇到过这个问题，但是很快我就习惯了。

最后我停在剪贴板上。

一切，问题都解决了。

与从语音板上连接识别相比，花费更多的时间来使聊天机器人说出的短语无法识别。我流汗很多，直到最容易关闭麦克风为止。谷歌搜索麦克风静音代码。

麦克风开/关代码

 using NAudio.CoreAudioApi; //-  public static void Mute(bool start) { CoreAudioMicMute CAMM = new CoreAudioMicMute(); CAMM.SetMute(start); } internal class CoreAudioMicMute { private MMDevice[] rgMicDevice; //      int MaxMicro = 0; public CoreAudioMicMute() { try { MMDeviceEnumerator DevEnum = new MMDeviceEnumerator(); MMDeviceCollection devices = DevEnum.EnumerateAudioEndPoints(DataFlow.Capture, DeviceState.Active); // DataFlow.Capture - (     ), //DeviceState.Active -   //   (  ) MaxMicro = 0; for (int i = 0; i < devices.Count; i++) // devices.Count -  ( ) { MMDevice deviceAt = devices[i]; if (deviceAt.DataFlow == DataFlow.Capture && deviceAt.State == DeviceState.Active) // - (     ,   //"if(...",      deviceAt,   - DeviceFriendlyName //  FriendlyName,       ( //   .) { ++MaxMicro; } } //    () () ()   (,   ) rgMicDevice = new MMDevice[MaxMicro]; MaxMicro = 0; for (int i = 0; i < devices.Count; i++) { MMDevice deviceAt = devices[i]; if (deviceAt.DataFlow == DataFlow.Capture && deviceAt.State == DeviceState.Active) //   () { MaxMicro++; rgMicDevice[MaxMicro - 1] = deviceAt; } } } catch (Exception) { } } public void SetMute(bool mute) //,       private MMDevice[] rgMicDevice { try { for (int i = 0; i < MaxMicro; i++) { rgMicDevice[i].AudioEndpointVolume.Mute = mute; //= true -   (  ) } } catch (Exception) { } } }

*-评论不是我的，而是复制粘贴的。 我没有提供该链接，因为该链接的所有者承认他本人已经在Google英语互联网的肠道中搜索了该代码。
**-我对代码进行了较小的更改。

在聊天机器人的短语之前，我关闭了麦克风，在我打开短语之后，结果是该服务仅听到了我的短语，但没有听到聊天机器人。

这是最终结果：

https://yadi.sk/i/kyoV-qoc6qXARQ

为了获得完整的印象，我正在浏览十几个具有语音识别功能的网站。原则上，每个人都是相似的，并且大多数引擎都来自Google，但是找不到将文本显式接收到剪贴板的功能。从评论的角度来看，在某些地方有可能为站点发声，但是我没有深入探讨这个主题。正如他们所说，他们并不是在追求善良。

现在是另一个问题：我认为最好收紧发音语音的动画。我想要更简单的东西：带有字符选择的C＃库。但是我被告知.NET中没有任何内容...

其实就是这样。年轻人的声音是女性的，但一般来说，声音模式正在起作用。

我希望很快以更像样的方式介绍Vanya the Rational。在过去的时间里，它已经得到了极大的更新和明智：它从Access切换到PostgreSQL，算法得到了改进，可以连接字典，以建立典型答案的初始数据库-简而言之。

聊天机器人会听到声音，也可能是业余痛苦

More articles: