
不久前,我介绍了一个名为Vanya Razumny的语法聊天机器人(
“使用glock cuzdra方法创建AI。IntelligentOdyssey” )。 下一个明显的阶段,就像其他人工智能创造者一样,我想经历一下-给有想法的人发声。 看起来会更容易吗?
但是,我不得不受苦。 当然,由于业余爱好,不可能解决一些问题。 但是,我怀疑专业人士对解决相关问题感兴趣。 这对任何人都没有兴趣,所以我不想。 我希望能够快速固定声音并继续进行后续构想...
但是首先是第一件事。
(我写这篇文章是希望我在配音领域的痛苦能够帮助我的爱人。这篇文章对这类主教毫无用处)。
显然,计分任务分为两个不相关的部分:
- 文字合成
- 语音识别。
我认为最简单的是第一点。 马上我遇到了一些针对初学者的代码,仅几行。
预设语音合成using System.Speech.Synthesis; public static void getSpeech(string text) { SpeechSynthesizer speaker = new SpeechSynthesizer(); speaker.SetOutputToDefaultAudioDevice(); string selectedVoice = Properties.Settings.Default.Voice; speaker.SelectVoice("Microsoft Irina Desktop"); speaker.Rate = 1; speaker.Volume = 100; speaker.Speak(text); speaker.Dispose(); }
我把它放在源中,然后想象一下,汽车说! 我有点不知所措。 这么容易吗?
这仍然是胡扯:附上男性的声音。 不幸的是,Windows中预安装了一种俄语语音-女性:“ Microsoft Irina Desktop”。 我有一个聊天机器人男孩,而不是女孩,我不打算让他做变性手术。
一段时间之后,我再次确信Google几乎没有男性俄语声音。 这是指免费票,因为付费服务不适合我的财务恋情。 但是,也有自由的男性声音,例如,国内图书馆RHVoice的声音“亚历山大”。 好吧,让它成为亚历山大。
不幸的是,安装(对我而言)有些复杂。 但是,有现成的组件。 我下载了其中一个程序集,进行安装,然后进入Windows设置(语音识别/文本到语音),然后-看吧! -我在“ Microsoft Irina Desktop”旁边找到“ Aleksandr”的声音。 我喘不过气来发射...
一切都可以在Windows中使用!
我将在源代码中用Aleksandr替换Microsoft Irina Desktop,然后……还没该死的东西! 悲伤但不致命。 我们将立即修复它。
我正在研究RHVoice项目,尤其是配置文件的描述,并以此方式进行实验……结果是一样的:尽管Microsoft Irina像电视上的播音员一样读出来,但亚历山大发出的声音却不为所动,甚至听不懂。
几天后,我仍然希望有所作为,但后来我放弃了。 是的,我的手歪了。 好吧,我不知道为什么亚历山大·亚历山大拒绝讲话,我也不知道,我也没有在论坛上找到答案。
好的,我正在研究其他免费声音,收益不会超过12。
然后我想到,如果我希望Vanya Reasonable的用户听到与我听到的声音相同的声音,则必须在程序包中安装声音安装程序。 这超出了我的能力范围,我不愿意参与其中,因此第一段“将文本合成为语音”以可耻的投降而告终。
我原则上决定:
- 让我们和狗一起下地狱! 让聊天机器人用户自己安装所需的声音,然后从列表中进行选择。 附加预定义的投票列表是可行的任务。
- 我用女性声音给Vanya讲合理的声音,因为Vanya还很年轻,而且嗓音还没有断。 “这根本不是因为我的手从屁股上伸出来了,”我通过心理疗法说服自己。
怀着一颗纯洁的心,我转向第二点:语音识别。
第二点是决定性的。 谁需要一个聊天机器人,它可以在语音中复制自己的短语,但不理解对话者的语音? 万一失败,配音事业就会崩溃。
最后一次,再次疯狂地谷歌搜索。
揭示了什么? 这些选项大多是付费的:有免费的选项,但是只有少数几种俄语选项。
Yandex SpeechKit看起来是网络上最简单的,但是如果更复杂的选项不起作用,我将其保存以备后用。 我更喜欢离线识别。
这是CMUSphinx提供的完全免费的解决方案。 我正在研究评论:
- 首先,没有任何令人惊讶的感叹:兄弟,一切正常!
- 其次,安装说明对我来说是完全深刻的。 似乎在安装后,还需要对库进行培训!
渐行渐远。
下一个 Microsoft语音平台,免费。
我在google上找到了一个具有可访问的描述以及示例源代码的
链接 。 下载源代码,进行编译。 我说“一,二”,程序将给出识别的文本。 奴隶o-otayet!..
有点让人困惑的事实是文本本身无法识别,但必须首先将其添加到字典中。 但这并不令人恐惧:我将用拼写附加大量文件,而不是“一个,两个”。
我将代码从示例的源代码转移到我的源代码,我试图达到相同的效果……它不编译,在恢复中失败了。
然后,我用左眼阅读了注释,发现该解决方案适合识别命令,但不允许使用连续文本。 我根据原始示例进行检查。 是的,“一,二”认识到,“一,二,三”并不完全:他听不到三。 我在评论中发现类似的内容:“连续文本需要付费,” Microsoft语音平台对我而言不再存在。
我听说Google应该免费提供一年的识别器,我应该检查一下。
我查一下 据我判断,现在已经不复存在了。

我不排除自己在Google上搜索不正确的情况,但不要怪我:我与初学者分享我所获得的个人经验。
我要放弃Yandex。 感叹“兄弟,一切正常!” 足够,私人可以根据个人请求免费获得服务,我亲眼看到了广告。 我可以通过API连接到SpeechKit,可以使用说明。
我放弃了,我看到了什么? 该公司刚刚展示了Yandex.Cloud,并将语音技术服务转移到了该处。 我不感到骄傲,我将在Cloud中注册:那里的一切可能和以前一样...
在这里,一个可怕的坏蛋正等着我:
- 首先,您不会听说免费使用识别器。 的确,他们会提供一笔赠款,您可以用它支付一段时间的服务费用。 好的,我继续注册...
- 这是什么业务? 要使用该服务,他们需要我指出银行卡的详细信息。 摘录给我作为云端配置文件创建者的一封信:

我在某处看到了这一点:我认为是在Google上。 因此,Yandex以一个资深朋友为榜样。
我对哈布雷(Habré)上没有愤慨的职位感到惊讶。 好吧,他们不仅需要金钱来提供服务,而且索要钱来的公寓钥匙! 无论如何,这令我感到恼火,因为在一段时间内,银行可能不会根据银行经理的决定放出我自己的钱,在这里,第二个叔叔也需要同样的权利。 而且,在我同意切换到付费版本之前。 我尚未与这个叔叔达成任何协议,并且已经把公寓的钥匙给了我,以防万一。 啊,真是一种谨慎!
Yandex叔叔,您知道我没有反对您的事,我很乐意使用您的服务,但是很抱歉,在我有机会选择之前,您不会从我的银行卡收到密码。 特别是为您起草两卢布的卡,我没有时间,这是无利可图的。
在这里,便条引起了人们对语音识别技术不完善的关注。 关键是,目前在语音识别领域还没有做得很好,因此不值得使用识别系统。 我发誓并拒绝接受这样的思想,即在不久的将来Vanya The Intelligent将不会讲话。
下面的段落是有关在线语音识别服务的下一篇文章。 当然,在线服务是不合适的。 好吧,我认出了winforms中的声音,但是在网站上却听不见。没有丝毫希望,我单击链接,然后...
第二天,聊天机器人发出声音。
魔杖简介:
speechpad.ru 。 我警告您,该服务仅适用于Chrome。 这并不能阻止我:我使用任何Chrome。 而且他拥有Google提供的引擎:显然,我尚不知道使用该服务的一些机会是免费的。
Speechpad具有一个简单但功能齐全的界面:

连接识别器需要最少的时间。
阅读说明之后,我要做的第一件事就是将服务与OS集成在一起。 没错,整合是有偿的,但是每月100卢布,而不管识别量是另一回事! 这些并不是每件公认商品的严苛关税。 此外,还提供了两天的试用期以供您熟悉。
我在网站上注册,按下测试期间的开机按钮,在一分钟内,我安装了说明中指定的几个Pribluda,一切正常。 作用原理-将识别的文本添加到光标的位置。 真正认可并真正添加。 人们公认它不是没有错误,但从我的角度来看是令人满意的。
经过几个小时的测试,我得出的结论是使用剪贴板更加合理,并且此功能是免费的。 当然,这里并不适合所有人:
- 与OS集成时,光标应位于特定的聊天机器人字段上。 在测试期间,我忘记了几次,从聊天机器人切换到VS,结果将识别出的文本驱动到源代码中。
- 当使用剪贴板时,因此被禁止使用剪贴板,否则从第三方程序复制到剪贴板的文本将立即显示在聊天机器人中。 几次我也遇到过这个问题,但是很快我就习惯了。
最后我停在剪贴板上。
一切,问题都解决了。
与从语音板上连接识别相比,花费更多的时间来使聊天机器人说出的短语无法识别。 我流汗很多,直到最容易关闭麦克风为止。 谷歌搜索麦克风静音代码。
麦克风开/关代码 using NAudio.CoreAudioApi;
*-评论不是我的,而是复制粘贴的。 我没有提供该链接,因为该链接的所有者承认他本人已经在Google英语互联网的肠道中搜索了该代码。
**-我对代码进行了较小的更改。 在聊天机器人的短语之前,我关闭了麦克风,在我打开短语之后,结果是该服务仅听到了我的短语,但没有听到聊天机器人。
这是最终结果:
为了获得完整的印象,我正在浏览十几个具有语音识别功能的网站。 原则上,每个人都是相似的,并且大多数引擎都来自Google,但是找不到将文本显式接收到剪贴板的功能。 从评论的角度来看,在某些地方有可能为站点发声,但是我没有深入探讨这个主题。 正如他们所说,他们并不是在追求善良。
现在是另一个问题:我认为最好收紧发音语音的动画。 我想要更简单的东西:带有字符选择的C#库。 但是我被告知.NET中没有任何内容...
其实就是这样。 年轻人的声音是女性的,但一般来说,声音模式正在起作用。
我希望很快以更像样的方式介绍Vanya the Rational。 在过去的时间里,它已经得到了极大的更新和明智:它从Access切换到PostgreSQL,算法得到了改进,可以连接字典,以建立典型答案的初始数据库-简而言之。