拼写正确

大家好!


我们中的许多人在所谓的语音写作方面经验很少,只有心理分析人员习惯将他们的想法记录在语音记录器上。现在,听写变得越来越熟悉-智能手机中的语音拨号服务已经习惯了。作为产品负责人参与以下过程:创建用于识别俄语连续语音的产品,与算法开发人员和客户进行交流,对识别系统进行各种测试,观察用户如何命令自己的文本以及自己在使用语音将文本输入计算机中的经验,我得到了很多有趣的观察结果。为了更好地理解如何正确使用自动语音识别,让我们看看语音识别是如何工作的。该描述将非常简化,但将有助于理解人们在进行口述时会犯什么错误。并且:我将在听写的帮助下写这篇文章,仅在那些您不能没有它的地方通过键盘进行更正。

因此:


要创建识别引擎,我们需要声学和语言模型。
声学模型负责将一段声音(帧)与相应的音素相关联。音素是一种单独的语音,例如“ a打击乐”,“ t-soft”,“ t”和其他49种。最大的问题是,许多音素彼此非常相似,很难将“汽车”一词与“汽车”一词区分开(记住,当您听到一个不知名的名字时,您会再次询问多少次)。因此,使声学模型成为概率模型:它报告了在该声音片段中“ a-shock”音素以某种可能性发音,而另一种可能性是“ a-shockless”音素,依此类推。并给出所有音素的概率。


为了拥有这样的声学模型,我们需要首先对其进行训练。为此,需要使用大量的语音基础(数十名不同性别和年龄的发言人在麦克风上录制了数百小时的语音)。标记了基础,以便知道哪个音素在什么时间点发声。然后在训练后,我们为每个音素获得一个确定的概率分布函数,该函数描述了人们平均如何发音该音素。

语言模型它也是概率性的,描述语言的结构。从语言的角度来看,它表明该短语或该短语的可能性(正确)。例如,短语“妈妈洗车架”是很正常的,但是“妈妈洗车架”已经是错误的了(这个短语对Voco很不满意,因此可以识别为“妈妈洗车架”)。识别出下一个单词后,语言模型将确定该单词与先前识别的单词的一致性。
语言模型训练大量的文本数据(千兆字节的文本)。使用这些训练数据,我们基于这些短语的出现频率来计算特定上下文中单词出现的概率。我们使用的短语不超过3个字(3克语言模型)。因此,语言模型不能帮助调和,例如,如果形容词与名词之间存在任何两个单词,则该调解方法将无法协调。在这种情况下,仅由于声学模型而发生匹配。
作为识别词典,我们选择了大约30万个最常用的词,覆盖了普通人讲话的99%。


现在让我们来处理识别本身


了解了如何使用音素转录每个单词并从语言模型中了解了概率,我们可以构建一个识别图(有限状态机)。作为对有限状态机的快速了解,本文中的“状态机”部分完美的。音素到达此列的输入;他将它们转换为单词,并将单词转换为短语。


单词的识别图:“母亲”,“肥皂”,“框架”,“盘子”。在图的边缘,我们有音素作为输入字符(“:”之前的单词),词作为输出字符(“:”之后的单词)和语言模型的权重(“ /”之后的数字)。 “-”表示空的输入或输出。从第4个节点到第0个节点的边沿使图形循环,以便可以识别一行中的几个单词。

识别后,我们得到声音的一部分,声学模型将其转换为一组概率,这些概率属于图表的输入。因此,我们沿着图移动,形成许多假设。每个假设的权重均由声学模型的概率和语言模型的概率(位于图的边缘)形成。
真实的识别图比我们的玩具示例大一百万倍,因此在某些时候会有太多的假设,并且没有足够的RAM来将它们全部提取。为了防止这种情况的发生,使用了各种方法来减少假设的数量。通常,这是两个简单的标准:假设不应超过一定数量,并且任何假设都不应因最佳假设而损失太多。

现在,我们对理论有了一点了解,让我们继续讲解在做决定时最好做什么和不该做什么的技巧。


做SU


用户犯的最常见错误之一是音节的命令。我们以普通语音训练系统,因此按音节拉伸单词只会使系统感到困惑。当由音节决定时,一个单词中的所有元音都变成打击乐,音素的发音时间变长,音节之间出现停顿。当单词被分成一串单音节的片段时,所有这些都会导致可悲的结果。例如,按照音节“跑到街上”说Voco,我们得到以下结果:“您不必按SU”或“您不必按SU”,但这绝对不是我们所需要的。

提示:作为普通人自然说话。


地狱怎么甚至带你



有些人说话很快。而且,这样的讲话通常会减少单词:吞下介词,不说结尾,长单词变成地狱,例如,人们用熟悉的冠冕堂皇的“ San Sanych”发音,而不是“ Alexander Alexandrovich”。人们通常会毫无问题地理解这种语音,因为大脑会恢复丢失的信息,但是语音识别算法很难解决这个问题。例如,一个人用“红色汽车”代替“红色汽车”。在识别过程中,通过吞咽的音素结束单词时,我们的正确假设将获得很小的概率,并且由于体重增加,可能不足以赢得胜利,但某些“玛莎之美”将获胜。
我们已经考虑了一些降低发音的频率。例如,如果您说“ cho”而不是“ what”或“ hello”而不是“ hello”,这不会影响识别结果,因为我们在图形中添加了适当的转录。可以等待业余爱好者高速命令的第二个麻烦是syntag同音异形词。
“他叹了口气,心想,地狱怎么
甚至把你抱走。”

提示:如果您的语音讲话速度很快,请尝试更清晰地发音。单词之间的短暂停顿可以帮助您保持较慢的步调,并且不会吞下单词。


保罗爪子集会,但


识别的另一个问题是“尖叫”和犹豫:一个人开始说一个单词,犯一个错误,将其分解成两半,然后正确地发音。例如,一个人说“并行下跌”。字典中没有单词“ fallen”,因此,在这种情况下,识别结果可能会非常令人惊讶:例如,绊脚和单词本身可以合并为一个声音相似的单词,或者识别结果将由几个声音也相似的小单词组成,例如“集会地板”但是。”
同样,长时间的停顿可能会导致解码器决定您已经完成了该句子,这意味着与已经说过的单词的协调将会中断。

提示:请事先考虑您想说什么,因为这样可以大大减少长时间的停顿和犹豫的次数。


晚上 灯笼 药房。


短短语不如长短语识别。在简短的句子中,尤其是单个单词,语言模型实际上不起作用。“机器”一词很难与“汽车”,“汽车”,“机器”这两个词区分开,在这种情况下,语言模型仅依赖于训练数据中该词的出现,而实际上却没有任何有用的信息。同时,“驾车到达”一词中的“驾车”一词应得到很好的认识,因为基于已经公认的语境“到达”的语言模型将是正确的选择。短短语也包括单词之间有较长停顿的短语,因为在这种情况下,在停顿之前发音一个单词的整个上下文都被排除在语言模型的工作范围之外。

提示:避免使用简短的短语。如果无法做到这一点,请尝试清楚地发音结尾。


我没那么说


不仅您的说话被识别,而且邻居的讲话也被识别。结果,您输入的声音就像费多尔叔叔给妈妈的信:“头发被遮住了,尾巴掉了。” 当在便携式计算机或网络摄像机上使用远程麦克风时,尤其如此。我们试图提高在噪声和分离的背景语音中的识别质量,但是在用户保持沉默的情况下,识别也可以调成安静的背景语音。

提示:高品质的耳机和安静的环境将有助于提高识别质量。


像可乐


Voco可以识别俄语语音,但是也可以使用一些流行的英语单词,公司名称和产品程序。例如,可以完美识别“可口可乐”,“ Windows”。但是有一个小问题:英语中有些声音不是俄语。为解决此问题,我们用最接近俄语的音素转录了英语单词,因此,值得以俄语发音。例如,可口可乐。[kòkakòla]。不要显示您的英式口音[k'əʊkʌk'əʊla]。

提示:带有俄语口音的英语单词发音。


深库特拉刺刀bayanova边和吸烟者银行市场


尽管您非常努力并遵循我们的所有建议,但仍可能无法识别该词。可能的原因是该单词不在识别词典中。我们讲授了有关一般主题(政治,经济学,文化,体育等)的语言模型,并且约30万个最常用的词进入了词典。因此,您的老板很可能没有高度专业化的术语或姓氏。因此,用户要求给客户一封信:亲爱的弗拉基米尔(Vladimir)是强制性的,弗拉基米尔(Vladimir)可以无条件地(无任何)运行它们。用户一遍又一遍地发音客户的名字-Bezyakin,改变发音,发音速度,强调压力,但无法识别出所需的名称。
因此,这里是语言学家雪巴(Sherba)的著名用语:“一个深深的苦瓜shutko budlanula boraka和一个小卷发的孩子”变成了布拉诺娃的刺刀和吸烟罐。
为了正确识别语言模型所未知的您需要的单词,您应该根据需要使用识别模型。例如,如果您在生物信息学上键入文本,则最好获取生物信息学上的文本并对其进行系统再培训。
从新文本进行再培训时,会建立一个小的语言模型,该模型将与主要模型一起参与识别。也就是说,现在我们从语言模型获得的权重将包括两个权重:主要语言模型的权重和适应模型的权重。
通过文本来适应系统比在识别词典中添加单独的单词要正确得多。添加一个单词不会给我们有关该单词的用法,倾斜方式等方面的信息,因此在识别结尾时可能会出现错误。

提示:使识别适应文本主题或将必要的单词添加到识别字典中。


PS:此文本是使用#Voco应用程序以语音录制的您可以在视频中看到这种情况:


极客文学:
1. : Mohri, M., Pereira, F., & Riley, M. Speech recognition with weighted finite-state transducers. In Springer Handbook of Speech Processing (pp. 559-584). Springer Berlin Heidelberg 2008.
2. www.morganclaypool.com/doi/abs/10.2200/S00462ED1V01Y201212SAP010
3. , www.amazon.com/Automatic-Speech-Recognition-Communication-Technology/dp/1447157788/ref=sr_1_1?s=books&ie=UTF8&qid=1447854516&sr=1-1&keywords=speech+recognition

Source: https://habr.com/ru/post/zh-CN388151/


All Articles