计算系统语音接口概念,可帮助有语音障碍的人

图片

引言


当前,人们非常重视为残疾人和残疾人创造无障碍环境。 确保残疾人无障碍获取并提高生活质量,社会互动以及残疾人融入社会的重要手段是计算机设施和专门的信息系统。 对文献的分析表明,当今正在进行各种开发以促进人与计算机的交互,包括朝着开发用于管理计算机系统的语音接口的方向发展。 但是,这些发展是以创建独立于说话者的系统为指导的,该系统在大数据上受过训练,并且没有考虑到各种违反语音功能的人向计算机发出命令发音的特殊性。

研究工作的目的是设计一种基于说话者的语音接口,用于基于机器学习方法来管理计算机系统。

工作中解决的任务:

  1. 审查语音接口以及如何使用它们来控制计算系统;
  2. 研究计算机系统语音控制的个性化方法;
  3. 开发用于管理计算机系统的语音接口的数学模型;
  4. 开发软件实现算法。

解决方法。 为了解决任务,使用了系统分析,数学建模,机器学习的方法。

语音接口作为控制计算系统的一种方式


创建语音识别系统是一项极其困难的任务。 具有许多功能的俄语很难识别。 所有语音识别系统可以分为两类:

取决于说话者的系统 -在学习过程中根据说话者的语音进行调整。 要与其他扬声器一起使用,此类系统需要完全重新配置。

独立于扬声器的系统 -其操作独立于扬声器。 这样的系统不需要事先培训,并且能够识别任何说话者的语音。

最初,第一类系统出现在市场上。 在其中,团队的声音图像以整体标准的形式存储。 为了比较未知发音,标准团队使用了动态编程方法。 这些系统在识别10到30个小组的小团队并且只了解一个说话者时效果很好。 要与其他扬声器一起使用,这些系统需要完全重新配置。
为了理解连续语音,有必要继续使用更大的字典,从几万到几十万个单词。 在第一类系统中使用的方法不适合解决此问题,因为根本不可能为这么多的单词创建标准。

为了理解连续语音,有必要继续使用更大的字典,从几万到几十万个单词。 在第一类系统中使用的方法不适合解决此问题,因为根本不可能为这么多的单词创建标准。

另外,还希望使系统独立于播音员。 这是一项非常艰巨的任务,因为每个人都有不同的发音方式:讲话的速度,声音的音色,发音的特征。 这种差异称为语音变异性。 考虑到这一点,主要基于隐马尔可夫模型(SMM)人工神经网络的数学装置,提出了新的统计方法。 结合这两种方法可获得最佳结果。 代替为每个单词创建模式,而是创建组成单词的各个声音的模式,即所谓的声学模型。 声学模型是通过对包含数百人语音记录的大型语音数据库进行统计处理而形成的。 现有的语音识别系统使用两种根本不同的方法:

语音标签识别-从预先记录的模式中识别语音片段。 该方法广泛用于设计为执行预先录制的语音命令的相对简单的系统。

词汇元素的识别 -与最简单的词汇元素(例如音素和异音素)的语音隔离。 这种方法适用于创建文本听写系统,在该系统中将发音转换为文本。

各种Internet资源的概述使您能够重点介绍以下解决语音识别问题及其主要特征的软件产品:

Gorynych PROF 3.0是一个易于使用的程序,用于识别口语和通过听写输入并支持俄语。 它基于俄罗斯在语音识别领域的发展。

特点
  • 说话者成瘾;
  • 语言依赖(俄语和英语);
  • 识别准确度取决于美国Dragon Dictate系统的核心;
  • 为操作系统,文本编辑器和应用程序的某些功能提供语音控制;
  • 需要培训。

VoiceNavigator是用于联络中心的高科技解决方案,旨在构建语音自助服务系统(GHS)。 VoiceNavigator使您可以使用语音合成和识别技术自动处理呼叫。

特点

  • 说话者独立性;
  • 不受环境噪声和电话信道干扰的影响;
  • 俄语语音识别的可靠性为97%(100个单词的词典)。

Speereo语音识别 -语音识别直接在设备上进行,而不是在服务器上进行,这是开发人员的主要优势。

特点

  • 俄语语音识别的工作可靠性约为95%;
  • 说话者独立性;
  • 约15万个单词的词汇;
  • 同时支持多种语言;
  • 紧凑的发动机尺寸Sakrament ASR发动机(由Sacrament开发)

Sakrament ASR引擎 -(由Sacrament开发)-语音识别技术用于创建语音管理工具-程序,这些程序使用语音命令控制计算机或其他电子设备的动作,并组织电话帮助和信息服务。

特点
  • 说话者独立性;
  • 语言独立性;
  • 识别准确率达到95-98%;
  • 表情和小句子形式的语音识别;
  • 没有学习机会。

Google语音搜索 -最近,Google的语音搜索已集成到Google Chrome浏览器中,您可以在各种平台上使用此服务。

特点

  • 俄语支持;
  • 在网络资源上嵌入语音识别的能力;
  • 语音命令,短语;
  • 要工作,您需要永久连接到互联网。

Dragon NaturallySpeaking- (Nuance公司)人类语音识别软件的世界领先者。 通过语音命令可以创建新文档,发送电子邮件,管理流行的浏览器和各种应用程序。

特点

  • 缺乏对俄语的支持;
  • 识别精度高达99%。

ViaVoice- (IBM)是用于硬件实现的软件产品。 基于此核心,ProVox Technologies创建了一个命令VoxReports放射线医师报告的系统。

特点

  • 识别准确率达到95-98%;
  • 说话者独立性;
  • 系统词典仅限于一组特定术语。

Sphinx是当今众所周知的高效开源语音识别软件。 该开发是在卡内基梅隆大学进行的,已获得伯克利软件发行(BSD)的许可,可用于商业和非商业用途。

特点

  • 说话者独立性;
  • 连续语音识别
  • 学习能力;
  • 嵌入式系统版本的可用性-Pocket Sphinx。

因此,调查显示,针对大量用户的软件产品在市场上占主导地位,并且与说话者无关,通常具有专有许可证,这极大地限制了残疾人使用它们来管理计算系统。 专用工具(如智能家居,外骨骼等)的语音控制系统不是通用的。 然而,对新技术的兴趣正在增长,有机会通过移动通信,蓝牙技术来控制各种设备。 包括家用电器。 针对特定用户的语音控制技术的使用将提高残疾人的日常生活质量和社会适应能力。

用于识别扬声器状态及其特征的数学装置


为了解决工作中提出的问题,我们分析了系统的需求。

该系统应为:

  1. 取决于说话者;
  2. 根据特定用户的特定发音进行学习;
  3. 识别一定数量的语音标签并将其转换为控制命令。

语音接口应该是:取决于说话者,并且词汇量有限。

语音命令是声波。 声波可以表示为包含在其中的频率频谱。 数字声音是通过振幅的离散数值表示电信号的一种方式。 主存储器中的音频文件充当语音接口工作的输入信息,由于文件已提交到神经网络,程序会给出相应的结果。

数字化是在某些时间间隔固定信号幅度,并以四舍五入的数字值形式记录获得的幅度值。 信号的数字化包括两个过程-采样过程和量化过程。

采样过程是获取信号值的过程,该过程将以特定的时间步进行转换,此步骤称为采样步骤。 一秒内完成的信号幅度的测量次数称为采样频率或采样频率或采样频率。 采样步骤越小,采样频率越高,我们将获得的信号表示越准确。

量化是将信号幅度的实际值以近似值替换为某种精度的过程。 2N个可能的级别中的每一个称为量化级别,而两个最接近的量化级别之间的距离称为量化步长。 如果将幅度标度线性划分为多个级别,则量化称为线性或同质。

记录的信号幅度值称为样本。 采样率越高,量化水平越高,信号的数字表示越准确。

建议使用能够学习并自动选择必要符号的神经网络作为解决区分特征的问题的数学工具。 这将允许您针对特定用户的语音命令的特定发音来训练系统。 比较各种神经网络的机制,我们选择了最合适的两种。 这是Kosco和Cohoken的网络。

Kohonen的自组织图是一个神经网络,无需老师即可学习,执行可视化和聚类任务。 它是将多维空间投影到较低维度(通常是二维)的空间中的一种方法,还用于解决建模,预测问题,识别独立特征集,在大数据集中搜索模式以及开发计算机游戏的方法。 它是Kohonen神经网络的版本之一。

Kohonen网络是一个合适的网络,因为该网络可以将训练示例自动划分为集群,集群的数量由用户设置。 训练网络后,您可以计算输入示例所属的集群并输出相应的结果。

Kosco神经网络或双向联想记忆(DAP)是基于以下两个思想的单层反馈神经网络:Stefan Grosberg的自适应共振理论和Hopfield的自联想记忆。 DAP是异联的:输入向量到达一组神经元,而相应的输出向量在另一组神经元处生成。 与Hopfield网络一样,尽管输入失真,但DAP仍具有泛化能力,能够产生正确的反应。 此外,可以实现WCT的自适应版本,突出显示来自嘈杂实例的参考图像。 这些功能非常类似于人类的思维过程,并允许人工神经网络朝大脑建模的方向迈出一步。

该网络的优势在于,基于自适应共振理论的离散神经网络,开发了一种新的双向关联存储器,该存储器可以存储新信息而无需重新训练神经网络。 这允许用户在必要时补充语音标签的库存。

设计方案


软件实现的概念包含三个阶段,这些阶段在具有人体工程学图形界面的一个软件产品中实现。

培训示例集。

为了训练神经网络,邀请用户说几次准备好的语音标签。 由于记录的短语由一个单词组成,因此文件大小无关紧要。 为了进一步处理,声音以WAV格式记录。 这是PCM无损记录格式。 它是使用Python的python_speech_features库进行进一步声音处理的标准。 必须将进一步训练神经网络(相应命令)所需的“值”附加到音频文件。

神经网络训练。

该程序读取音频文件,并通过更改音轨的长度以及更改音高,音量和语调来生成新的音频文件。 这对于增加训练样本的示例数量是必要的,这将提高神经网络的识别质量。 在程序中,将要求用户在先前记录的语音标签上训练网络。 用户还可以通过训练语音标签来补充基本信息,并在以后重新训练神经网络。

使用程序。

用给定的单词训练程序后,用户可以开始工作或将新的语音标签添加到训练中。 受过训练的神经网络可以识别传递的音频文件。

结论


因此,在研究工作中,对语音接口及其使用的现代市场进行了回顾。 结果表明,这类软件专注于在系统中使用与语音无关的语音控制,而没有考虑用户的个人特征,这对于残疾人和语音障碍者尤其重要。

定义了对计算机系统的语音控制接口的要求,以帮助有语言障碍的人。

描述了适合于实现该概念的数学装置。 编译了用于语音接口的软件实现的算法。

进一步的开发涉及开发具有方便图形界面的程序,以实现原型语音控制界面,该界面可用于各种任务,例如残疾人控制家用电器,计算机,机器人设备(外骨骼)。

Source: https://habr.com/ru/post/zh-CN429778/


All Articles