📝 🍒 🤛🏻 与汽车对话：具有听和听的能力 ⏩ 🧜🏿 🛳️

我们的一天从短语“早上好！”开始。白天，我们与同事，亲戚，朋友甚至陌生人交谈，他们要求去最近的地铁站。即使我们周围没有人为了更好地理解我们自己的推理，我们也会讲话。所有这一切都是我们的演讲-礼物，这是与人体许多其他可能性绝对无法比拟的。言语使我们能够建立社交联系，表达思想和情感，例如通过歌曲表达自己。

因此，智能汽车出现在人们的生活中。一个人出于好奇或渴望获得新成就而试图教机器说话。但是要讲话，您需要听和听。如今，很难通过一个程序（例如Siri）使人惊讶，该程序可以识别语音，在地图上找到餐馆，打电话给妈妈，甚至开个玩笑。她当然了解很多，但不是全部，但是了解很多。但是自然并非总是如此。几十年前，这是为了幸福，一台机器可以理解至少十二个单词。

今天，我们将深入探讨人类如何使用机器进行语音交流的历史，在该领域数百年来的突破为语音识别技术的发展提供了动力。我们还将研究现代设备如何感知和处理我们的声音。走吧

语音识别的起源

什么是语音？大致来说，这是合理的。因此，为了识别语音，您首先需要识别声音并将其记录下来。

现在我们有了iPod，MP3播放器，还没有录音机，甚至还有更早的留声机和留声机。这些都是播放声音的设备。但是谁是所有人的祖先呢？

托马斯·爱迪生（Thomas Edison）的发明。 1878年

那是留声机。 1877年11月29日，伟大的发明家托马斯·爱迪生（Thomas Edison）展示了他的新作品，能够记录和再现声音。这是一项引起社会极大关注的突破。

留声机的原理

声音记录机构的主要部件是铝箔涂层的圆筒和切针。针沿着旋转的圆柱体移动。然后使用麦克风膜捕获机械振动。结果，针在金属箔上留下痕迹。结果，我们收到了一个有记录的钢瓶。为了进行复制，最初使用了与录制时相同的圆柱体。但是金属箔太脆弱了，很快就磨损了，因为唱片寿命很短。然后他们开始涂抹蜡，蜡覆盖了圆柱体。为了延长记录的存在，他们开始使用电镀进行复制。通过使用较硬的材料，副本的使用寿命更长。

专利留声机的示意图。 1880年5月18日

鉴于上述缺点，留声机虽然是一台有趣的机器，但并未从货架上席卷而来。只有在磁盘留声机（也称为留声机）问世之后，公众的认可才出现。这种新颖性使得可以进行更长的录音（第一台留声机只能录音几分钟），而且录音时间很长。留声机本身配有扬声器，可以增加播放音量。

托马斯·爱迪生（Thomas Edison）最初将留声机设想为用于记录电话对话的设备，例如现代语音记录器。然而，他的创作在音乐作品的复制中获得了极大的欢迎。曾经是唱片业形成的开始。

演讲“器官”

贝尔实验室以其在电信领域的发明而闻名。 Voder就是这样的一项发明。

早在1928年，荷马·杜德利（Homer Dudley）就开始从事声码器的研究，声码器是一种能够合成语音的设备。我们待会儿再谈他。现在，我们将考虑其部分-维达。

维达的示意图

vader的基本原理是将人类语音分解为声学成分。机器非常复杂，只有受过训练的操作员才能操作它。

维德模仿人类声道的效果。操作员可以通过手腕选择两种主要声音。脚踏板用于控制发生器的不连续振动（嗡嗡声），从而产生浊音元音和鼻音。排气管（嘶嘶声）产生助音剂（摩擦辅音）。所有这些声音都通过使用键选择的10个过滤器之一传递。对于声音，例如“ p”或“ d”，以及“下颚”中的字母“ j”和“奶酪”中的字母“ ch”，也有特殊的键。

维达介绍中的这一小节选清楚地展示了维达的操作原理和操作员的行为

只有经过数月的艰苦练习和训练，操作员才能发出有效的语音识别。

第一次在1939年在纽约的一次展览中展示了这艘航母。

通过语音合成节省

现在考虑一个声码器，其中一部分是上述驱动器。

声码器型号之一：HY-2（1961）

声码器最初旨在在传输语音消息时节省无线电链路的频率资源。代替语音本身，将传输其特定参数的值，这些值由语音合成器在输出处进行处理。

声码器的基础是三个主要属性：

噪音产生器（辅音）；
音调发生器（元音）；
正式过滤器（重新创建说话者的个性）。

尽管有严格的目标，但声码器仍吸引了电子音乐家的注意。转换源信号并在另一台设备上播放，可以实现多种效果，例如乐器以“人声”演唱的效果。

点钞机

早在1952年，技术就没有现在那么先进。许多人认为，但这并不能阻止热心的科学家为自己设定不可能的任务。先生们：斯蒂芬·巴拉什克（S. Balashek），罗隆·比达夫（R. Biddulph）和K.Kh。戴维斯（KH Davis）决定教机器理解他们的语音。按照这个想法，奥黛丽的汽车应运而生。她的能力非常有限-她只能识别0到9之间的数字。但这已经足以安全地宣布计算机技术的突破。

奥黛丽（Audrey）和他的一位创作者（根据互联网，如果不是，请更正我）

尽管功能强大，Audrey却无法拥有相同的尺寸。她是个相当大的“女孩”-中继柜高约2米，所有元素都占据一个小房间。对于当时的计算机，这并不奇怪。

操作员与Audrey之间的交互过程也有一些条件。操作员在普通电话的听筒中说出这些单词（在这种情况下为数字），请确保每个单词之间的间隔为350毫秒。奥黛丽接受了该信息，将其转换为电子格式，并打开了与特定数字相对应的特定灯泡。更不用说并非每个操作员都能得到准确答案的事实。为了达到97％的准确度，操作员必须是一个长时间与Audrey练习“颤抖”的人。换句话说，奥黛丽只了解她的创作者。

即使考虑到Audrey的所有缺点，这些缺点与设计错误无关，但由于当时的技术局限性，她成为理解人类声音的机器领域中的第一位明星。

鞋盒的未来

1961年，在IBM高级系统开发实验室，开发了一种新的奇迹设备-Shoebox，它可以识别16个单词（仅英语）和0到9的数字。该计算机的作者是William C. Dersch。

IBM的鞋盒

这个不寻常的名称与机器的外观相对应，它的大小和形状像鞋盒一样。唯一引起我注意的是麦克风，该麦克风与识别高，中和低声音所需的三个音频滤波器相连。滤波器连接到逻辑解码器（二极管晶体管逻辑电路）和电灯开关机构。

操作员将麦克风放在嘴边，并说出一个字（例如，数字7）。机器将声学数据转换为电子信号。理解的结果是包括了带有签名“ 7”的灯泡。除了了解单个单词之外，Shoebox还可以理解简单的算术问题（例如5 + 6或7-3）并给出正确的答案。

Shoebox由其创建者于1962年在西雅图世界博览会上推出。

与汽车通话

1971年，以热衷于创新发明和技术而闻名的IBM决定将语音识别付诸实践。自动呼叫识别系统允许位于美国任何地方的工程师呼叫北卡罗来纳州罗利市的计算机。呼叫者可以提出问题并收到语音答复。该系统的独特之处在于可以理解许多声音，因为它们具有音调，重点，讲话音量等。

妖py飙升

国防部高级研究计划办公室（简称DARPA）于1971年宣布启动语音识别开发和研究计划，旨在开发一种可识别1000个单词的机器。鉴于其前任的成功，这是一个大胆的计划。但是，人力资源没有限制。 1976年，卡内基梅隆大学展示了Harpy，它能够识别1011个单词。

哈比视频演示

该大学已经开发了语音识别系统-Hearsay-1和Dragon。它们被用作实施Harpy的基础。

在Hearsay-1中，知识（即机器字典）以过程的形式表示，而在Dragon中-以具有先验概率转换的马尔可夫网络的形式表示。在Harpy，决定使用最新模型，但没有这种过渡。

在此视频中，将详细介绍操作原理。

简而言之，您可以描绘一个网络-单词序列及其组合以及带有单个单词的声音，以便机器理解同一单词的不同发音。

Harpy认识5名操作员，其中包括3名男性和两名女性。那说明了这台机器的强大计算能力。语音识别准确度约为95％。

IBM的Tangora

在1980年代初期，IBM决定开发一种能够在20世纪中期识别20,000多个单词的系统。因此，Tangora诞生了，在其中使用了隐马尔可夫模型。尽管词汇令人印象深刻，但该系统与新操作员（讲话者）的协作时间不超过20分钟，以便学习如何识别其语音。

生活娃娃

1987年，Worlds of Wonder玩具公司发布了一项革命性的新颖产品-会说话的娃娃Julie。丹麦玩具最令人印象深刻的功能是能够训练它识别主人讲话的能力。朱莉说得很好。此外，娃娃还配备了许多传感器，因此当它被拾起，挠痒或从黑暗的房间转移到明亮的房间时，它会做出反应。

商业奇迹世界朱莉展示其功能

她的眼睛和嘴唇活动自如，创造了更加生动的形象。除了洋娃娃本身，还可以购买一本书，其中以特殊贴纸的形式制作了图片和文字。如果用手指捂住洋娃娃，它会发出“触摸”的声音。 Doll Julie是第一台具有语音识别功能的设备，任何人都可以使用。

首款听写软件

在1990年，Dragon Systems发布了第一个基于语音识别的个人计算机软件-DragonDictate。该程序专门在Windows上运行。用户必须在每个单词之间稍作停顿，以便程序可以解析它们。将来，出现了一个更完美的版本，使您可以连续讲话-Dragon NaturallySpeaking（现在可以使用，而最初的DragonDictate从Windows 98开始就停止更新）。尽管“慢”，DragonDictate在PC用户中，特别是在残疾人中，已经获得了极大的欢迎。

非埃及狮身人面像

卡内基梅隆大学早已“开学”，已经成为另一个具有历史意义的语音识别系统Sphinx 2的诞生地。

狮身人面像的创造者黄学东

该系统的直接作者是黄学东。 Sphinx 2的速度与之前的产品不同。该系统专注于使用口语（每天）语言的程序的实时语音识别。 Sphinx 2的功能包括：假设形成，语言模型之间的动态切换，等效项的检测等。

Sphinx 2代码已在许多商业产品中使用。在2000年，Kevin Lenzo在SourceForge网站上发布了该系统的源代码，以供一般查看。那些想研究Sphinx 2及其其他版本的源代码的人可以点击链接。

医学命令

1996年，IBM推出了MedSpeak，这是第一个具有语音识别功能的商业产品。应该在医生中使用此程序来编辑病历。例如，一位放射科医生在检查患者的照片时说出了自己的意见，MedSpeak系统将其翻译为文本。

在继续介绍具有语音识别功能的程序的最著名代表之前，让我们快速简要地了解一下与该技术有关的一些历史事件。

历史突击

2002年-微软将语音识别集成到其所有Office产品中；
2006年-美国国家安全局开始使用语音识别程序来识别对话记录中的限制关键字；
2007年（1月30日）-微软发布了Windows Vista，这是第一个具有语音识别功能的操作系统。
2007年-Google推出了GOOG-411-电话转发系统（一个人打一个电话，说出他需要哪个组织或人，然后系统将它们连接起来）。该系统在美国和加拿大有效；
2008年（11月14日）-Google在iPhone移动设备上启动语音搜索。这是语音识别技术在手机中的首次使用。

现在我们进入了很多人遇到语音识别技术的时代。

女士们不吵架

2011年10月4日，Apple宣布Siri，其名称的解码本身就是不言而喻的-语音解释和识别接口（即，解释和语音识别接口）。

Siri开发的历史非常悠久（实际上，它已有40年的工作经验）并且很有趣。其存在和广泛功能的事实是许多公司和大学的共同努力。但是，我们不会专注于此产品，因为本文不是关于Siri的，而是关于语音识别的。

微软不想放任不管，因为在2014年（4月2日），他们宣布了他们的虚拟数字助理Cortana。

除了用于设置信息访问权限的更灵活的系统外，Cortana的功能类似于其竞争对手Siri。

关于Cortana或Siri的辩论。谁更好？” 自从它们出现在市场上以来进行。就像一般而言，iOS和Android用户之间的斗争。但这很好。为了在竞争中脱颖而出，竞争产品将提供越来越多的新机会，并在同一语音识别领域开发和使用更多的先进技术。在消费技术的任何领域中只有一名代表，因此无需谈论其快速发展。

Siri和Cortana之间的对话的一段有趣的视频（显然是经过构建的，但同样有趣）。注意！：此视频中存在亵渎行为。

诗里vs Cortana

与汽车对话。他们如何理解我们？

正如我前面提到的，粗略地说，语音就是声音。那汽车的声音是什么？这些是气压的变化（波动），即声波。为了使机器（计算机或电话）能够识别语音，必须首先考虑这些波动。测量频率应至少为每秒8000次（甚至更好-每秒44,100次）。如果在长时间中断的情况下进行测量，那么我们会得到不准确的声音，这意味着语音难以辨认。上述过程称为8kHz或44.1kHz数字化。

收集有关声波振动的数据时，需要对它们进行分类。由于在一般堆中，我们同时具有语音和辅助声音（机器噪音，沙沙作响的声音，工作中的计算机的声音等）。进行数学运算可以使我们精确消除需要识别的语音。

接下来是对所选声波-语音的分析。由于它由许多形成特定声音的独立成分组成（例如，“ ah”或“ ee”）。突出显示这些功能并将其转换为数值等效项可以定义特定的单词。

, , 40 (44, , 100), .. . , , . . , , «» , ( , , , ..), . , «t» «sTar» «t» «ciTy» -.

«potato» () / Harpy

此外，计算机必须遵循用于形成言语序列的模型，确定值得在何处分离单词。例如，有一个短语“挂十”，计算机无法像这样分割-“嘿，ngten”，因为它在数据库中找不到与“ ngten”匹配的词。

, , . , (), , №2 №1. «What do cats like for breakfast?» «water gaslight four brick vast?». , . . , , , . .

完成所有这些复杂的数学，统计和测量过程后，计算机将为用户提供结果。这项技术的全部优点，或者说，处于发展阶段的这项技术，都在于系统的惊人速度。

结语

, . . - , ( , ), . . , , , . , -, , .

. 25% 3 6 !

! VPS (KVM) , , — ! VPS (KVM) c ( VPS (KVM) — E5-2650v4 (6 Cores) / 10GB DDR4 / 240GB SSD 4TB HDD / 1Gbps 10TB — $29 / , RAID1 RAID10) , , , , , «»!

. c Dell R730xd 5-2650 v4 9000 ? Dell R730xd 2 ? 2 Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 $249 !

与汽车对话：具有听和听的能力