用简单的话讲数字和模拟声音



接下来依次是播客“ Sound”的第十个发行版(2014年5月22日)的抄本。在其中,Dmitry Kabanov与通过培训的物理学家,IT和数字声音领域的专家,F-Lab的工程师讨论数字和模拟声音的Anatoly Dmitrievich Arsenov博士进行了交谈。

[ 听这个问题 ]

[ 有关播客的更多信息 ]

其他播客问题
  • [] [] ;
  • [] [] , ;

  • [] [] S-90;
  • [] [] ;
  • [] [] : , ;
  • [] [] «»;
  • [] [] ;

  • [] [] ;
  • [] [] ;
  • [] [] ;
  • [] [] ;
  • [] [] ;

  • [] [] ;
  • [] [] ;
  • [] [] : ;
  • [] [] : « » ;
  • [] [] ;

  • [] [] ;
  • [] [] ;
  • [] [] ;
  • [] [] - ;
  • [] [] .


德米特里·卡巴诺夫(Dmitry Kabanov):我们将继续与Audiomania的专家和工程师进行交流,今天,我们将尝试更深入地研究数字和模拟声音的本质,并且可能首先要从原理上讲什么声音。简单来说,对模拟声音的基本理解与数字声音或声音的模拟表示和声音的数字表示有什么不同?

阿纳托利·阿塞诺夫(Anatoly Arsenov):回答这个问题,我认为将熟悉的简单模型(也许从学校课程中)带到任何受过俄罗斯教育的人是合适的。尤其是,声音的历史早在数字设备出现之前就已经很奇怪了,就像数字,声音和模拟一样。每个人都知道使用传统的有线电话传输人的声音。这是从远处传输模拟音频的真实示例。在这种情况下,扬声器在他前面有一个电话听筒,里面有一个麦克风和一个根据人的声音振动的薄膜,相反的过程发生在另一端,即位于用户耳朵上的电话的薄膜振动。

电缆传输什么?我们有一个交流电压信号:电缆中的电流根据一个人的说话方式而变化,可以这么说,以便不赘述。什么是数字声音?这里[我们可以给出一个类似的例子]来自同一时间-电报信号传输,莫尔斯电码。在这种情况下,播音员在他前面有一些文本,但是他必须知道莫尔斯电码。此外,文本由谁编码?由知道如何传输字母“ A”,如何传输字母“ B”等的人员来完成。向信号线发送了什么?发送信号:点和破折号,现在的声音大致编码方式-零和一,两个状态传输两个状态。

订户在对面应该做些什么(如果他想了解),接受此文本,接收此消息?他必须知道摩尔斯电码,他应该收到这些点和破折号,并且知道它们,已经了解了危险所在。也就是说,实际上是整个差异。在一种情况下,传输的信号具有电信号传输的人的声音模型的性质,在第二种情况下,我们传输的是以任意方式编码的字符。在这种情况下,这些是点和破折号。多年以后,在现代时代,我们已经有了两种信号传输方式,它们与过去的历史相去甚远。

德米特里:事实证明,数字声音或声音的数字表示可以理解为我们通过获取模拟声音并将其转换为数字声音而获得的一种折衷。

阿纳托利:嗯,这是妥协还是不妥协?具有硬件功能?是的,这是一个折衷方案。进一步,随着现代技术的需求,要以较高的质量将每单位时间的更多信息传输到更长的距离,并具有后续校正的能力?是的,这是一个折衷方案。当然,为了高质量地长距离传输模拟音频,设备必须具有适当的功率,我不会说它会很便宜,它将始终是材料密集型的。

在技​​术发展的某个阶段,事实证明,不是像模拟设备那样以显式形式传输信号,而是以某种模型,一个数字表的形式传输信号的效率最高。在这里,我可以举一个略有不同的做法的相似示例,这也是大家都熟悉的。因此,拥有地理地图...如果任务是从一个点到另一个点,这就是如何将信息传达给您的朋友?您需要拿一张卡,用铅笔划一条线,如何走或将要走的路,然后转发这张卡,请到这里-我们以明确的形式传送信息。

您可以用另一种方式来做-知道朋友有完全相同的地图,然后传递带有点坐标的板。在这种情况下将传输什么?将在其上记录表格的传单:纬度,经度,纬度,经度,纬度,经度等。在这种情况下,它将只是一个数字表。收到这张桌子的同志,拿下他的地图,并用坐标标出这些点,他将立即决定如何去。在此案中我们传达了什么?带有路线的地图本身,还是我们通过某种编码方式传递了表?

这一切都发生在数字技术中。数字技术中不可或缺的元素是编码器或解码器,正如他们过去所说的那样,在数字技术中,通常会说这是数模转换。

德米特里:在我看来,一个很好的例子值得在这里挂起存储的[topic]吗?格式,对格式的理解,对它们的区别的理解,因为关于我们拥有哪种格式存在很多神话-有损,无损,以不同方式压缩文件等

。Anatoly:从以上示例可以看出,数字格式是用数学术语来说,信号传输的条件形式是形式化系统。信号以数学模型的传统形式传输-如果我们更深入地讲,它是一个矩阵,其中包含某些数字,这些数字在每个时间点都表征了信号。

在声音方面,数字传达了什么?这些数字传输信号的频谱,幅度,音量。该信号的频率(高,低,这些频率如何相互关联等)是一种频谱特性,它转换为数值形式,然后被传输到[设备]。

在计算机技术兴起之初,个人计算机的功能还不是很广泛。为了实现简单的任务,计算机设备必须具有足够的存储容量和CPU性能。这不允许数字形式详细显示录制的声音。一个简单的例子:如果您将声卡连接到15年前的一台旧计算机,插入麦克风,将您的声音数字化,那么我认为[结果]不会被很多人[即]录制的声音的质量所喜欢。

好吧,客观上,为什么呢?麦克风信号被施加到声卡的输入。当时数字路径的频率特性非常适中,因此将模拟信号(即声音)转换为电路,使您可以在计算机内部数字显示此声音……这是一个复杂的过程,当然,当时的设备制造商和开发人员都试图节省内存以及处理器的性能,创建了将声音编码为可以存储在计算机中的形式的简单方案。

这导致了什么?给损失。首先是声音。随着计算机硬件生产率的提高,CPU性能的提高以及内存容量的增加,这个问题逐渐被排除在议程之外,但是,当时形成的方法在数字技术的发展中留下了自己的印记。曾经有一次,如果记忆是对的,那是在1994年,[弗劳恩霍夫研究所(Fraunhofer Institute)致力于创建MP3格式-该格式在当今仍非常流行,用于在便携式设备中存储音乐和各种音频数据,特别是,智能手机。

德米特里:这是一份快速的Wiki参考:MP3(更准确地说是MPEG-1 / 2 / 2.5 Layer 3;但不是MPEG3)是MPEG小组开发的第三级编解码器,一种用于存储音频信息的许可文件格式。 MP3由弗劳恩霍夫研究所的工作组在埃尔兰根-纽伦堡大学的Karlheinz Brandenburg的指导下与AT&T贝尔实验室和汤姆森合作开发。

MP3的开发基础是实验性ASPEC编解码器(自适应频谱感知熵编码)。第一个MP3编码器是L3Enc,于1994年夏天发布。一年后,出现了第一个软件MP3播放器-Winplay3。在开发算法时,对非常特殊的流行作品进行了测试。主要歌曲是Suzanne Vega的Tom's Diner。因此,开玩笑说“ MP3的创建纯粹是为了聆听勃兰登堡喜欢的歌曲”,而Vega被称为“妈妈MP3”。

Anatoly:它的特点是什么? [它与声音的区别是什么?除了转换为数字之外,它与模拟信号没有区别(我们习惯将这些文件称为波形)?我记得,谁熟悉Apple计算机,这些文件的格式就是AIFF。

德米特里:是的。

Anatoly:这两个文件的格式(即文件格式)只是模拟声音的数字显示。但是在当时的计算机中,它占用了很大的空间,因此计算机中的此类文件可以存储一些。 MP3之间有什么区别?

弗劳恩霍夫研究所的数学家在解决这个问题时决定简化此数学模型,即从数字模型中删除真实声音,而该声音不会被人听到。什么时刻首先要进行数学处理?使用了声学的基本定律。其中一个特别说:如果发出某种信号,那么,假设是敲钟声或有人在钢琴上和弦,同时听到了某种安静的声音,其音量的差异[与第一个声音不同]超过90 dB(测量声压的单位),任何有神迹的人都不会以任何方式听到此声音。

德米特里:因此,信息可能会被丢弃。

Anatoly:没有人会听到[此声音]。如果在给定时间最大声音和最安静声音之间的差异超过90 dB,则可以安全地从录音中删除这些声音并将其切出。这是一种方式。这里发生了什么,专家[呼叫]用较高的信号掩盖了低电平的信号。

另一种方法:通常,Hi-Fi设备允许您捕获具有特定频率的信号-如果我们谈论频率并且不使用诸如高,低和中频之类的概念。频率从20 Hz到20,000 Hz的信号是设备可以再现的频带。一个人会听到整个范围吗?如果您从一个人的感知的角度来看,并引入诸如心理声学之类的术语,那么您也可以对信号进行一些简化。


, , . –

大多数成年人-超过青春期的成年人通常不会听到16 kHz以上的频率,这意味着16 kHz以上的范围也可以以某种方式在数学上减小,因此,从记录的文件中删除此信息使用数字麦克风,因为聆听者也不会充分感觉到它。同样的事情发生在低频范围内:从事人体生理学的人知道,任何人,如果他是正常人,当然,他也没有病理学,他不会用耳朵感知低于16 Hz的低频信号-他感知[信号]身体的触觉或器官。

首先,所有这些声音也可以轻松地被删除,而不会丢失声音信号的主要质量,例如,如果是一段音乐。原则上讲,如今有很多这样的方法:用于数字声音,MP3格式的电路,用噪声掩盖纯净的音调等,等等。

简要说明一下是什么:在执行了以下步骤之后(将掩盖,删除那些无法被人感知)-中间的声音听起来不太舒服,带有停顿的印记,一个人(尤其是音乐家)的听力可能不舒服,因此,要隐藏最后一个阶段的缺陷,它会以数字格式“混合” “低幅噪声电平信号。

这是通过特殊算法完成的。原则上,您可以通过以下示例进行说明:如果您在某个房间中,而在下一个房间中,有人在说话,并且打扰了您,请打开吸尘器。真空吸尘器的噪音是相对于人类语音的低频信号,低频信号始终掩盖高频信号,反之则不然。您将不再听到烦人的对话者。大约相同的事情以数字格式发生,在数字化后的最后阶段,混入一定幅度,一定频谱成分的噪声信号,可能是一种白噪声。

德米特里:好吧,接下来让我们来谈谈使用MP3仍会丢失某些东西的情况-它并不总是理想的使用方式,它并不总是合适的,某些类别的设备可以给我们带来更多的收益。

Anatoly:不错,MP3作为一种用于计算机技术中音频数据的紧凑存储的格式,并且是最古老的格式之一,随着时间的流逝,它逐渐失去了流行性。为什么?好吧,首先,计算机技术提高了性能和内存,[这意味着]压缩,停止音频数据的需求已经消失,没有这种压力-我们现在在现代计算机上有足够的内存,处理器性能已经足够,所以我们我们可以收听未压缩的数字声音。

当时采取了哪些步骤来规避音乐轻伤?首先,出现了竞争性的压缩音频存储格式。那些使用Apple电脑和平板电脑,智能手机,iPhone的人,他们知道Apple Store [iTunes]出售哪种格式的音乐-如果我没记错的话,它是MP4,对吗?

德米特里:是的。

Anatoly:有人会说它也是数字声音,也经过压缩,并且也有缺陷。嗯,是。这种格式最早出现于MP3以后,这种格式的工作始于1997年的某个时间,也就是MP3的创建大约3-4年之后,这意味着开发这种压缩音频编码系统的开发人员已经考虑了这些问题。并且以前的格式中的缺陷得到了改进[产品]。

我将这些例子介绍给我们的是:随着计算机设备的出现,在某个阶段出现的数字声音经历了一定的发展,音频数据的非压缩存储的格式和压缩声音的[存储]格式都在发展。用MP3或类似格式编码音频的现代方法相当先进。

在某种程度上已经流行起来,现在[格式]实际上固定在某些设备上:主要是在便携式移动通信技术上-智能手机,电话,播放器等。由于智能手机的体积小,功率小和扬声器功能低,他有机地融入了这种结构。如果我们谈论的是用于家庭收听的严肃设备,特别是Hi-Fi设备,那么这里当然不是每个挑剔的收听者都会同意以压缩格式存储音频数据的数字格式是合适的。


对于那些不接受数字格式以压缩形式存储数据的用户,Audio Mania提供了模拟解决方案。在照片中-Audiomania 安装片段

我们的相关材料:


继续讨论现代计算机音频接口的特性,这是合适的,这是现代数字声音的基础。此外,在对话过程中,这将很清楚地与我们的对话主题(例如高端音频设备)有何关系。因此,个人计算机或膝上型计算机的现代声卡具有几个特征,这些特征在存储或再现数字声音方面完全描述了该计算机的功能。我的意思是说?声卡运行的频率和此声卡的位深。用户可能熟悉16位和44 kHz这样的数字。

德米特里:当然。

Anatoly:这些是现代计算机的任何音频部分(无论是台式计算机还是便携式计算机)的基本特征。在标准CD播放器上也具有相同的特性(即处理器的位深度)。无需赘述,应该说这个标准是很久以前出现的。家用音频设备制造商制定了一种存储此类音频数据(16位和44 kHz)的标准,该标准在我们所有人(菲利普斯,索尼,东芝)中都很受欢迎。随着计算机技术的发展,声卡获得了更多的功能,特别是声卡可以工作的频率增加了-48 kHz,96 kHz,192 kHz,声卡上安装的处理器位也增加了-16位,24位...

Dmitry : 32 ...

阿纳托利(Anatoly):现在是32岁。用专业语言来说,44 kHz的频率是必需的频率,它使您可以保存音频信号的波形,例如音乐或人的声音。这个数字来自哪里?为什么声卡应该以这个频率工作?有一位数学家科特尔尼科夫(Kotelnikov)用他的定理证明了技术设备的这一边界,可以使信号质量足够高地数字化。

举个例子是合适的:最简单的声音,例如管道和儿童管道的声音...其声音信号的形状类似于正弦波,可以这么说。什么是44 kHz?这是声卡的频率。一旦放入声卡,这种信号将立即被切成4.4万条垂直条。这次裁员能给我们带来什么?我们获得每个时间点的信号音量值-四十分之一秒。

德米特里:现在我们需要对所有这些条进行加密。

Anatoly:现在我们需要对这些条进行加密并将其保存在计算机上。我们如何加密[他们]?您可以记住每个栏中的音量值。嗯,声卡的另一特性在这里起作用-它的位深。特别是16位。什么是16位?计算机科学家这样说:2至16度。

德米特里:是的

Anatoly:65,000一分钱是多少?事实证明,确切地说,我可以使用从0到65,536的数字来表示此条带本身的高度。这将是一些数字。在一种情况下,它将是6万,在另一种情况下将是3万,依此类推[均值],在这种情况下,我们将获得一秒钟的表,其中将包含4.4万个数字,每个数字将由从0到65的数字表示536.该表将是未压缩的声音文件。

德米特里:现在我们将进一步处理这张桌子...

阿纳托利:我们在这里看到什么?如果声卡的速度更高,那么,那么,我们可能会得到更多的这些数字,这将更准确地描述我们的信号。自然,开发人员和制造商的愿望是接近真实波形。这就是工程设计人员增加频率的愿望所在。从一类设备到另一类设备,逐年地说。

这种发展导致了这样一个事实:[从] 44 kHz的频率开始,这些频率逐渐增加。我使用了不幸的词“安静地”,因为实际上开发更加复杂,所有频率都被使用:32 kHz和24 kHz。听众或好奇的人可能会问:“这些频率在哪里使用?”因为很明显[在使用低于44 kHz的频率时]声音会更粗糙。例如,在电话技术中传输电视信号时。不需要非常准确地描述信号,但是当传输复杂的音乐信号时,事实证明某些演唱会部分44 kHz不能满足严格听觉的要求。因此,卡的频率特性一代又一代地不断增加。

为了结束有关该主题的讨论而不是详细介绍,也许值得举一个例子:高清音频的诞生,是在2004年,英特尔在今年才制定了高清音频规范,该规范包括以下两个值:32位和192 kHz。因此,在制定了高清音频规范之后……什么是高清,我们如何解密它?

德米特里:高清。高分辨率。

Anatoly:高分辨率,即高分辨率音频。这样的标准可能已经成为高质量音频设备的基础,例如对于信号源,例如乙烯,它将与之抗衡,我将不惧怕这个词。高清音频开发的历史如何结束?英特尔将其开发工作转移给了三个接口制造公司,然后根据这些接口,为特定技术设备生产音频编解码器的公司(从Realtek到Wolfson结束)开发了各自用于其数字处理器的编解码器。

Source: https://habr.com/ru/post/zh-CN383321/


All Articles