Em palavras simples sobre som digital e analógico
A seguir, a transcrição da décima versão (22/05/2014) do podcast “Sound”. Nele, Dmitry Kabanov conversa com Anatoly Dmitrievich Arsenov, Ph.D., físico de formação, especialista na área de TI e som digital, engenheiro da F-Lab no tópico de som digital e analógico.[ Ouça esta edição ][ Mais no podcast ]Outros problemas de podcast- [] [] S-90;
- [] [] ;
- [] [] : , ;
- [] [] «»;
- [] [] ;
- [] [] ;
- [] [] ;
- [] [] ;
- [] [] ;
- [] [] ;
- [] [] ;
- [] [] ;
- [] [] : ;
- [] [] : « » ;
- [] [] ;
- [] [] ;
- [] [] ;
- [] [] ;
- [] [] - ;
- [] [] .
Dmitry Kabanov: Continuamos a conversar com especialistas e engenheiros da Audiomania, e hoje tentaremos aprofundar, examinar a natureza do som digital e analógico e, provavelmente, começaremos com a questão de qual som é, em princípio. Qual é o entendimento básico, em palavras simples, do som analógico difere do som digital ou da representação de som analógico e da representação de som digital?Anatoly Arsenov:Respondendo a essa pergunta, acho apropriado levar modelos simples que sejam familiares, talvez [do] curso da escola, a qualquer pessoa educada em russo. Em particular, a história do som [como] digital, [so] e analógico começa há muito tempo, curiosamente, mesmo antes do advento dos dispositivos digitais. Todo mundo conhece a transmissão da voz de uma pessoa usando um telefone com fio convencional. Este é [e é] um exemplo real de transmissão de áudio analógico à distância. Nesse caso, o falante tem um receptor de telefone à sua frente, no qual há um microfone e uma membrana que oscilam de acordo com a voz da pessoa, o procedimento oposto ocorre na extremidade oposta, ou seja, a membrana do telefone localizado no ouvido do assinante oscila.O que é transmitido por cabo? Temos um sinal de tensão CA: a corrente no cabo muda de acordo com o modo como uma pessoa diz, por assim dizer, para não entrar em detalhes. O que é som digital? Aqui [podemos dar um exemplo semelhante] do mesmo tempo - transmissão de sinal telegráfico, código Morse. Nesse caso, o locutor tem algum texto à sua frente, mas ele deve conhecer o código Morse. Além disso, por quem o texto é codificado? Pela pessoa que sabe transmitir a letra “A”, como transferir a letra “B”, etc. O que é enviado para a linha de sinal? Os sinais são enviados: um ponto e um traço, a maneira como o som é codificado aproximadamente agora - com zeros e uns, dois estados transmitem dois estados.O que o assinante deve fazer do lado oposto [se ele] quiser entender, aceitar este texto, receber esta mensagem? Ele deve conhecer o código Morse, ele deve receber esses mesmos pontos e traços, e conhecê-los, já entende o que está em jogo. Essa é, de fato, toda a diferença. Em um caso, um sinal é transmitido, que é da natureza de um modelo de voz de uma pessoa transmitido por sinais elétricos; no segundo caso, temos uma transmissão de caracteres que são codificados de alguma maneira arbitrária. Nesse caso, eram pontos e traços. Muitos anos depois, na era moderna, já temos dois tipos de transmissão de sinal, que estão muito distantes da antiga história.Dmitry:Acontece que um som digital ou uma representação digital do som pode ser entendido como uma espécie de compromisso que obtemos ao pegar um som analógico e convertê-lo em um digital.Anatoly: Bem, é um compromisso ou não ... Um compromisso com o quê? Com recursos de hardware? Sim, isso é um compromisso. Além disso, com as necessidades da tecnologia moderna, transferir mais informações por unidade de tempo para distâncias maiores, com alta qualidade e capacidade de correção subsequente? Sim, isso é um compromisso. Obviamente, para transmitir áudio analógico a longas distâncias com alta qualidade, o equipamento deve ter a potência adequada, e não direi que será barato, sempre consumirá muito material.Em um certo estágio do desenvolvimento da tecnologia, mostrou-se o mais produtivo para transmitir sinais não de forma explícita, como é o caso de equipamentos analógicos, mas na forma de algum modelo, uma tabela de números, aqui posso dar um exemplo semelhante de uma prática ligeiramente diferente, também familiar a todos. Então, tendo um mapa geográfico ... é assim que você pode transmitir informações ao seu amigo se a tarefa for passar de um ponto para outro? Você precisa pegar um cartão, desenhar uma linha com um lápis, como você andou ou como vai seguir e encaminhar esse cartão, aqui está você, por favor - transmitimos as informações de forma explícita.Você pode fazer isso de outra maneira - sabendo que um amigo tem exatamente o mesmo mapa, passe uma placa com as coordenadas dos pontos. O que será transmitido neste caso? O folheto no qual a tabela será registrada: latitude, longitude, latitude, longitude, latitude, longitude, etc. Nesse caso, será apenas uma tabela de números. O camarada, tendo recebido esta tabela, pegando seu mapa e marcando esses pontos por coordenadas, ele determinará imediatamente como seguir. O que transmitimos nesse caso? O próprio mapa com a rota, ou passamos pela tabela, algum tipo de codificação?Tudo isso está acontecendo na tecnologia digital. Um elemento indispensável na tecnologia digital é o codificador ou decodificador, bem, eles costumavam dizer isso, na tecnologia digital é habitual dizer que essa é uma conversão de digital para analógico.Dmitry:Um ótimo exemplo, parece-me, vale a pena prender o [tópico] de armazenamento aqui? Formato, entendimento de formatos, entendimento de suas diferenças, porque existem muitos mitos sobre quais formatos temos - com perdas, sem perdas, compactando um arquivo de maneiras diferentes, etc.Anatoly: Como pode ser visto nos exemplos acima, o formato digital é a forma condicional da transmissão do sinal é um sistema de formalização, em termos matemáticos. O sinal é transmitido na forma convencional de um modelo matemático - se falamos ainda mais profundamente, é uma matriz que contém certos números [caracterizando] o sinal a cada momento no tempo.Em termos de som, o que os números transmitem? Os números transmitem o espectro do sinal, sua amplitude, volume. As frequências deste sinal, alto, baixo, [como] como essas frequências são interconectadas timbralmente etc. são uma característica espectral convertida em uma forma numérica, que é transmitida [ao dispositivo].No início da tecnologia dos computadores, as capacidades dos computadores pessoais não eram muito amplas. Para realizar tarefas simples, era necessário que um dispositivo de computador tivesse capacidade de memória e desempenho de CPU suficientes. Isso não permitiu que o formulário digital exibisse o som gravado em detalhes. Um exemplo simples: se você conectar uma placa de som a um computador antigo quinze anos atrás, conectar um microfone, digitalizar sua voz, não acho que [o resultado] seja apreciado por muitos, [a saber] a qualidade da voz gravada.Bem, objetivamente, por que? Um sinal de microfone foi aplicado à entrada da placa de som. As características de frequência do caminho digital eram então bastante modestas e, portanto, a conversão de um sinal analógico, ou seja, o som em um circuito que permite exibir digitalmente esse som dentro dos computadores ... era um processo complexo e, é claro, fabricantes de dispositivos e desenvolvedores da época, tentando economizar memória e desempenho do processador, criaram esquemas simples para codificar o som na forma em que ele pode ser armazenado em um computador.O que isso levou? Para as perdas. Como um som acima de tudo. Com o crescimento da produtividade do hardware do computador, o desempenho da CPU e o aumento dos volumes de memória, esse problema gradualmente começou a ser retirado da agenda, mas, mesmo assim, as abordagens formadas na época deixaram sua marca no desenvolvimento da tecnologia digital. Ao mesmo tempo, se a memória me serve bem, foi em 1994, [o Instituto Fraunhofer estava trabalhando na criação do formato MP3 - esse formato ainda é muito popular hoje em dia para armazenar músicas e vários dados de áudio em equipamentos portáteis, em particular, smartphones.Dmitry:Aqui está uma referência rápida do wiki: MP3 (mais precisamente, MPEG-1/2 / 2.5 Layer 3; mas não MPEG3) é um codec de terceiro nível desenvolvido pela equipe MPEG, um formato de arquivo licenciado para armazenar informações de áudio. O MP3 foi desenvolvido por um grupo de trabalho do Instituto Fraunhofer, sob a direção de Karlheinz Brandenburg, da Universidade Erlangen-Nuremberg, em colaboração com a AT&T Bell Labs e Thomson.A base para o desenvolvimento do MP3 foi o codec ASPEC experimental (Coding Adaptive Spectral Perceptual Entropy Coding). O primeiro codificador de MP3 foi o L3Enc, lançado no verão de 1994. Um ano depois, o primeiro software MP3 player apareceu - Winplay3. Ao desenvolver o algoritmo, foram realizados testes em composições populares muito específicas. A música principal era Tom's Diner, de Suzanne Vega. Daí a piada de que "o MP3 foi criado apenas para o conforto de ouvir a música favorita de Brandenburg" e o Vega foi chamado de "MP3 da mãe".Anatoly:O que é caracterizado? [Qual é a sua diferença em relação ao som, que, de maneira alguma, além de converter para digital, difere de um sinal analógico (costumávamos chamar esses arquivos de formas de onda)? Quem está familiarizado com os computadores da Apple, [esses] arquivos tinham um formato chamado AIFF, pelo que me lembro.Dmitry: Sim, é.Anatoly: A forma desses dois arquivos, o formato desse arquivo, é simplesmente uma exibição digital de som analógico. Mas, nos computadores da época, ele ocupava um volume muito grande e esses arquivos no computador podiam ser armazenados um pouco. Qual foi a diferença entre os MP3s?Os matemáticos do Instituto Fraunhofer, abordando esse problema, decidiram simplificar esse modelo matemático, ou seja, remover do modelo digital do som real o que não será percebido por uma pessoa ao ouvir. Que momentos foram submetidos ao processamento matemático antes de tudo? As leis fundamentais da acústica foram usadas. Um deles diz, em particular: se algum tipo de sinal soou, bem, digamos que um toque de campainha ou alguém tocou um piano e ao mesmo tempo algum tipo de som silencioso foi ouvido, cuja diferença de volume era [com o primeiro som] ] excede 90 dB - a unidade com a qual a pressão sonora é medida - esse som não será ouvido de forma alguma por ninguém com ouvidos milagrosos.Dmitry: Portanto, as informações podem ser descartadas.Anatoly:Ninguém [esse som] vai ouvir. Se a diferença entre o som mais alto e o mais silencioso em um determinado momento for superior a 90 dB, você poderá remover com segurança esses sons da gravação e cortá-los. Essa é uma maneira. O que acontece aqui, especialistas [chamam] mascarando um sinal de nível baixo com um sinal de nível superior.Outra maneira: como regra, o equipamento Hi-Fi permite capturar sinais com determinadas frequências - se falamos de frequências e não usamos conceitos como frequências altas, baixas e médias. Sinais com frequências de 20 Hz a 20.000 Hz são a banda que o equipamento pode reproduzir. Uma pessoa ouvirá toda essa faixa? Se você olhar do ponto de vista da percepção de uma pessoa e introduzir um termo como psicoacústica, então [também] poderá fazer algumas simplificações do sinal.
, , . – A maioria dos adultos - aqueles que excederam a adolescência, geralmente não ouvem frequências acima de 16 kHz, o que significa que a faixa acima de 16 kHz também pode ser matematicamente reduzida de alguma forma e, portanto, remover essas informações do arquivo que foi gravado. usando um microfone digital, porque ele também não será percebido adequadamente pelo ouvinte. O mesmo acontece na faixa baixa: aqueles que estão envolvidos na fisiologia humana sabem que qualquer pessoa, se ele é normal, é claro, e ele não tem patologia, não percebe sinais de baixa frequência abaixo de 16 Hz com o ouvido - ele percebe [tal sinais] táteis ou órgãos do corpo.Começa, todos esses sons também podem ser indolores [excluídos] sem perder a qualidade principal do sinal sonoro, se, por exemplo, fosse uma peça musical. Atualmente, existem muitos desses métodos hoje: circuitos usados em som digital, formatos MP3, mascarando tons puros com ruído, etc., etc.Para ilustrar brevemente [o que] o que é: após os procedimentos para converter um modelo digital de som analógico, que vemos nos formatos wave ou AIFF, para o formato MP3, após a execução desses procedimentos (mascarar, excluir os sons que não podem ser percebido por uma pessoa) - o som no estágio intermediário não é muito confortável para ouvir, tem a impressão de parar, a audição de uma pessoa, especialmente um músico, pode ser desconfortável, portanto, para ocultar as falhas no último estágio, ele “se mistura” em formatos digitais "Sinal de nível de ruído de baixa amplitude.Isso é feito por um algoritmo especial. Em princípio, você pode ilustrar isso com este exemplo: se você estiver em uma sala e na sala seguinte alguém estiver falando, e isso o incomoda, ligue o aspirador. O ruído de um aspirador de pó é um sinal de frequência mais baixa em relação à fala humana, e os sinais de baixa frequência sempre mascaram os sinais de alta frequência, mas não vice-versa. Você vai parar de ouvir interlocutores irritantes. Acontece o mesmo nos formatos digitais, no último estágio após a digitalização, um sinal de ruído de uma certa amplitude, uma certa composição espectral é misturada, pode ser um tipo de ruído branco.Dmitry:Bem, então vamos tentar falar sobre casos em que podemos dizer que ainda perdemos algo usando MP3 - nem sempre é ideal para o uso, nem sempre é adequado, alguma classe de equipamento pode nos permitir algo mais.Anatoly: Muito bem, o MP3, como formato para armazenamento compacto de dados de áudio em tecnologia de computadores e como um dos formatos mais antigos, lentamente, com o tempo, começou a perder popularidade. Por quê? Bem [antes de tudo], a tecnologia de computadores aumentou seu desempenho e memória, [o que significa que] a necessidade de compactação, a interrupção dos dados de áudio desapareceu, não existe essa tensão - agora temos memória suficiente em computadores modernos, o desempenho do processador é suficiente, então podemos ouvir som digital não compactado.Que medidas foram tomadas na época para evitar lesões musicais compactas? Primeiro de tudo, apareceram formatos concorrentes para armazenamento de áudio compactado. Quem usa computadores e tablets Apple, smartphones, iPhones, sabe em que formato a música é vendida na Apple Store [iTunes] - se não me engano, é MP4, certo?Dmitry: Sim.Anatoly: Alguém dirá que também é som digital e também compactado e que [também] tem falhas. Bem, sim. Só que apareceu depois do MP3, o trabalho nesse formato começou em 1997, ou seja, quase 3-4 anos depois [a criação] do MP3, o que significa que os desenvolvedores que desenvolveram esse sistema de codificação de áudio compactado levaram em conta os problemas e as falhas que estavam nos formatos anteriores melhoraram [produto].O que trago para esses exemplos: o som digital, tendo surgido em um certo estágio, passou por uma certa evolução com o advento dos dispositivos de computador, evoluindo os formatos de armazenamento não compactado de dados de áudio e os formatos de [armazenamento] de som compactado. A maneira moderna de codificar áudio em MP3 ou similar é bastante avançada.Tendo conquistado popularidade em um certo estágio, agora o [formato] se consertou em um certo grupo de dispositivos: principalmente na tecnologia de comunicação móvel portátil - smartphones, telefones, players, etc. Devido ao seu tamanho pequeno, pouca energia e recursos de alto-falante embutidos nos smartphones , ele se misturou organicamente nessa estrutura. Se falamos de equipamentos sérios para ouvir em casa, em particular equipamentos Hi-Fi, é claro que nem todo ouvinte exigente concorda que os formatos digitais para armazenar dados de áudio em formato compactado são adequados.
Para aqueles que não aceitam formatos digitais para armazenar dados em formato compactado, o Audio Mania possui soluções analógicas. Na foto - um fragmento da instalação da AudiomaniaNossos materiais relacionados:
Provavelmente, é apropriado continuar nossa conversa com as características da interface de áudio de um computador moderno, que é a base do som digital moderno. Além disso, durante o curso da conversa, ficará claro como isso [se relaciona] com o tópico da nossa conversa, com equipamentos de áudio de última geração, por exemplo. Portanto, uma placa de áudio moderna de um computador pessoal ou laptop possui várias características que descrevem completamente os recursos desse computador em termos de armazenamento ou reprodução de som digital. O que eu quero dizer? As frequências nas quais a placa de áudio é executada e a profundidade de bits dessa placa de áudio. Provavelmente, o usuário está familiarizado com números como 16 bits e 44 kHz.Dmitry: Claro.Anatoly:Essas são as características básicas de qualquer seção de áudio de um computador moderno, seja ele desktop ou portátil. As mesmas características (ou seja, a profundidade de bits dos processadores) também são encontradas nos CD players padrão. Sem entrar em detalhes, deve-se dizer que esse padrão apareceu há muito tempo. Desenvolvemos um padrão para armazenar dados de áudio desse tipo (16 bits e 44 kHz) pelos fabricantes de equipamentos de áudio doméstico, que é muito popular entre todos nós - Phillips, Sony, Toshiba. Com o desenvolvimento da tecnologia de computador, as placas de áudio adquiriram recursos adicionais, em particular, um número de frequências aumentadas nas quais a placa de áudio pode operar - 48 kHz, 96 kHz, 192 kHz, o bit do processador instalado na placa de áudio também aumentou - 16 bits, 24 bits ...Dmitry : 32 ...Anatoly:E agora 32. Falando em um idioma profissional, a frequência de 44 kHz é a frequência necessária, que permite salvar a forma de onda de um sinal de áudio, por exemplo, uma peça musical ou a voz de uma pessoa. De onde veio esse número e por que a placa de áudio deve funcionar nessa frequência? Havia um matemático Kotelnikov que, com seu teorema, provou esse limite de um dispositivo técnico, que permite digitalizar um sinal com uma qualidade suficientemente alta.É apropriado dar um exemplo: o som mais simples, por exemplo, o som de um tubo e um tubo infantil ... a forma do seu sinal sonoro é semelhante a uma onda senoidal, digamos assim. O que é 44 kHz? Esta é a frequência da placa de áudio. Esse sinal, uma vez na placa de áudio, será instantaneamente cortado em 44 mil faixas verticais. O que obtemos como resultado desse corte? Obtemos o valor do volume do sinal em cada ponto no tempo - um quarenta e quatro milésimos de segundo.Dmitry: E agora precisamos criptografar todas essas tiras.Anatoly:Agora precisamos criptografar essas tiras e salvá-las no computador. Como podemos criptografar [eles]? Você pode se lembrar do valor do volume em cada barra. Bem, aqui outra característica da placa de áudio desempenha seu papel - sua profundidade de bits. Em particular, 16 bits. O que é 16 bits? Os cientistas da computação dizem o seguinte: dois ao décimo sexto grau.Dmitry: Então.Anatoly:Qual é o número, 65 mil com um centavo? Acontece que eu posso usar um número de zero a 65.536, para ser exato, para expressar a altura dessa faixa em si. Será algum número. Em um caso, serão 60 mil, no outro caso - 30 mil, etc. [Significa], neste caso, obteremos uma tabela por um segundo, que conterá 44 mil dígitos, cada um dos quais será expresso por um número de zero a 65 536. Esta tabela será um arquivo de som não compactado.Dmitry: Agora estamos trabalhando com esta tabela ainda mais ...Anatoly:O que vemos aqui? E se a velocidade da placa de áudio fosse mais alta, provavelmente teríamos um número muito maior desses números, que descreveriam com mais precisão nosso sinal. Naturalmente, o desejo de desenvolvedores e fabricantes é aproximar-se da verdadeira forma de onda. É daí que surge o desejo dos projetistas de engenharia de aumentar as frequências. Ano a ano, por assim dizer, de uma classe de dispositivos para outra, etc.Esse desenvolvimento levou ao fato de que [a partir] de uma frequência de 44 kHz essas frequências aumentaram lentamente. Eu usei a palavra infeliz "silenciosamente", porque, de fato, o desenvolvimento era muito mais complicado, todas as frequências foram usadas: 32 kHz e 24 kHz. Um ouvinte ou alguém curioso pode perguntar: "Onde essas frequências são usadas?" porque é claro que o som [ao usar frequências abaixo de 44 kHz] será mais áspero. Por exemplo, ao transmitir sinais de televisão na tecnologia telefônica. Não há necessidade de descrever o sinal com muita precisão, mas ao transmitir um sinal musical complexo, parte do concerto, como se viu, 44 kHz não satisfaz os requisitos da audição exata. Portanto, as características de frequência dos cartões aumentaram invariavelmente de geração em geração.Para encerrar a conversa sobre este tópico e não entrar em detalhes, talvez valha a pena dar um exemplo: no nascimento do áudio HD, em 2004, a Intel desenvolveu apenas este ano a especificação do áudio HD, que consiste nos dois valores a seguir: 32 bits e 192 kHz. Então, depois que as especificações para o áudio HD foram desenvolvidas ... o que é o HD, como decifrá-lo?Dmitry: Alta definição. Uma alta resolução.Anatoly:Alta resolução, isto é, é áudio de alta resolução. Esse padrão já pode ser a base para equipamentos de áudio de alta qualidade, para fontes de sinais que, por exemplo, competirão, não terei medo dessa palavra, com vinil. Como terminou a história do desenvolvimento de áudio HD? A Intel transferiu seu desenvolvimento para três empresas fabricantes de interfaces e, com base nessas interfaces, empresas que produzem codecs de áudio para dispositivos técnicos específicos, começando com a Realtek e terminando com Wolfson, desenvolveram codecs, cada um para seus processadores digitais.Source: https://habr.com/ru/post/pt383321/
All Articles