En palabras simples sobre sonido digital y analógico



A continuación, se encuentra la transcripción de la décima versión (22/05/2014) del podcast "Sound". En él, Dmitry Kabanov habla con Anatoly Dmitrievich Arsenov, Ph.D., físico capacitado, experto en el campo de TI y sonido digital, ingeniero en F-Lab sobre el tema del sonido digital y analógico.

[ Escuche este número ]

[ Más en el podcast ]

Otros problemas de podcast
  • [] [] ;
  • [] [] , ;

  • [] [] S-90;
  • [] [] ;
  • [] [] : , ;
  • [] [] «»;
  • [] [] ;

  • [] [] ;
  • [] [] ;
  • [] [] ;
  • [] [] ;
  • [] [] ;

  • [] [] ;
  • [] [] ;
  • [] [] : ;
  • [] [] : « » ;
  • [] [] ;

  • [] [] ;
  • [] [] ;
  • [] [] ;
  • [] [] - ;
  • [] [] .


Dmitry Kabanov: Seguimos hablando con expertos e ingenieros de Audiomanía, y hoy trataremos de profundizar, analizar la naturaleza del sonido digital y analógico y, probablemente, comenzaremos con la pregunta de qué sonido es en principio. ¿Cuál es la comprensión básica, en palabras simples, del sonido analógico diferente del sonido digital o la representación del sonido analógico y la representación del sonido digital?

Anatoly Arsenov:Respondiendo a esta pregunta, creo que es apropiado llevar modelos simples que sean familiares, quizás [del] curso escolar, a cualquier persona educada en Rusia. En particular, la historia del sonido [como] digital, [tan] y analógico comienza hace mucho tiempo, curiosamente, incluso antes de la llegada de los dispositivos digitales. Todos conocen la transmisión de la voz de una persona utilizando un teléfono convencional con cable. Este es [y es] un ejemplo real de transmisión de audio analógico desde la distancia. En este caso, el hablante tiene un receptor de teléfono frente a él, en el que hay un micrófono y una membrana que oscila de acuerdo con la voz de la persona, el procedimiento opuesto ocurre en el extremo opuesto, es decir, la membrana del teléfono ubicada en el oído del suscriptor oscila.

¿Qué se transmite por cable? Tenemos una señal de voltaje de CA: la corriente en el cable cambia de acuerdo con lo que dice una persona, por así decirlo, para no entrar en detalles. ¿Qué es el sonido digital? Aquí [podemos dar un ejemplo similar] desde el mismo tiempo: transmisión de señal telegráfica, código Morse. En este caso, el locutor tiene un texto delante de él, pero debe conocer el código Morse. Además, ¿por quién está codificado el texto? Por la persona que sabe cómo transmitir la letra "A", cómo transferir la letra "B", etc. ¿Qué se envía a la línea de señal? Se envían señales: un punto y un guión, la forma en que el sonido se codifica aproximadamente ahora: con ceros y unos, dos estados transmiten dos estados.

¿Qué debe hacer el suscriptor en el lado opuesto [si] quiere entender, aceptar este texto, recibir este mensaje? Debe conocer el código Morse, debería recibir estos puntos y rayas, y al conocerlos, ya comprende lo que está en juego. Esa es, de hecho, toda la diferencia. En un caso, se transmite una señal, que tiene la naturaleza de un modelo de la voz de una persona transmitida por señales eléctricas, en el segundo caso, tenemos una transmisión de caracteres que están codificados de alguna manera arbitraria. En este caso, estos fueron puntos y rayas. Muchos años después, en la era moderna, ya tenemos dos tipos de transmisión de señal, que están muy lejos de esa vieja historia.

Dmitry:Resulta que un sonido digital o una representación digital del sonido puede entenderse como una especie de compromiso que obtenemos al tomar un sonido analógico y convertirlo en uno digital.

Anatoly: Bueno, es un compromiso o no ... ¿Un compromiso con qué? ¿Con capacidades de hardware? Sí, esto es un compromiso. Además, con las necesidades de la tecnología moderna, ¿transferir más información por unidad de tiempo a distancias más largas con alta calidad y la capacidad de corrección posterior? Sí, esto es un compromiso. Por supuesto, para transmitir audio analógico a largas distancias con alta calidad, el equipo debe tener la potencia adecuada, y no diré que será barato, siempre requerirá mucho material.

En una determinada etapa del desarrollo de la tecnología, resultó ser la más productiva para transmitir señales no de forma explícita, como es el caso de los equipos analógicos, sino en la forma de algún modelo, una tabla de números, aquí puedo dar un ejemplo similar de una práctica ligeramente diferente, también familiar para todos. Entonces, tener un mapa geográfico ... ¿así es como puedes transmitir información a tu amigo si la tarea es llegar de un punto a otro? Debe tomar una tarjeta, dibujar una línea con un lápiz, cómo caminó o cómo va a ir, y enviar esta tarjeta, aquí está, por favor: transmitimos la información de forma explícita.

Puedes hacerlo de otra manera: sabiendo que un amigo tiene exactamente el mismo mapa, pasa un plato con las coordenadas de los puntos. ¿Qué se transmitirá en este caso? El folleto en el que se registrará la tabla: latitud, longitud, latitud, longitud, latitud, longitud, etc. En este caso, será solo una tabla de números. Camarada, después de recibir esta tabla, tomar su mapa y marcar estos puntos por coordenadas, determinará de inmediato cómo ir. ¿Qué transmitimos en [este] caso? ¿El mapa en sí con la ruta, o pasamos la tabla, algún tipo de codificación?

Todo esto está sucediendo en la tecnología digital. Un elemento indispensable en la tecnología digital es el codificador o decodificador, bueno, solían decirlo, en tecnología digital es habitual decir que se trata de una conversión de digital a analógico.

Dmitry:Un gran ejemplo, me parece, ¿vale la pena engancharse al [tema] del almacenamiento aquí? Formato, comprensión de formatos, comprensión de su diferencia, porque hay muchos mitos sobre qué formatos tenemos: con pérdidas, sin pérdidas, comprimiendo un archivo de diferentes maneras, etc.

Anatoly: Como se puede ver en los ejemplos anteriores, la forma digital es La forma condicional de transmisión de señal es un sistema de formalización, en términos matemáticos. La señal se transmite en la forma convencional de un modelo matemático: si hablamos aún más profundamente, es una matriz que contiene ciertos números [que caracterizan] la señal en cada momento en el tiempo.

En términos de sonido, ¿qué transmiten los números? Los números transmiten el espectro de la señal, su amplitud, volumen. Las frecuencias de esta señal, alta, baja, [como] cómo estas frecuencias están interconectadas tímbricamente, etc. es una característica espectral convertida en una forma numérica, que se transmite [al dispositivo].

En los albores de la tecnología informática, las capacidades de las computadoras personales no eran muy amplias. Para realizar tareas simples, era necesario que un dispositivo informático tuviera suficiente capacidad de memoria y rendimiento de la CPU. Esto no permitió que la forma digital mostrara el sonido grabado en detalle. Un ejemplo simple: si conecta una tarjeta de sonido a una computadora vieja hace quince años, conecta un micrófono, digitaliza su voz, entonces no creo que a muchos les guste [el resultado], es decir, la calidad de la voz grabada.

Bueno, objetivamente, ¿por qué? Se aplicó una señal de micrófono a la entrada de la tarjeta de sonido. Las características de frecuencia de la ruta digital eran bastante modestas y, por lo tanto, la conversión de una señal analógica, es decir, un sonido en un circuito que le permite mostrar digitalmente este sonido dentro de las computadoras ... fue un proceso complejo y, por supuesto, los fabricantes y desarrolladores de dispositivos de esa época trataron de ahorrar memoria. y el rendimiento del procesador, creó esquemas simples para codificar el sonido en la forma en que puede almacenarse en una computadora.

¿A qué condujo esto? A las pérdidas. Como un sonido sobre todo. Con el crecimiento de la productividad del hardware de la computadora, el rendimiento de la CPU y el aumento en los volúmenes de memoria, este problema comenzó a eliminarse gradualmente de la agenda, pero los enfoques que se formaron en ese momento dejaron su huella en el desarrollo de la tecnología digital. En un momento, si mi memoria no me falla, fue [era] 1994, [el Instituto Fraunhofer estaba trabajando en la creación del formato MP3; este formato sigue siendo muy popular hoy en día para almacenar música y varios datos de audio en equipos portátiles, en particular, teléfonos inteligentes

Dmitry:Aquí hay una referencia rápida de la wiki: MP3 (más precisamente, MPEG-1/2 / 2.5 Layer 3; pero no MPEG3) es un códec de tercer nivel desarrollado por el equipo MPEG, un formato de archivo con licencia para almacenar información de audio. El MP3 fue desarrollado por un grupo de trabajo del Instituto Fraunhofer bajo la dirección de Karlheinz Brandenburg de la Universidad Erlangen-Nuremberg en colaboración con AT&T Bell Labs y Thomson.

La base para el desarrollo de MP3 fue el códec experimental ASPEC (Codificación de entropía perceptual espectral adaptativa). El primer codificador de MP3 fue L3Enc, lanzado en el verano de 1994. Un año después, apareció el primer reproductor de MP3 con software: Winplay3. Al desarrollar el algoritmo, se realizaron pruebas en composiciones populares muy específicas. La canción principal era Tom's Diner de Suzanne Vega. De ahí la broma de que "MP3 fue creado únicamente para la comodidad de escuchar la canción favorita de Brandenburgo", y comenzaron a llamar a Vega "mamá MP3".

Anatoly¿Por qué se caracteriza? [¿Cuál es] su diferencia del sonido, que de ninguna otra manera que no sea la conversión a digital, difiere de una señal analógica (solíamos llamar a estos archivos formas de onda)? Quien está familiarizado con las computadoras Apple, allí [tales] archivos tenían un formato llamado AIFF, según recuerdo.

Dmitry: Sí lo es.

Anatoly: La forma de estos dos archivos, el formato de este archivo, es simplemente una pantalla digital de sonido analógico. Pero en las computadoras de esa época, ocupaba un volumen muy grande y tales archivos en la computadora podían almacenarse un poco. ¿Cuál fue la diferencia entre los MP3?

Los matemáticos del Instituto Fraunhofer, al abordar este problema, decidieron simplificar este modelo matemático, es decir, eliminar del modelo digital del sonido real lo que una persona no percibirá al escuchar. ¿Qué momentos fueron sometidos a procesamiento matemático en primer lugar? Se utilizaron las leyes fundamentales de la acústica. Uno de ellos dice, en particular: si suena algún tipo de señal, bueno, digamos que suena una campana o alguien toca un acorde en el piano y al mismo tiempo se escucha algún tipo de sonido silencioso, cuya diferencia en volumen [con el primer sonido ] supera los 90 dB, la unidad con la que se mide la presión del sonido, este sonido no será escuchado de ninguna manera por nadie con oídos milagrosos.

Dmitry: Por lo tanto, la información puede ser descartada.

AnatolyNadie [este sonido] escuchará. Si la diferencia entre el sonido más alto y el más bajo en un momento dado es superior a 90 dB, puede eliminar estos sonidos de la grabación de manera segura y cortarlos. Esta es una forma. Lo que sucede aquí, los expertos [llaman] enmascarando una señal de bajo nivel con una señal de alto nivel.

Otra forma: como regla, el equipo de alta fidelidad le permite capturar señales con ciertas frecuencias, si hablamos de frecuencias y no usamos conceptos como frecuencias altas, bajas y medias. Las señales con frecuencias de 20 Hz a 20,000 Hz son la banda que el equipo puede reproducir. ¿Una persona escuchará todo este rango? Si observa desde el punto de vista de la percepción de una persona e introduce un término como psicoacústica, [también] puede hacer algunas simplificaciones de la señal.


, , . –

La mayoría de los adultos: aquellos que han superado la adolescencia, por regla general, no escuchan frecuencias superiores a 16 kHz, lo que significa que el rango superior a 16 kHz también puede reducirse matemáticamente de alguna manera y, por lo tanto, eliminar esta información del archivo que se grabó usando un micrófono digital, porque tampoco será percibido adecuadamente por el oyente. Lo mismo sucede en el rango bajo: aquellos que se dedican a la fisiología humana saben que cualquier persona, si es normal, por supuesto, y no tiene patología, no percibe señales de baja frecuencia por debajo de 16 Hz con su oído: percibe [tal señales] ya sea táctiles u órganos del cuerpo.

Comienza, todos estos sonidos también se pueden [eliminar] sin dolor sin perder la calidad principal de la señal de sonido, si, por ejemplo, era una pieza musical. En principio, existen muchos de estos métodos hoy en día: circuitos que se utilizan en sonido digital, formatos MP3, enmascarando tonos puros con ruido, etc., etc.

Para ilustrar brevemente [qué] es: después de los procedimientos para convertir un modelo digital de sonido analógico, que vemos en formato de onda o AIFF, a formato MP3, después de realizar estos procedimientos (enmascarar, eliminar esos sonidos que no pueden ser percibido por una persona): el sonido en la etapa intermedia no es muy cómodo para escuchar, lleva la impresión de detenerse, la audición de una persona, especialmente un músico, puede ser incómoda, por lo tanto, al ocultar las fallas en la última etapa, se "mezcla" en formatos digitales "Señal de nivel de ruido de baja amplitud.

Esto se hace mediante un algoritmo especial. En principio, puede ilustrar esto con este ejemplo: si está en una habitación y en la habitación de al lado alguien está hablando y le molesta, encienda la aspiradora. El ruido de una aspiradora es una señal de baja frecuencia en relación con el habla humana, y las señales de baja frecuencia siempre enmascaran las señales de alta frecuencia, pero no al revés. Dejarás de escuchar interlocutores molestos. Lo mismo sucede en los formatos digitales, en la última etapa después de la digitalización, una señal de ruido de cierta amplitud, una cierta composición espectral se mezcla, puede ser una especie de ruido blanco.

Dmitry:Bueno, entonces tratemos de hablar sobre casos en los que podemos decir que todavía perdemos algo usando MP3: no siempre es ideal para usar, no siempre es adecuado, alguna clase de equipo puede permitirnos algo más.

Anatoly: Muy bien, MP3, como formato para el almacenamiento compacto de datos de audio en tecnología informática y como uno de los formatos más antiguos, lentamente, con el tiempo, comenzó a perder popularidad. ¿Por qué? Bueno [en primer lugar], la tecnología informática ha aumentado su rendimiento y memoria, [lo que significa que] la necesidad de compresión, detención de datos de audio ha desaparecido, no existe tal tensión: ahora tenemos suficiente memoria en las computadoras modernas, el rendimiento del procesador es suficiente, por lo que Podemos escuchar sonido digital no comprimido.

¿Qué pasos se tomaron en el momento para evadir las lesiones de música compacta? En primer lugar, han aparecido formatos competitivos para el almacenamiento de audio comprimido. Aquellos que usan computadoras y tabletas Apple, teléfonos inteligentes, iPhones, saben qué formato se vende la música en Apple Store [iTunes]. Si no me equivoco, es MP4, ¿verdad?

Dmitry: si.

Anatoly: Alguien dirá que también es sonido digital y también comprimido y que [también] tiene fallas. Bueno, sí. Solo apareció más tarde que MP3, el trabajo en este formato comenzó en algún momento en 1997, es decir, casi 3-4 años después [la creación] de MP3, lo que significa que los desarrolladores que desarrollaron este sistema de codificación de audio comprimido tuvieron en cuenta los problemas y las fallas que estaban en los formatos anteriores mejoraron [producto].

A lo que traigo estos ejemplos: el sonido digital, que surgió en una determinada etapa, experimentó una cierta evolución con el advenimiento de los dispositivos informáticos, los formatos de almacenamiento sin comprimir de datos de audio y los formatos de [almacenamiento] de sonido comprimido evolucionaron. La forma moderna de codificar audio en MP3 o similar es bastante avanzada.

Después de haber ganado popularidad en una determinada etapa, ahora [el formato] en realidad se fija en un cierto grupo de dispositivos: principalmente en tecnología de comunicación móvil portátil: teléfonos inteligentes, teléfonos, reproductores, etc. Debido al tamaño pequeño, la pequeña potencia y las bajas capacidades de los altavoces integrados en los teléfonos inteligentes. , se mezcló orgánicamente en esta estructura. Si hablamos de equipos serios para escuchar en casa, en particular, equipos de alta fidelidad, entonces, por supuesto, no todos los oyentes exigentes estarán de acuerdo en que los formatos digitales para almacenar datos de audio en forma comprimida son adecuados.


Para aquellos que no aceptan formatos digitales para almacenar datos en forma comprimida, Audio Mania tiene soluciones analógicas. En la foto: un fragmento de la instalación de Audiomania

Nuestros materiales relacionados:


Probablemente sea apropiado continuar nuestra conversación con las características de la interfaz de audio de una computadora moderna, que es la base del sonido digital moderno. Además, durante el curso de la conversación, quedará claro cómo esto [se relaciona] con el tema de nuestra conversación, con equipos de audio de alta gama, por ejemplo. Por lo tanto, una tarjeta de audio moderna de una computadora personal o portátil tiene varias características que describen completamente las capacidades de esta computadora en términos de almacenamiento o reproducción de sonido digital. ¿Lo que quiero decir? Las frecuencias a las que se ejecuta la tarjeta de audio y la profundidad de bits de esta tarjeta de audio. Probablemente, el usuario esté familiarizado con números como 16 bits y 44 kHz.

Dmitry: por supuesto.

AnatolyEstas son las características básicas de cualquier sección de audio de una computadora moderna, ya sea de escritorio o portátil. Las mismas características (es decir, la profundidad de bits de los procesadores) también se encuentran en los reproductores de CD estándar. Sin entrar en detalles, se debe decir que este estándar apareció hace mucho tiempo. Desarrolló un estándar para almacenar datos de audio de este tipo (16 bits y 44 kHz) por fabricantes de equipos de audio domésticos, que es muy popular entre todos nosotros: Phillips, Sony, Toshiba. Con el desarrollo de la tecnología informática, las tarjetas de audio adquirieron capacidades adicionales, en particular, un número de frecuencias aumentadas a las cuales la tarjeta de audio puede operar - 48 kHz, 96 kHz, 192 kHz, el bit del procesador que está instalado en la tarjeta de audio también aumentó - 16 bits, 24 bits ...

Dmitry : 32 ...

Anatoly:Y ahora 32. Hablando en un idioma profesional, la frecuencia de 44 kHz es la frecuencia necesaria, que le permite guardar la forma de onda de una señal de audio, por ejemplo, una pieza musical o la voz de una persona. ¿De dónde vino este número y por qué la tarjeta de audio debería funcionar a esta frecuencia? Había un matemático Kotelnikov que, con su teorema, demostró este límite de un dispositivo técnico que permite digitalizar una señal con una calidad suficientemente alta.

Es apropiado dar un ejemplo: el sonido más simple, por ejemplo, el sonido de una pipa y la pipa de un niño ... la forma de su señal de sonido es similar a una onda sinusoidal, digamos así. ¿Qué es 44 kHz? Esta es la frecuencia de la tarjeta de audio. Tal señal, una vez en una tarjeta de audio, se cortará instantáneamente en 44 mil tiras verticales. ¿Qué obtenemos como resultado de este corte? Obtenemos el valor del volumen de la señal en cada punto del tiempo: una cuarenta y cuatro milésimas de segundo.

Dmitry: Y ahora necesitamos encriptar todas estas tiras.

AnatolyAhora necesitamos encriptar estas tiras y guardarlas en la computadora. ¿Cómo podemos encriptarlos? Puede recordar el valor del volumen en cada barra. Bueno, aquí otra característica de la tarjeta de audio juega su papel: su profundidad de bits. En particular, 16 bits. ¿Qué es 16 bits? Los informáticos dicen esto: dos hasta el decimosexto grado.

Dmitry: Entonces.

Anatoly¿Cuál es el número, 65 mil con un centavo? Resulta que puedo usar un número de cero a 65.536, para ser exactos, para expresar la altura de esta tira misma. Será algún número. En un caso, serán 60 mil, en el otro caso - 30 mil, etc. [Medios], en este caso obtendremos una tabla por un segundo de tiempo, que contendrá 44 mil dígitos, cada uno de los cuales se expresará con un número de cero a 65 536. Esta tabla será un archivo de sonido sin comprimir.

Dmitry: Ahora estamos trabajando más con esta tabla ...

Anatoly:¿Qué vemos aquí? ¿Qué pasaría si la velocidad de la tarjeta de audio fuera mayor? [Entonces], probablemente, obtendríamos un número mucho mayor de estos números, lo que describiría con mayor precisión nuestra señal. Naturalmente, el deseo de los desarrolladores y fabricantes es acercarse a la verdadera forma de onda. De aquí proviene el deseo de los diseñadores de ingeniería de aumentar las frecuencias. Año por año, por así decirlo, de una clase de dispositivos a otra, etc.

Este desarrollo ha llevado al hecho de que [comenzando] desde una frecuencia de 44 kHz estas frecuencias aumentaron lentamente. Usé la desafortunada palabra "en silencio", porque de hecho el desarrollo fue mucho más complicado, se usaron todas las frecuencias: 32 kHz y 24 kHz. Un oyente o alguien curioso puede preguntar: "¿Dónde se usan estas frecuencias?" porque está claro que el sonido [cuando se usan frecuencias inferiores a 44 kHz] será más áspero. Por ejemplo, al transmitir señales de televisión en tecnología telefónica. No es necesario describir con precisión la señal, pero cuando se transmite una señal musical compleja, parte del concierto, como se vio después, 44 kHz no satisface los requisitos de la audición más exigente. Por lo tanto, las características de frecuencia de las tarjetas han aumentado invariablemente de generación en generación.

Para finalizar la conversación sobre este tema y no entrar en detalles, quizás valga la pena dar un ejemplo: el nacimiento del audio HD, fue en 2004, Intel desarrolló este año la especificación del audio HD, que consta de los siguientes dos valores: 32 bits y 192 kHz. Entonces, después de que se desarrollaron las especificaciones para el audio HD ... ¿qué es HD, cómo lo desciframos?

Dmitry: alta definición. Una alta resolución

AnatolyAlta resolución, es decir, es audio de alta resolución. Tal estándar ya puede ser la base para equipos de audio de muy alta calidad, para fuentes de señal que, por ejemplo, competirán, no temeré esta palabra, con vinilo. ¿Cómo terminó la historia del desarrollo de audio HD? Intel transfirió su desarrollo a tres compañías de fabricación de interfaces, y luego, sobre la base de estas interfaces, compañías que producen códecs de audio para dispositivos técnicos específicos, comenzando con Realtek y terminando con Wolfson, códecs desarrollados, cada uno para sus procesadores digitales.

Source: https://habr.com/ru/post/es383321/


All Articles