En termes simples sur le son numérique et analogique



Ensuite, la transcription de la dixième version (22/05/2014) du podcast «Sound». Dans ce document, Dmitry Kabanov s'entretient avec Anatoly Dmitrievich Arsenov, Ph.D., physicien de formation, expert dans le domaine de l'informatique et du son numérique, ingénieur au F-Lab sur le thème du son numérique et analogique.

[ Écoutez ce numéro ]

[ Plus sur le podcast ]

Autres problèmes de podcast
  • [] [] ;
  • [] [] , ;

  • [] [] S-90;
  • [] [] ;
  • [] [] : , ;
  • [] [] «»;
  • [] [] ;

  • [] [] ;
  • [] [] ;
  • [] [] ;
  • [] [] ;
  • [] [] ;

  • [] [] ;
  • [] [] ;
  • [] [] : ;
  • [] [] : « » ;
  • [] [] ;

  • [] [] ;
  • [] [] ;
  • [] [] ;
  • [] [] - ;
  • [] [] .


Dmitry Kabanov: Nous continuons de discuter avec des experts et des ingénieurs d'Audiomania, et aujourd'hui nous allons essayer d'approfondir, d'examiner la nature du son numérique et analogique, et, probablement, nous commencerons par la question de ce qu'est le son en principe. Quelle est la compréhension de base, en termes simples, du son analogique diffère du son numérique ou de la représentation sonore analogique et de la représentation sonore numérique?

Anatoly Arsenov:En répondant à cette question, je pense qu'il est approprié d'apporter des modèles simples qui sont familiers, peut-être [du] cours scolaire, à toute personne éduquée russe. En particulier, l'histoire du son [en tant que] numérique, [en tant que] et analogique commence depuis longtemps, curieusement, avant même l'avènement des appareils numériques. Tout le monde connaît la transmission de la voix d’une personne à l’aide d’un téléphone filaire conventionnel. Ceci est [et est] un véritable exemple de transmission audio analogique à distance. Dans ce cas, le haut-parleur a un récepteur téléphonique devant lui, dans lequel il y a un microphone et une membrane qui oscille en fonction de la voix de la personne, la procédure inverse se produit à l'extrémité opposée, c'est-à-dire que la membrane du téléphone située à l'oreille de l'abonné oscille.

Qu'est-ce qui est transmis par câble? Nous avons un signal de tension alternative: le courant dans le câble change en fonction de ce que dit une personne, pour ainsi dire, afin de ne pas entrer dans les détails. Qu'est-ce que le son numérique? Ici [nous pouvons donner un exemple similaire] du même temps - transmission du signal télégraphique, code Morse. Dans ce cas, l'annonceur a du texte devant lui, mais il doit connaître le code Morse. De plus, par qui le texte est-il encodé? Par la personne qui sait comment transmettre la lettre "A", comment transférer la lettre "B", etc. Qu'est-ce qui est envoyé à la ligne de signal? Des signaux sont envoyés: un point et un tiret, la façon dont le son est à peu près codé maintenant - avec des zéros et des uns, deux états transmettent deux états.

Que doit faire l'abonné de l'autre côté [s'il] veut comprendre, accepter ce texte, recevoir ce message? Il doit connaître le code Morse, il devrait recevoir ces mêmes points et tirets, et les connaître, déjà comprendre ce qui est en jeu. C'est, en fait, toute la différence. Dans un cas, un signal est transmis, qui est de la nature d'un modèle de voix d'une personne transmise par des signaux électriques, dans le second cas, nous avons une transmission de caractères qui sont codés de manière arbitraire. Dans ce cas, il s'agissait de points et de tirets. Plusieurs années plus tard, à l'ère moderne, nous avons déjà deux types de transmission de signaux, très éloignés de cette vieille histoire.

Dmitry:Il s'avère qu'un son numérique ou une représentation numérique du son peut être compris comme une sorte de compromis que nous obtenons en prenant un son analogique et en le convertissant en un son numérique.

Anatoly: Eh bien, est-ce un compromis ou non ... Un compromis avec quoi? Avec des capacités matérielles? Oui, c'est un compromis. De plus, avec les besoins de la technologie moderne, pour transférer plus d'informations par unité de temps sur de plus longues distances avec une haute qualité et la possibilité de correction ultérieure? Oui, c'est un compromis. Bien sûr, pour transmettre de l'audio analogique sur de longues distances avec une haute qualité, l'équipement doit avoir la puissance appropriée, et je ne dirai pas qu'il sera bon marché, il sera toujours gourmand en matériel.

À un certain stade du développement de la technologie, il s'est avéré être le plus productif de transmettre des signaux non pas sous une forme explicite, comme c'est le cas dans les équipements analogiques, mais sous la forme d'un modèle, un tableau de nombres, ici je peux donner un exemple similaire d'une pratique légèrement différente, également familière à tout le monde. Donc, avoir une carte géographique ... c'est ainsi que vous pouvez transmettre des informations à votre ami si la tâche est d'aller d'un point à un autre? Vous devez prendre une carte, tracer une ligne avec un crayon, comment vous avez marché ou comment vous allez aller, et transmettre cette carte, vous voici, s'il vous plaît - nous transmettons les informations sous une forme explicite.

Vous pouvez le faire d'une autre manière - sachant qu'un ami a exactement la même carte, passez une plaque avec les coordonnées des points. Qu'est-ce qui sera transmis dans ce cas? Le dépliant sur lequel le tableau sera enregistré: latitude, longitude, latitude, longitude, latitude, longitude, etc. Dans ce cas, ce sera juste un tableau de nombres. Camarade, ayant reçu ce tableau, prenant sa carte et marquant ces points par des coordonnées, il déterminera immédiatement comment s'y rendre. Qu'avons-nous transmis dans [ce] cas? La carte elle-même avec l'itinéraire, ou avons-nous passé la table, une sorte d'encodage?

Tout cela se passe dans la technologie numérique. Un élément indispensable dans la technologie numérique est l'encodeur ou le décodeur, eh bien, ils le disaient, dans la technologie numérique, il est habituel de dire qu'il s'agit d'une conversion numérique-analogique.

Dmitry:Un bon exemple, me semble-t-il, vaut-il la peine de s'accrocher au [sujet] de stockage ici? Format, compréhension des formats, compréhension de leur différence, car il existe de nombreux mythes sur les formats que nous avons - avec des pertes, sans pertes, en compressant un fichier de différentes manières, etc.

Anatoly: Comme le montrent les exemples ci-dessus, la forme numérique est la forme conditionnelle de la transmission du signal est un système de formalisation, en termes mathématiques. Le signal est transmis sous la forme conventionnelle d'un modèle mathématique - si nous parlons encore plus profondément, c'est une matrice qui contient certains nombres [caractérisant] le signal à chaque instant dans le temps.

En termes de son, que véhiculent les chiffres? Les nombres transmettent le spectre du signal, son amplitude, son volume. Les fréquences de ce signal, hautes, basses, [comme] comment ces fréquences sont interconnectées dans le temps, etc. est une caractéristique spectrale convertie en une forme numérique, qui est transmise [à l'appareil].

À l'aube de la technologie informatique, les capacités des ordinateurs personnels n'étaient pas très étendues. Afin de réaliser des tâches simples, il était nécessaire qu'un appareil informatique ait une capacité de mémoire et des performances CPU suffisantes. Cela n'a pas permis au formulaire numérique d'afficher le son enregistré en détail. Un exemple simple: si vous connectez une carte son à un vieil ordinateur il y a quinze ans, branchez un microphone, numérisez votre voix, alors je ne pense pas que [le résultat] serait apprécié par beaucoup, [à savoir] la qualité de la voix enregistrée.

Eh bien, objectivement, pourquoi? Un signal de microphone a été appliqué à l'entrée de la carte son. Les caractéristiques de fréquence du chemin numérique étaient alors assez modestes, et donc la conversion d'un signal analogique, c'est-à-dire le son en un circuit qui vous permet d'afficher numériquement ce son à l'intérieur des ordinateurs ... c'était un processus complexe et, bien sûr, les fabricants d'appareils et les développeurs de l'époque essayaient d'économiser de la mémoire et les performances du processeur, ont créé des schémas simples pour encoder le son sous la forme dans laquelle il peut être stocké sur un ordinateur.

À quoi cela a-t-il conduit? Aux pertes. Comme un son avant tout. Avec la croissance de la productivité du matériel informatique, les performances du processeur et l'augmentation des volumes de mémoire, ce problème a progressivement commencé à être supprimé de l'agenda, mais néanmoins, les approches qui ont été formulées à l'époque ont laissé leur marque sur le développement de la technologie numérique. À un moment donné, si ma mémoire est bonne, c'était [était] 1994, [l'Institut Fraunhofer travaillait sur la création du format MP3 - ce format est encore très populaire aujourd'hui pour stocker de la musique et diverses données audio dans des équipements portables, en particulier, les smartphones.

Dmitry:Voici une référence wiki rapide: MP3 (plus précisément, MPEG-1/2 / 2.5 Layer 3; mais pas MPEG3) est un codec de troisième niveau développé par l'équipe MPEG, un format de fichier sous licence pour stocker des informations audio. Le MP3 a été développé par un groupe de travail de l'Institut Fraunhofer sous la direction de Karlheinz Brandenburg de l'Université d'Erlangen-Nuremberg en collaboration avec AT&T Bell Labs et Thomson.

La base du développement de MP3 a été le codec expérimental ASPEC (Adaptive Spectral Perceptual Entropy Coding). Le premier encodeur MP3 était L3Enc, sorti à l'été 1994. Un an plus tard, le premier lecteur MP3 logiciel est apparu - Winplay3. Lors du développement de l'algorithme, des tests ont été effectués sur des compositions populaires très spécifiques. La chanson principale était Tom's Diner de Suzanne Vega. D'où la plaisanterie selon laquelle «MP3 a été créé uniquement pour le confort d'écouter la chanson préférée du Brandebourg», et Vega a été appelée «maman MP3».

Anatoly:De quoi est-il caractérisé? [Quelle est] sa différence par rapport au son, qui en aucun cas autre que la conversion en numérique, diffère d'un signal analogique (nous appelions ces fichiers formes d'onde)? Qui connaît les ordinateurs Apple, ces fichiers [avaient] un format appelé AIFF, si je me souviens bien.

Dmitry: Oui, ça l'est.

Anatoly: La forme de ces deux fichiers, le format de ce fichier, est simplement un affichage numérique de son analogique. Mais dans les ordinateurs de cette époque, il occupait un très grand volume et ces fichiers dans l'ordinateur pouvaient être stockés un peu. Quelle était la différence entre les MP3?

Les mathématiciens de l'Institut Fraunhofer, abordant ce problème, ont décidé de simplifier ce modèle mathématique, c'est-à-dire de retirer du modèle numérique du son réel ce qui ne sera pas perçu par une personne lors de l'écoute. Quels moments ont d'abord été soumis au traitement mathématique? Les lois fondamentales de l'acoustique ont été utilisées. L'un d'eux dit en particulier: si une sorte de signal retentit, eh bien, disons qu'un coup de cloche ou quelqu'un a pris un accord sur le piano et en même temps une sorte de son silencieux a été entendu, dont la différence de volume [avec le premier son ] dépasse 90 dB - l'unité avec laquelle la pression acoustique est mesurée - ce son ne sera entendu d'aucune façon par quiconque ayant des oreilles miracles.

Dmitry: Par conséquent, des informations peuvent être rejetées.

Anatoly:Personne [ce son] n'entendra. Si la différence entre le son le plus fort et le son le plus faible à un moment donné est supérieure à 90 dB, vous pouvez supprimer ces sons de l'enregistrement en toute sécurité et les couper. C'est une façon. Ce qui se passe ici, les experts [appellent] masquant un signal de bas niveau avec un signal de niveau supérieur.

Une autre façon: en règle générale, les équipements Hi-Fi vous permettent de capturer des signaux avec certaines fréquences - si nous parlons de fréquences et n'utilisons pas des concepts tels que les fréquences hautes, basses et moyennes. Les signaux avec des fréquences de 20 Hz à 20 000 Hz sont la bande que l'équipement peut reproduire. Une personne entendra-t-elle toute cette gamme? Si vous regardez du point de vue de la perception d'une personne et introduisez un terme tel que psychoacoustique, alors [aussi] vous pouvez faire quelques simplifications du signal.


, , . –

La plupart des adultes - ceux qui ont dépassé l'adolescence, n'entendent généralement pas de fréquences supérieures à 16 kHz, ce qui signifie que la plage supérieure à 16 kHz peut également être mathématiquement réduite d'une certaine manière et, par conséquent, supprimer ces informations du fichier qui a été enregistré à l'aide d'un microphone numérique, car il ne sera pas non plus correctement perçu par l'auditeur. La même chose se produit dans la gamme basse: ceux qui sont engagés dans la physiologie humaine savent que toute personne, si elle est normale, bien sûr, et sans pathologie, ne perçoit pas avec son oreille des signaux basse fréquence inférieurs à 16 Hz - il perçoit [tel signaux] tactiles ou des organes du corps.

Cela commence, tous ces sons peuvent également être [supprimés] sans douleur sans perdre la qualité principale du signal sonore, si, par exemple, c'était un morceau de musique. En principe, il existe aujourd'hui un grand nombre de ces méthodes: circuits utilisés en son numérique, formats MP3, masquage de tons purs avec du bruit, etc., etc.

Pour illustrer brièvement [ce que] ce que c'est: après les procédures de conversion d'un modèle numérique de son analogique, que nous voyons aux formats wave ou AIFF, au format MP3, après avoir effectué ces procédures (masquage, suppression des sons qui ne peuvent pas être perçu par une personne) - le son au stade intermédiaire n'est pas très confortable pour l'écoute, il porte l'empreinte de s'arrêter, l'audition d'une personne, en particulier d'un musicien, peut être inconfortable, donc, pour cacher les défauts à la dernière étape, elle «se mélange» aux formats numériques "Signal de niveau de bruit de faible amplitude.

Cela se fait par un algorithme spécial. En principe, vous pouvez illustrer cela avec cet exemple: si vous êtes dans une pièce et dans la pièce voisine, quelqu'un parle et que cela vous dérange, allumez l'aspirateur. Le bruit d'un aspirateur est un signal de fréquence inférieure par rapport à la parole humaine, et les signaux basse fréquence masquent toujours les signaux haute fréquence, mais pas l'inverse. Vous cesserez d'entendre des interlocuteurs ennuyeux. À peu près la même chose se produit dans les formats numériques, à la dernière étape après la numérisation, un signal de bruit d'une certaine amplitude, une certaine composition spectrale est mélangée, cela peut être une sorte de bruit blanc.

Dmitry:Eh bien, essayons de parler de cas où nous pouvons dire que nous perdons encore quelque chose en utilisant MP3 - ce n'est pas toujours idéal pour une utilisation, il n'est pas toujours approprié, une classe d'équipement peut nous permettre quelque chose de plus.

Anatoly: Tout à fait raison, MP3, en tant que format pour le stockage compact de données audio dans la technologie informatique et comme l'un des plus anciens formats, lentement, au fil du temps, a commencé à perdre de sa popularité. Pourquoi? Eh bien [tout d'abord], la technologie informatique a augmenté ses performances et sa mémoire, [ce qui signifie que] le besoin de compression, d'arrêt des données audio a disparu, il n'y a pas une telle tension - nous avons maintenant suffisamment de mémoire sur les ordinateurs modernes, les performances du processeur sont suffisantes, donc nous nous pouvons écouter du son numérique non compressé.

Quelles mesures ont été prises à l'époque pour éviter les blessures liées à la musique compacte? Tout d'abord, des formats concurrents pour le stockage audio compressé sont apparus. Ceux qui utilisent des ordinateurs et des tablettes Apple, des smartphones, des iPhones, ils savent quel format la musique est vendue dans l'Apple Store [iTunes] - si je ne me trompe pas, c'est MP4, non?

Dmitry: Oui.

Anatoly: Quelqu'un dira que c'est aussi du son numérique et aussi compressé et qu'il a [aussi] des défauts. Hé bien oui. Seulement, il est apparu plus tard que MP3, le travail sur ce format a commencé en 1997, c'est-à-dire presque 3-4 ans plus tard [la création] de MP3, ce qui signifie que les développeurs qui ont développé ce système de codage audio compressé ont pris en compte les problèmes et les défauts qui étaient dans les formats précédents améliorés [produit].

À quoi dois-je apporter ces exemples: le son numérique, ayant surgi à un certain stade, a connu une certaine évolution avec l'avènement des appareils informatiques, les formats de stockage non compressé des données audio et les formats de [stockage] du son compressé ont évolué. La manière moderne d'encoder l'audio en MP3 ou similaire est assez avancée.

Ayant gagné en popularité à un certain stade, le [format] est désormais fixé sur un certain groupe d'appareils: principalement sur la technologie de communication mobile portable - smartphones, téléphones, lecteurs, etc. En raison de la petite taille, de la petite puissance et des faibles capacités des haut-parleurs intégrés aux smartphones , il s'est organiquement fondu dans cette structure. Si nous parlons d'équipement sérieux, pour l'écoute domestique, en particulier, l'équipement Hi-Fi, alors ici, bien sûr, tous les auditeurs exigeants ne conviendront pas que les formats numériques pour stocker des données audio sous forme compressée conviennent.


Pour ceux qui n'acceptent pas les formats numériques pour stocker des données sous forme compressée, Audio Mania propose des solutions analogiques. Sur la photo - un fragment de l' installation d'Audiomania

Nos matériaux associés:


Il est probablement approprié de poursuivre notre conversation avec les caractéristiques de l'interface audio d'un ordinateur moderne, qui est la base du son numérique moderne. De plus, au cours de la conversation, il deviendra clair comment cela [se rapporte] au sujet de notre conversation, à l'équipement audio haut de gamme, par exemple. Ainsi, une carte audio moderne d'un ordinateur personnel ou portable a plusieurs caractéristiques qui décrivent complètement les capacités de cet ordinateur en termes de stockage ou de reproduction du son numérique. Ce que je veux dire? Les fréquences auxquelles la carte audio s'exécute et la profondeur de bits de cette carte audio. L'utilisateur connaît probablement des nombres tels que 16 bits et 44 kHz.

Dmitry: Bien sûr.

Anatoly:Ce sont les caractéristiques de base de toute section audio d'un ordinateur moderne, qu'il s'agisse d'un ordinateur de bureau ou portable. Les mêmes caractéristiques (c'est-à-dire la profondeur de bits des processeurs) se retrouvent également sur les lecteurs de CD standard. Sans entrer dans les détails, il faut dire que cette norme est apparue il y a longtemps. Développer une norme pour le stockage de données audio de ce type (16 bits et 44 kHz) par les fabricants d'équipements audio domestiques, qui est très populaire chez nous tous - Phillips, Sony, Toshiba. Avec le développement de la technologie informatique, les cartes audio ont acquis des capacités supplémentaires, en particulier, un nombre accru de fréquences auxquelles la carte audio peut fonctionner - 48 kHz, 96 kHz, 192 kHz, le bit de processeur qui est installé sur la carte audio a également augmenté - 16 bits, 24 bits ...

Dmitry : 32 ...

Anatoly:Et maintenant 32. Parlant dans une langue professionnelle, la fréquence de 44 kHz est la fréquence nécessaire, ce qui vous permet de sauvegarder la forme d'onde d'un signal audio, par exemple, une œuvre musicale ou une voix humaine. D'où vient ce numéro et pourquoi la carte audio devrait-elle fonctionner à cette fréquence? Il y avait un tel mathématicien Kotelnikov qui, avec son théorème, a prouvé cette limite d'un dispositif technique, qui permet de numériser un signal avec une qualité suffisamment élevée.

Il convient de donner un exemple: le son le plus simple, par exemple, le son d'une pipe et d'une pipe pour enfants ... la forme de son signal sonore est similaire à une onde sinusoïdale, disons-le. Qu'est-ce que 44 kHz? Il s'agit de la fréquence de la carte audio. Un tel signal, une fois dans une carte audio, sera instantanément coupé en 44 000 bandes verticales. Qu'obtenons-nous à la suite de cette réduction? Nous obtenons la valeur du volume du signal à chaque instant - un quarante-quatre millième de seconde.

Dmitry: Et maintenant, nous devons crypter toutes ces bandes.

Anatoly:Nous devons maintenant crypter ces bandes et les enregistrer sur l'ordinateur. Comment pouvons-nous les chiffrer? Vous pouvez vous souvenir de la valeur du volume dans chaque barre. Eh bien, ici, une autre caractéristique de la carte audio joue son rôle - sa profondeur de bits. En particulier, 16 bits. Qu'est-ce que 16 bits? Les informaticiens disent ceci: deux à seizième degré.

Dmitry: Alors.

Anatoly:Quel est le nombre, 65 mille avec un sou? Il s'avère que je peux utiliser un nombre de zéro à 65 536, pour être exact, pour exprimer la hauteur de cette bande elle-même. Ce sera un certain nombre. Dans un cas, ce sera 60 000, dans l'autre cas - 30 000, etc. [Moyens], dans ce cas, nous obtiendrons un tableau pour une seconde de temps, qui contiendra 44 000 chiffres, chacun étant exprimé par un nombre de zéro à 65 536. Ce tableau sera un fichier son non compressé.

Dmitry: Maintenant, nous travaillons plus loin avec cette table ...

Anatoly:Que voyons-nous ici? Et si la vitesse de la carte audio était plus élevée, [alors], probablement, nous obtiendrions un nombre beaucoup plus grand de ces nombres, qui décriraient plus précisément notre signal. Naturellement, le souhait des développeurs et des fabricants est de se rapprocher de la véritable forme d'onde. C'est de là que vient le désir des concepteurs techniques d'augmenter les fréquences. D'année en année, pour ainsi dire, d'une classe d'appareils à une autre, etc.

Cette évolution a conduit au fait qu'à partir d'une fréquence de 44 kHz, ces fréquences ont lentement augmenté. J'ai utilisé le mot malheureux "tranquillement", car en fait le développement était beaucoup plus compliqué, toutes les fréquences étaient utilisées: 32 kHz et 24 kHz. Un auditeur ou quelqu'un de curieux peut demander: "Où sont utilisées ces fréquences?" car il est clair que le son [lors de l'utilisation de fréquences inférieures à 44 kHz] sera plus rugueux. Par exemple, lors de la transmission de signaux de télévision dans la technologie téléphonique. Il n'est pas nécessaire de décrire très précisément le signal, mais lors de la transmission d'un signal musical complexe, certaines parties de concert, comme il s'est avéré, 44 kHz ne satisfont pas aux exigences d'une audition exigeante. Par conséquent, les caractéristiques de fréquence des cartes ont invariablement augmenté de génération en génération.

Pour terminer la conversation sur ce sujet et ne pas entrer dans les détails, cela vaut peut-être la peine de donner un exemple: la naissance de l'audio HD, c'était en 2004, Intel a développé cette année la spécification de l'audio HD, qui se compose des deux valeurs suivantes: 32 bits et 192 kHz. Donc, après l'élaboration des spécifications pour l'audio HD ... qu'est-ce que la HD, comment la déchiffrer?

Dmitry: Haute définition. Une haute résolution.

Anatoly:Haute résolution, c'est-à-dire audio haute résolution. Une telle norme peut déjà être la base d'un équipement audio de très haute qualité, pour des sources de signaux qui, par exemple, seront en concurrence, je n'aurai pas peur de ce mot, avec le vinyle. Comment s'est terminée l'histoire du développement audio HD? Intel a transféré son développement à trois sociétés de fabrication d'interfaces, puis, sur la base de ces interfaces, à des sociétés qui produisent des codecs audio pour des appareils techniques spécifiques, en commençant par Realtek et en terminant par Wolfson, des codecs développés, chacun pour leurs processeurs numériques.

Source: https://habr.com/ru/post/fr383321/


All Articles