Le codage et la compression du son

Transcription

Le codage et la compression du son
A) Principe
Succession de rectangles à largeur fixe : valeur d’échantillonnage
Échantillon qui sera codé en binaire
Codage à 8 bits
Codage à 16 bits
B) Compression sans perte
Codage de Huffman :
C) Compression avec perte
Compression
Taille du fichier
Gain de place
Aucune
1273 Ko
0%
WinZip 7.0
1173 Ko
8%
WinRar 2.50
1154 Ko
10%
MP3 haute qualité
288 Ko
77%
MP3 basse qualité
58 Ko
95%
A) MP3
1/12ème
• Fréquence d’échantillonnage : 16 kHz à 48 kHz
B) AAC
• Fréquence d’échantillonnage : 8 kHz à
96 kHz
• Le meilleur sur le rapport Qualité/
Compression/Espace disque
A) FLAC
Signal régulier
• Compression d’un fichier
entre 30% et 70%
• Fréquence
d’échantillonnage : 1 kHz
à 1 000 kHz
Signal irrégulier
B) Monkey’s Audio
• Plus rapide à l’encodage et au décodage que FLAC
• Plus lent à la compression que FLAC
OROS Agnès ; SOLNSTEV Vladislav ; HERAUD Charlotte
Le codage du son et les différents formats de compression
I°/ Comment code-t-on le son ?
a) Principe
Le son est une onde mécanique qui se propage dans l’air. Elle commprime plus ou moins
l’air, et notre tympan saisit ces variations, c’est de cette manière que l’on entend. Pour que
l’ordinateur puisse lire le son, il faut le transformer en données numériques. Pour passer du
signal analogique au signal numérique, il faut passer d’une onde sonore à son image
électrique. On transforme l’onde en une succession de rectangles de largeur fixe mais de
hauteur variable, pour que l’onde soit la mieux représentée possible. La largeur des
rectangles, en octet, peut être modifiée pour une meilleure précision. Cette largeur est appelée
valeur d’échantillonnage. Sur le graphique, on voit que la zone 1 a une perte de données
nettement supérieure à celle de la zone 2, où la largeur des rectangles est plus faible. Mais, le
codage du son se fait forcément avec une perte de données, bien qu’elle ne soit pas
entendable. Plus cette valeur est faible, plus on a l’impression d’un son continu. Chaque
échantillon a une amplitude différente. C’est cette amplitude à chaque instant t du signal qui
va être traduite en une série de signaux binaires (succession de 0 et 1) à l’aide d’un
convertisseur analogique/numérique, c’est la quantification du son. La qualité d’un son
numérisé dépend de la valeur d’échantillonage, mais aussi du nombre de bits utilisés pour
coder chaque échantillon. Un échantillonage de 10 Hz signifie dix échantillons par seconde.
b) Compression sans perte
La compression sans perte consiste à compresser un son en ne perdant aucun bit de son
information. Il y a autant d'information après la compression qu'avant, elle est seulement
réécrite d'une manière plus précise. Cette compression est aussi dite codage de Huffman
d’après son inventeur. La méthode de compression Huffman consiste à diminuer au maximum
le nombre de bits utilisés pour coder un fragment d’information. Cette méthode repose sur un
arbre composé de nœuds. Chaque caractère constitue une feuille de l’arbre à laquelle on
associe un poids selon son occurrence. L’algorithme de Huffman se base sur la fréquence
d’apparition d’un fragment pour le coder : plus un fragment est fréquent, moins on utilisera de
bits pour le coder. Pour obtenir le code binaire de chaque caractère, on remonte l'arbre à partir
de la racine jusqu'aux feuilles en rajoutant à chaque fois au code un 0 ou un 1 selon la branche
suivie.
c) Compression avec perte
L’intérêt de la compression avec perte, ou destructive, est de minimiser la taille du fichier
audio. Aucun homme normalement constitué ne peut entendre un son à la fréquence de 20
KHz. En supprimant les informations inaudibles, on réduit considérablement le nombre de
données à prendre en compte et par conséquent la taille du fichier. Une autre technique se
résume à repérer les sons dominants et retirer les données relatives aux sons dominés. Prenons
l’exemple d’un enregistrement de la voix d’une petite fille sur le bord d’un circuit de formule
1. Lorsque les bolides passeront près d’elle, sa voix sera inaudible. A ce moment, les données
relatives à son discours seront supprimées.
OROS Agnès ; SOLNSTEV Vladislav ; HERAUD Charlotte
II°/ Quelques exemples de formats de compression du son avec perte
a) MP3
Le format MP3 (MPEG Audio layer 3) est le format de compression du son le plus répandu. Il
compresse à un taux de 1/12ème les formats audio habituels, comme le CD audio, c’est un
format de compression avec perte. Il permet de faire tenir l’équivalent en fichiers de douze
albums de musiquesur un seul CD-ROM, en n’altérant que faiblement le son pour l’oreille
humaine. Il consiste à éliminer les fréquences inaudibles pour la plupart des auditeurs dans
des conditions normales d’écoutes, comme les ultrasons, les infrasons, les sons masqués,…
En plus de réduire considérablement la taille du fichier, le format MP3 apporte une
fonctionnalité supplémentaire : les métadonnées, qui donnent des informations sur le fichier
audio comme l’interprète, le titre, le nom de l’album,… Pour un fichier MP3, la fréquence
d’échantillonnage varie de 16 à 48 KHz (16 000 à 48 000 valeurs par seconde), avec une
profondeur d’échantillonage de 16 bits.
b) AAC
Le format AAC (Advanced Audio Coding) est un format de compression avec perte ayant
pour but d’offrir un meilleur ratio qualité/débit binaire que le format MP3. Par rapport au
MP3, le format AAC apporte une plage de fréquence d’échantillonnage plus large, en effet
elle peut varier de 8 KHz à 96 KHz. Aussi, le nombre de canaux peut aller jusqu’à 48. Pour
un débit équivalent, l’AAC fournit une qualité audio supérieure par rapport au MP3. à
mémoire de stockage égale, le AAC provoque moins de variations perceptibles que le MP3.
L'algorithme
AAC
est
l'un
des
meilleurs
de
sa
catégorie
sur
le
rapport Qualité/Compression/Espace Disque. De ce fait, de plus en plus de radio diffusent en
AAC.
III°/ Quelques exemples de format de compression du son sans perte
a) FLAC
Free Lossless Audio Codec, ou FLAC, est un format de compression libre et sans perte. En ne
supprimant aucune données, il permet de compresser un fichier audio entre 30 et 70 % en
fonction de la régularité de ses signaux. Un signal aléatoire comme du bruit ne se compresse
pas très bien. Le format FLAC est surtout utilisé pour le stockage de données, au cas où le
fichier original soit endommagé. Il peut manipuler n’importe quelle donnée audio avec une
profondeur d’échantillonnage de 4 à 32 bits par échantillon, n’importe quelle fréquence
d’échantillonnage de 1 à environ 1 000 000 Hz avec des incréments de 1 Hz, et n’importe
quel nombre de canaux audio de 1 à 8, ce qui lui donne d’énormes possibilités et une grande
précision.
b) Monkey’s Audio
Monkey’s Audio est un format de compression sans perte de données. Toutefois, la plupart
des utilisateurs lui préfèrent FLAC car il est plus rapide pour l’encodage et le décodage bien
que plus lent à la compression. De plus, Monkey’s Audio est compatible avec moins de
systèmes d’exploitation et de lecteurs que FLAC.
OROS Agnès ; SOLNSTEV Vladislav ; HERAUD Charlotte
Nous avons réalisé une expérience sur Audacity :
Nous avons encodé ce son dans différents formats de compression, afin de comparer le gain
de place.
En MP3 (compression avec perte) :
En WAV (compression avec perte) :
OROS Agnès ; SOLNSTEV Vladislav ; HERAUD Charlotte
En OGG (compression avec perte) :
En FLAC (compression sans perte) :
OROS Agnès ; SOLNSTEV Vladislav ; HERAUD Charlotte
En Monkey’s Audio (compression sans perte) :
Le gain de place lié à la compression avec perte est considérable.