Movatterモバイル変換

Aller au contenu

Format de fichier audio

Modifier les liens

Un article de Wikipédia, l'encyclopédie libre.

Une icône de fichier audio.

Unformat de fichier audio est unformat de données utilisé eninformatique pour stocker dessons, notamment de lamusique, et de lavoix humaine, sous formenumérique. L'industrie a produit de nombreux formats destinés soit à la production, soit à la diffusion.

L'élément deprogramme qui transforme le signal en fichier et le fichier en signal s'appelle uncodec, abréviation de « codeur-décodeur » (coder-decoder).

Lestélécommunications et particulièrement latéléphonie mobile utilisent des codecs adaptés à la transmission de la parole.

Le codage des sons

[modifier |modifier le code]

Les formats de codage audio dérivent d'étudespsychoacoustiques. Ils limitent la quantité d'information dans le signal de façon à réduire le débit (et donc le poids du fichier), en tenant compte de laperception humaine des sons et de la qualité de la reproduction qu'ils tolèrent.

Toutes les conversions de sons en signal audio analogique ou numérique, se limitent auspectre defréquences correspondant à l'audition humaine, ou un peu plus.
La plupart tirent parti de la moindre sensibilité de l'oreille aux fréquences les plus basses et les plus élevées en déplaçant vers ces fréquences lebruit de fond et lebruit de quantification.
Les codecs peuvent de plus détecter les redondances du signal audio, de façon à ne transmettre que la partie imprévisible du signal. Tous les éléments qui font la différence entre le signal et le bruit, qu'il s'agisse de fréquences musicales ou de rythmes, sont fondés sur la répétition à plusieurs reprises d'un phénomène.
Pour obtenir un débit plus réduit, les codecs peuvent tirer parti des effets de masque, fréquentiel et temporel, de l'audition humaine, ainsi que de la faible discrimination des hauteurs spectrales dans les deux octaves supérieures de l'audition.
Les systèmes les plus élaborés se basent sur un véritable modèle de l'audition humaine et visent à ne transmettre que les informations nécessaires pour obtenir la mêmeperception auditive que pour le signal brut denumérisation.

Les codages se situent à divers points de compromis entre le coût de production, le débit numérique, les contraintes de diffusion et la qualité perceptuelle.

En poursuivant un objectif de réduction de la quantité d'information, on peut être amené à définir une qualité admissible de reproduction, qui soit distincte de la meilleure qualité possible. Quand l'usage du codec vise la transmission de la parole, les paramètres sont ajustés pour cette utilisation moins exigeante que la musique.
La plupart des encodages donnent, pour un même décodeur, de meilleurs résultats avec des processus de calcul longs, ou qui tiennent compte, en plusieurs passes, du segment audio entier ; la qualité d'écoute peut être moindre pour les applications en temps réel, qui imposent un faible délai.

En principe, un encodage perceptuel avancé donnant, pour le même enregistrement, une taille inférieure à celle d'un codage pour CD pourrait avoir une qualité subjective supérieure, à condition que leur original commun ait été une source enregistrée avec unefréquence d'échantillonnage et unerésolution supérieures. En pratique, d'une part on choisit souvent des compressions privilégiant plus la diminution de la taille du fichier, d'autre part la source avant compression est souvent un fichier CD.

En 2014, le codec le plus utilisé était de loin leMP3, suivi duwma (Microsoft), et de l'AAC^{[réf. nécessaire]}.

Il faut distinguer leformat de fichier et lecodec. Beaucoup de fichiers utilisent le formatRIFF, qui peut contenir une quantité d'éléments (« chunks ») divers. Un en-tête qui occupe les quatre premiers octets indique le type RIFF, suivi des indications nécessaires sur l'emplacement des autres éléments, construitsrécursivement de la même façon. Ces éléments peuvent contenir toustypes de données. Ceux de ces éléments qui codent du son indiquent le codec dans leur en-tête. La machine ignore les éléments qu'elle ne peut décoder. Un fichier identifié commewav peut ainsi contenir des éléments dont le codec est mp3.

Certains systèmes, et les utilisateurs humains, peuvent utiliser l'extension du nom defichier qui désigne conventionnellement le format du fichier. Mais cette indication, la plupart du temps, indique une liste de codages possibles, et non le codage lui-même. Elle concerne plus le système de classement des fichiers sur ledisque dur, que le format audio lui-même. Changer ce nom n'a pas d'incidence sur la manière dont la machine décode le fichier, cela peut seulement gêner la recherche du programme le plus adapté pour le faire.

Caractéristiques des codages audio

[modifier |modifier le code]

Nombre de canaux sonores codés : mono, stéréo, multicanaux.
Fréquence d'échantillonnage : nombre d'échantillons par seconde utilisés pour décrire numériquement le signal qui représente l'onde sonore pour chaque canal. La bande passante dépend étroitement de cette caractéristique.
Résolution de chaque échantillon en bits. Lerapport signal sur bruit dépend de cette caractéristique si lebruit de quantification est supérieur au bruit propre du signal. Ledither augmente un peu le bruit de fond, afin de le rendre indépendant du signal, et de le déplacer vers une région du spectre.
Débit numérique : taille du fichier par rapport à la durée du son.
compression de données ou réduction de débit par rapport à un fichier brut.
- avec reconstitution de la forme d'onde initiale (codage de l'entropie), ou
- avec reconstitution (plus ou moins précise) de l'impression sonore (codage psychoacoustique).
Puissance de calcul nécessaire au codage.
Puissance de calcul nécessaire au décodage.
Structure permettant ou non
- de commencer à jouer le fichier alors qu'on en connaît pas encore la fin,
- de jouer un fichier à partir du milieu sans connaître le début,
- de sauter sur un emplacement déterminé,
- d'enregistrer des données ancillaires et auxiliaires (Métadonnées),
- de gérer les droits de reproduction numérique (DRM),
- d'adapter automatiquement le niveau au local d'écoute.

Selon l'usage auquel le fichier est destiné, certaines caractéristiques ont plus d'importance que d'autres.

Un format destiné aux baladeurs :

Deux canaux suffisent.
Le débit doit être réduit pour enregistrer des temps suffisamment longs dans les mémoires des baladeurs.
La puissance de calcul nécessaire au décodage doit être faible pour permettre une bonne autonomie des lecteurs.
La bande passante doit être bonne pour écouter de la musique.
Le rapport signal sur bruit n'a pas besoin d'être très bon, parce que la consommation ne se fait pas dans des locaux silencieux et destinés à l'écoute.
La gestion des droits de reproduction intéresse les producteurs.
La possibilité d'adaptation automatique au local d'écoute (relever le niveau des passages faibles quand l'ambiance est bruyante grâce à des données auxiliaires) est un avantage.
La reconstitution de la forme d'onde est inutile.
La puissance de calcul nécessaire au codage peut être importante.

Un format destiné à la production cinéma :

Il faut deux à huit canaux.
La bande passante doit être excellente, elle ne pourra que se dégrader par la suite.
Le rapport de phase entre canaux influe sur la stéréophonie.
Le rapport signal sur bruit doit être excellent et la reconstitution de la forme d'onde est préférable
1. les signaux sont appelés à être retouchés, mélangés, traités,
2. la consommation finale se fait dans des locaux silencieux et destinés à l'écoute.

Comme c'est une activité industrielle :

Le débit et la puissance de calcul nécessaire tant au codage qu'au décodage sont à peu près indifférents.
La gestion des droits de reproduction, et l'adaptation automatique au local d'écoute n'ont pas d'intérêt à ce stade.

Dans un format donné, les fichiers peuvent être déclinés en plusieurs échelles dequantification (8, 16 ou 24 bits) avec différentesfréquences d'échantillonnage (par exemple22,05 kHz,44,1 kHz,48 kHz,88,2 kHz,96 kHz,176,4 kHz,192 kHz,) appliqués à un certain nombre de voies (monophonique,stéréophonique, 5.1surround, etc.). Les formats qui utilisent la réduction de débit par codage psychoacoustique proposent diverses qualités de reproduction, correspondant à plus ou moins de réduction de débit.

Les différents canaux sonores peuvent être réels et multiplexés, ou mélangés discrètement aux signaux principaux, que tous les décodeurs restituent, tandis que seulement ceux qui exploitent desalgorithmes spécifiques (Surround) décodent et restituent les autres. Quand il y a réduction de débit, celle-ci peut utiliser ou non laredondance entre les canaux.

Les codecs peuvent utiliser deux stratégies, avec leurs avantages et inconvénients respectifs.

« Constant bit rate » ou CBR : Le « débit binaire fixe » donne à chaque trame du fichier, correspondant à une durée élémentaire, la même taille.
« Variable bit rate » ou VBR : Le « débit binaire variable » adapte la compression à chaque passage du fichier, pour obtenir une qualité homogène. En général, on peut arriver à une meilleure qualité subjective globale pour une même taille de fichier, puisque le fichier peut comporter plus d'informations pour les passages difficiles. En contrepartie, cette stratégie est délicate à mettre en œuvre pour le codage en direct ; il faut en général au moins deux passes pour l'encodage. La première repère les passages contenant le plus d'information, la seconde répartit la compression selon les résultats de la première et l'objectif global de taille qu'impose l'utilisateur. Il est aussi plus difficile d'atteindre un point repéré uniquement par le temps.

Utilisation des formats

[modifier |modifier le code]

Un format est dit « de production » quand il sert à la confection d'un prototype, « de diffusion » lorsque l'enregistrement, qui ne subira plus de modifications, sera copié à un grand nombre d'exemplaires ou diffusé sur uncanal de communication dedébit binaire limité.

Dans un processus de production, la taille du fichier est de moindre importance. On choisit des formats qui conservent autant que possible l'information enregistrée dans les éléments sonores, et qui permettent des traitements de meilleure qualité, même au prix d'une importante consommation de ressources de calcul. Le plus souvent, on évite lacompression de données, et même on augmente la taille des fichiers, par exemple en ajoutant des métadonnéesencapsulées et en convertissant le format des données numériques de nombres entiers envirgule flottante. La plupart du temps, le signal peut être restitué après décodage identique à ce qu'il était avant le codage.

Dans la diffusion des fichiers audio, la taille des fichiers a beaucoup plus d'importance. Le codage vise à restituer l'impression sonore, sans garantir la restitution du signal à l'identique. La réduction du débit des données rend incertaine la qualité d'un traitement ultérieur.

La question de la qualité

[modifier |modifier le code]

Lorsqu'on considère la qualité de la transmission du point de vue de la perception humaine, son évaluation ne peut se faire qu'avec des méthodes psychoacoustiques, soit en étudiant l'appréciation d'échantillons d'auditeurs, soit avec des modèles d'évaluation élaborés à partir de ces enquêtes^[1]. Ce contrôle de la qualité des méthodes d'encodage est un champ de recherche depuis 1990^[2]. L'Union internationale des télécommunications a défini des« méthodes d'évaluation subjectives de la qualité de la transmission^[3] », qui résultent en unenote d'opinion moyenne (MOS,« Mean Opinion Score ») qui peut varier entre 0 (très mauvais) et 5 (excellent, comparable à la version d'origine).

Pour un format de fichier sans réduction de débit, la qualité de reproduction peut assez bien s'évaluer par le débit numérique, qui est le produit de la fréquence d'échantillonnage par le nombre de bits. Le CD, à 44,1 kHz et 16 bits, peut servir de point de comparaison dans cette évaluation [réf. souhaitée]. Quand on réduit le débit, la qualité se dégrade rapidement ; quand on l'augmente, elle s'améliore de plus en plus marginalement au fur et à mesure que le débit augmente. Pour l'enregistrement en direct, où, contrairement au CD terminé, on ne peut contrôler et anticiper le niveau, une résolution supérieure est appréciable, d'autant plus qu'on ne souhaite pas en général, à ce stade, comprimer la dynamique sonore.

Aidé par les nouveaux supports informatiques, le son peut être numérisé en 24 bits. On atteint ainsi un rapport signal sur bruit supérieur à celui du matériel de prise de son. Pour le mélange et le traitement du signal, il est préférable d'utiliser une plus grande résolution, pour éviter que le cumul des arrondis dans les très nombreux calculs que nécessitent les filtres et les mélanges ne détériore le signal. En codage en virgule flottante, 32 bits (IEEE 754 simple précision) suffisent pour éviter cette accumulation. Certaines machines travaillent en 64 bits (IEEE 754 double précision), et les erreurs se trouvent ainsi repoussées à l'infini, au prix d'une énorme marge de calculs inutiles.

De la même façon, augmenter la fréquence d'échantillonnage à la prise de son permet d'utiliser des filtres anti-repliement moins brutaux. Quand les filtres doivent passer de « passe » à « coupe » sur uneoctave, comme dans le CD^[4], ils transmettent un peu irrégulièrement la partie du signal qui doit passer, et ne peuvent couper complètement la partie qui doit disparaître. Les meilleurs filtres demandent beaucoup de calculs et ils imposent un délai important au signal. Il est possible de reporter cette opération à la phase finale de la production (masterisation en musique). Les appareils modernes offrent des fréquences d'échantillonnage doubles et quadruples du CD : 88,2 kHz et 176,4 kHz et de celles de la télévision : (48 kHz), soit 96 kHz et 192 kHz.

L'utilisation de formats de qualité supérieure s'impose durant les phases d'enregistrement et de production. La précision supplémentaire ainsi obtenue autorise des calculs plus fins lors de traitements numériques dans les logiciels audio. Ceci permet une amélioration subtile de la qualité lors de l'application d'effets tels que la réverbération. Et le coût se répartit entre les dizaines de milliers de consommateurs du produit fini.

Le format du CD obéit à d'autres critères. Chaque auditeur doit acquérir le matériel pour l'écoute. Celui-ci ne doit pas être trop coûteux. L'enregistrement n'est pas destiné à être modifié : le niveau peut exploiter la totalité de la dynamique du média. Le CD, avec une dynamique effective d'environ 92 dB est adéquat pour une dynamique sonore de 70 dB, correspondant à un mixage de musique classique. Pour les autres genres musicaux, il est largement suffisant, si l'on en juge par l'évolution des mixages (voir Guerre du volume). Il correspond aussi à l'état de l'art dans les années 1980, progressivement amélioré par les progrès sur les filtres numériques et sur ledither.

Des offres promettant un son de qualité supérieure au CD existent : pour les disques physiques, leDVD-Audio ou leSuperAudio CD deSony, qui a l'avantage d'exister en version hybride : il est lisible à la fois selon la norme CD Audio classique, sur tous les lecteurs, et en SACD sur un lecteur dédié. D'une part, ces revendications ont été contestées^[5], alors que parallèlement, le son du CD était amélioré, sans en changer le format, et d'autre part, le public audiophile visé par ces arguments semble avoir été trop restreint : pour entendre une éventuelle différence, il faut une assez grosse installation. Mais l'existence de cette différence n'est pas universellement reconnue ; par exemple, les salles de cinéma offrent un son de haute qualité, multicanal, avec une forte dynamique, en utilisant un codage seulement un peu supérieur à celui du CD, 48 kHz et 16 bits.

La majorité du public non seulement se contente de la qualité CD, mais se tourne vers des formats plus portables, parfois au détriment de la qualité de reproduction. Pour les applications audiovisuelles, il n'a pas le choix.

Formats de fichiers audio

[modifier |modifier le code]

RIFF

[modifier |modifier le code]

Plusieurs formats audio étant fondés sur la norme RIFF (Resource Interchange File Format), format d'échange de fichiers ressources, il convient de le décrire en premier, bien qu'il s'agisse d'une norme d'usage général.

Le principe est de définir desconteneurs et desbouts (chunks (en)), les uns et les autres identifiés par leurs quatre premiers octets, qui sont, généralement, des caractèresASCII, de façon à pouvoir être lus par les techniciens qui ouvrent le fichier avec unéditeur hexadécimal, suivi par quatre octets qui indiquent où se trouve la fin du conteneur (ce nombre d'octets limite la taille d'un fichier RIFF à4 Gio).

Un fichier RIFF commence par « RIFF » et la longueur totale; puis on trouve l'identifiant du premier sous-conteneur, par exemple « INFO » suivi de la longueur de ce bout, à la fin duquel commence le suivant, par exemple « WAVE » suivi de la longueur de ce bout.

WAV

[modifier |modifier le code]

Article détaillé :Waveform Audio File Format.

Le formatWAV (ou WAVE), (« Waveform Audio File Format ») est un conteneur fondé sur le format de fichierRIFF, dans lequel son identifiant est « WAVE ». Il peut contenir des codages audio avec réduction de débit ou non, mono, stéréo ou multicanal, il a été mis au point parMicrosoft etIBM. Les informations nécessaires au décodage se trouvent au début du fichier. Le WAV permet de stocker desmétadonnées dans le fichier.

Le plus souvent, il contient de l'audio sans réduction de données, avec des fréquences d'échantillonnage et des résolutions variées.

Le suffixe des fichiers créés est.wav.

BWF

[modifier |modifier le code]

Article détaillé :Broadcast Wave Format.

L'European Broadcasting Union a défini uneextension broadcast du format WAVE à l'usage des professionnels, le« Broadcast Wave Format » (BWF en abrégé). Il s'agit d'un bloc (chunk) demétadonnées ajouté au fichier.wav. Dans le format RIFF, les programmes qui rencontrent un bloc (chunk) qu'ils ne peuvent interpréter l'ignorent simplement. Les fichiers BWF sont donc compatibles avec les lecteurs WAVE classiques. Leur suffixe reste .wav. C'est le format d'enregistrement usuel de nombreusesstations de travail audio professionnelles de la télévision et du cinéma.

Le bloc d'extension broadcast s'identifie dans le fichier WAV par le codebext (« broadcast extension »). Il inclut une référence standardiséeTimestamp qui permet la synchronisation avec un élément d'image distinct, ainsi que des informations d'identification du contenu et de mesure du volume, de la dynamique et du niveau de crête^[6].

Des appareils enregistreurs multipistes Sound Devices^[7], Zaxcom^[8], HHB USA^[9], Fostex^[10], Nagra^[11] et Aaton^[12] utilisent le BWF.

Ogg

[modifier |modifier le code]

Le formatOgg est unformat libre, fruit de la fondationXiph.org. Ogg est un conteneur qui peut contenir des pistes audio sans perte (FLAC), codées avec le codec psychoacoustiqueVorbis, audio parlées (Speex) et vidéo (Theora). Un « fichier Ogg » peut donc contenir l'un ou l'autre (ou une combinaison) de pistes.

AIFF

[modifier |modifier le code]

L'AIFF est l'équivalent du format WAV sur les ordinateurs deApple. Les résolutions 8, 16, 20, 24 et32 bits (à virgule flottante) sont acceptées.

Le suffixe des fichiers créés est .aif.

Une variante l'AIFF-C permet de compresser la taille jusqu'à 6x.

CAF

[modifier |modifier le code]

LeCAF (Core audio format) a été développé par Apple pour s'affranchir des limitations de conteneur audio plus ancien comme le AIFF ou le WAV.

Il est compatible avec le système Mac OS X d'Apple depuis la version 10.3 et est lisible par Quicktime 7.

RAW

[modifier |modifier le code]

Cette sectionne cite pas suffisamment ses sources (juillet 2016).

Pour l'améliorer, ajoutezdes références de qualité et vérifiables (comment faire ?) ou le modèle{{Référence nécessaire}} sur les passages nécessitant une source.

RAW (Real Audio Wrapper) est un format audio utilisé pour représenter les données de son enmodulation d'impulsion codée sans en-tête ni métadonnées. Le fichier RAW est inexploitable sans les informations sur la fréquence d'échantillonnage, le nombre de bits de la quantification et sa loi linéaire ou logarithmique ainsi que le codage des valeursgrand-boutien ou petit-boutien, ainsi que le nombre de canaux, qui doivent être transmises par ailleurs.

Format audio non compressé

[modifier |modifier le code]

Article détaillé :Modulation d'impulsion codée.

LePCM n'est autre que la représentation du signal audioéchantillonné,quantifié etencodé.

L'encodage se réduit au choix de lareprésentation numérique, qui peut être, pour une même valeur de niveau de quantification, en entier positif (non signé), entier signé, entier signé encomplément à 2ⁿ, ou àvirgule flottante^[13]. Les canaux sont multiplexés échantillon par échantillon. Chaque échantillon est, du point de vue du codage et du décodage, indépendant ; il n'est jamais nécessaire de connaître plus d'un échantillon pour décoder, et, par conséquent, un flux ou un fichier PCM peut se couper ou se remplacer à n'importe quel point.

Les logiciels de création musicale peuvent facilement produire ce format, comme lesenregistreurs numériques (ru). Sauf dans le cas de conversion de fréquence d'échantillonnage, nécessaire par exemple pour utiliser une source CD échantillonnée à 44,1 kHz dans un montage audiovisuel échantillonné à 48 kHz, ou bien lors de changement de résolution, exigeant un redithering, les étapes de codage et de décodage se limitent aux opérations de conversion analogique-numérique et deconversion numérique-analogique, ou de changement de format numérique. Les semi-conducteurs et les programmes qui effectuent ces opérations sont couramment appelés sous la désignation générique decodecs^[14].

L'audio PCM est généralement stockée dans un format conteneur WAVE surWindows ou AIFF surMac OS, incluant un bloc d'information qui contient les paramètres dereprésentation numérique, indispensables au décodage des données.

Formats de compression audio réversibles

[modifier |modifier le code]

La compression audio réversible se base, comme pour n'importe quel autre fichier informatique, sur le repérage de redondances dans les fichiers ou les flux audio. En référence à lathéorie de l'information, on la décrit commecodage de l'entropie. Les formats musicaux utilisent des méthodes de compression complexes, comme lecodage de Huffman ou le procédé deprédiction par reconnaissance partielle. Plus la méthode est complexe, plus le codec aura besoin de temps de ressources. Certaines méthodes de compression effectuent deux passes, l'une de reconnaissance du fichier, la seconde de codage ; elles impliquent donc un retard assez important pour les flux.

La compression sans perte (lossless) signifie qu'on utilise un algorithme tel qu'on puisse toujours retrouver les données d'origine.

Typiquement, la compression réversible permet de diviser la taille des fichiers par deux ou trois. Elle est relativement peu utilisée, car ce gain est faible en comparaison de ceux permis par la compression non réversible, qui cependant utilise les mêmes procédés, après avoir éliminé les informations jugées non pertinentes.

FLAC

[modifier |modifier le code]

Article détaillé :Free Lossless Audio Codec.

Le formatFLAC (Free Lossless Audio Codec), est unformat libre de compression audio sans perte.

Maintenu par la fondationXiph.org, ce format est très apprécié pour l'archivage, étant donné son fort taux de compression sans altération des données^[15].

Contrairement aux formats populaires comme le MP3, qui utilisent une compression avec perte pour supprimer les parties inaudibles de l'audio, FLAC utilise unecompression sans perte. Cela signifie que les données audio sont comprimées de manière à pouvoir être parfaitement décompressées, ce qui donne une copie identique du fichier audio original.

FLAC est un format open-source, ce qu signifie qu'il n'y a pas de frais de licence associés à son utilisation. Cela en fait une option économique pour les créateurs et les consommateurs^[16].

ALAC

[modifier |modifier le code]

Article détaillé :Apple Lossless.

L'ALAC (Apple Lossless Audio Codec), est un format de codage sans perte (lossless) créé en 2004 par Apple.

Shorten

[modifier |modifier le code]

Article détaillé :Shorten.

Shorten aussi dit SHN est un format audio qui applique une méthode standard decompression de données.

Formats de compression audio irréversibles

[modifier |modifier le code]

La compression audio avec perte d'informations(lossy) se base sur des algorithmes spécialisés pour déterminer quelles transformations simplifient la représentation du son tout en restituant au mieux l'impression sonore. Elle diminue la taille du fichier en éliminant les nuances non perçues ou moins essentielles au contenu. L'élimination est définitive, créer un fichier dans un format de haute qualité à partir d'un fichier compressé de cette manière ne peut servir strictement qu'à diminuer la charge de calcul du décodeur en lecture.

Le format le plus connu est leMPEG-1/2 Audio Layer 3, dont le suffixe est .mp3. Ce format propose une qualité sonore très correcte pour un débit de 128 kbit/s. C'est ce format qui a été massivement utilisé pour transférer les musiques via internet dès la fin des années 1990. Rapidement, des baladeurs avec une mémoire réenregistrable et capables de lire directement ce format sont apparus.

Dans la décennie 2000, de nouveaux formats ont été proposés. Vu les progrès des algorithmes et de la capacité de calcul du matériel, ils surpassent le MP3 sur le plan de la qualité à débit égal, et peuvent atteindre des qualités supérieures. De plus, certains sont moins contraignants que le MP3 quant aux droits d'utilisation (le Ogg est un format libre). Mais le MP3 reste le plus utilisé, car l'arrivée en continu de nouveaux formats, apportant un avantage assez faible par rapport aux précédents, ne permet pas de mettre en place un standard meilleur que le MP3 et lisible par tous les baladeurs.

Le format MP3 indique au décodeur la manière de reconstituer un signal audio à partir des données compressées. Il ne fixe aucune règle pour calculer la meilleure manière de représenter le son d'origine. Les codecs de MP3 ont donc pu réaliser des progrès importants depuis le début de l'utilisation de ce format.

L'encodage MP3 permet typiquement un gain d'un facteur 10 de taille du fichier. Cela a rendu possible non seulement le stockage d'un temps d'écoute formidable sur les supports informatiques, mais aussi leur échange par internet, souvent illégalement.

AC-3

[modifier |modifier le code]

Article détaillé :AC-3.

Le format de compression AC-3 (ouDolby Digital), est un standard introduit par la société américaineDolby Laboratories au début des années 1990.

Il permet de coder de l'audiomulticanal 5.1 (6 canaux), avec des débits allant de 32 à640 kbit/s.Ce format est employé dans les projections cinéma35 mm, en télédiffusions HD, sur supportDVD etBlu-ray, dans les consoles de jeux.

MP3

[modifier |modifier le code]

Article détaillé :MPEG-1/2 Audio Layer 3.

MP3 est l'abréviation deMPEG-1/2 Audio Layer 3. La section audio duMoving Picture Experts Group (MPEG) réunit en 1990 des techniques de compressionMUSICAM (de), développée pour la radiodiffusion numérique, etASPEC (de), prévue pour des transmissions point à point, en une seule norme. La norme a trois niveaux (« layer ») de complexité et de performance croissante, permettant des applications très variées. La couche 3 est adaptée à des applications nécessitant desdébits réduits^[17], d'où une adhésion très rapide du mondeInternet à ce format. L'ISO en fera une norme internationale dans les années 92-93^[18].

La musique s'encode d'ordinaire à un débit de 192 kbit/s, correspondant à un taux de compression (ratio) de 1 pour 7,35, c'est-à-dire qu'un fichier encodé en mp3 occupe7,35 fois moins d'espace qu'un fichier non compressé enregistré à 44,1 kHz. Une qualité maximum s'obtient à 320 kbit/s (taux de réduction de débit 1:4,4). La parole s'encode en général en mono au débit de 48 kbit/s (1:15). Le débit minimum est 8 kbit/s (1:88).

La norme .mp3 spécifie uniquement les opérations de décodage, afin de permettre la lecture des fichiers sur tous les appareils. La qualité du résultat, à un même taux de compression, dépend, dans une certaine mesure, de l'encodeur. La précision liée à la puissance de calcul, ainsi que la stratégie d'encodage, qui peut être en temps réel ou en plusieurs passes, interviennent. Les encodeurs peuvent être sujets à des royalties. L'encodeur MP3LAME (V5), permet d'obtenir à 130 kbit/s unequalité comparable au AAC (Advanced Audio Coding) à 48 kbit/s [19].

Le suffixe des fichiers créés est .mp3.

Type de compression :débit constant (CBR,Constant Bit Rate) oudébit variable (VBR,Variable Bit Rate).

mp3PRO

[modifier |modifier le code]

Article détaillé :mp3PRO.

Le formatmp3PRO, fruit de la collaboration entreThomson Multimédia et l'Institut Fraunhofer, combine l'algorithme MP3 et un système améliorant la qualité des fichiers comprimés appeléSBR pourSpectral Bandwidth Replication.

Ce format a été publié à la fin de 2001 ; un fichier MP3pro64 kbit/s a une qualité équivalente à celle d'un MP3 à128 kbit/s.

Le suffixe des fichiers créés est .mp3.

Ogg Vorbis

[modifier |modifier le code]

Article détaillé :Vorbis.

Vorbis se différencie des MP3, WMA et autre AAC par son algorithme. Il segmente les sources audio en paquets successifs, l'algorithme de compression agissant dans un premier temps sur chaque paquet indépendamment des autres. Cela lui permet d'avoir très peu de faiblesses sur certaines fréquences et de conserver la même qualité quel que soit le type de musique.

Le suffixe des fichiers créés est .ogg ou parfois .oga.

Parabus de langage, on appelle 'fichier Ogg' des fichiers musicaux compressés par l'algorithme Vorbis. Nous devrions parler de fichier Ogg Vorbis lorsque nous mentionnons un fichier.ogg qui ne contient qu'une piste sonore au format Vorbis.

OPUS

[modifier |modifier le code]

Article détaillé :Opus Interactive Audio Codec.

Opus est unformat ouvert decompression audio avec pertes, libre deredevances etnormalisé par l'Internet Engineering Task Force (IETF), conçu pour encoder efficacement la voix et plus largement l'audio dans un format unique, tout en ayant unelatence suffisamment faible pour la communication en temps réel et une complexité suffisamment faible pour lesprocesseurs embarqués peu puissants. Opus remplaceVorbis etSpeex pour les nouvelles applications et différents tests d'écoute en aveugle l'ont jugé supérieur à tous les autres formats audio à tous les débits, y comprisMP3,AAC et HE-AAC.

C'est le codec utilisé dans les conteneurs multimediawebm.

Le suffixe des fichiers créés est .opus

VQF ou TwinVQ

[modifier |modifier le code]

Article détaillé :TwinVQ.

Le formatTwinVQ (Transform-domain Weighted Interleave Vector Quantization), a été développé par NTT Cyber Space Laboratories et soutenu par Yamaha. Dans le même esprit que leMP3, il comprime encore plus et avec une meilleure qualité. On regrettera une durée de codage un peu trop longue, près de10 fois plus lente que leMP3. De plus, arrivé bien plus tard, et distribué sous une licence très restrictive, il a eu peu d'adeptes et est plus ou moins abandonné.

Le suffixe des fichiers créés est .vqf, .vql ou .vqe.

WMA

[modifier |modifier le code]

Article détaillé :Windows Media Audio.

Le formatWMA (Windows Media Audio), créé parMicrosoft à partir des recommandationsMPEG-4 en 1999, est utilisé par le logicielWindows Media Player. Ce format est lié à une gestion pointue des droits d'auteurs (Gestion numérique des droits, enanglaisDigital Right Management ou DRM) qui permet de définir par exemple une durée de vie limitée pour les fichiers ou d'interdire les possibilités de gravure.

Il existe plusieurs versions du codec (wma7.1, wma9, wma pro).

Le suffixe des fichiers créés est .wma.

AU

[modifier |modifier le code]

Article détaillé :Au (format de fichier).

Le formatAU est assez bien répandu grâce àUnix etLinux. La fréquence d'échantillonnage est comprise entre1 kHz et 200 kHz. Mais les applications de rendu audio ne lisent principalement que trois fréquences d'échantillonnage : 8012.821 (codec entré), 22050 et 44 100 hertz.

Le suffixe des fichiers créés est .au.

Les résolutions 8, 16, 20, 24 et32 bits (flottant) sont acceptées.

ASF

[modifier |modifier le code]

Article détaillé :Advanced Streaming Format.

ASFAdvanced Streaming Format, est un format conteneur deMicrosoft servant austreaming audio et vidéo.

AA

[modifier |modifier le code]

AA (en)Audible, est un format utilisé par Apple pour lesaudio-books.

AAC ou MPEG-2 AAC

[modifier |modifier le code]

Article détaillé :Advanced Audio Coding.

L'AAC (Advanced Audio Coding) est une extension duMPEG-2 et a été amélioré enMPEG-4, MPEG-4 Version 2 et MPEG-4 Version 3. Il a été reconnu fin avril 1997.

Le suffixe des fichiers créés est .aac, .mp4, .m4a.

Apple et l'AAC

[modifier |modifier le code]

Apple a choisi l'AAC comme codec privilégié, on le retrouve dans soniPod et son logicieliTunes. Pour la vente musicale en ligneiTunes Music Store, la normeAAC ne proposant pas de système de gestion des droits numériques (DRMs), Apple a développé son propre système, appeléFairPlay. Il est lisible sur Mac OS et Windows, uniquement avec le logiciel iTunes. En janvier 2009, Apple annonce la suppression des DRM FairPlay sur toute la musique de son siteiTunes Store 2

Le fait que l'AAC soit le seul format de compression plus performant que le MP3 qui soit pris en charge par les iPod a fortement contribué à sa popularité. Insuffisamment cependant pour qu'il s'impose comme successeur du MP3, d'autres formats cités faisant largement jeu égal en performances.

ATRAC

[modifier |modifier le code]

Article détaillé :Adaptive Transform Acoustic Coding.

L'ATRAC (Adaptive Transform Acoustic Coding) est une technique de compression audio psychoacoustique (il existe une option purement statistique) développée par Sony en 1992 pour sonMiniDisc. Ce format a subi plusieurs évolutions : ATRAC3, ATRAC3plus (familièrement écrit ATRAC3+) et ATRAC Advanced Lossless se sont succédé respectivement en 1999, 2002 et 2006.

Formats multipistes

[modifier |modifier le code]

Les formats multipistes sont une innovation récente. Ils consistent à encapsuler dans un fichier différentes pistes sonores, qui peuvent alors être combinées par l'utilisateur dans les proportions qui lui conviennent. L'idée est de proposer, pour un morceau de musique, la piste correspondant à chaque instrument (et la voix) de manière séparée. L'utilisateur peut alors créer sa propre version.

LeU-MYX avait été utilisé pour inclure des parties bonus dans les albums.

Ces formats ont l'inconvénient de ne pouvoir s'écouter sans un ordinateur. Cependant l'apparition desmartphones faisant office de baladeurs et capables d'exécuter des applications indépendantes permet à ces formats de devenir transportables, y compris pour la lecture avec mixage^[20].

U-MYX

[modifier |modifier le code]

LeU-MYX est un format multipiste lisible avec une application dédiée, éditée par la même entreprise qui a développé le format. Ce format a été utilisé pour fournir des morceaux en version multipiste à titre de bonus dans les albums, l'application étant fournie en même temps que les morceaux, le tout sur une session de CD visible uniquement si on lisait le disque sur un ordinateur.

Malgré ces exemples d'utilisation, le futur de U-MYX est incertain, car l'entreprise qui le produit est assez floue sur ses projets futurs.

MXP4

[modifier |modifier le code]

LeMXP4 est un format multipiste dans lequel les pistes encapsulées sont au format Ogg^[21]. Produit par une société française, le format a bénéficié d'une forte médiatisation dans la presse française, présenté comme un « successeur du MP3 ». Une expression qui peut sembler exagérée, les formats multipistes jouant tout simplement un rôle différent^[22].

Les formats propriétaires

[modifier |modifier le code]

Cette section est vide, insuffisamment détaillée ou incomplète.Votre aide est la bienvenue !Comment faire ?

Certains de ces formats sont devenus obsolètes, comme le SDII deDigidesign

Les formats audiovisuels

[modifier |modifier le code]

Ces formats contiennent, à la fois des fichiers image et des fichiers audio, ainsi que duTimecode ou un pseudo-timecode (flag).

Par exemple :Quicktime est multiplateformes et utilise de nombreux standards de l'industrie gratuits, certains autres, très orientés, sont payants. Polyvalents et destructure de données polymorphes, certains d'entre eux sont aussi utilisés pour lestreaming^[23].

CD Audio à partir de1993 (QuickTime 1.6) ;
MPEG-1 etMIDI à partir de1994 (QuickTime 2.0) ;
DV etH.261 à partir de1998 (QuickTime 3.0) ;
H.263,Macromedia Flash etSMIL à partir de1999 (QuickTime 4.0) ;
MPEG-2,MPEG-4,AAC,3GPP et3GPP2 à partir de2002 (QuickTime 6.0) ;
H.264 et intégration àOpenGL à partir de2005 (QuickTime 7.0).

Calcul du débit et du poids d'un fichier audio

[modifier |modifier le code]

Débit

[modifier |modifier le code]

débit (kbit/s) = fréquence d'échantillonnage (kHz) x quantification (bit) x nombre de canaux

Exemple : le CD audio :

fréquence d'échantillonnage : 44 100 Hz
résolution : 16 bits
canaux : 2 (stéréo)

débit = 44 100 × 16 × 2 = 1 411 200 bit/s

soit environ

1 411 kbit/s, ou 1 378 kibibit/s.
par minute : 84,7 Mbit, ou 80,7 Mibibit
par heure : 5,1 Gbit

Poids

[modifier |modifier le code]

Taille d'un MP3 à 192 kbit/s d'une durée de 3,75 minutes : [temps (s)] x débit (kbit/s) / 8 000 = [3,75 × 60] × 192 / 8 000 = 5,4 Mo.

Téléphonie

[modifier |modifier le code]

Cette sectionne cite pas suffisamment ses sources (juillet 2016).

Pour l'améliorer, ajoutezdes références de qualité et vérifiables (comment faire ?) ou le modèle{{Référence nécessaire}} sur les passages nécessitant une source.

G.711 : norme de compression audio utilisée pour la visioconférence enH.323 et H.320 et la téléphonie fixe.
G.722.2 : norme de compression audio « large bande » utilisée en téléphonie mobile
G.723 : faisait autrefois référence à une norme de codec audio de type ADPCM… G.723.1, désigne une autre norme de codec audio de typevocodeur.
G.726 : un autre codec pour le téléphone
G.729 : utilisé pour le codage de la partie audio d'unevisioconférence
Voix sur réseau IP : parfois appeléetéléphonie IP outéléphonie sur Internet, souvent abrégée en « VoIP » (abrégé de l'anglaisVoice over IP)

Bluetooth

[modifier |modifier le code]

Cette sectionne cite pas suffisamment ses sources (juillet 2016).

Pour l'améliorer, ajoutezdes références de qualité et vérifiables (comment faire ?) ou le modèle{{Référence nécessaire}} sur les passages nécessitant une source.

La transmissionBluetooth peut utiliser plusieurs codecs.

A2DP : Advanced Audio Distribution Profile est un profilBluetooth.
SBC : Sub Band Codec ou« Low Complexity Subband Codec » est un codec de compression audio et vidéo spécialement conçu pour les applications audio et vidéo de Bluetooth. Il fait obligatoirement partie de Bluetooth.
aptX (en) : Low Complexity Subband Codec est un codec de compression audio et vidéo spécialement conçu pour les applications audio et vidéo de Bluetooth. Il a été développé par la société CSR et il donne droit à des royalties. Il n'est donc disponible que dans les produits des fabricants qui paient ces royalties. L'apt-X est présent sur une grande gamme d'équipements utilisant le Bluetooth ; équipements audio, sur les mobiles haut de gamme depuis quelques années (HTC One M7, M9...), très peu de laptops ! Une liste ancienne (2014) se trouve sur le site Cobra^[24], mais les listes officielles sont sur les sites csr.com et aptx.com. Il y a différentes versions de ce codec :
- aptX : le standard de base
- aptX LL : pour 'Low Latency, faible latence pour ne plus ressentir de décalage audio, surtout utile pour le gaming.
- aptX HD : pourHigh Definition, haut débit donc de meilleure qualité.
- aptX Adaptative : le meilleur pour la stabilité de la connexion et un bon compromis entre l'aptX LL et l'aptX HD.
AAC :Advanced Audio Codec
LDAC :
LHDC : Low Latency High-Definition Audio Codec
LLAC : Low Latency Audio Codec


CODEC	SBC	AAC	aptX	aptx LL	aptX HD	aptX Adaptative	LDAC	LHDC (en)	LLAC
Propriétaire	/	/	Qualcomm	Qualcomm	Qualcomm	Qualcomm	Sony	Savitech	Savitech
Débit	127 à 345 kbps	jusqu'à 250 kbps	jusqu'à 384 kbps	jusqu'à 345 kbps	jusqu'à 576 kbps	de 276 à 860 kbps	de 320 à 990 kbps	jusqu'à 900 kbps	de 400 à 600 kbps
Débit	constant	constant	constant	constant	constant	variable	variable	constant	variable
Latence (env.)	300 ms	200 ms	150 ms	40 ms	200 ms	80 ms	200 ms	150 ms	40 ms
Android (de base)	oui	oui	oui	non	oui	oui	oui	non	non
Apple (de base)	oui	oui	non	non	non	non	non	non	non

Voir aussi

[modifier |modifier le code]

Bibliographie

[modifier |modifier le code]

Cette section est vide, insuffisamment détaillée ou incomplète.Votre aide est la bienvenue !Comment faire ?

Articles connexes

[modifier |modifier le code]

Notes et références

[modifier |modifier le code]

↑(en) JohnWatkinson,The MPEG Handbook : MPEG-1, MPEG-2, MPEG-4, Focal Press,2004,2^e éd., 435 p.(ISBN 978-0-240-80578-8,lire en ligne),p. 169-170.
↑Voir entre autres(en) B.Paillard, P.Mabilleau, S.Morissette et JoëlSoumagne, « PERCEVAL: Perceptual Evaluation of the Quality of Audio Signals »,Journal of the AES,vol. 40,n^os 1-2,‎1992(lire en ligne) ;(en) ThiloThiedeet al., « PEAQ - The ITU Standard for Objective Measurement of Perceived Audio Quality »,Journal of the AES,vol. 56,n^os 1-2,‎2008(lire en ligne) ;(en) InyongChoi, Barbara G.Shinn-Cunningham, SangBae Chon et Koeng-MoSung, « Objective Measurement of Perceived Auditory Quality in Multichannel Audio Compression Coding Systems »,Journal of the AES,vol. 56,n^os 1-2,‎2008(lire en ligne).
↑P.800 : Méthodes d'évaluation subjective de la qualité de transmission, sur le site de l'UIT-T
↑VoirÉchantillonnage (signal)#Filtres anti-repliement.
↑(en) Stanley P.Lipschitz et JohnVanderkooy, « Why 1-Bit Sigma-Delta Conversion is Unsuitable for High-Quality Application »,Audio Engineering Society Convention Paper,‎2001(lire en ligne [PDF]).
↑VoirEuropean Broadcasting Union : Spécification du Broadcast Wave Format« EBU Technical document 3285 »,juillet 1997).
↑Sound Devices, fabricant de produits professionnels portatifs.
↑Zaxcom.
↑HBB USA.
↑Fostex.
↑Nagra.
↑Aaton.
↑(en) ffmpeg, « Raw Audio Types » :« pcm_s16le PCM means "traditional wave like format" (raw bytes, basically). 16 means 16 bits per sample, "le" means "little endian", s means "signed", u would mean "unsigned" ».« little endian » se réfère à l'organisation de l'enregistrement du nombre, icicommençant par l'octet de moindre poids, .
↑(en) Texas Instruments, « TLV320AIC1103 PCM Codec ».
↑« ADONIS/SIAF/CINES-GM - 0.4 », surArchives de France(consulté le16 juillet 2016) :« FLAC est très utilisé comme format d'archivage (compression sans perte) »,p. 68.
↑Voir la définition de FLAC ET l'utilisation de format FLAC, hitpawfr, 8 février.
↑(en) JohnWatkinson,The MPEG Handbook : MPEG-1, MPEG-2, MPEG-4, Focal Press,2004,2^e éd., 435 p.(ISBN 978-0-240-80578-8,lire en ligne),p. 199.
↑ISO/IEC 11172-3:1993.
↑(en) Gabriel Bouvigne for MP3'Tech - www.mp3-tech.org, « 48 kbit/s AAC public test »,juin 2007.
↑(en)https://www.wired.com/epicenter/2009/08/mxp4s-interactive-music-format-coming-to-iphone/.
↑« Le Monde Numérique », surLe Monde Numérique(consulté le8 avril 2023).
↑(en) « Bkkslot สล็อต ยืนยัน otp รับเครดิตฟรี 100 เกมส์ออนไลน์ยอดนิยม », surBkkslot สล็อต ยืนยัน otp รับเครดิตฟรี…(consulté le8 avril 2023).
↑Selon le lexique de l'Afnic, voirhttp://www.afnic.fr/doc/lexique/d#diffusioncontinue.
↑La liste de tous les appareils compatibles APT-X (Mai 2014) Cobrason.com, mai 2014

v ·m

Formats decompression multimédia

ISO/CEI	MJPEG Motion JPEG 2000 MPEG-1 MPEG-2 MPEG-4 MPEG-4 ASP MPEG-4 AVC MPEG-H HEVC HEIF MPEG-I VVC MPEG-5
UIT-T	H.120 H.261 H.262 H.263 H.264/AVC H.265/HEVC H.266/VVC H.267/ECM
On2	TrueMotion_S TrueMotion_2 TrueMotion_RT_2.0 VP3 VP5 VP6 VP7 VP8 VP9
Autres	AMV Apple ProRes AV1 AVS Bink Cinepak CineForm Dirac DNxHD DNxHR Indeo Pixlet RealVideo rem RTVideo (en) SheerVideo (en) Smacker video (en) Snow Sorenson Theora VC-1 WMV HuffYUV

ISO/CEI	MP3 MPEG-1Layer II (en) MPEG-1Layer I (en) AAC AAC+ eAAC+ SBR Parametric Stereo MQA
UIT-T	G.711 G.719 (en) G.722 G.722.1 (en) G.722.2 G.723 G.723.1 (en) G.726 G.728 G.729 G.729.1
Autres	AC3 AMR Apple Lossless ATRAC CELT FLAC iLBC (en) Monkey's Audio Loi µ Musepack Nellymoser (en) OptimFROG Opus RealAudio RTAudio (en) SHN Siren (en) Speex TAK Vorbis WavPack WMA

ISO/CEI/UIT-T	JPEG JPEG 2000 JPEG-LS JPEG XL JBIG JBIG2 PNG WBMP HEIF
Autres	AVIF BMP BPG FLIF GIF ICER (en) ILBM MNG QOI PCX PGF TGA TIFF JPEG XR / HD Photo EMF/WMF WebP

Général	3GP AAF ASF AVI Bink DMF DPX FLV GXF (en) Matroska MP4 MPEG-PS MPEG-TS MXF NUT Ogg Ogg Media OMF OpenMG (de) QuickTime RealMedia Smacker (en) Video Object WebM
Audio	AIFF AU BWF CAF GigaFont Gus Patch RF64 SoundFont WAV

v ·m Supports d'enregistrement audio
Analogique	Cylindre phonographique (1877) fil magnétique (1898) Disque phonographique (1920) Magnétophone (1930) Disque microsillon (1946) Cassette audio (1963) 8-track et cartouches audio diverses (1959-1964) 3M Cantata (1965) Microcassette (1969) Elcaset (1976)
Numérique	Disque compact (1982) Digital Audio Tape (1982) MiniDisc (1987) Digital Compact Cassette (1991) Super Audio CD (1999) DVD-Audio (1999)
Informatique	Mémoire interne (1940) Disque dur (1956) Carte mémoire (1980) Mémoire flash (1999) Clé USB (2000)

Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Format_de_fichier_audio&oldid=226577590 ».

Catégories :

Catégories cachées :

[8]ページ先頭

©2009-2025 Movatter.jp