Movatterモバイル変換

UTF-8

Un article de Wikipédia, l'encyclopédie libre.

UTF-8 (abréviation de l'anglaisUniversal Character Set Transformation Format^[1] -8bits) est uncodage de caractères informatiques conçu pour coder l’ensemble des caractères du « répertoire universel de caractères codés », initialement développé par l’ISO dans la norme internationaleISO/CEI 10646, aujourd’hui totalement compatible avec le standardUnicode, en restant compatible avec la normeASCII limitée à l'anglais de base, mais très largement répandue depuis des décennies.

L'UTF-8 est utilisé par 82,2 % dessites web endécembre 2014^[2], 87,6 % en 2016^[3], 90,5 % en 2017^[4], 93,1 % enfévrier 2019^[5] et près de 95,2 % enoctobre 2020. Par sa nature, UTF-8 est d'un usage de plus en plus courant surInternet, et dans les systèmes devant échanger de l'information. Il s'agit également du codage le plus utilisé dans les systèmesGNU/Linux et compatibles pour gérer le plus simplement possible des textes et leurs traductions dans tous les systèmes d'écritures et tous les alphabets du monde.

Caractères codés	Représentation binaire UTF-8	Premier octet valide (hexadécimal)	Signification
U+0000 à U+007F	`0ƀƀƀ·ƀƀƀƀ`	00 à 7F	1 octet, codant jusqu’à 7 bits
U+0080 à U+07FF	`110ƀ·ƀƀƀƀ 10ƀƀ·ƀƀƀƀ`	C2 à DF	2 octets, codant jusqu’à 11 bits
U+0800 à U+FFFF	`1110·ƀƀƀƀ 10ƀƀ·ƀƀƀƀ 10ƀƀ·ƀƀƀƀ`	E0 à EF	3 octets, codant jusqu’à 16 bits
U+10000 à U+10FFFF	`1111·00ƀƀ 10ƀƀ·ƀƀƀƀ 10ƀƀ·ƀƀƀƀ 10ƀƀ·ƀƀƀƀ`	F0 à F3	4 octets, codant jusqu’à 21 bits
U+10000 à U+10FFFF	`1111·0100 1000·ƀƀƀƀ 10ƀƀ·ƀƀƀƀ 10ƀƀ·ƀƀƀƀ`	F4	4 octets, codant jusqu’à 21 bits

Type	Caractère	Point de code (hexadécimal)	Valeur scalaire		Codage UTF-8
Type	Caractère	Point de code (hexadécimal)	décimal	binaire	binaire	hexadécimal
Contrôle (C0)	`[NUL]`	`U+0000`	0	`0`	`00000000`	`00`
Contrôle (C0)	`[US]`	`U+001F`	31	`1·1111`	`00011111`	`1F`
Texte (US-ASCII)	`[SP]`	`U+0020`	32	`10·0000`	`00100000`	`20`
	0	`U+0030`	48	`11·0000`	`00110000`	`30`
	9	`U+0039`	57	`11·1001`	`00111001`	`39`
	?	`U+003F`	63	`11·1111`	`00111111`	`3F`
	@	`U+0040`	64	`100·0000`	`01000000`	`40`
	A	`U+0041`	65	`100·0001`	`01000001`	`41`
	Z	`U+005A`	90	`101·1010`	`01011010`	`5A`
	a	`U+0061`	97	`110·0001`	`01100001`	`61`
	z	`U+007A`	122	`111·1010`	`01111010`	`7A`
	~	`U+007E`	126	`111·1110`	`01111110`	`7E`
Contrôle (C0 et C1)	`[DEL]`	`U+007F`	127	`111·1111`	`01111111`	`7F`
	`[PAD]`	`U+0080`	128	`1000·0000`	`1100001010000000`	`C2 80`
	`[APC]`	`U+009F`	159	`1001·1111`	`1100001010011111`	`C2 9F`
Texte (PMB)	`[NBSP]`	`U+00A0`	160	`1010·0000`	`1100001010100000`	`C2 A0`
	¿	`U+00BF`	191	`1011·1111`	`1100001010111111`	`C2 BF`
	À	`U+00C0`	192	`1100·0000`	`1100001110000000`	`C3 80`
	é	`U+00E9`	233	`1110·1001`	`1100001110101001`	`C3 A9`
	߿	`U+07FF`	2047	`111 1111·1111`	`1101111110111111`	`DF BF`
	ࠀ	`U+0800`	2048	`1000 0000·0000`	`111000001010000010000000`	`E0 A0 80`
	€	`U+20AC`	8 364	`10·0000 1010·1100`	`111000101000001010101100`	`E2 82 AC`
	퟿	`U+D7FF`	55 295	`1101·0111 1111·1111`	`111011011001111110111111`	`ED 9F BF`
Demi-codet		`U+D800`	(néant)		(codage interdit)
Demi-codet		`U+DFFF`	(néant)		(codage interdit)
Usage privé (PMB)	[]	`U+E000`	57 344	`1110·0000 0000·0000`	`111011101000000010000000`	`EE 80 80`
Usage privé (PMB)	[]	`U+F8FF`	63 743	`1111·1000 1111·1111`	`111011111010001110111111`	`EF A3 BF`
Texte (PMB)		`U+F900`	63 744	`1111·1001 0000·0000`	`111011111010010010000000`	`EF A4 80`
Texte (PMB)	﷏	`U+FDCF`	64 975	`1111·1101 1100·1111`	`111011111011011110001111`	`EF B7 8F`
Non-caractères		`U+FDD0`	64 976	`1111·1101 1101·0000`	`111011111011011110010000`	`EF B7 90`
Non-caractères		`U+FDEF`	65 007	`1111·1101 1110·1111`	`111011111011011110101111`	`EF B7 AF`
Texte (PMB)	ﷰ	`U+FDF0`	65 008	`1111·1101 1111·0000`	`111011111011011110110000`	`EF B7 B0`
Texte (PMB)	�	`U+FFFD`	65 533	`1111·1111 1111·1101`	`111011111011111110111101`	`EF BF BD`
Non-caractères		`U+FFFE`	65 534	`1111·1111 1111·1110`	`111011111011111110111110`	`EF BF BE`
Non-caractères		`U+FFFF`	65 535	`1111·1111 1111·1111`	`111011111011111110111111`	`EF BF BF`

Texte (PMC)	𐀀	`U+10000`	65 536	`1 0000·0000 0000·0000`	`11110000100100001000000010000000`	`F0 90 80 80`
	𝄞	`U+1D11E`	119 070	`1 1101·0001 0001·1110`	`11110000100111011000010010011110`	`F0 9D 84 9E`
	🿽	`U+1FFFD`	131 069	`1 1111·1111 1111·1101`	`11110000100111111011111110111101`	`F0 9F BF BD`
Non-caractères		`U+1FFFE`	131 070	`1 1111·1111 1111·1110`	`11110000100111111011111110111110`	`F0 9F BF BE`
Non-caractères		`U+1FFFF`	131 071	`1 1111·1111 1111·1111`	`11110000100111111011111110111111`	`F0 9F BF BF`

Texte (PSC)	𠀀	`U+20000`	131 072	`10 0000·0000 0000·0000`	`11110000101000001000000010000000`	`F0 A0 80 80`
Texte (PSC)	𯿽	`U+2FFFD`	196 605	`10 1111·1111 1111·1101`	`11110000101011111011111110111101`	`F0 AF BF BD`
Non-caractères		`U+2FFFE`	196 606	`10 1111·1111 1111·1110`	`11110000101011111011111110111110`	`F0 AF BF BE`
Non-caractères		`U+2FFFF`	196 607	`10 1111·1111 1111·1111`	`11110000101011111011111110111111`	`F0 AF BF BF`
Texte (TIP)	𰀀	`U+30000`	196 608	`11 0000·0000 0000·0000`	`11110000101100001000000010000000`	`F0 B0 80 80`
Texte (TIP)	𿿽	`U+3FFFD`	262 141	`11 1111·1111 1111·1101`	`11110000101111111011111110111101`	`F0 BF BF BD`
Non-caractères		`U+3FFFE`	262 142	`11 1111·1111 1111·1110`	`11110000101111111011111110111110`	`F0 BF BF BE`
Non-caractères		`U+3FFFF`	262 143	`11 1111·1111 1111·1111`	`11110000101111111011111110111111`	`F0 BF BF BF`

...autres plans réservés...

Spécial (PCS)	󠀀	`U+E0000`	917 504	`1110 0000·0000 0000·0000`	`11110011101000001000000010000000`	`F3 A0 80 80`
Spécial (PCS)	󯿽	`U+EFFFD`	983 037	`1110 1111·1111 1111·1101`	`11110011101011111011111110111101`	`F3 AF BF BD`
Non-caractères		`U+EFFFE`	983 038	`1110 1111·1111 1111·1110`	`11110011101011111011111110111110`	`F3 AF BF BE`
Non-caractères		`U+EFFFF`	983 039	`1110 1111·1111 1111·1111`	`11110011101011111011111110111111`	`F3 AF BF BF`

Usage privé (PUP-A)	[󰀀]	`U+F0000`	983 040	`1111 0000·0000 0000·0000`	`11110011101100001000000010000000`	`F3 B0 80 80`
Usage privé (PUP-A)	[󿿽]	`U+FFFFD`	1 048 573	`1111 1111·1111 1111·1101`	`11110011101111111011111110111101`	`F3 BF BF BD`
Non-caractères		`U+FFFFE`	1 048 574	`1111 1111·1111 1111·1110`	`11110011101111111011111110111110`	`F3 BF BF BE`
Non-caractères		`U+FFFFF`	1 048 575	`1111 1111·1111 1111·1111`	`11110011101111111011111110111111`	`F3 BF BF BF`

Usage privé (PUP-B)	[􀀀]	`U+100000`	1 048 576	`1·0000 0000·0000 0000·0000`	`11110100100000001000000010000000`	`F4 80 80 80`
Usage privé (PUP-B)	[􏿽]	`U+10FFFD`	1 114 109	`1·0000 1111·1111 1111·1101`	`11110100100011111011111110111101`	`F4 8F BF BD`
Non-caractères		`U+10FFFE`	1 114 110	`1·0000 1111·1111 1111·1110`	`11110100100011111011111110111110`	`F4 8F BF BE`
Non-caractères		`U+10FFFF`	1 114 111	`1·0000 1111·1111 1111·1111`	`11110100100011111011111110111111`	`F4 8F BF BF`

v ·m Unicode
Jeux de caractères de base	UCS (ISO/CEI 10646) Table des caractères Unicode ISO/CEI 646,ASCII ISO/CEI 8859-1 WGL4 Unihan
Codification de fichiers et protocoles	UTF-8 UTF-16 UTF-32 CESU-8 UTF-7 BOCU-1 SCSU BOM
Adaptations de référence	UTF-EBCDIC (Amérique, Europe occidentale) ISO/CEI 8859-11 (ou TIS-620) (Thaïlande) ISCII (Inde) SLS 1326 (ou TSCII) (Sri Lanka) Shift-JIS (Japon) GB 18030 (Chine) HKSCS (Hong Kong)
Équivalences standards	NFC (forme précomposée, recommandée) NFD (forme décomposée) NFKC (forme précomposée de compatibilité) NFKD (forme décomposée de compatibilité)
Propriétés et algorithmes	Texte bidirectionnel Casse OrdonnancementUCA
Transformations	Stringprep Punycode
Standards et normes liés	BCP 47 (étiquettes IETF d’identification de langues) ISO 639 (codes pour la représentation des noms de langues ou groupes de langues) ISO 15924 (codes pour la représentation des noms d’écritures) ISO 3166-1 (codes pour la représentation des noms de pays ou régions du monde) ISO 4217 (codes pour la représentation des noms de devises monétaires)
Mises en œuvre et applications	ICU CLDR IDN IRI Entités de caractère XLM et HTML OpenType Uniscribe Courriel et Unicode

De 2010 à 2018
Le graphique qui aurait dû être présenté ici ne peut pas être affiché car il utilise l'ancienne extension Graph, désactivée pour des questions de sécurité. Des indications pour créer un nouveau graphique avec la nouvelle extension Chart sont disponiblesici.
Graphe indiquant l'utilisation d'UTF-8 (bleu clair) dépassant les principaux autres codages de caractères de texte sur le Web. Vers 2010 la prévalence d'UTF-8 était de l'ordre de 50%, mais en 2016, elle était plutôt de 90%.
Statistiques reflétant les technologies utilisées sur les sites web déterminées à partir de techniques de reconnaissances de différents motifs, y compris éléments HTML, tags HTML spécifiques (comme le tag « generator meta », le code JavaScript, le code CSS, la structure des URL du site, les liens hors site, les entêtes HTTP par exemple les cookies, les réponses HTTP à certaines requêtes comme la compression. Statistiques basée sur un échantillon des10 premiers millions de sites web selon Alexa^[15].Le total n'arrive pas à 100% car certains serveurs utilisent plusieurs technologies.
Source w3techs^[16]

Movatterモバイル変換

Liens avec la norme internationale ISO/CEI 10646 et les standards Unicode et d'Internet

Description technique

Description

Exemples

Caractéristiques

Principe et unicité du codage

Types d'octets, séquences valides et décodage

Séquences interdites

Avantages

Universalité

Compatibilité avec US-ASCII

Interopérabilité

Efficacité

Réutilisabilité

Fiabilité

Inconvénients

Taille variable

Efficacité

Séquences non valides

Caractère nul

Représentation dans les SGBD

Histoire

Évolution des usages

Restrictions successives

Prise en charge

Extensions ou variantes non standards

Extension obsolète d'UTF-8 définie initialement dans une RFC

Variante standardisée

Exemple de variante utilisée en Java

Notes et références

Voir aussi

Articles connexes

Liens externes