Movatterモバイル変換

ISO/CEI 2022

Un article de Wikipédia, l'encyclopédie libre.

ISO 2022, ou plus formellementISO/CEI 2022 (ICS n^o 35.040), est une norme ISO spécifiant une technique pour inclure de multiples jeux decaractères (cyrillique,chinois,diacritique de l'alphabet latin...etc.) dans un seulcodage de caractères.

L'ISO-2022 est équivalent de l'ECMA 35^[1].

Elle traite deStructure de code de caractère et techniques d'extension ; son appellation anglophone estInformation technology—Character code structure and extension techniques.

À la différence du codage de caractèresISO/CEI 8859 qui utilise 8bits pour tous les caractères, les codages ISO 2022 sont de tailles variables en utilisant typiquement 8 ou 16 bits par caractère. Un grand nombre de codages de caractères utilise les mécanismes spécifiés dans l'ISO 2022. Par exemple, l'ISO-2022-JP est largement utilisé comme codage de caractères pour lejaponais.

Elle permet de présenter des textes comme 「日本語版Wikipedia」.

Introduction

[modifier |modifier le code]

Beaucoup de langues ou defamilles de langues ne s'écrivent pas avec l'alphabet latin, telles legrec, lerusse, l'arabe, et l'hébreu, qui historiquement étaient représentées sur les ordinateurs avec un jeu de caractèresASCII étendu de 8bits et incluant la famille du jeu de caractères de l'ISO/CEI 8859. Les langues écrites de l'Asie de l'Est, et spécifiquement, lechinois, lejaponais et lecoréen, utilisent nettement plus de caractères que ne peut représenter unoctet. C'est pourquoi, afin de représenter ces nombreux caractères, un codage spécifique composé de deux octets a d'abord été utilisé .

L'ISO 2022 avait développé une technique pour représenter les caractères de multiples systèmes de caractères à travers un unique système de codage. Les caractères ISO 2022 incorporent desséquences d'échappement qui indiquent le jeu à utiliser pour le caractère qui suit. Les séquences d'échappement sont enregistrées dans l'ISO et sont souvent codées par une chaîne de trois caractères utilisant le caractèreASCII ECHAP (hexadécimal : 1B,octal : 33). Ces codages de caractères requièrent que les données soient lues séquentiellement afin de parvenir à une interprétation correcte des diverses séquences d'échappement.

Même si le jeu de caractères ISO 2022, et particulièrement, ISO-2022-JP, est encore énormément utilisé, les logiciels modernes utilisent aujourd'hui des codages de caractères de typeUnicode tel que l'UTF-8.

Jeux de caractères ISO 2022

[modifier |modifier le code]

Séquences d'échappement

[modifier |modifier le code]

Les codages de caractères utilisant les mécanismes ISO 2022 incluent :

ISO-2022-JP, largement utilisé dans le codage du japonais. Commence par des caractères ASCII et inclut les séquences d'échappements suivantes :
- ESC $ @ pour utiliser le codageJIS X 0208-1978 (2 octets par caractère)
- ESC $ B pour utiliser le codageJIS X 0208-1983 (2 octets par caractère)
- ESC ( B pour utiliser le code ASCII (1 octet par caractère)
- ESC ( J pour utiliser le codageJIS X 0201-1976 (1 octet par caractère)
ISO-2022-JP-1, identique à ISO-2022-JP avec une séquence d'échappement supplémentaire :
- ESC $ ( D pour utiliser le codageJIS X 0212-1990 (2 octets par caractère)
ISO-2022-JP-2, extension multilingue de l'ISO-2022-JP, identique à l'ISO-2022-JP-1 avec les séquences d'échappement supplémentaires suivantes :
- ESC $ ( C pour utiliser le codageKSC 5601-1987 pour les caractères les plus courants de l'écriture coréenne (2 octets par caractère)
- ESC $ A pour utiliser le codageGB 2312-1980 pour les caractères les plus courants de l'écriture chinoise simplifiée (2 octets par caractère)
- ESC . A pour utiliser le codageISO/CEI 8859-1 pour les caractères occidentaux les plus courants de l'écriture latine (1 octet par caractère)
- ESC . B pour utiliser le codageISO/CEI 8859-7 pour les caractères les plus courants de l'écriture grecque (1 octet par caractère)
ISO-2022-JP-3, extension de l'ISO-2022-JP pour le japonais
ISO-2022-KR, utilisé dans le codage du coréen
ISO-2022-CN, utilisé dans le codage du chinois (tombé en désuétude en république populaire de Chine, remplacé par le standardGB 18030 imposé mais devenu interopérable avec Unicode etISO/CEI 10646)
ISO-2022-CN-EXT, extension ISO-2022-CN pour le chinois (tombé en désuétude en république populaire de Chine, remplacé par standard GB 18030 imposé mais devenu interopérable avec Unicode et ISO/CEI 10646)

Dates et versions

[modifier |modifier le code]

#表1に、各版ごとの規格番号、制定日などを示す。

**ISO/IEC 2022 の各版ごとの規格番号・制定日等**
Version	Référence ISO	date ISO	Référence JIS	date JIS
1	ISO 2022:1973	Promulgué le 1973年5月	JIS C 6228:1975	Promulgué le 1975年3月1日
2	ISO 2022:1982	1982年12月	JIS C 6228:1984※	1984年11月1日
3	ISO 2022:1986	1986年5月	JIS X 0202:1991	1991年1月1日
4	ISO/IEC 2022:1994	1994年12月	JIS X 0202:1998	1998年1月20日

※ Le 1987年3月1日, cette révision a été renommée JIS X 0202:1984.

Structure du codage en octets

[modifier |modifier le code]

Structure des tables de codage ISO/CEI 2022 en octets (basée sur la norme JIS X 0202:1998)

**(a) avec des codets à 7 bits**
02
fort ╲ faible	00	01	02	03	04	05	06	07	08	09
00			^[b]
01
03
04
05
06
07	C0		GL						C1^[d]
08	C0		GL						C1^[d]
09
10
11		^[a]
12
13
14
15								^[c]

**(b) avec des codets à 8 bits**
fort ╲ faible	00	01	02	07	08	10	15
00			^[b]			^[e]
01
02
03
04
05
06
07	C0		GL		C1	GR
08	C0		GL		C1	GR
09
10
11		^[a]
12
13
14
15				^[c]			^[e]

La position dans la table de caractères ci-dessous est conventionnellement notée par l'ISO avec deux entiers décimaux : le numéro de colonne suivi du numéro de ligne. Par exemple, 01/11 est une valeur hexadécimale correspondant au code hexadécimal 1B (ou 27 en décimal) affecté au caractère de contrôle ESCAPE (échappement).

^a ESCAPE (échappement) est toujours un caractère de contrôle.
^b Avec un jeu de 94 caractères, c'est un caractère SPACE (espace).
^c Avec un jeu de 94 caractères, c'est un caractère de contrôle DELETE (bourrage).
^d Dans le codage sur 7 bits, les caractères de contrôle C1 ne se codent pas directement : cette alternative est représentée par des séquences d'échappement utilisant 2 codets de 7 bits (le caractère de contrôle ESCAPE suivi d'un codet pris dans les colonnes 04 ou 05).
Quant aux caractères des jeux GR et GL de la variante linguistique actuelle (sélectionnée aussi bien porule codagte sur 7 bits que sur 8 bits par une des séquences d'échappement ISO 2022), ils sont codés soit en utilisant un caractère de contrôle C0 permettant de sélectionner la table utilisée pour les codets simples suivants pris dans les colonnes 02 à 07, ou bien avec une séquence de deux codets (un caractère de contrôle C0 de décalage suivi d'un codet pris dans les colonnes 02 à 07) qui permet d'échanger temporairement les deux tables.
^e Seulement pour un jeu GR de 96 caractères ; avec un jeu GR de 94 caractères, les deux codes extrêmes de la matrice GR ne s'utilisent pas.

Exemple en ISO-2022-JP

[modifier |modifier le code]

À titre d'exemple, la table [3] ci-dessous décrit le codage de la chaîne 「日本語版Wikipedia」 (Wikipedia version japonaise) avec la conventionISO-2022-JP.

La première ligne indique chaque caractère.La ligne intermédiaire indique le numéro associé à chaque caractère ou le changement de codage.La dernière ligne indique chaque octet, sous forme ASCII en bas, et hexadécimal codé décimal en partie supérieure.

**Illustration: 「日本語版Wikipedia」codé en ISO-2022-JP**
Caractères représentés	JIS X 0208 を指示			日		本		語		版		ASCII を指示			W	i	k	i	p	e	d	i	a
Octets ISO-2022-JP	JIS X 0208 を指示			38	92	43	60	24	76	40	39	ASCII を指示			87	105	107	105	112	101	100	105	97
Octets ISO-2022-JP	01/11	02/04	04/02	04/06	07/12	04/11	05/12	03/08	06/12	04/08	04/07	01/11	02/08	04/02	05/07	06/09	06/11	06/09	07/00	06/05	06/04	06/09	06/01
(US-ASCII)	ESC	$	B	F	\|	K	\	8	l	H	G	ESC	(	B	W	i	k	i	p	e	d	i	a

Note

[modifier |modifier le code]

Il se peut que la première séquence d'échappement ne soit pas nécessaire lorsque le texte commence par l'un des 96 caractères du standard américain (US ASCII), ou bien le plus souvent l'un des caractères du jeu (plus réduit) de référence invariant (ou IRV) dans la normeISO/CEI 646.

Références

[modifier |modifier le code]

↑http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-035.pdfCharacter Code Structure and Extension Techniques1971. Three further editions in 1980, 1982 and 1985, Décembre 1994

Voir aussi

[modifier |modifier le code]

Liens externes

[modifier |modifier le code]

(fr)Site de l'ISO
(en)International Register of Coded Character Sets to be Used with Escape Sequences
(en)RFC 1468, description de l'ISO-2022-JP
(en)RFC 2237, description de l'ISO-2022-JP-1
(en)RFC 1554, description de l'ISO-2022-JP-2
(en)RFC 1922, description de l'ISO-2022-CN et de l'ISO-2022-CN-EXT
(en)RFC 1557, description de l'ISO-2022-KR
(en)Histoire du codage des caractères en Europe, Amérique du Nord et Asie de l'Est de 1999, rév, 2004
(en)« CJK.INF: un document sur le codage du chinois, du japonais et du coréen (CJK), incluant une discussion sur de nombreuses variantes de l'ISO 2022 »^{(Archive.org •Wikiwix •Archive.is •Google •Que faire ?)}.aussi disponible par HTTP.

Articles connexes

[modifier |modifier le code]

ISO/CEI 646
CJC
Mojibake
Unicode
Ken, Lunde,CJKV Information Processing, O'Reilly & Associates (1998).(ISBN 1565922247)

v ·m

Jeux de caractères codés

Multi-octets

Unicode	ISO/CEI 10646 Table des caractères Unicode UTF-8 UTF-16 UTF-32 UTF-EBCDIC CESU-8 BOCU-1
Asiatiques	ISO/CEI 2022 ISCII (Inde) SLS 1326 (Sri Lanka) Codage des caractères chinois Shift-JIS (Japon) Big5 (Taiwan et Hong Kong) HKCS (Hong Kong) GBK (Rép. Pop. de Chine) GB 18030 (Rép. Pop. de Chine)

Ancienne encodeuse de texte sur ruban perforé

8 bits

ISO/CEI 8859	-1 (Latin-1) -2 (Latin-2) -3 (Latin-3) -4 (Latin-4) -5 (Cyrillique) -6 (Arabe) -7 (Grec) -8 (Hébreu) -9 (Latin-5) -10 (Latin-6) -11 (Thaï) -12 (Devanagari) -13 (Latin-7) -14 (Latin-8) -15 (Latin-9) -16 (Latin-10)
Pages de code Windows	874 /TIS-620 932 /Shift JIS 936 /GBK 949 /EUC-KR 950 /Big5 1250 1251 1252 1253 1254 1255 1256 1257 1258 54936 /GB18030
Pages de code Mac OS	MacRoman
Pages de code DOS	437 720 737 775 850 852 855 857 858 860 861 862 863 864 865 866 869 Kamenický Mazovia MIK Iran System
Pages de code diverses	ANSEL DEC-MCS KOI8-R (russe) KOI8-U (ukrainien) StandardEncoding (PostScript) Page de code vidéotex Page de code ZX Spectrum Page de code Amstrad CPC Page de code Atari ST Page de code Amiga
Non basés sur ISO/IEC 646	VISCII EBCDIC EBCDIC 297 EBCDIC 8859

7 bits

ISO/CEI 646 (base commune invariante et liste des spécialisations)
US ASCII

Moins de 7 bits

v ·m NormesISO
1 3 4 9 31 216 217 228 233 259 269 639 646 690 843 1000 2022 2108 2709 3103 3166 3166-1 3166-2 3166-3 3297 3533 3901 4217 5218 5426 6166 6358 6438 6709 7010 7185 7810 8601 8613 8859 9001 9002 9003 9004 9075 9126 9241 9362 9594 9646 9660 9945 9984 10006 10007 10118-3 10303 10303-11 10303-238 10383 10589 10646 10664 10957 11179 11238 11239 11240 11544 11615 11616 11783 11801 12207 13211-1 13216 13250 13335 13399 13485 13568 13616 14000 14001 14064 14069 14396 14882 15189 15408 15444 15489 15504 15511 15706 15836 15924 16023 16262 16610 17025 17799 18004 19005 19110 19115 19439 19501 19510 19775-1 20000 20252 21127 21500 22000 23270 25178 26000 26300 27001 27002 27005 27006 27017 27018 29500 32000 50001
Liste de normes ISO Liste des normes de romanisation ISO

Ce document provient de « https://fr.wikipedia.org/w/index.php?title=ISO/CEI_2022&oldid=224530194 ».

Catégories :

Catégories cachées :

[8]ページ先頭