Movatterモバイル変換

UTF-8

aus Wikipedia, der freien Enzyklopädie

UTF-8 (Abkürzung für8-BitUCS Transformation Format, wobeiUCS wiederumUniversal Coded Character Set abkürzt) ist die am weitesten verbreiteteKodierung fürUnicode-Zeichen (Unicode und UCS sind praktisch identisch). Die Kodierung wurde im September 1992 vonKen Thompson undRob Pike bei Arbeiten amPlan-9-Betriebssystem festgelegt. Sie wurde zunächst im Rahmen vonX/Open alsFSS-UTF bezeichnet (filesystem safe UTF in Abgrenzung zuUTF-1, das diese Eigenschaft nicht hat), in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche BezeichnungUTF-8.^[1]

Unicode Codepoints	UTF-8-Kodierung				Anzahl kodierbarer Zeichen
Unicode Codepoints	Byte 1	Byte 2	Byte 3	Byte 4	im Standard erlaubt		theoretisch möglich
U+0000 – U+007F	0 a₆a₅a₄a₃a₂a₁a₀				(2⁷	128	(2⁷	128
U+0080 – U+07FF	1 1 0 b₂b₁b₀a₇a₆	1 0 a₅a₄a₃a₂a₁a₀			(2¹¹ − 2⁷	1920	(2¹¹	2048
U+0800 – U+FFFF	1 1 1 0 b₇b₆b₅b₄	1 0 b₃b₂b₁b₀a₇a₆	1 0 a₅a₄a₃a₂a₁a₀		(2¹⁶ − 2¹¹	63.488	(2¹⁶	65.536
U+01 0000 – U+10 FFFF	1 1 1 1 0 c₄c₃c₂	1 0 c₁c₀b₇b₆b₅b₄	1 0 b₃b₂b₁b₀a₇a₆	1 0 a₅a₄a₃a₂a₁a₀	(2²⁰	1.048.576	(2²¹	2.097.152

Zeichen	Unicode		UTF-8
Zeichen	Codepoint	binär	binär	hexadezimal
Buchstabey	0U+0079	00000000 01111001	01111001	79
Buchstabeä	0U+00E4	00000000 11100100	1100001110100100	C3 A4
Griechischer GroßbuchstabeOmega Ω	0U+03A9	00000011 10101001	1100111010101001	CE A9
Eurozeichen €	0U+20AC	00100000 10101100	111000101000001010101100	E2 82 AC
Violinschlüssel 𝄞	U+1D11E	00000001 11010001 00011110	11110000100111011000010010011110	F0 9D 84 9E

Code	…0	…1	…2	…3	…4	…5	…6	…7	…8	…9	…A	…B	…C	…D	…E	…F
0…	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	SO	SI
1…	DLE	DC1	DC2	DC3	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS	RS	US
2…	SP	!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
3…	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
4…	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
5…	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
6…	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
7…	p	q	r	s	t	u	v	w	x	y	z	{	\|	}	~	DEL
8…	Zweites, drittes oder viertes Byte einer Bytesequenz
9…
A…
B…
C…	unzulässig		Start einer 2 Byte langen Sequenz
D…			Start einer 2 Byte langen Sequenz
E…	Start einer 3 Byte langen Sequenz
F…	Start einer 4 Byte langen Sequenz
	…0	…1	…2	…3	…4	…5	…6	…7	…8	…9	…A	…B	…C	…D	…E	…F

Code	UTF-8		ISO 8859-1	ISO 8859-15	UTF16
C3 84_hex	U+00C4	Ä	Ã	Ã	쎄
C3 96_hex	U+00D6	Ö	Ã	Ã	쎖
C3 9C_hex	U+00DC	Ü	Ã	Ã	쎜
C3 9F_hex	U+00DF	ß	Ã	Ã	쎟
C3 A4_hex	U+00E4	ä	Ã¤	Ã€	쎤
C3 B6_hex	U+00F6	ö	Ã¶	Ã¶	쎶
C3 BC_hex	U+00FC	ü	Ã¼	ÃŒ	쎼

Code	ISO 8859-1/15	UTF-8
C4_hex	Ä	Startbyte für U+0100 bis U+013F
D6_hex	Ö	Startbyte für U+0580 bis U+013F
DC_hex	Ü	Startbyte für U+0100 bis U+013F
DF_hex	ß	Startbyte für U+0580 bis U+05BF
E4_hex	ä	Startbyte für U+4000 bis U+4FFF
F6_hex	ö	unzulässig
FC_hex	ü	unzulässig

Movatterモバイル変換

Verbreitung

Normung

Allgemeine Eigenschaften

Kodierung

Algorithmus

Folgerungen

Unzulässige Bereiche

Zulässige Bytes und ihre Bedeutung

Darstellung in Editoren

Umlaute und ß in deutschen Texten

Andere Sprachen

Byte Order Mark

Weblinks

Anmerkungen

Einzelnachweise